반응형
SMALL
웹 스크래핑, 크롤링은 둘다 웹사이트로 부터 데이터를 수집하는 방법이다.
하지만 각각 다른 목적을 가진다.
웹 크롤링(스파이더링)
검색엔진이 웹 사이트 모든 페이지를 체계적으로 방문하는 방법.
콘텐츠를 색인화 하고 다른 웹 페이지로의 링크를 따라간다.
크롤러는 알고리즘을 사용하여 사이트에서 사이트로 이동하며, 페이지를 나중에 처리하기 위해
다운로드하고 페이지 내의 모든 하이퍼링크를 식별하여 다운로드 할 페이지 목록에 추가함
웹 스크래핑
특정 웹 사이트에서 데이터를 추출하는 방법.
인터넷을 탐색하고 매핑하는 것이 목표이지만 웹사이트의 특정 데이터 집합에 초점을 둔다.
추출 된 데이터는 CSV, JSON, XML과 같은 구조화된 형식으로 변환된다.
웹 크롤링은 탐사와 웹 발견에 관한 것이고, 웹 스크래핑은 데이터 추출에 관한 것이다.
일반적인 사례
웹 크롤링 -> Google, Bing, Yahoo 등 검색 엔진에서 사용(SEO 모니터링 등)
웹 스크래핑 -> 다양한 산업에서 사용( 가격비교, 감성 분석, 데이터 저널리즘, 리드 생성 )
웹 크롤링 | 웹 스크래핑 | |
목적 | 검색 엔진을 위해 웹 사이트를 색인화 하고 순위를 매김 | 웹 페이지에서 특정 데이터를 추출하는 것 |
프로세스 | 자동화된 봇이 인터넷 상에서 링크를 따라감 | 데이터가 선택되고 추출되며 구조화된 형식으로 변환 |
일반 사례 | 검색 엔진, 디지털 아카이빙, SEO 모니터링 | 가격 비교, 감정 분석, 데이터 저널리즘, 리드 생성 |
반응형
LIST