본문 바로가기

카테고리 없음

웹 스크래핑 vs 웹 크롤링 차이

반응형
SMALL

웹 스크래핑, 크롤링은 둘다 웹사이트로 부터 데이터를 수집하는 방법이다.

하지만 각각 다른 목적을 가진다.

 

웹 크롤링(스파이더링)

검색엔진이 웹 사이트 모든 페이지를 체계적으로 방문하는 방법.

콘텐츠를 색인화 하고 다른 웹 페이지로의 링크를 따라간다.

크롤러는 알고리즘을 사용하여 사이트에서 사이트로 이동하며, 페이지를 나중에 처리하기 위해

다운로드하고 페이지 내의 모든 하이퍼링크를 식별하여 다운로드 할 페이지 목록에 추가함

 

 

웹 스크래핑

특정 웹 사이트에서 데이터를 추출하는 방법.

인터넷을 탐색하고 매핑하는 것이 목표이지만 웹사이트의 특정 데이터 집합에 초점을 둔다.

추출 된 데이터는 CSV, JSON, XML과 같은 구조화된 형식으로 변환된다.

 

웹 크롤링은 탐사와 웹 발견에 관한 것이고, 웹 스크래핑은 데이터 추출에 관한 것이다.

 


일반적인 사례

웹 크롤링 -> Google, Bing, Yahoo 등 검색 엔진에서 사용(SEO 모니터링 등)

웹 스크래핑 -> 다양한 산업에서 사용( 가격비교, 감성 분석, 데이터 저널리즘, 리드 생성 ) 

 

  웹 크롤링 웹 스크래핑
목적 검색 엔진을 위해 웹 사이트를 색인화 하고 순위를 매김 웹 페이지에서 특정 데이터를 추출하는 것
프로세스 자동화된 봇이 인터넷 상에서 링크를 따라감 데이터가 선택되고 추출되며 구조화된 형식으로 변환
일반 사례 검색 엔진, 디지털 아카이빙, SEO 모니터링 가격 비교, 감정 분석, 데이터 저널리즘, 리드 생성

출처) https://wikidocs.net/198889

반응형
LIST