Study/파이썬[Python]

파이썬[Python] 003. 크롤링의 정의

jaeyeong 2022. 3. 3. 22:06

저는 모각코에서 파이썬 - 크롤링편 프로젝트를 진행하고 있어요.

프로젝트 설명을 보면서 따라하는건 쉽지만 그것으로 끝내면 완전히 내 것이 되지 않는다는 생각이 들어서

복습을 해보려고 합니다.


크롤링을 시작하려면 이것이 무엇인가를 알고있어야겠죠?

크롤링(crawling)
인터넷에서 내가 원하는 정보를 모으는 것. 즉, 데이터를 검색하여 정보를 얻고 저장하고 가공하는 기술

 

우리가 컴퓨터를 켜고 인터넷을 둘러본다고 할 때, 짧은 시간동안에도 정말 많은 페이지들을 볼 수 있습니다.

이렇게 넘쳐나는 정보들 속에서 내가 원하는 정보만 쏙 뽑아 본다는 것은 오래 걸리는 작업일텐데요.

이 과정을 단시간에 할 수 있는데,, 크롤링을 안 할 이유가 없겠죠?

 

크롤링에는 두가지 종류가 있습니다.

1. 정적 크롤링

2. 동적 크롤링

 

정적 크롤링
한 페이지에서 입력-출력 없이 원하는 데이터를 수집할 때 사용

동적 크롤링
페이지에서 클릭-입력-출력 등 페이지 내부에서 조작이 필요한 데이터를 수집할 때 사용

 

단어 그대로 받아들이면 더욱 이해가 빠르실거예요.


정리를 해보자면, 크롤링 이란 웹사이트에서 내가 원하는 데이터를 가져오고 가공하는 기술이며

정적크롤링과 동적크롤링으로 나눌 수 있어요.

 

정적크롤링은 웹사이트 상에서 로그인이나 입력 등 별도의 작업 없이

원하는 데이터를 수집할 때 사용하는 방법이에요.

별도의 작업이 없는 만큼 수집의 속도가 빠르지만 가져올 수 있는 정보에 한계가 있어요.

 

동적크롤링은 로그인, 입력, 클릭 등

웹사이트 상에서 조작이 필요한 데이터를 수집할 때 사용하는 방법입니다.

수집 속도가 상대적으로 느린 대신 정말 여러 정보를 수집할 수 있다는 장점이 있답니다!

 

 

내가 어떤 데이터를 가져오냐에 따라 어떤 방법을 통해 크롤링을 할지 선택하면 됩니다 =)

 

오늘은 크롤링의 정의에 대해 소개드렸는데요!

다음시간엔 크롤링을 하기 전 알아야 할 요소들을 소개드리겠습니다 ^0^