<a href="https://colab.research.google.com/github/jo-soobin/crawling_study/blob/master/crawling_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 크롤링의 종류



## 1. 정적 크롤링
- 웹에 있는 정적인 데이터를 수집할 때 사용
    - 정적인 데이터란 로그인과 같은 사전 작업 없이 바로 볼 수 있는 데이터
    - 새로고침을 하지 않는 이상 변하지 않는 데이터
    - 주소를 통해 요청받고 결과를 전달해 주고 종료
- 연속적인 작업은 수행할 수 없으며, 주로 한 페이지 안에 원하는 정보가 모두 드러난 경우 사용
- 또한 한 페이지 안에 모든 작업이 이루어지기 때문에 속도가 매우 빠르다. 
- 수집 대상의 한계 존재


## 2. 동적 크롤링
- 웹에 있는 동적인 데이터를 수집할 때 사용
    - 동적인 데이터는 입력, 클릭, 로그인과 같이 페이지 이동시 얻을 수 있는 데이터
    - 단계적 접근이 필요하기 때문에 수집 속도가 느리지만 수집 대상에 한계가 거의 없다는 큰 장점
    - 연속적인 접근이 가능, 페이지 이동이 필수적이거나 페이지 안에 정보가 은닉되어 있을 경우 사용


|           | 정적 크롤링             | 동적 크롤링                   |
| --------- | ----------------------- | ----------------------------- |
| 연속성    | 주소를 통한 단발적 접근 | 브라우저를 사용한 연속적 접근 |
| 속도      | 빠름                    | 느림                          |
| 수집 성능 | 수집 대상에 한계가 있음 | 수집 대상에 한계가 거의 없음  |

# 라이브러리
- 크롤링시 자주 사용 되는 라이브러리는 다음과 같다.

## 1. time 라이브러리

- time.time() : time.time()은 UTC를 사용해 현재 시간을 실수 형태로 돌려주는 함수이다.
    - 1970년 1월 1일 0시 0분 0초 기준으로 지난 시간을 초 단위로 돌려준다. 
    
    ```python
    import time
    print(time.time())
    ```
 
- time.localtime() : 현재 시간을 년, 월, 일, 시, 분, 초..의 형태로 출력해준다.
 
    ```python
    import time
    print(time.localtime())
    ```



## 2.정적 클로링 도구
- requests : 간편한 HTTP 요청 처리를 위해 사용하는 라이브러리, 웹과 연결을 위해 사용된다.
- beautifulsoup : html 태그를 다룰 수 있는 라이브러리, 웹에 있는 데이터 중 필요한 데이터만 뽑아내기 위해 사용
- pd.read_html : html 내의 table만 추출할수 있는 도구


## 3. 동적 크롤링 도구
- selenium : 웹 드라이버를 사용해 자동화 기능을 실현하는 라이브러리이다.
    - 웹에 접속해 클릭, 이동과 같응 action을 제어할 수 잇다
    - chromedriver.exe를 설치하고 이를통해 제어 가능
    
## 4. multiprocessing 모듈
- multiprocessing : 여러개의 코어를 활용할 수 있는 multiprocessing 모듈을 사용하면 크롤링 속도를 개선할수 있다.
    - process fork 문제로 인해 windows 에서는 사용불가, colab에서 사용가능


 
    

### 1. 웹 문서 전체 가져오기
- urllib.request 패키지

In [None]:
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup as bs

- https://www.naver.com/
- https : https 프로토콜 로 통신한다.
  - 한국어로 통신할거야
  - 영어로 통신할거야 
  - www : 월드와이드웹 사이트를 의미한다.
  - naver.com : domain name을의미한다. 

In [None]:
html = urlopen("https://www.naver.com/")
soup = bs(html, "html.parser")
print(soup)


<!DOCTYPE doctype html>
 <html data-dark="false" lang="ko"> <head> <meta charset="utf-8"/> <title>NAVER</title> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <meta content="NAVER" name="apple-mobile-web-app-title"> <meta content="index,nofollow" name="robots"> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="tw

In [None]:
soup = bs(html, "html.parser")
print(soup)




- requests 패키지 사용의 결과

In [None]:
html = requests.get("https://www.naver.com/")
soup = bs(html.text, "html.parser")
print(soup)


<!DOCTYPE doctype html>
 <html data-dark="false" lang="ko"> <head> <meta charset="utf-8"/> <title>NAVER</title> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <meta content="NAVER" name="apple-mobile-web-app-title"> <meta content="index,nofollow" name="robots"> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="tw

In [None]:
# www.google.com 에 requests 또는 urlopen 을 통해 접근하고 사이트의 내용을 요청해 보세요

html = requests.get("https://www.google.com/index.html")
soup = bs(html.text, "html.parser")
print(soup)

<!DOCTYPE doctype html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="en"><head><meta content="Search the world's information, including webpages, images, videos and more. Google has many special features to help you find exactly what you're looking for." name="description"/><meta content="noodp" name="robots"/><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Google</title><script nonce="SqYrcujIZUBZXf82uj6fqQ">(function(){window.google={kEI:'5AniYumLDumhiLMP1qqDqA0',kEXPI:'0,1302536,56873,6059,206,4804,2316,383,246,5,1354,4013,1123753,1197729,672,380090,16114,17444,11240,17572,4858,1362,284,9006,3029,4746,12834,4998,13228,3847,10622,22741,5081,1593,1279,2742,149,1103,840,1983,214,4100,3514,606,2023,1777,520,14670,3227,2845,7,25551,8219,1851,15324,432,3,346,1244,1,5445,148,11323,2652,4,1528,2304,7039,22023,3050,2658,7357,13658,2980,1457,15351,1435,583

# 웹페이지와 HTML
- 웹페이지는 HTML(HyperText Markup Language)을 기반으로 만든다.
- F12를 누르면 뜨는 코드들이 HTML이다.
- Ctrl + shift + c

HTML 문서를 통해 웹페이지가 어떻게 구성되어 있는지 알 수 있으며, 이를 통해 원하는 데이터가 웹 페이지의 어디에 위치하는지 파악해 수집하는 것이 가능하다.

## 1. HTML 태그

- HTML은 마크로 둘러싸인 언어라는 뜻으로 구조에 대한 정보를 기반으로 작성된 언어
- 각각의 구성 요소는 마크 역할을 하는 태그로 감싸져 있다.
    - 웹페이지의 시작과 끝을 의미하는 <html></html>
    - 문서의 제목을 의미하는 <title></title>
    - 웹에 실제로 표시되는 내용을 의미하는 <body></body>

```html
<태그>내용</태그>
```




## 2. HTML 태그의 종류
- ul : unordered list. 순
- li : list item. 목록의 내용이 되는 실질적 태그
    - [참고](https://www.w3schools.com/html/html_lists.asp)
- a : 하이퍼링크를 나타내는 태그
  - <a href="https://www.google.com">google</a>
- p : paragraph(단락)의 약자, 긴 글 뭉텅이.
- table : 표를 나타내는 태그
    - [참고](https://www.w3schools.com/html/tryit.asp?filename=tryhtml_table3)
- img 태그
  - 이미지를 표시하는 태그

- find html 태그
    - find("태그") - 첫번째 태그만 검색
    - find_all("태그") - 전체 태그 검색후 list로 반환

In [None]:
html = requests.get("https://www.naver.com/")
soup = bs(html.text, "html.parser")

In [None]:
find_div = soup.find("div", id="u_skip") # div 태그에서 id가 u_skip인 첫번째 태그만을 검색
print(find_div)

<div id="u_skip"> <a href="#newsstand"><span>뉴스스탠드 바로가기</span></a> <a href="#themecast"><span>주제별캐스트 바로가기</span></a> <a href="#timesquare"><span>타임스퀘어 바로가기</span></a> <a href="#shopcast"><span>쇼핑캐스트 바로가기</span></a> <a href="#account"><span>로그인 바로가기</span></a> </div>


In [None]:
find_div = soup.find("div", class_="group_flex") # div 태그에서 class가 group_flex인 첫번째 태그만을 검색
print(find_div)

<div class="group_flex">
<div class="logo_area">
<h1 class="logo_default">
<a class="logo_naver" data-clk="top.logo" href="/"><span class="blind">네이버</span></a>
</h1>
</div>
<div class="service_area">
<a class="link_set" data-clk="top.mkhome" href="https://help.naver.com/support/welcomePage/guide.help" id="NM_set_home_btn">네이버를 시작페이지로</a>
<i class="sa_bar"></i>
<a class="link_jrnaver" data-clk="top.jrnaver" href="https://jr.naver.com"><i class="ico_jrnaver"></i><span class="blind">쥬니어네이버</span></a>
<a class="link_happybin" data-clk="top.happybean" href="https://happybean.naver.com"><i class="ico_happybin"></i><span class="blind">해피빈</span></a>
</div>
<div class="search_area" data-clk-prefix="sch" id="search">
<form action="https://search.naver.com/search.naver" id="sform" method="get" name="sform" role="search">
<fieldset>
<legend class="blind">검색</legend>
<select class="blind" id="where" name="where" title="검색 범위 선택">
<option selected="selected" value="nexearch">통합검색</option><option v

In [None]:
# div 태그에서 class=group_nav 를 검색해 보세요
find_div = soup.find("div", class_ = "group_nav")
print(find_div)

<div class="group_nav">
<ul class="list_nav type_fix">
<li class="nav_item">
<a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>
</li>
<li class="nav_item"><a class="nav" data-clk="svc.cafe" href="https://section.cafe.naver.com/">카페</a></li>
<li class="nav_item"><a class="nav" data-clk="svc.blog" href="https://section.blog.naver.com/">블로그</a></li>
<li class="nav_item"><a class="nav" data-clk="svc.kin" href="https://kin.naver.com/">지식iN</a></li>
<li class="nav_item"><a class="nav shop" data-clk="svc.shopping" href="https://shopping.naver.com/"><span class="blind">쇼핑</span></a></li>
<li class="nav_item"><a class="nav shoplive" data-clk="svc.shoppinglive" href="https://shoppinglive.naver.com/home"><span class="blind">쇼핑LIVE</span></a></li>
<li class="nav_item"><a class="nav" data-clk="svc.pay" href="https://order.pay.naver.com/home">Pay</a></li>
<li class="nav_item">
<a class="nav" data-clk="svc.tvcast" href="https://tv.naver.com/"><i class="ic

In [None]:
type(find_div)

bs4.element.Tag

In [None]:
find_div.find("li")

<li class="nav_item">
<a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>
</li>

In [None]:
item = find_div.find_all("li")[0].get_text() # find_all 은 모든 tag를 찾아준다. 결과는 list와 같다. 
item_href = find_div.find_all("li")[0].find("a")["href"] #find 후 결과중 tag내의 속성값을 찾기 위해서는 인덱싱을 해준다. 
print(item, item_href)


메일
 https://mail.naver.com/


### 실습 : navbar의 이름과 링크를 출력하세요
```
메일, https://mail.naver.com/
카페, https://section.cafe.naver.com/
...
웹툰, https://comic.naver.com/
```

In [None]:
find_div = soup.find("div", class_="group_nav")
items = find_div.find_all("li")
for i in items:
  item_name = i.get_text() 
  item_name = item_name.replace("\n","")
  item_href = i.find("a")["href"]
  print(item_name, ",", item_href)

메일 , https://mail.naver.com/
카페 , https://section.cafe.naver.com/
블로그 , https://section.blog.naver.com/
지식iN , https://kin.naver.com/
쇼핑 , https://shopping.naver.com/
쇼핑LIVE , https://shoppinglive.naver.com/home
Pay , https://order.pay.naver.com/home
TV , https://tv.naver.com/
사전 , https://dict.naver.com/
뉴스 , https://news.naver.com/
증권 , https://finance.naver.com/
부동산 , https://land.naver.com/
지도 , https://map.naver.com/
VIBE , https://vibe.naver.com/
도서 , https://search.shopping.naver.com/book/home
웹툰 , https://comic.naver.com/


In [None]:
item.replace("\n","")

'메일'


## 4. 선택자
### 선택자
- 태그 중에는 동일한 태그가 존재할 수있다. 
- 선택자(Selector)는 동일한 태그 여러 개 중에서도 각 태그를 구별할 수 있는 일종의 주소이다.

### 선택자의 필요성

```html
<div>	
	<div>
		<span> Python </span>
		<span> Hello world </span>
	</div>
	
	<div>
		<span> Java </span>
		<span> Coffee </span>
	</div>
<div>
```

- <span> 태그는 다양한 내용을 담을 수 있다.
- <span> 태그가 4개나 있어서 컴퓨터가 구분하기 어렵다. 이러한 문제를 해결하기 위해 선택자를 사용함.

```html
<div id = "contents">	
	<div class = "metadata1">
		<span class = "language"> Python </span>
		<span class = "project" > Hello world </span>
	</div>
	
	<div class = "metadata2">
		<span class = "language"> Java </span>
		<span class = "project"> Coffee </span>
	</div>
<div>
```

언어(language)와 관련된 데이터만 필요한경우
	- 태그로만 해당 데이터를 선택하면, <span>을 사용
	- 하지만 <span>에 언어 정보 뿐만 아니라 프로젝트 정보(Hello world, Coffee)도 포함됩니다.
	- "class = 'language'"라는 선택자를 통해 우리는 두 개의 언어 관련 데이터(python, java)를 찾을 수 있다.

### id와 class
- 태그의 선택자는 주로 id와 class를 사용한다.
- id는 어떤 요소의 고유한 값.
    - [참고](https://www.w3schools.com/html/html_id.asp)
    - html에서도 id는 하나의 고유한 선택자로, __중복__ 되지 않고 하나만 존재한다.
- class 태그는 같은 속성을 지닌 데이터를 묶어주는 값이다.
    - 한 태그가 __여러 개__ 의 class를 가질 수 있다.
    - [참고](https://www.w3schools.com/html/html_classes.asp)

비슷한 속성끼리 묶어줄 때 class 태그를 사용한다.



### 선택자 사용법
```html
<div id='123' class='456'>
```
- 선택자에 따라 데이터를 찾는 코드에 차이가 있다.
- id는 '#'를 붙이고, class는 '.'을 붙여준다.

- 태그만 사용해 데이터를 찾을 경우 -> 태그
  - div
- 태그와 id를 사용해 데이터를 찾을 경우 -> 태그#id
  - div#123
- 태그와 class를 사용해 데이터를 찾을 경우 -> 태그.class
  - div.456
- 태그, id, class 모두 사용해 데이터를 찾을 경우 -> 태그#id.class
  - div#123.456

- 참고 : class 이름에 공백이 포함될 경우가 종종 있는데, 이럴 경우 공백을 .으로 대체해서 작성하면 된다.
    - ex)

    ```html
    <div class='hello python'>
    ```

    -> div.hello.python

In [None]:
selector_soup = soup.select("#NM_FAVORITE > div.group_nav > ul.list_nav.type_fix") # 해당 tag 에서 마우스 오른쪽 버튼 -> copy -> copy selector

In [None]:
# selector_soup[0].text
selec_a = selector_soup[0].find_all("a")
for a in selec_a:
  print(a.text)
# selector를 이용해
# 메일, 카페, 블로그 지식iN, ... 을 출력해보세요

메일
카페
블로그
지식iN
쇼핑
쇼핑LIVE
Pay
TV
