# Web Crawling
1. **Beautiful Soup**
2. Selenium
3. using API

# 1번째 방법 -  Beautiful Soup

Beautiful Soup 공식 홈페이지 : https://www.crummy.com/software/BeautifulSoup/bs4/doc

## Requests
python에는 requests라는 http requests 관련 라이브러리가 있다.  
근데 이에 대해서 설명하는 이유는 Beutiful Soup를 이해하는데 도움이 되기 때문이다.

이걸 통해서 우리는 url을 통해서 넘어온 HTML 소스를 확인할 수 있다.  
하지만, request를 통해 얻어온 결과는 Python이 이해하는 유의미한 정보를 얻기는 힘들다.

그래서 우리는 의미있는 정보를 추출해내기 위해서 Beautiful Soup을 사용한다.

## Beautiful Soup 설치하기
```
pip install BeautifulSoup
conda install BeautifulSoup # 아나콘다 사용자일 경우
```

## Crawling하기 위한 준비

In [20]:
import numpy as np # pandas 라이브러리 의존성 때문에
import pandas as pd # 가져온 데이터를 가공하기 위해
from tqdm import tqdm_notebook # 진행률을 표시하기 위해
from bs4 import BeautifulSoup
from urllib.request import urlopen

## Example 1 - 네이버 환율 정보 가져오기

일단 브라우저에 있는 HTML을 보는 방법은 크롬 브라우저 기준으로 개발자도구를 통해 가능하다.

soup 객체에 우리는 url로부터 요청한 HTML 소스를 담아두었다.

In [21]:
# url을 통해서 요청하는 부분
url_base = 'https://finance.naver.com/marketindex/exchangeList.nhn'

# 요청해서 가져온 내용을 page 객체에 담음
page = urlopen(url_base)

# page를 html.parser형태로 parsing
# soup 객체에 html을 전부 긁어옴
soup = BeautifulSoup(page,'html.parser')

In [22]:
# soup를 한번 확인해보자
# 크롬에서 개발자도구를 통해서 보던 내용과 동일하다
print(soup)


<html lang="ko">
<head>
<title>네이버 금융</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<link href="/css/finance.css?20190306113304" rel="stylesheet" type="text/css"/>
<script language="javascript">document.domain="naver.com";</script>
<script src="/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="/js/lcslog.js?20190306113304" type="text/javascript"></script>
</head>
<body>
<div class="tbl_area">
<table border="1" class="tbl_exchange" summary="환전 고시 환율 리스트">
<caption>환전 고시 환율</caption>
<colgroup>
<col width="162"/>
<col width="92"/>
<col width="92"/>
<col width="92"/>
<col width="93"/>
<col width="92"/>
<col width="90"/>
</colgroup>
<thead>
<tr>
<th class="th_ex1" rowspan="2">
<a href="#" onclick="javascript:changeOrder('exchange'); return false;"><span>통화명</span></a></th>
<th class="th_ex2" rowspan="

### select 함수
Beutiful Soup에서 select함수는 **CSS Selector를 이용**해서 조건과 일치하는 원하는 모든 태그나 속성를 list 객체로 반환한다.  
기존 HTML와 CSS로 개발해본 사람이라면 쉽게 사용할 수 있는 함수이다. list형태로 return되므로 indexing하여 사용하자!  
공식 홈페이지에서 몇가지 사용법을 확인해보자면 다음과 같다.

You can find tags:
```
soup.select("title")
# [<title>The Dormouse's story</title>]

soup.select("p:nth-of-type(3)")
# [<p class="story">...</p>]

Find tags beneath other tags:
```

Find tags **beneath other tags**:
```
soup.select("body a")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.select("html head title")
# [<title>The Dormouse's story</title>]
```

Find tags *directly* beneath other tags:
```
soup.select("head > title")
# [<title>The Dormouse's story</title>]

soup.select("p > a")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
```

Find tags by **CSS class**:
```
soup.select(".sister")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.select("[class~=sister]")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
```

Find tags by **ID**:
```
soup.select("#link1")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

soup.select("a#link2")
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
```

In [175]:
cur_name = [td.a.string.strip() for td in soup.select('td.tit')]
cur_name[:5]

['미국 USD', '유럽연합 EUR', '일본 JPY (100엔)', '중국 CNY', '홍콩 HKD']

In [176]:
sale = [ td.string.strip() for td in soup.select('td.sale')]
sale[:5]

['1,134.50', '1,275.52', '1,019.73', '168.53', '144.53']

### find, find_all 함수
Beutiful Soup에서 find, find_all 함수는 soup객체를 통해서 가져온 HTML 구조에서 원하는 태그나 속성을 가져올 수 있다.

개인적으로 HTML이나 CSS에 대한 지식이 조금 필요한 select함수와 달리 find계열 함수는 그에 대한 지식이 부족해도 사용할 수 있는 함수이므로 이 함수를 추천한다.

다만, select처럼 HTML의 Tree구조를 타고 내려갈 수 없다. 하지만 find_all함수의 반환 후에 재귀적으로 find_all함수를 사용함으로써 이를 보완할 수 있다.

#### find 함수
> Signature: find(name, attrs, recursive, string, **kwargs)



#### find_all 함수
> Signature: find_all(name, attrs, recursive, string, limit, **kwargs)

find_all 함수는 **list 형태**로 return하기 때문에 list처럼 indexing을 이용해서 사용하자  
find 함수는 find_all함수에서 **찾을 갯수를 1개로 제한**하는 것과 같은 함수이다.

```
soup.find_all("title")
# [<title>The Dormouse's story</title>]

soup.find_all("p", "title")
# [<p class="title"><b>The Dormouse's story</b></p>]

soup.find_all("a")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.find_all(id="link2")
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

import re
soup.find(string=re.compile("sisters"))
# u'Once upon a time there were three little sisters; and their names were\n'
```

In [185]:
trs = soup.find('tbody').find_all('tr') # tbody에 대한 태그를 찾고 재귀적으로 다시 함수를 호출하여 tr과 관련된 태그를 찾음
trs[0] # 반환형 리스트이므로 첫번재 원소를 확인

<tr>
<td class="tit"><a href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="parent.clickcr(this, 'exl.exlist', 'FX_USDKRW', '1', event);" target="_parent">
				
					
					
					
					미국 USD
				
				</a></td>
<td class="sale">1,134.50</td>
<td>1,154.35</td>
<td>1,114.65</td>
<td>1,145.60</td>
<td>1,123.40</td>
<td>1.000</td>
</tr>

In [172]:
trs[0].find_all('td')[0].string.strip()

'미국 USD'

### DataFrame을 통해 Table로 만들기

네이버 환율에 있던 전체 정보를 크롤링하자. 그리고 그렇게 수집한 데이터를 Pandas의 DataFrame형태로 저장하자

In [188]:
item = list()
for i in range(0,len(trs)):
    tds = trs[i].find_all('td')
    item.append([tds[j].string.strip() for j in range(0,len(tds))])

In [186]:
table = pd.DataFrame(item)
# 통화명, 매매기준율, 현찰-살때, 현찰-팔때, 송금-보낼때, 송금-받을떄, 미화환산율
table.columns = ('curname','sale','buy','sell','remit','deposit','us_ex')
table.head()

Unnamed: 0,curname,sale,buy,sell,remit,deposit,us_ex
0,미국 USD,1134.5,1154.35,1114.65,1145.6,1123.4,1.0
1,유럽연합 EUR,1275.52,1300.9,1250.14,1288.27,1262.77,1.124
2,일본 JPY (100엔),1019.73,1037.57,1001.89,1029.72,1009.74,0.899
3,중국 CNY,168.53,176.95,160.11,170.21,166.85,0.149
4,홍콩 HKD,144.53,147.37,141.69,145.97,143.09,0.127


## CSV형태로 만들기

Pandas의 DataFrame으로 만든 데이터는 csv파일 형태로 저장할 수 있다.  
**to_csv함수**를 이용하여 로컬에 저장하거나 원하는 Database로 SQL형태로 보낼 수 있다.  
하지만 크롤링 관련 자료이므로 위 내용은 생략한다.