# 파이썬 웹 크롤링 & 텍스트 분석

## 3. Urllib & BeautifulSoup
- urllib (urlopen)
- bs4 (BeautifulSoup)

### urllib
- ```urllib.request```의 ```urlopen()``` 함수를 활용하여 웹에 있는 정보를 URL로 접근하여 가져올 수 있다.

In [1]:
from urllib.request import urlopen

In [3]:
url = "http://www.google.com"

In [12]:
# open() 함수를 사용할 때와 비슷하게 read(), readline(), readlines() 함수를 통해 내용을 가져올 수 있다
with urlopen(url) as response:
    html = response.read()

In [None]:
print(html)

### BeautifulSoup
- 일반적으로 html 문서를 파싱할 때에는 ```BeautifulSoup()``` 객체를 생성하고 parser를 지정해 준다
- HTML Parser (source: https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
    - ```"html.parser"```: 파이썬에 기본적으로 내장되어 있는 parser로, 별다른 설치 없이 파이썬만 설치해도 바로 사용할 수 있다.
    - ```"lxml"```: 파이썬의 ```lxml``` 패키지를 활용하는 parser로, 굉장히 빠르지만 C 언어를 dependency로 가지고 있다는 단점이 있다.
    - ```"html5lib"```: HTML 언어의 가장 최신 버전인 HTML5를 기반으로 하는 parser library로, 웹 브라우저에 표시되는 대로 정확하게 HTML 문서를 파싱할 수 있다는 장점이 있지만 속도가 느리다는 단점이 있다.
- HTML 문서의 탐색
    - ```find("tag", {"attr": "value", "attr": "value", ...})```: 조건을 만족하는 첫 번째 요소를 찾아준다.
    - ```find_all("tag", {"attr": "value", "attr": "value", ...})```: 조건을 만족하는 모든 요소를 찾아 리스트로 반환한다.
- HTML 문서의 요소 가져오기
    - ```element.get_text()```: HTML 요소의 내용(브라우저에 표시되는 내용)을 가져와 string으로 반환한다.
```python
soup.find("a").get_text()
soup.find("a").get_text(strip=True)            # 공백 제거
soup.find("a").get_text().replace("$","")      # 특수문자 제거
```
    - ```element.[attribute]```: HTML 요소의 속성값을 가져와 string으로 반환한다.
```python
soup.find("img")["src"]    # 이미지의 소스
soup.find("a")["href"]     # 링크의 url
```

In [2]:
from bs4 import BeautifulSoup

In [20]:
url = "http://www.google.com"

In [21]:
web = urlopen(url)

In [None]:
soup = BeautifulSoup(web, "html.parser")
print(soup)

In [23]:
soup.find("a")

<a class="gb1" href="http://www.google.co.kr/imghp?hl=ko&amp;tab=wi">이미지</a>

In [25]:
soup.find("a", {"class": "gb4"})

<a class="gb4" href="http://www.google.co.kr/history/optout?hl=ko">웹 기록</a>

In [27]:
soup.find({"class": "gbh", "style": "left:0"})

<style>#gbar,#guser{font-size:13px;padding-top:1px !important;}#gbar{height:22px}#guser{padding-bottom:7px !important;text-align:right}.gbh,.gbd{border-top:1px solid #c9d7f1;font-size:1px}.gbh{height:0;position:absolute;top:24px;width:100%}@media all{.gb1{height:22px;margin-right:.5em;vertical-align:top}#gbar{float:left}}a.gb1,a.gb4{text-decoration:underline !important}a.gb1,a.gb4{color:#00c !important}.gbi .gb4{color:#dd8e27 !important}.gbf .gb4{color:#900 !important}
</style>

In [28]:
soup.find_all("a")

[<a class="gb1" href="http://www.google.co.kr/imghp?hl=ko&amp;tab=wi">이미지</a>,
 <a class="gb1" href="http://maps.google.co.kr/maps?hl=ko&amp;tab=wl">지도</a>,
 <a class="gb1" href="https://play.google.com/?hl=ko&amp;tab=w8">Play</a>,
 <a class="gb1" href="http://www.youtube.com/?gl=KR&amp;tab=w1">YouTube</a>,
 <a class="gb1" href="http://news.google.co.kr/nwshp?hl=ko&amp;tab=wn">뉴스</a>,
 <a class="gb1" href="https://mail.google.com/mail/?tab=wm">Gmail</a>,
 <a class="gb1" href="https://drive.google.com/?tab=wo">드라이브</a>,
 <a class="gb1" href="https://www.google.co.kr/intl/ko/options/" style="text-decoration:none"><u>더보기</u> »</a>,
 <a class="gb4" href="http://www.google.co.kr/history/optout?hl=ko">웹 기록</a>,
 <a class="gb4" href="/preferences?hl=ko">설정</a>,
 <a class="gb4" href="https://accounts.google.com/ServiceLogin?hl=ko&amp;passive=true&amp;continue=http://www.google.co.kr/%3Fgfe_rd%3Dcr%26dcr%3D0%26ei%3DNnp5WrioJrHK8gfTxLwY" id="gb_70" target="_top">로그인</a>,
 <a href="/advanced_sear

In [33]:
# find() 함수의 연쇄활용
soup.find("table").find("tr").find("tr")

In [36]:
# 텍스트(요소의 내용) 가져오기
soup.find("a").get_text()

'이미지'

In [37]:
# 공백 제거하기
soup.find("a").get_text(strip=True)

'이미지'

### 실습 3-1. 다음 사전 크롤링하기 (1)

In [9]:
## Your answer

curiosity
1.호기심2.큐리오시티


### 실습 3-2. 다음 사전 크롤링하기 (2)

In [11]:
## You answer

curiosity
1.호기심2.큐리오시티
killed
1.죽음2.사망3.살해되다4.목숨을잃다
the
1.그2.그럴수록3.더욱더
cat
1.고양이2.고양이과동물


### 실습 3-3. 다음 사전 크롤링하기 (3)

In [13]:
## Your answer

### 실습 3-4. 다음 사전 크롤링하기 (4)

In [15]:
## Your answer