## 1-2 BeautifulSoup로 스크레이핑하기
"BeautifulSoup"란 파이썬으로 스케레이핑을 할 수 있게 해주는 편리한 라이브러리임.
### 이 장에서 배울 내용
- 스크레이핑
- BeautifulSoup

### BeautifulSuop로 스크레이핑하기

* 스크레이핑이란 웹 사이트에서 데이터를 추출하고, 원하는 정보를 추출하는 것을 의미
* "BeautifulSoup"란 파이썬으로 스크레이핑할 때 사용되는 라이브러리로서 HTML/XML에서 정보를 추출할 수 있도록 도와줌. 그러나 다운로드 기능은 없음.
* 파이썬 라이브러리는 pip 명령어를 이용해 설치 가능. Python Package Index(PyPI)에 있는 패키지 명령어를 한줄로 설치 가능  
URL (http://pypi.python.org/pypi)
    + $pip install beautifulsoup4 

### Beautifulsoup 기본 사용
다음은 Beautifulsoup를 이용하여 웹사이트로부터 HTML을 가져와 문자열로 만들어 이용하는 예제임
* h1 태그를 접근하기 위해 html-body-h1 구조를 사용하여 soup.html.body.h1 이런식으로 이용하게 됨.
* p 태그는 두개가 있어 soup.html.body.p 한 후 next_sibling을 두번 이용하여 다음 p를 추출. 한번만 하면 그 다음 공백이 추출됨.
* HTML 태그가 복잡한 경우 이런 방식으로 계속 진행하기는 적합하지 않음.

In [1]:
# 라이브러리 읽어 들이기 --- (※1)
from bs4 import BeautifulSoup
# 분석하고 싶은 HTML --- (※2)
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""
# HTML 분석하기 --- (※3)
soup = BeautifulSoup(html, 'html.parser')
# 원하는 부분 추출하기 --- (※4)
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling
# 요소의 글자 출력하기 --- (※5)
print("h1 = " + h1.string)
print("p  = " + p1.string)
print("p  = " + p2.string)

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


### id로 요소를 찾는 방법
BeautifulSoup는 루트부터 하나하나 요소를 찾는 방법 말고도 find()라는 메소드를 제공함

In [21]:
from bs4 import BeautifulSoup 
html = """
<html><title>hello</title>
<body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""
# HTML 분석하기 --- (※1)
soup = BeautifulSoup(html, 'html.parser')
# find() 메서드로 원하는 부분 추출하기 --- (※2)
title = soup.find("h1")
body  = soup.find("p")
print(title)
# 텍스트 부분 출력하기
print("#title=" + title.string)
print("#body="  + body.string)

<h1>스크레이핑이란?</h1>
#title=스크레이핑이란?
#body=웹 페이지를 분석하는 것


### 여러 개의 요소 추출하기 - find_all() 메서드
여러개의 태그를 한번에 추출하고자 할때 사용함. 다음의 예제에서는 여러개의 <a> 태그를 추출하는 법을 보여주고 있음

In [2]:
from bs4 import BeautifulSoup 
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""
# HTML 분석하기 --- (※1)
soup = BeautifulSoup(html, 'html.parser')
# find_all() 메서드로 추출하기 --- (※2)
links = soup.find_all("a")
# 링크 목록 출력하기 --- (※3)
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string 
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


### urlopen()과 BeautifulSoup 조합하기
* URL을 이용하여 웹으로부터 데이터를 읽어들여 BeautifulSoup으로 원하는 데이터를 추출
* 기상청 RSS에서 특정 내용을 추출하는 예제
* 기상청 RSS에서 XML 데이터를 추출하고 XML 내용을 출력

In [25]:
from bs4 import BeautifulSoup
import urllib.request as req
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
# urlopen()으로 데이터 가져오기 --- (※1)
res = req.urlopen(url)
# BeautifulSoup으로 분석하기 --- (※2)
soup = BeautifulSoup(res, "html.parser")
# 원하는 데이터 추출하기 --- (※3)
title = soup.find("title").string
wf = soup.find("wf").string
print(title)
print(wf)

기상청 육상 중기예보
기압골의 영향으로 20일은 전국에 비가 오겠고, 서울.경기도와 강원도는 21일까지 이어지겠습니다.<br />그 밖의 날은 고기압의 영향으로 대체로 맑은 날이 많겠습니다.<br />기온은 평년(최저기온: 10~19℃, 최고기온: 22~27℃)과 비슷하겠습니다.<br />강수량은 평년(2~8mm)보다 많겠습니다.


### CSS 선택자 사용하기

| 메서드 | 설명|
|:---:|:---:|
| soup.select_one(선택자)| CSS 선택자로 요소 하나를 추출합니다.|
| soup.select(선택자) | CSS 선택자로 요소 여러 개를 리스트를 추출합니다. |

* HTML 에서 &lt;h1&gt; 태그와 &lt;li&gt; 태그를 추출

In [26]:
from bs4 import BeautifulSoup 
# 분석 대상 HTML --- (※1)
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""
# HTML 분석하기 --- (※2)
soup = BeautifulSoup(html, 'html.parser')
# 필요한 부분을 CSS 쿼리로 추출하기
# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)
# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
  print("li =", li.string)

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


### 네이버 금융에서 환율 정보 추출하기
* 실제 웹사이트 스크레이핑 해보기
* 다양한 금융 정보가 공개돼 있는 "네이버 금융"에서 원/달러 환율 정보를 추출해보자!
* 네이버 금융의 시장 지표 페이지 <http://info.finance.naver.com/marketindex>
* 다음은 원/달러 환율 정보를 추출하는 프로그램임.

In [28]:
from bs4 import BeautifulSoup
import urllib.request as req
# HTML 가져오기
url = "http://info.finance.naver.com/marketindex/"
res = req.urlopen(url)
# HTML 분석하기
soup = BeautifulSoup(res, "html.parser")
# 원하는 데이터 추출하기 --- (※1)
price = soup.select_one("div.head_info > span.value").string
print("usd/krw =", price)

usd/krw = 1,126.50
