## BeautifulSoup으로 스크레이핑 하기

BeautifulSoup은 HTML과 XML을 분석해주는 라이브러리이나, 다운로드 기능은 없음

### BeautifulSoup 기본 사용법

HTML을 문자열로 만들어 사용

In [1]:
from bs4 import BeautifulSoup

In [2]:
# 분석하고 싶은 HTML
html = """
<html><body>
    <h1>스크레이핑이란?</h1>
    <p>웹 페이지를 분석하는 것</p>
    <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

In [4]:
# HTML 분석하기
soup = BeautifulSoup(html, 'html.parser')

In [5]:
soup


<html><body>
<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body></html>

In [6]:
# 원하는 부분 추출하기
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

In [7]:
# 요소의 글자 출력
print("h1 = " + h1.string)
print("p = " + p1.string)
print("p = " + p2.string)

h1 = 스크레이핑이란?
p = 웹 페이지를 분석하는 것
p = 원하는 부분을 추출하는 것


루트부터 "html.body..."형태로 HTML 구조를 하나하나 적어가면 귀찮고 복잡하므로, 간단한 방법이 있음

### id로 요소를 찾는 방법

id 속성을 지정해서 요소를 찾는 find() method

In [21]:
# 분석하고 싶은 HTML
html = """
<html><body>
    <h1 id="title">스크레이핑이란?</h1>
    <p id="body">웹 페이지를 분석하는 것</p>
    <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

In [22]:
# HTML 분석하기
soup = BeautifulSoup(html, 'html.parser')

In [23]:
# find() method로 원하는 부분 추출
title = soup.find(id="title")
body = soup.find(id="body")

In [24]:
# 텍스트 부분 출력
print("#title = " + title.string)
print("#body = " + body.string)

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


### 여러 개의 요소 추출하기 - find_all() method

In [25]:
from bs4 import BeautifulSoup

In [26]:
# 분석하고 싶은 HTML
html = """
<html><body>
    <ul>
        <li><a href="http://www.naver.com">naver</a></li>
        <li><a href="http://www.daum.net">daum</a></li>
    </ul>
</body></html>
"""

In [27]:
soup = BeautifulSoup(html, 'html.parser')

In [28]:
# find_all() method 추출
links = soup.find_all('a')

In [32]:
# 링크 목록 출력
for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


링크의 href 속성은 ```attrs['href']``` 처럼 attrs 속성에서 추출

### urlopen() 과 BeautifulSoup 조합하기

urlopen()을 이용해 "기상청 RSS"에서 특정 내용 추출해보기

In [33]:
from bs4 import BeautifulSoup
import urllib.request as req

In [36]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

In [37]:
# urlopen()으로 데이터 가져오기
res = req.urlopen(url)

In [39]:
# BeautifulSoup 으로 분석
soup = BeautifulSoup(res, 'html.parser')

In [41]:
# 원하는 데이터 추출
title = soup.find("title").string
wf = soup.find("wf").string
print(title)
print(wf)

기상청 육상 중기예보
기압골의 영향으로 7~8일 사이에 중부지방과 전라도, 제주에는 비 또는 눈이 오는 곳이 있겠습니다. <br />그 밖의 날은 고기압의 가장자리에 들어 가끔 구름많겠습니다.<br />기온은 평년(최저기온: -8~3도, 최고기온: 3~12도)보다 조금 낮겠습니다.<br />강수량은 평년(0~2mm)보다 조금 많겠으나, 경상도는 적겠습니다.


### CSS 선택자 사용하기

In [46]:
from bs4 import BeautifulSoup

In [47]:
# 분석 대상 HTML
html = """
<html>
<body>
<div id = "meigen">
    <h1>위키북스 도서</h1>
    <ul class = "items">
        <li>유니티 게임 이펙트 입문</li>
        <li>스위프트로 시작하는 아이폰 웹 교과서</li>
        <li>모던 웹사이트 디자인의 정석</li>
    </ul>
</div>
</body>
</html>
"""

In [48]:
# HTML 분석하기
soup = BeautifulSoup(html, 'html.parser')

In [53]:
# 필요한 부분을 CSS 쿼리로 추출
# 타이틀 부분 추출하기
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)

h1 = 위키북스 도서


In [54]:
# 목록 부분 추출하기
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
    print("li =", li.string)

li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 웹 교과서
li = 모던 웹사이트 디자인의 정석
