### 웹에서 원하는 정보를 추출하는 것
- HTML과 XML 문서에서 정보를 추출할 수 있다

In [1]:
!pip3 install beautifulsoup4

[33mYou are using pip version 18.0, however version 19.0.2 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [2]:
from bs4 import BeautifulSoup
html = """
<html><body>
 <h1> 파이선으로 웹문서 읽기 </h1>
 <p> 페이지 분석기능 </p>
 <p> 페이지 정렬 </p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

print("h1="+ h1.string)
print("p="+ p1.string)
print("p="+ p2.string)

h1= 파이선으로 웹문서 읽기 
p= 페이지 분석기능 
p= 페이지 정렬 


#### id 를 사용하는 방법
- 위와 같이 내부 구조를 일일이 파악하고 코딩하는 것은 복잡하다
- find()를 사용하여 간단히 원하는 항목을 찾을 수 있다

In [3]:
html = """
<html><body>
 <h1 id="title"> 파이선으로 웹문서 읽기 </h1>
 <p id="body"> 페이지 분석기능 </p>
 <p> 페이지 정렬 </p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
title = soup.find(id="title")
body = soup.find(id="body")

print("title="+ title.string)
print("body="+ body.string)

title= 파이선으로 웹문서 읽기 
body= 페이지 분석기능 


#### find_all()을 이용하는 경우

In [4]:
from bs4 import BeautifulSoup
html = """
<html><body>
 <ul>
   <li><a href = "http://www.naver.com">naver</a></li>
   <li><a href = "http://www.daum.com">daum</a></li>
 </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
links = soup.find_all("a")

for aa in links:
    href = aa.attrs["href"]
    text = aa.string
    print(text, "-->", href)


naver --> http://www.naver.com
daum --> http://www.daum.com


### DOM 요소 파악하기
- Document Object Model: XML이나 HTML 요소에 접근하는 구조를 나타낸다
- DOM 요소의 속성이란 태그 뒤에 나오는 속성을 말한다 <a> 태그의 속성은 href이다

In [5]:
from bs4 import BeautifulSoup
soup = BeautifulSoup("<p><a href='a.html'> test </a></p>", "html.parser")

# 분석이 되었는지 확인
soup.prettify()

'<p>\n <a href="a.html">\n  test\n </a>\n</p>'

In [6]:
# <a> 태그 변수를 a에 할당하고 속성의 자료형 확인
# a = soup.p.a
a = soup.a
type(a.attrs)

dict

In [7]:
print(a)

<a href="a.html"> test </a>


In [8]:
print(a.attrs)

{'href': 'a.html'}


In [9]:
# href 속성이 들어 있는지 확인
'href' in a

False

In [10]:
'href' in a.attrs

True

In [11]:
# 속성 값 확인
a['href']

'a.html'

### urlopen() 사용 하기

In [12]:
import urllib.parse as parse
import urllib.request as req

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')

title = soup.find("title").string
wf = soup.find('wf').string
print(title)
print("-------------")
print(wf)

기상청 육상 중기예보
-------------
기압골의 영향으로 22일은 제주도에 비가 오겠습니다.<br />그 밖의 날은 고기압의 영향으로 대체로 맑은 날이 많겠습니다.<br />기온은 평년(최저기온: -7~3℃, 최고기온: 5~11℃)보다 조금 높겠습니다.<br />강수량은 평년(1~4mm)보다 적겠으나, 제주도는 비슷하겠습니다.


### CSS 선택자 사용하기
- CSS 선택자를 사용해서 원하는 요소를 추출할 수 있다.
- h1 과 li 태그를 추출하는 코드

In [13]:
from bs4 import BeautifulSoup
html = """
<html><body>
<div id="meigen">
 <h1> 위키북스 도서 </h1>
 <ul class="item">
   <li> 게임 입문 </li>
   <li> 파이선 입문 </li>
   <li> 웹 디자인 입문 </li>
 </ul>
</div>
</body></html>
"""
# CSS 쿼리로 title 추출하기

soup = BeautifulSoup(html, 'html.parser')
h1 = soup.select_one("div#meigen > h1").string
print("h1=", h1)

li_list = soup.select("div#meigen > ul.item > li")
for li in li_list:
    print("li=", li.string)


h1=  위키북스 도서 
li=  게임 입문 
li=  파이선 입문 
li=  웹 디자인 입문 


In [14]:
li_list

[<li> 게임 입문 </li>, <li> 파이선 입문 </li>, <li> 웹 디자인 입문 </li>]

### 네이버 금융에서 환율정보 추출하기
- 먼저 네이버 웹사이트에서 소스보기를 하여 어디에 환률정보가 있는지 파악해야 한다.

In [None]:
import urllib.request as req
url = "http://info.finance.naver.com/marketindex"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
price = soup.select_one("div.head_info > span.value").string
print("usd/krw=", price)

### CSS 자세히 알아보기
- 웹 페이지의 검사 메뉴를 선택 (우측 버튼)
- 특정 태그를 선택하고 다시 우측 버튼을 누르고 Copy - Copy selector를 선택하면 CSS 선택자가 클립보드에 저장된다 (아래 예시)

#mw-content-text > div > ul:nth-child(6) > li > b > a

- 위에서 nth-child(6)은 6번째에 있는 요소를 가리킨다
- 이를 기반으로 작품목록을 가져오는 프로그램을 작성하겠다.


In [None]:
from bs4 import BeautifulSoup
import urllib.request as req
# 아래는 저자:윤동주 부분인데 이는 웹사이트에서 복사하면 된다.

url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)

soup = BeautifulSoup(res, 'html.parser')
a_list= soup.select("#mw-content-text > div > ul a")
for a in a_list:
    name = a.string
    print("-", name)

### CSS를 활용하는 방법 외에 re (정규표현식)을 사용하여 필요한 데이터를 추출할 수 있다

In [None]:
from bs4 import BeautifulSoup
import re
html = """
<ul>
   <li><a href="https://sample.com/foo">fuga </li>
   <li><a href="http://sample.com/okay">okay </li>
   <li><a href="https://sample.com/fuga"> fuga* </li>
   <li><a href="https://example.com/sample"> aaa </li>
</ul>
"""
html

In [None]:
soup = BeautifulSoup(html, 'html.parser')
soup

In [None]:
li=soup.find_all(href=re.compile(r"^https://"))
li

In [None]:
for e in li: print(e.attrs['href'])