# BeautifulSoup
- 간단하게 HTML과 XML에서 정보를 추출
- Anaconda에 기본적으로 설치되어 있음

In [10]:
# BeautifulSoup을 사용하여 웹 페이지의 내용을 추출하기
# import bs4 and request modules
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam01.html"

# Get the HTML from the site
res = req.urlopen(url)

# Parse the HTML
soup = BeautifulSoup(res, "html.parser")
# print(soup.prettify())

# 원하는 부분 찾아 추출하기
specific = soup.html.body.h1
print(specific)

# Find the tag
h1 = soup.find("h1")
print(h1)

# Find every tag
ps = soup.find_all("p")
print(ps)

# Find every tag and get the text
ps = soup.find_all("p")
for p in ps:
    print(p.text)

<h1>스크레이핑이란?</h1>
<h1>스크레이핑이란?</h1>
[<p>웹 페이지를 분석하는 것</p>, <p>원하는 부분을 추출하는 것</p>]
웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


# id로 요소 찾기

In [11]:
from bs4 import BeautifulSoup
import urllib.request as req
url = "https://zeushahn.github.io/Test/python/bs_exam02.html"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# id가 title인 항목 추출하기
title = soup.find(id='title')
print('title:', title.text)

# id가 body인 항목 추출하기
body = soup.find(id='body')
print('body:', body.text)

title: 스크레이핑이란?
body: 웹 페이지를 분석하는 것


# 글자, 링크(a, href) 가져오기

In [12]:
from bs4 import BeautifulSoup
import urllib.request as req
url = "https://zeushahn.github.io/Test/python/bs_exam03.html"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

print(soup.prettify())

<html>
 <head>
 </head>
 <body>
  <ul>
   <li>
    <a href="http://www.naver.com">
     naver
    </a>
   </li>
   <li>
    <a href="http://www.daum.net">
     daum
    </a>
   </li>
  </ul>
 </body>
</html>


In [15]:
links = soup.find_all("a")
for link in links:
    text = link.text
    href = link.get("href")
    # href = link.attrs["href"]
    
    # print text and href
    print(text,"->", href)


naver -> http://www.naver.com
daum -> http://www.daum.net


In [26]:
# 날씨정보 가져오기
import urllib.request as req
import urllib.parse as parse

# 기상청 RSS
API = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

# 매개변수를 URL 인코딩하기
values = {'stnId': '109'}
params = parse.urlencode(values)

# URL 완성하기
url = API + "?" + params

# 요청 전송하기
data = req.urlopen(url).read()
text = data.decode('utf-8')

# xml 파싱하기
from bs4 import BeautifulSoup
soup = BeautifulSoup(text, 'html.parser')

# get title and wf
title = soup.find('title').string
wf = soup.find('wf').string

# remove br open and close tag
wf = wf.replace("<br />", "\n")
wf = wf.replace("○ ","")

# print title and wf
print(wf)

(강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. 
(기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. 
(해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.

* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니, 
  앞으로 발표되는 예보와 기상정보를 참고하기 바랍니다.


### CSS 선택자 사용하기
- BeautifulSoup는 자바스크립트 라이브러리인 Jquery처럼 CSS선택자를 지정해서 원하는 요소를 추출가능

In [27]:
from bs4 import BeautifulSoup
import urllib.request as req
url = "https://zeushahn.github.io/Test/python/bs_exam04.html"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

print(soup.prettify())

<html>
 <head>
 </head>
 <body>
  <div id="meigen">
   <h1>
    위키북스 도서
   </h1>
   <ul class="items">
    <li>
     유니티 게임 이펙트 입문
    </li>
    <li>
     스위프트로 시작하는 아이폰 앱 개발 교과서
    </li>
    <li>
     모던 웹사이트 디자인의 정석
    </li>
   </ul>
  </div>
 </body>
</html>


In [34]:
# 필요한 부분을 CSS 쿼리로 추출학기(#:id, .:class, [속성]:attr, >:child, ~:sibling, +:adjacent, *:descendant, ~:general sibling,)

h1 = soup.select_one("div#meigen > h1").string
print(h1)

위키북스 도서


In [38]:
items = soup.select("div#meigen li")
for item in items:
    print(item.string)

유니티 게임 이펙트 입문
스위프트로 시작하는 아이폰 앱 개발 교과서
모던 웹사이트 디자인의 정석


---
# 네이버 금융에서 환율 정보 추출하기

In [40]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "https://finance.naver.com/marketindex/"

# 요청 전송하기
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# 개발자 도구에서 찍기 > copy > copy selector
rate = soup.select_one("#exchangeList > li.on > a.head.usd > div > span.value").string

print(rate)



1,297.50


# Exercise
: 미국, 일본, 유럽연합, 중국의 환율 가져와 표시하기

In [9]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "https://finance.naver.com/marketindex/"

# 요청 전송하기
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

names = soup.select('.market_data h3.h_lst > span.blind')
rates = soup.select('span.value')
for idx, rate in enumerate(rates):
    print(names[idx].string,"\t:", rate.string.rjust(10))
    if(idx > 5):
        break

미국 USD 	:   1,296.00
일본 JPY(100엔) 	:     963.82
유럽연합 EUR 	:   1,363.78
중국 CNY 	:     193.61
달러/일본 엔 	:   134.4500
유로/달러 	:     1.0528
영국 파운드/달러 	:     1.2275


# 다음 영화 랭킹 가져오기

In [26]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "https://movie.daum.net/ranking/boxoffice/yearly"

# 요청 전송하기
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

names = soup.select('.link_txt')
for idx, name in enumerate(names):
    print("%2d"%(idx+1),":", name.string)
    if(idx > 48):
        break

images = soup.select('div.poster_movie > img')
for idx, image in enumerate(images):

    # 이미지 다운로드하기
    url = image.get('src')
    filename = f'posters/{str(idx+1)}-{names[idx].string}.jpg'
    req.urlretrieve(url, filename)

    if(idx > 48):
        break

 1 : 스파이더맨: 노 웨이 홈
 2 : 모가디슈
 3 : 이터널스
 4 : 블랙 위도우
 5 : 분노의 질주: 더 얼티메이트
 6 : 싱크홀
 7 : 극장판 귀멸의 칼날: 무한열차편
 8 : 베놈 2: 렛 데어 비 카니지
 9 : 소울
10 : 크루엘라
11 : 샹치와 텐 링즈의 전설
12 : 인질
13 : 듄
14 : 보이스
15 : 007 노 타임 투 다이
16 : 미나리
17 : 발신제한
18 : 보스 베이비 2
19 : 콰이어트 플레이스 2
20 : 랑종
21 : 유체이탈자
22 : 컨저링3: 악마가 시켰다
23 : 기적
24 : 고질라 VS. 콩
25 : 킹스맨: 퍼스트 에이전트
26 : 엔칸토: 마법의 세계
27 : 연애 빠진 로맨스
28 : 장르만 로맨스
29 : 미션 파서블
30 : 더 수어사이드 스쿼드
31 : 비와 당신의 이야기
32 : 서복
33 : 킬러의 보디가드 2
34 : 루카
35 : 자산어보
36 : 내일의 기억
37 : 라야와 마지막 드래곤
38 : 프리 가이 
39 : 더 스파이
40 : 강릉
41 : 정글 크루즈
42 : 명탐정 코난: 비색의 탄환
43 : 캐시트럭
44 : 크루즈 패밀리: 뉴 에이지
45 : 이스케이프 룸 2: 노 웨이 아웃
46 : 극장판 포켓몬스터: 정글의 아이, 코코
47 : 극장판 짱구는 못말려: 격돌! 낙서왕국과 얼추 네 명의 용사들
48 : 매트릭스: 리저렉션
49 : 방법: 재차의
50 : 새해전야
