# BeautifulSoup 
- 간단하게 HTML과 XML에서 정보를 추출    

### BeautifulSoup 기본 사용법 


In [2]:
# Library 
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address 
url = "https://zeushahn.github.io/Test/python/bs_exam01.html"

# urlOpen 
res = req.urlopen(url)

# BeautifulSoup으로 분석 
soup = BeautifulSoup(res, 'html.parser')
print(soup)

<html>
<head>
</head>
<body>
<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [14]:
# 원하는 부분 추출하기 
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling  # 줄바꿈 있어서 하나 더 붙여야 함(사이에 태그가 2개) 
print("h1 = ", h1.string) # .text와 문자 구성에 따라 다름 
print("p1 = " , p1.string)
print("p2 = " , p2.string)

h1 =  스크레이핑이란?
p1 =  웹 페이지를 분석하는 것
p2 =  원하는 부분을 추출하는 것


### find a element by id

In [15]:
# Library 
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address 
url = "https://zeushahn.github.io/Test/python/bs_exam02.html"

# urlOpen 
res = req.urlopen(url)

# BeautifulSoup으로 분석 
soup = BeautifulSoup(res, 'html.parser')
print(soup)

<html>
<head>
</head>
<body>
<h1 id="title">스크레이핑이란?</h1>
<p id="body">웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [20]:
title = soup.find(id = "title")
title = soup.find('h1')
body = soup.find(id = "body")
print("title = ", title.string)
print("body = ", body.string)


title =  스크레이핑이란?
body =  웹 페이지를 분석하는 것


### find elements

In [22]:
# Library 
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address 
url = "https://zeushahn.github.io/Test/python/bs_exam03.html"

# urlOpen 
res = req.urlopen(url)

# BeautifulSoup으로 분석 
soup = BeautifulSoup(res, 'html.parser')
print(soup)

<html>
<head>
</head>
<body>
<ul>
<li><a href="http://www.naver.com">naver</a></li>
<li><a href="http://www.daum.net">daum</a></li>
</ul>
</body>
</html>


In [28]:
links = soup.find_all("a")
#print(links)

for a in links :
    #print(a)
    text = a.string 
    href = a.attrs['href']
    print(text , ">" , href)


naver > http://www.naver.com
daum > http://www.daum.net


### 기상청 RSS에서 필요한 정보만 추출

In [29]:
# Library 
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address 
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109"

# urlOpen 
res = req.urlopen(url)

# BeautifulSoup으로 분석 
soup = BeautifulSoup(res, 'html.parser')
print(soup)

<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubdate>2022년 06월 24일 (금)요일 06:00</pubdate>
<item>
<author>기상청</author>
<category>육상중기예보</category>
<title>서울,경기도 육상 중기예보 - 2022년 06월 24일 (금)요일 06:00 발표</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp
<guid>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</guid>
<description>
<header>
<title>서울,경기도 육상중기예보</title>
<tm>202206240600</tm>
<wf><![CDATA[○ (강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. <br />○ (해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.<br /><br />* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니, <br />  앞으로 발표되는 예보와 기상정보를 참고하기

In [73]:
title = soup.find('title').string
wf = soup.find('wf').string 

print("title : ", title)
print("wf : ", wf)


title :  기상청 육상 중기예보
wf :  ○ (강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. <br />○ (해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.<br /><br />* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니, <br />  앞으로 발표되는 예보와 기상정보를 참고하기 바랍니다.


In [74]:
wf = wf.split("<br />○ ")
g = wf[0].replace("○ ", "")
k = wf[1]
h = wf[2].replace("<br />", "")

print(g)
print(k)
print(h)



(강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. 
(기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. 
(해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니,   앞으로 발표되는 예보와 기상정보를 참고하기 바랍니다.


### CSS 선택자 사용하기 
- BeautifulSoup은 자바스크림트 라이브러리인 JQuery처럼 CSS 선택자를 지정해서 원하는 요소 추출 가능   
- #: id,    
- .: class,    
- > : 자식,    
- 빈칸 : 후손     

In [76]:
# Library 
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address 
url = "https://zeushahn.github.io/Test/python/bs_exam04.html"

# urlOpen 
res = req.urlopen(url)

# BeautifulSoup으로 분석 
soup = BeautifulSoup(res, 'html.parser')
print(soup)

<html>
<head>
</head>
<body>
<div id="meigen">
<h1>위키북스 도서</h1>
<ul class="items">
<li>유니티 게임 이펙트 입문</li>
<li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
<li>모던 웹사이트 디자인의 정석</li>
</ul>
</div>
</body>
</html>


In [77]:
# 필요한 부분을 css 쿼리로 추출하기 (#: id, .: class, > : 자식, 빈칸 : 후손)

h1 = soup.select_one("div#meigen > h1").string

print(h1)

위키북스 도서


In [85]:
li_list = soup.select("div#meigen > ul.items > li")
print(li_list)

[<li>유니티 게임 이펙트 입문</li>, <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>, <li>모던 웹사이트 디자인의 정석</li>]


In [87]:
for li in li_list : 
    print(li.string)

유니티 게임 이펙트 입문
스위프트로 시작하는 아이폰 앱 개발 교과서
모던 웹사이트 디자인의 정석


--- 
### 네이버 금융에서 환율 정보 추출하기 
https://finance.naver.com/marketindex/

In [88]:
# 미국 환율 가져오기 

 # Library 
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address 
url = "https://finance.naver.com/marketindex/"

# urlOpen 
res = req.urlopen(url)

# BeautifulSoup으로 분석 
soup = BeautifulSoup(res, 'html.parser')
print(soup)


<script language="javascript" src="/template/head_js.naver?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20220615142521/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20220615142521/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_dn">
<span class="value">1,297.50</span>
<span class="txt_krw

In [98]:
# 개발자 도구에서 코드 줄 선택하고 copy - copy selector 
# exchangeList > li.on > a.head.usd > div > span.value
price = soup.select_one("#exchangeList > li.on > a.head.usd > div > span.value").string
print(price)

1,297.50


In [156]:
# 제일 끝 요소부터 해보면 제일 쉬움 ! 
price_list = soup.select("#exchangeList span.value")
countrylist = soup.select("#exchangeList h3 > span.blind")

for i in range(4):
    print(countrylist[i].string.split(" ")[0], "\t:", price_list[i].string.rjust(10))


미국 	:   1,297.50
일본 	:     965.44
유럽연합 	:   1,365.88
중국 	:     193.82


In [None]:
# 다음 영화 순위 정보 가져오기 

 # Library 
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address 
url = "https://movie.daum.net/ranking/boxoffice/yearly"

# urlOpen 
res = req.urlopen(url)

# BeautifulSoup으로 분석 
soup = BeautifulSoup(res, 'html.parser')

In [None]:
# 영화 제목 리스트 만들기 
titlelist = soup.select("div.poster_movie > img")
moviename = []
for title in titlelist : 
    title = title['alt']
    moviename.append(title)


In [None]:
# 영화 이미지 주소 리스트 만들기

imglist = soup.select("div.poster_movie > img")
imgaddress = [] 
for img in imglist : 
    img = img['src']
    imgaddress.append(img)


In [None]:
# Exercise 
import urllib.request as request
fileNames = ["%s.jpg"%title for title in moviename]
i = 0 
for img in imgaddress :
    url = img
    saveName = "../Data/" + fileNames[i]
    i += 1 
    request.urlretrieve(url, saveName)
print('OK!')

OK!


In [None]:
# 한번에 하는 거! 
import urllib.request as req
import time

poster = soup.select(".img_thumb")

for i in poster:
     href = i['src']
     saveName = "../Data/%s.png"%i['alt'] # 확장자 설정하는 대로 저장해줌 
     req.urlretrieve(href,saveName)
     time.sleep(1)


print('OK!')

OK!


---
# 다음 IT News 많이 본 뉴스 
https://media.daum.net/digital/


In [2]:
 # Library 
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address 
url = "https://media.daum.net/digital/"

# urlOpen 
res = req.urlopen(url)

# BeautifulSoup으로 분석 
soup = BeautifulSoup(res, 'html.parser')

In [7]:
soup


<!DOCTYPE html>

<html class="os_unknown none unknown version_0" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="always" name="referrer">
<meta content="Daum 뉴스" property="og:author"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content="IT" property="og:title"/>
<meta content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" property="og:image"/>
<meta content="다음뉴스" property="og:description"/>
<meta content="https://news.daum.net/digital" property="og:url"/>
<link href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico" rel="shortcut icon"/>
<title>IT | 다음뉴스</title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="//t1.daumcdn.net/media/kraken/news/4f3e422/style.css.merged.css" rel="stylesheet" type="text/css">
<link href="//t1.daumcdn.net/media/kraken/news/4f3e422/calendar.css.merged.css" rel="stylesheet" type="text/css"/>
<!--[if lte IE 8]>
<script src="https://m2.daumcdn.net/svc/original/U0301/cssjs/JSON-js/fc535e9cc8/json2.m

In [10]:
news_list = soup.select("ul.list_newsmajor a.link_txt")
for news in news_list : 
    print(news.string)

"아이폰14 프로 AOD, 새 잠금화면 위젯 지원"
6월에 출시한 디아블로 이모탈-우마무스메-미르M, 3개 작품의 인기 비결은?
화웨이, '100W 터보' 고속 충전 기술 탑재 폰 곧 공개
中 손목용 웨어러블 시장서 애플만 '나홀로' 성장
비트코인 팔아치우는 채굴자들.."바닥 가까워졌다는 신호?"
[단독]'각 세종'까지 찾았다..네이버 이해진의 남다른 '자국 데이터' 집념
[생활속 과학이야기]  달에 대한 상상과 우주탐사
"죽음 두려워요"..감정 AI 논쟁에 숨어든 빅테크의 속임수
카겜즈, 오딘-우마 '원투펀치' 완성..남궁훈도 인정한 조계현 대표의 '안목'
폭락장에 상장 나선 쏘카..창업주 이재웅 "최소 1년간 주식 안판다"
