# BeautifulSoup
- 간단하게 HTML과 XML에서 정보를 추출

### BeautifulSoup 기본 사용법

In [1]:
# Library

from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam01.html"

# urlOpen

res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
print(soup)

<html>
<head>
</head>
<body>
<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [2]:
# 원하는 부분 추출하기
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling # 띄어쓰기로 인해 .next_sibling 두번 사용
print("h1=",h1.string) # tag를 가져오지않고, 데이터만 가져옴 
                       # .string 과 .text의 차이점 : 문자 구성에 따라 달라지며 특수문자 있을 경우에느 .text
print("p1=",p1.string)
print("p2=",p2.string)

h1= 스크레이핑이란?
p1= 웹 페이지를 분석하는 것
p2= 원하는 부분을 추출하는 것


# id로 요소 찾는 방법

In [3]:
# Library

from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam02.html"

# urlOpen

res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
print(soup)

<html>
<head>
</head>
<body>
<h1 id="title">스크레이핑이란?</h1>
<p id="body">웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [4]:
# 원하는 부분 추출하기
title = soup.find(id='title')
#title = soup.find('h1') 

body = soup.find(id='body')

print("title : ",title.string)
print("body : ",body.string)

title :  스크레이핑이란?
body :  웹 페이지를 분석하는 것


In [5]:
# Library

from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam03.html"

# urlOpen

res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
print(soup)

<html>
<head>
</head>
<body>
<ul>
<li><a href="http://www.naver.com">naver</a></li>
<li><a href="http://www.daum.net">daum</a></li>
</ul>
</body>
</html>


In [6]:
links = soup.find_all("a")

for a in links:
    text = a.string
    href = a.attrs['href']
    print(text,">",href)

naver > http://www.naver.com
daum > http://www.daum.net


### 기상청 RSS에서 필요한 정보만 추출하기

In [7]:
# Library

from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109"

# urlOpen

res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
print(soup)

<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubdate>2022년 06월 24일 (금)요일 06:00</pubdate>
<item>
<author>기상청</author>
<category>육상중기예보</category>
<title>서울,경기도 육상 중기예보 - 2022년 06월 24일 (금)요일 06:00 발표</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp
<guid>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</guid>
<description>
<header>
<title>서울,경기도 육상중기예보</title>
<tm>202206240600</tm>
<wf><![CDATA[○ (강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. <br />○ (해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.<br /><br />* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니, <br />  앞으로 발표되는 예보와 기상정보를 참고하기

In [8]:
# sol 1)
#title = soup.find('title')
#wf = soup.find('wf').string.replace('<br />','\n').replace('○','')

#print(wf)

# sol 2)
#wf = soup.find('wf').string.replace('○','\n').split('<br />')
#for i in range(len(wf)):
#    print(wf[i])

# sol 3)
wf = soup.find('wf').string.replace('○','\n').split('<br />')
for i in wf:
    print(i)


 (강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. 

 (기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. 

 (해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.

* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니, 
  앞으로 발표되는 예보와 기상정보를 참고하기 바랍니다.


### CSS 선택자 사용하기
- BeautifulSoup는 자바스크립트 라이브러리인 JQuery처럼 CSS선택자를 지정해서 원하는 요소를 추출가능.

In [9]:
# Library

from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam04.html"

# urlOpen

res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
print(soup)

<html>
<head>
</head>
<body>
<div id="meigen">
<h1>위키북스 도서</h1>
<ul class="items">
<li>유니티 게임 이펙트 입문</li>
<li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
<li>모던 웹사이트 디자인의 정석</li>
</ul>
</div>
</body>
</html>


In [10]:
# 필요한 부분을 CSS 쿼리로 추출하기 (#: id, .: class, > :자식, 빈칸 : 후손)
# 내 바로 밑 단계가 자식 나머지는 후손
h1 = soup.select_one("div#meigen > h1").string


print(h1)

위키북스 도서


In [11]:
li_list = soup.select("div#meigen  li")
print(li_list)

[<li>유니티 게임 이펙트 입문</li>, <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>, <li>모던 웹사이트 디자인의 정석</li>]


In [12]:
for li in li_list:
    print(li.string)

유니티 게임 이펙트 입문
스위프트로 시작하는 아이폰 앱 개발 교과서
모던 웹사이트 디자인의 정석


# 네이버 금융에서 환율정보 추출하기
- https://finance.naver.com/marketindex/

In [13]:
# 미국 환율 가져오기
# #exchangeList > li.on > a.head.usd > div > span.value

In [26]:
# Library

from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://finance.naver.com/marketindex/"

# urlOpen

res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
print(soup)


<script language="javascript" src="/template/head_js.naver?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20220615142521/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20220615142521/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_dn">
<span class="value">1,297.00</span>
<span class="txt_krw

In [27]:
# 데이터 추출하기

price = soup.select_one("#exchangeList > li.on > a.head.usd > div > span.value").string
print(price)

1,297.00


# Exercise
: 미국, 일본, 유럽연합, 중국의 환율 가져오기

In [16]:
price1 = soup.select_one("#exchangeList > li:nth-child(2) > a.head.jpy > div > span.value").string
print(price1)

965.44


In [18]:
price2 = soup.select_one("#exchangeList > li:nth-child(3) > a.head.eur > div > span.value").string
print(price2)

1,365.88


In [19]:
price3 =soup.select_one("#exchangeList > li:nth-child(4) > a.head.cny > div > span.value").string
print(price3)

193.82


In [83]:
nation = soup.select("#exchangeList h3.h_lst > span.blind")
print(nation)

[<span class="blind">미국 USD</span>, <span class="blind">일본 JPY(100엔)</span>, <span class="blind">유럽연합 EUR</span>, <span class="blind">중국 CNY</span>]


In [84]:
price = soup.select("#exchangeList  div > span.value")
nation = soup.select("#exchangeList h3.h_lst > span.blind")

for i in range(len(price)):
    print(nation[i].string,":",price[i].string)

미국 USD : 1,297.00
일본 JPY(100엔) : 964.28
유럽연합 EUR : 1,365.35
중국 CNY : 193.74


In [1]:
# Library

from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://movie.daum.net/boxoffice/yearly"

# urlOpen

res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
print(soup)


<!DOCTYPE html>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<title>랭킹 | 다음영화</title>
<link href="//m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico" rel="shortcut icon"/>
<link href="//t1.daumcdn.net/media/kraken/movie/6bc0924/PcCommonCssBundle.merged.css" rel="stylesheet" type="text/css">
<script src="//t1.daumcdn.net/media/kraken/movie/6bc0924/common.merged.js"></script>
<script src="//t1.daumcdn.net/media/kraken/movie/6bc0924/PcCommonScriptBundle.merged.js"></script><!-- 임시스크립트 -->
<script src="//t1.daumcdn.net/cssjs/movie/v2/amchart/amcharts.js"></script>
<script src="//t1.daumcdn.net/cssjs/movie/v2/amchart/serial.js"></script>
<meta content="다음영화" property="og:author">
<meta content="다음영화" property="og:site_name"/>
<meta content="랭킹 | 다음영화" property="og:title"/>
<meta content="https://t1.daumcdn.net/movie/common/og_default.png" property="og:image"/>
<meta content="Daum영화에서 자세한 내용을 확인하세요!" property="og:description"/>
</meta></link></head>
<body class="">
<div class="direct-lin

In [96]:
movie = soup.select(" div.thumb_cont > strong.tit_item > a.link_txt")

for i in range(0,22):
    print("%2d : "%(i+1),movie[i].string)

 1 :  스파이더맨: 노 웨이 홈
 2 :  모가디슈
 3 :  이터널스
 4 :  블랙 위도우
 5 :  분노의 질주: 더 얼티메이트
 6 :  싱크홀
 7 :  극장판 귀멸의 칼날: 무한열차편
 8 :  베놈 2: 렛 데어 비 카니지
 9 :  소울
10 :  크루엘라
11 :  샹치와 텐 링즈의 전설
12 :  인질
13 :  듄
14 :  보이스
15 :  007 노 타임 투 다이
16 :  미나리
17 :  발신제한
18 :  보스 베이비 2
19 :  콰이어트 플레이스 2
20 :  랑종
21 :  유체이탈자
22 :  컨저링3: 악마가 시켰다


In [2]:
poster = soup.select(" div.poster_movie > img.img_thumb")

In [7]:
class temp:
    def __init__(self,abc=dict({"a":"b"})):
        self.abc = abc
    def __getitem__(self,key):
        return self.abc[key]

x = temp()

print(x['a'])
print(x.abc['a'])

b
b


In [5]:
print(poster[0].attrs['src'])
print(poster[0]['src'])

https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F4fc5880afdb5b7c60161f34184e1f466814fec2d
https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F4fc5880afdb5b7c60161f34184e1f466814fec2d


In [145]:
import urllib.request as req

poster = soup.select(" div.poster_movie > img.img_thumb")

for i in poster:
     href = i.attrs['src']
     saveName = "../Data/%s.jpg"%i.attrs['alt']
     req.urlretrieve(href,saveName)
print(type(href))

print('OK!')

<class 'str'>
OK!


In [144]:
type(poster)

bs4.element.ResultSet

---
# 다음 IT News 많이 본 뉴스

In [8]:
# Library

from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://media.daum.net/digital/"

# urlOpen

res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
print(soup)


<!DOCTYPE html>

<html class="os_unknown none unknown version_0" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="always" name="referrer">
<meta content="Daum 뉴스" property="og:author"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content="IT" property="og:title"/>
<meta content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" property="og:image"/>
<meta content="다음뉴스" property="og:description"/>
<meta content="https://news.daum.net/digital" property="og:url"/>
<link href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico" rel="shortcut icon"/>
<title>IT | 다음뉴스</title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="//t1.daumcdn.net/media/kraken/news/4f3e422/style.css.merged.css" rel="stylesheet" type="text/css">
<link href="//t1.daumcdn.net/media/kraken/news/4f3e422/calendar.css.merged.css" rel="stylesheet" type="text/css"/>
<!--[if lte IE 8]>
<script src="https://m2.daumcdn.net/svc/original/U0301/cssjs/JSON-js/fc535e9cc8/json2.m

In [20]:
news = soup.select(" ul.list_newsmajor strong.tit_g > a.link_txt")

for i in range(0,5):
    print(news[i].string)
    print(news[i]['href'])

"아이폰14 프로 AOD, 새 잠금화면 위젯 지원"
https://v.daum.net/v/20220627085247951
6월에 출시한 디아블로 이모탈-우마무스메-미르M, 3개 작품의 인기 비결은?
https://v.daum.net/v/20220627084353713
화웨이, '100W 터보' 고속 충전 기술 탑재 폰 곧 공개
https://v.daum.net/v/20220627084306688
中 손목용 웨어러블 시장서 애플만 '나홀로' 성장
https://v.daum.net/v/20220627083421433
비트코인 팔아치우는 채굴자들.."바닥 가까워졌다는 신호?"
https://v.daum.net/v/20220627081901077
