# BeautifulSoup
- 간단하게 HTML과 XML에서 정보를 추출

### BeautifulSoup 기본 사용법

In [6]:
# Library
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam01.html"

# urlOpen
res = req.urlopen(url)

# BeautifulSoup으로 분석하기

soup = BeautifulSoup(res,"html.parser")
print(soup)

<html>
<head>
</head>
<body>
<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [25]:
# 원하는 부분 추출하기
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling # 줄바꿈때문에 2 번 썻음  </p>\n<p> 로 되었기 때문 
print("h1 =", h1.string) # h1.text 와 h1.string 은 비슷하고 특수문자가 있으면 string 으로 안되고 text로 해야됨
print("p1 =", p1.string)
print("p2 =", p2.string)

h1 = 스크레이핑이란?
p1 = 웹 페이지를 분석하는 것
p2 = 원하는 부분을 추출하는 것


# id로 오소 찾는 방법

In [26]:
# Library
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam02.html"

# urlOpen
res = req.urlopen(url)

# BeautifulSoup으로 분석하기

soup = BeautifulSoup(res,"html.parser")
print(soup)

<html>
<head>
</head>
<body>
<h1 id="title">스크레이핑이란?</h1>
<p id="body">웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [33]:
title = soup.find(id = 'title') 
#title = soup.find('h1') # 만약 h1 태그가 하나 뿐이라면 이렇게도 사용 가능

print("title :", title.string)

body = soup.find(id = 'body')

print("body :",body.string)

title : 스크레이핑이란?
body : 웹 페이지를 분석하는 것


# 여러개의 요소 추출하기

In [35]:
# Library
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam03.html"

# urlOpen
res = req.urlopen(url)

# BeautifulSoup으로 분석하기

soup = BeautifulSoup(res,"html.parser")
print(soup)

<html>
<head>
</head>
<body>
<ul>
<li><a href="http://www.naver.com">naver</a></li>
<li><a href="http://www.daum.net">daum</a></li>
</ul>
</body>
</html>


In [44]:
links = soup.find_all("a")
print(links)
for a in links:
    #print(a)
    text = a.string
    href = a.attrs['href'] # 하이퍼링크 가져오는 법
    print(text,">",href)


[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>]
naver > http://www.naver.com
daum > http://www.daum.net


### 기상청 RSS에서 필요한 정보만 추출하기

In [48]:
# Library
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109"

# urlOpen
res = req.urlopen(url)

print(type(res))
# BeautifulSoup으로 분석하기

soup = BeautifulSoup(res,"html.parser")
print(soup)

#print(soup.find_all('title'))

<class 'http.client.HTTPResponse'>
<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubdate>2022년 06월 24일 (금)요일 06:00</pubdate>
<item>
<author>기상청</author>
<category>육상중기예보</category>
<title>서울,경기도 육상 중기예보 - 2022년 06월 24일 (금)요일 06:00 발표</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp
<guid>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</guid>
<description>
<header>
<title>서울,경기도 육상중기예보</title>
<tm>202206240600</tm>
<wf><![CDATA[○ (강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. <br />○ (해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.<br /><br />* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠

In [52]:
title = soup.find('title')
wf = soup.find('wf')


In [56]:
print(wf.string)


○ (강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. <br />○ (해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.<br /><br />* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니, <br />  앞으로 발표되는 예보와 기상정보를 참고하기 바랍니다.


In [59]:
print(wf.string.replace("<br />","\n"))

○ (강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. 
○ (기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. 
○ (해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.

* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니, 
  앞으로 발표되는 예보와 기상정보를 참고하기 바랍니다.


In [60]:
temp = wf.string.replace("<br />","")
print(temp)

○ (강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. ○ (기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. ○ (해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니,   앞으로 발표되는 예보와 기상정보를 참고하기 바랍니다.


In [62]:
print(temp.replace("○","\n"))


 (강수) 27일(월) 오후~30일(목) 오전은 흐리고 비가 오겠습니다. 
 (기온) 이번 예보기간 아침 기온은 21~24도로 어제(23일, 아침최저기온 19~23도)와 비슷하거나 조금 높겠고, 낮 기온은 26~30도로 어제(낮최고기온 25~30도)와 비슷하겠습니다. 
 (해상) 서해중부해상의 물결은 27일(월)~30일(목)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.* 이번 예보기간에는 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 기간에도 대기불안정으로 소나기가 자주 내리는 곳이 있겠으니,   앞으로 발표되는 예보와 기상정보를 참고하기 바랍니다.


### CSS 선택자 사용하기
- BeautifulSoup는 자바스크립트 라이브러리인 JQuery처럼 CSS선택자를 지정해서 원하는 요소를 추출가능.

In [64]:
# Library
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam04.html"
# urlOpen
res = req.urlopen(url)

print(type(res))
# BeautifulSoup으로 분석하기

soup = BeautifulSoup(res,"html.parser")
print(soup)

#print(soup.find_all('title'))

<class 'http.client.HTTPResponse'>
<html>
<head>
</head>
<body>
<div id="meigen">
<h1>위키북스 도서</h1>
<ul class="items">
<li>유니티 게임 이펙트 입문</li>
<li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
<li>모던 웹사이트 디자인의 정석</li>
</ul>
</div>
</body>
</html>


In [68]:
# 필요한 부분을 CSS 쿼리로 추출하기 (#: id, .:class, > : 자식, 빈칸 : 후손)

h1 = soup.select_one("div#meigen > h1").string
print(h1)



위키북스 도서


In [89]:
li_list = soup.select("div#meigen > ul.items > li")
print(li_list)

[<li>유니티 게임 이펙트 입문</li>, <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>, <li>모던 웹사이트 디자인의 정석</li>]


In [90]:
for li in li_list:
    print(li.string)

유니티 게임 이펙트 입문
스위프트로 시작하는 아이폰 앱 개발 교과서
모던 웹사이트 디자인의 정석


---
# 네이버 금융에서 환율 정보 추출하기
- https://finance.naver.com/marketindex/

In [93]:
# 미국ㅎ 환율 정보 가져오기
# #exchangeList > li.on > a.head.usd > div > span.value
#soup.select_one("#exchangeList > li.on > a.head.usd > div > span.value").string

# Library
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://finance.naver.com/marketindex/"
# urlOpen
res = req.urlopen(url)

#print(type(res))

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
#print(soup)

#print(soup.find_all('title'))


In [137]:
# 데이터 추출하기
price = soup.select("#exchangeList > li.on > a.head > div > span.value")
print(price)


[<span class="value">1,297.50</span>]


# Excercise
: 미국, 일본, 유렵연합, 중국의 환율 가져오기


In [152]:
prices = soup.select("#exchangeList > li > a.head > div > span.value")
#prices = soup.select("#exchangeList span.value") 이렇게 해도 됨
nations = ['미국','일본','유럽연합','중국']
num = 0
for price in prices:
    print("{:<5}\t:{:>10}".format(nations[num],price.string.rjust(10)))
    num+=1

미국   	:  1,297.50
일본   	:    965.44
유럽연합 	:  1,365.88
중국   	:    193.82


In [158]:
# 쌤 코드
prices = soup.select("span.value") # 뒤에서 붙어 하나씩 붙이면서 확인
for price in prices:
    print(price.string)

1,297.50
965.44
1,365.88
193.82
134.4500
1.0528
1.2275
104.1900
104.27
2126.21
1826.3
76139.76


In [159]:
# Library
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://movie.daum.net/boxoffice/yearly"
# urlOpen
res = req.urlopen(url)

#print(type(res))

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")
#print(soup)



In [180]:

movieNames = soup.select("#mainContent > div > div.box_boxoffice > ol > li > div > div.thumb_cont > strong > a")

for i in range(0,len(movieNames)):
    print("%2i : %s"%(i+1,movieNames[i].string))


 1 : 스파이더맨: 노 웨이 홈
 2 : 모가디슈
 3 : 이터널스
 4 : 블랙 위도우
 5 : 분노의 질주: 더 얼티메이트
 6 : 싱크홀
 7 : 극장판 귀멸의 칼날: 무한열차편
 8 : 베놈 2: 렛 데어 비 카니지
 9 : 소울
10 : 크루엘라
11 : 샹치와 텐 링즈의 전설
12 : 인질
13 : 듄
14 : 보이스
15 : 007 노 타임 투 다이
16 : 미나리
17 : 발신제한
18 : 보스 베이비 2
19 : 콰이어트 플레이스 2
20 : 랑종
21 : 유체이탈자
22 : 컨저링3: 악마가 시켰다
23 : 기적
24 : 고질라 VS. 콩
25 : 킹스맨: 퍼스트 에이전트
26 : 엔칸토: 마법의 세계
27 : 연애 빠진 로맨스
28 : 장르만 로맨스
29 : 미션 파서블
30 : 더 수어사이드 스쿼드
31 : 비와 당신의 이야기
32 : 서복
33 : 킬러의 보디가드 2
34 : 루카
35 : 자산어보
36 : 내일의 기억
37 : 라야와 마지막 드래곤
38 : 프리 가이 
39 : 더 스파이
40 : 강릉
41 : 정글 크루즈
42 : 명탐정 코난: 비색의 탄환
43 : 캐시트럭
44 : 크루즈 패밀리: 뉴 에이지
45 : 이스케이프 룸 2: 노 웨이 아웃
46 : 극장판 포켓몬스터: 정글의 아이, 코코
47 : 극장판 짱구는 못말려: 격돌! 낙서왕국과 얼추 네 명의 용사들
48 : 매트릭스: 리저렉션
49 : 방법: 재차의
50 : 새해전야


In [185]:
list01 = [i.string for i in movieNames]
#list01

In [254]:
temp_imgs = soup.select("#mainContent > div > div.box_boxoffice > ol > li > div > div.thumb_item > div.poster_movie > img")
# imgs = [i.attrs["src"] for i in temp_imgs]
print(temp_imgs[0].contents)
temp_imgs[0].contents = [1,2,3]
print(temp_imgs[0].contents)
print(temp_imgs[0].get('alt'))
print(temp_imgs[0].attrs)

[1, 2, 3]
[1, 2, 3]
스파이더맨: 노 웨이 홈


KeyError: <class 'dict'>

In [212]:
import time
import urllib.request as req
from datetime import datetime, timedelta


In [219]:
str02 = str(datetime.now())
str02[0:19]

'2022-06-24 17:33:21'

In [222]:
num = 0
for i in imgs:    
    str02 = str(datetime.now())
    saveName = "../Data/"+ list01[num] + str02[0:19]+ '.jpg'
    num +=1
    req.urlretrieve(i, saveName)
    time.sleep(1)
print("OK")

OK


---
# 다음 IT News 많이 본 뉴스


In [2]:
# Library
from bs4 import BeautifulSoup
import urllib.request as req

# Site Address
url = "https://media.daum.net/digital/"
# urlOpen
res = req.urlopen(url)


# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res,"html.parser")



In [15]:
news = soup.select("body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li > strong > a")
print(news)


[<a class="link_txt" href="https://v.daum.net/v/20220627085247951">"아이폰14 프로 AOD, 새 잠금화면 위젯 지원"</a>, <a class="link_txt" href="https://v.daum.net/v/20220627084353713">6월에 출시한 디아블로 이모탈-우마무스메-미르M, 3개 작품의 인기 비결은?</a>, <a class="link_txt" href="https://v.daum.net/v/20220627084306688">화웨이, '100W 터보' 고속 충전 기술 탑재 폰 곧 공개</a>, <a class="link_txt" href="https://v.daum.net/v/20220627083421433">中 손목용 웨어러블 시장서 애플만 '나홀로' 성장</a>, <a class="link_txt" href="https://v.daum.net/v/20220627081901077">비트코인 팔아치우는 채굴자들.."바닥 가까워졌다는 신호?"</a>, <a class="link_txt" href="https://v.daum.net/v/20220627070045858">[단독]'각 세종'까지 찾았다..네이버 이해진의 남다른 '자국 데이터' 집념</a>, <a class="link_txt" href="https://v.daum.net/v/20220627070011815">[생활속 과학이야기]  달에 대한 상상과 우주탐사</a>, <a class="link_txt" href="https://v.daum.net/v/20220627065511751">"죽음 두려워요"..감정 AI 논쟁에 숨어든 빅테크의 속임수</a>, <a class="link_txt" href="https://v.daum.net/v/20220627065510749">카겜즈, 오딘-우마 '원투펀치' 완성..남궁훈도 인정한 조계현 대표의 '안목'</a>, <a class="link_txt" href="https://v.daum.net

In [17]:
for i in news:
    print(i.string)
    print(i['href'])

"아이폰14 프로 AOD, 새 잠금화면 위젯 지원"
https://v.daum.net/v/20220627085247951
6월에 출시한 디아블로 이모탈-우마무스메-미르M, 3개 작품의 인기 비결은?
https://v.daum.net/v/20220627084353713
화웨이, '100W 터보' 고속 충전 기술 탑재 폰 곧 공개
https://v.daum.net/v/20220627084306688
中 손목용 웨어러블 시장서 애플만 '나홀로' 성장
https://v.daum.net/v/20220627083421433
비트코인 팔아치우는 채굴자들.."바닥 가까워졌다는 신호?"
https://v.daum.net/v/20220627081901077
[단독]'각 세종'까지 찾았다..네이버 이해진의 남다른 '자국 데이터' 집념
https://v.daum.net/v/20220627070045858
[생활속 과학이야기]  달에 대한 상상과 우주탐사
https://v.daum.net/v/20220627070011815
"죽음 두려워요"..감정 AI 논쟁에 숨어든 빅테크의 속임수
https://v.daum.net/v/20220627065511751
카겜즈, 오딘-우마 '원투펀치' 완성..남궁훈도 인정한 조계현 대표의 '안목'
https://v.daum.net/v/20220627065510749
폭락장에 상장 나선 쏘카..창업주 이재웅 "최소 1년간 주식 안판다"
https://v.daum.net/v/20220627065027712


In [25]:
class abc:
    def __init__(self,num2 = 0):
        self.num1 = 10
        self.num2 = num2
    def __call__(self,num,**kwarg):
        self.n1 = dict({"a" : "b"})
        return print(num)
        

x = abc(1)
print(abc(1))
x(2)


<__main__.abc object at 0x7fdcae2c84f0>
2


In [54]:
class abc:
    def __init__(self,num2 = 0):
        self.num1 = 10
        self.num2 = num2
    def __call__(self,*num,**kwarg):
        self.n1 = dict({"a" : "b"})
        self.kw = kwarg
        return print(self.kw,self.kw.items(),num), print(type(self.kw.items()))
abc(1)(1,2,3,4,name="chris",nation='eng')


{'name': 'chris', 'nation': 'eng'} dict_items([('name', 'chris'), ('nation', 'eng')]) (1, 2, 3, 4)
<class 'dict_items'>


(None, None)

In [243]:
tp = dict({"a":"b"})
tp.items()
tp["a"]

'b'