# BeautifulSoup
- 간단하게 HTML과 XML에서 정보를 추출

#### BeautifulSoup 기본 사용법

In [1]:
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam01.html"

response = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(response, "html.parser")
print(soup)

<html>
<head>
</head>
<body>
<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [6]:
# 원하는 부분 추출하기
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

# 글자 출력하기
print("h1 =", h1.get_text()) # string, text, get_text()
print("p1 =", p1.get_text()) # string, text, get_text()
print("p2 =", p2.get_text()) # string, text, get_text()

h1 = 스크레이핑이란?
p1 = 웹 페이지를 분석하는 것
p2 = 원하는 부분을 추출하는 것


## id로 찾는 방법

In [7]:
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam02.html"

response = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(response, "html.parser")
print(soup)

<html>
<head>
</head>
<body>
<h1 id="title">스크레이핑이란?</h1>
<p id="body">웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [10]:
# find()로 원하는 부분 추출하기
title = soup.find(id="title")
body = soup.find(id="body")

print("title :", title.string)
print("body :", body.text)

title : <h1 id="title">스크레이핑이란?</h1>
body : 웹 페이지를 분석하는 것


### 여러개의 요소 추출하기

In [11]:
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam03.html"

response = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(response, "html.parser")
print(soup)

<html>
<head>
</head>
<body>
<ul>
<li><a href="http://www.naver.com">naver</a></li>
<li><a href="http://www.daum.net">daum</a></li>
</ul>
</body>
</html>


In [18]:
links = soup.find_all("a")

for a in links:
  text = a.string 
  href = a.attrs['href']
  print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


# 기상청 

In [29]:
from bs4 import BeautifulSoup
import urllib.request as req 

# 기상청 RSS 사이트 주소
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109"

response = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(response, "html.parser")

title = soup.find("title").string
wf = soup.find("wf").string

print(title)
print(wf)

기상청 육상 중기예보
○ (하늘상태) 이번 예보기간은 구름많은 날이 많겠으나, 19일(월)~21일(수)은 흐리겠습니다.<br />○ (기온) 아침 기온은 23~27도, 낮 기온은 31~34도로 평년(최저기온 21~24도, 최고기온 29~32도)보다 조금 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.<br /><br />* 이번 예보기간 동안 최고체감온도가 35도 내외로 올라 무더위와 열대야가 나타나는 날이 많겠고, 대기 불안정으로 인한 소나기가 내릴 가능성이 있겠으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.




In [31]:
texts = wf.replace("다.", "다.\n")
texts = texts.split("<br />")
for t in texts:
  print(t)

○ (하늘상태) 이번 예보기간은 구름많은 날이 많겠으나, 19일(월)~21일(수)은 흐리겠습니다.

○ (기온) 아침 기온은 23~27도, 낮 기온은 31~34도로 평년(최저기온 21~24도, 최고기온 29~32도)보다 조금 높겠습니다.

○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


* 이번 예보기간 동안 최고체감온도가 35도 내외로 올라 무더위와 열대야가 나타나는 날이 많겠고, 대기 불안정으로 인한 소나기가 내릴 가능성이 있겠으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.



### CSS 선택자 사용하기
: BeautifulSoup은 자바스크립트 라이브러리인 JQuery처럼 CSS선택자를 지정해서 원하는 요소를 추출이 가능하다. 

In [32]:
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address
url = "https://zeushahn.github.io/Test/python/bs_exam04.html"

response = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(response, "html.parser")
print(soup)

<html>
<head>
</head>
<body>
<div id="meigen">
<h1>위키북스 도서</h1>
<ul class="items">
<li>유니티 게임 이펙트 입문</li>
<li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
<li>모던 웹사이트 디자인의 정석</li>
</ul>
</div>
</body>
</html>


In [36]:
# 필요한 부분을 CSS 쿼리로 추출하기
# (# : id, .:class, >:자식, 빈칸: 후손)

# 타이틀 부분 추출하기
h1 = soup.select_one("div#meigen > h1").string
print("h1:", h1)

# 목록 부분 여러개 추출하기
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
  print("li =", li.string)



h1: 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


### 네이버 금융에서 환율정보 추출하기
: https://finance.naver.com/marketindex/

In [38]:
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address
url = "https://finance.naver.com/marketindex/"

response = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(response, "html.parser")

# #exchangeList > li.on > a.head.usd > div > span.value
price = soup.select_one("#exchangeList > li.on > a.head.usd > div > span.value").string
print("usd/krw :", price)

usd/krw 1,366.00


### 다음 IT뉴스
https://media.daum.net/digital/

In [48]:
from bs4 import BeautifulSoup
import urllib.request as req 

# Site Address
url = "https://media.daum.net/digital/"

response = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(response, "html.parser")
a_list = soup.select("body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul a")
link_list = []

for a in a_list:
  # print(a)
  title = a.string
  href = a.attrs['href']
  link_list.append(href)
  print(href, ":", title)

https://v.daum.net/v/20240811120027009 : “제약업계, 고효능·저독성 유망 기술 ‘TPD’ 주목”
https://v.daum.net/v/20240811113843739 : 리니지M, 구글 매출 1위 탈환…주간 모바일게임 순위는
https://v.daum.net/v/20240811112811619 : 더존비즈온, KG그룹에 비즈니스 플랫폼 `옴니이솔` 공급
https://v.daum.net/v/20240811100624443 : 우주정거장 갇힌 ‘보잉 우주인’… 나사 “스페이스X로 귀환 검토”
https://v.daum.net/v/20240811105723148 : "민감정보 유출 주의"…마이크로소프트, 새 보안 취약점 공개
https://v.daum.net/v/20240811105412105 : 페르세우스 유성우, 10~12일 절정
https://v.daum.net/v/20240811090713655 : 엔비디아발 GPU 지연에 부각되는 `GPU 최적화 솔루션`?
https://v.daum.net/v/20240811100812469 : 피차이 "그가 없는 세상 상상 힘들어"...`유튜브 주역` 수전 워치츠키 별세
https://v.daum.net/v/20240811084433299 : 튀르키예, 아동 안전 문제로 로블록스 차단
https://v.daum.net/v/20240811091016696 : LG U+ ‘사운드바 블랙2’ 써보니.. 영화관 온 것 같네 [1일IT템]


In [49]:
print(link_list)

['https://v.daum.net/v/20240811120027009', 'https://v.daum.net/v/20240811113843739', 'https://v.daum.net/v/20240811112811619', 'https://v.daum.net/v/20240811100624443', 'https://v.daum.net/v/20240811105723148', 'https://v.daum.net/v/20240811105412105', 'https://v.daum.net/v/20240811090713655', 'https://v.daum.net/v/20240811100812469', 'https://v.daum.net/v/20240811084433299', 'https://v.daum.net/v/20240811091016696']
