# BeautifulSoup
- 간단하게 HTML 과 XML 에서 정보를 추출 

In [2]:
# 설치 
# !pip install beautifulsoup4



BeautifulSoup 기본 사용법

In [6]:
import urllib.request as req
from bs4 import BeautifulSoup

# 사이트 주소 
url = "https://zeushahn.github.io/Test/python/bs_exam01.html"

# 가져오기 
res = req.urlopen(url)

# BeautifulSoup 으로 분석하기 
soup = BeautifulSoup(res, 'html.parser')
print(soup)

<html>
<head>
</head>
<body>
<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [14]:
# 원하는 부분 추출하기 
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

# 요소의 글자 추출하기 
print('h1:', h1.string)   # string, text, get_text()
print('p1 :', p1.string)
print('p2 :', p2.string)

h1: 스크레이핑이란?
p1 : 웹 페이지를 분석하는 것
p2 : 원하는 부분을 추출하는 것


In [20]:
# id로 요소 찾는 방법 
import urllib.request as req
from bs4 import BeautifulSoup

# 사이트 주소 
url = "https://zeushahn.github.io/Test/python/bs_exam02.html"

# 가져오기 
res = req.urlopen(url)

# BeautifulSoup 으로 분석하기 
soup = BeautifulSoup(res, 'html.parser')
print(soup)

<html>
<head>
</head>
<body>
<h1 id="title">스크레이핑이란?</h1>
<p id="body">웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body>
</html>


In [24]:
title = soup.find(id='title')
body = soup.find(id='body')

print("#title=", title.string)
print("#body=", body.string)

#title= 스크레이핑이란?
#body= 웹 페이지를 분석하는 것


### 여러개의 요소 추출하기

In [25]:
# id로 요소 찾는 방법 
import urllib.request as req
from bs4 import BeautifulSoup

# 사이트 주소 
url = "https://zeushahn.github.io/Test/python/bs_exam03.html"

# 가져오기 
res = req.urlopen(url)

# BeautifulSoup 으로 분석하기 
soup = BeautifulSoup(res, 'html.parser')
print(soup)

<html>
<head>
</head>
<body>
<ul>
<li><a href="http://www.naver.com">naver</a></li>
<li><a href="http://www.daum.net">daum</a></li>
</ul>
</body>
</html>


In [30]:
links = soup.find_all('a')
print(links)

for a in links:
  # print(a)
  text = a.string
  href = a.attrs['href']
  print(text, ">", href)


[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>]
naver > http://www.naver.com
daum > http://www.daum.net


### 기상청 RSS 중 필요한 정보만 추출하기

In [None]:
# import warnings


In [34]:
import urllib.request as req
from bs4 import BeautifulSoup

stnId ='109'
url = f"http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId={stnId}"
data = req.urlopen(url)

soup = BeautifulSoup(data, 'html.parser')
title = soup.find('title').string
wf = soup.find('wf').string

# 출력하기 
print(title)
print(wf)

기상청 육상 중기예보
○ (하늘상태) 이번 예보기간에는 대체로 흐리겠습니다.<br />○ (기온) 이번 예보기간 아침 기온은 18~22도, 낮 기온 26~30도로 평년(최저기온 18~20도, 최고기온 26~29도)과 비슷하거나 높겠습니다.<br />          한편, 일 최고체감온도가 30도 내외로 올라 무더운 곳이 많겠으니, 야외활동 시 건강관리에 각별히 유의하기 바랍니다.<br />○ (해상) 서해중부해상의 물결은 0.5~1.5m로 일겠습니다.<br />○ (주말전망) 22일(토)~23일(일)은 대체로 흐리겠습니다. 아침 기온은 20~22도, 낮 기온은 27~30도가 되겠습니다.<br /><br />* 이번 예보기간에는 제주도 부근에 위치한 정체전선과 저기압 등 우리나라 주변 기압계 흐름에 따라 예보 변동성이 크겠으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.


In [45]:
for i in wf.split("<br />"):
  print(i.replace("○","").replace(". ", ".\n"))

 (하늘상태) 이번 예보기간에는 대체로 흐리겠습니다.
 (기온) 이번 예보기간 아침 기온은 18~22도, 낮 기온 26~30도로 평년(최저기온 18~20도, 최고기온 26~29도)과 비슷하거나 높겠습니다.
          한편, 일 최고체감온도가 30도 내외로 올라 무더운 곳이 많겠으니, 야외활동 시 건강관리에 각별히 유의하기 바랍니다.
 (해상) 서해중부해상의 물결은 0.5~1.5m로 일겠습니다.
 (주말전망) 22일(토)~23일(일)은 대체로 흐리겠습니다.
아침 기온은 20~22도, 낮 기온은 27~30도가 되겠습니다.

* 이번 예보기간에는 제주도 부근에 위치한 정체전선과 저기압 등 우리나라 주변 기압계 흐름에 따라 예보 변동성이 크겠으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.


### CSS 선택자 사용하기
- Beautifulsoup 은 자바스크립트 라이브러리 인 JQuery 처럼 CSS 선택자를 지정해서 원하는 요소를 추출 가능 

In [46]:
import urllib.request as req
from bs4 import BeautifulSoup

# 사이트 주소 
url = "https://zeushahn.github.io/Test/python/bs_exam04.html"

# 가져오기 
res = req.urlopen(url)

# BeautifulSoup 으로 분석하기 
soup = BeautifulSoup(res, 'html.parser')
print(soup)

<html>
<head>
</head>
<body>
<div id="meigen">
<h1>위키북스 도서</h1>
<ul class="items">
<li>유니티 게임 이펙트 입문</li>
<li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
<li>모던 웹사이트 디자인의 정석</li>
</ul>
</div>
</body>
</html>


In [52]:
# 필요한 부분을  CSS 쿼리로 추출하기 
# (#: id, .:class, > : 자식, 빈칸 : 후손 )

#  타이틀 하나만 추출하기 
h1 = soup.select_one("div#meigen > h1").string
print("h1 = ",h1)


li_data =[]
for li in li_list:
  print(li.string)
  li_data.append(li.string)

print(li_data)
li_data2 = [li.string for li in li_list]
print(li_data2)


h1 =  위키북스 도서
[<li>유니티 게임 이펙트 입문</li>, <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>, <li>모던 웹사이트 디자인의 정석</li>]
유니티 게임 이펙트 입문
스위프트로 시작하는 아이폰 앱 개발 교과서
모던 웹사이트 디자인의 정석
['유니티 게임 이펙트 입문', '스위프트로 시작하는 아이폰 앱 개발 교과서', '모던 웹사이트 디자인의 정석']
['유니티 게임 이펙트 입문', '스위프트로 시작하는 아이폰 앱 개발 교과서', '모던 웹사이트 디자인의 정석']


In [5]:
# 라이브러리 불러오기 
import urllib.request as req
from bs4 import BeautifulSoup


# 사이트 주소 
url = "https://zeushahn.github.io/Test/python/bs_exam04.html"

# html Data 가져오기 
res = req.urlopen(url)


# BeautifulSoup 으로 분석하기 
soup = BeautifulSoup(res, 'html.parser')
print(soup)



<html>
<head>
</head>
<body>
<div id="meigen">
<h1>위키북스 도서</h1>
<ul class="items">
<li>유니티 게임 이펙트 입문</li>
<li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
<li>모던 웹사이트 디자인의 정석</li>
</ul>
</div>
</body>
</html>
h1 =  위키북스 도서


In [6]:

h1 = soup.select_one("div#meigen > h1").string
print("h1 = ",h1)

h1 =  위키북스 도서


In [10]:
li_list = soup.select('ul.items > li')

for li in li_list:
  print(li.string)



유니티 게임 이펙트 입문
스위프트로 시작하는 아이폰 앱 개발 교과서
모던 웹사이트 디자인의 정석


### 네이버 금융에서 환율 정보 추출하기 
- https://finance.naver.com/marketindex

In [16]:
# 미국 환율 가져오기 

import urllib.request as req
from bs4 import BeautifulSoup

url = "https://finance.naver.com/marketindex/"

# html Data 가져오기 
res = req.urlopen(url)


# BeautifulSoup 으로 분석하기 
soup = BeautifulSoup(res, 'html.parser')

# 데이터 추출하기 
price = soup.select_one('#exchangeList > li.on > a.head.usd > div > span.value')
print("usd/krw : ", price.string)




usd/krw :  1,381.00


In [32]:
# 미국, 일본, 유럽연합, 중국 환율 가져오기 

import urllib.request as req
from bs4 import BeautifulSoup

url = "https://finance.naver.com/marketindex/"

# html Data 가져오기 
res = req.urlopen(url)


# BeautifulSoup 으로 분석하기 
soup = BeautifulSoup(res, 'html.parser')

# 데이터 추출하기 ( li.on 에서 on 을 빼니까 값이 나옴 )
us_price = soup.select_one("#exchangeList > li > a.head.usd > div > span.value")
jp_price = soup.select_one("#exchangeList > li > a.head.jpy > div > span.value")   
eu_price = soup.select_one("#exchangeList > li > a.head.eur > div > span.value")
cn_price = soup.select_one("#exchangeList > li > a.head.cny > div > span.value")

print("usd/krw : ", us_price.string)
print("jpa/krw : ", jp_price.string)
print("eur/krw : ", eu_price.string)
print("cny/krw : ", cn_price.string)

print ("------------------------------------------")
# 다른방식으로 추출해 보기 
exchangeList = [ 'usd', 'jpy', 'eur', 'cny']

for li in exchangeList:
    price = soup.select_one(f"#exchangeList > li > a.head.{li} > div > span.value")
    print(f"{li}/krw :", price.string)

print ("------------------------------------------")
prices = soup.select('span.value')
contry = ['미국','일본','유럽연합','중국']

i = 0 
for price in prices:
    print(f"{contry[i]} : {price.string}")
    i+= 1
    if  i > len(contry)-1:
        break



usd/krw :  1,380.50
jpa/krw :  874.48
eur/krw :  1,484.04
cny/krw :  189.71
------------------------------------------
usd/krw : 1,380.50
jpy/krw : 874.48
eur/krw : 1,484.04
cny/krw : 189.71
------------------------------------------
미국 : 1,380.50
일본 : 874.48
유럽연합 : 1,484.04
중국 : 189.71


## 다음 IT News 많이 본 뉴스
- https://media.daum.net/digital

In [85]:
import urllib.request as req
from bs4 import BeautifulSoup

url = "https://media.daum.net/digital/"

# html Data 가져오기 
res = req.urlopen(url)

# BeautifulSoup 으로 분석하기 
soup = BeautifulSoup(res, 'html.parser')

a_list = soup.select("body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li a") # li의 후순 a 
# print(a_list)

for a in a_list:
  # print(a)
  href = a.attrs['href']
  title = a.string
  print(href, ":", title)





https://v.daum.net/v/20240619180220422 : 갤럭시 S-갤럭시 폴드, 왜 지문인식 방법이 다를까
https://v.daum.net/v/20240619175006925 : 美서는 안쓰는 기술인데…韓정부 전략에 우려 쏟아진 이유
https://v.daum.net/v/20240619170013140 : 커피 좋아하는 습관도 '유전'?
https://v.daum.net/v/20240619170002112 : UN '달 탐사 관련 국제 콘퍼런스'에 韓우주항공청 참여
https://v.daum.net/v/20240619173611466 : 생성AI-클라우드 기술독립 키워드 'AI-PaaS'..."韓 시장은 위축 중"
https://v.daum.net/v/20240619173346391 : 'AI폰 전초전' OS 업데이트 경쟁 뜨겁다
https://v.daum.net/v/20240619171923914 : 갤럭시북4 엣지, AI·배터리·발열 최소화는 '합격'…LoL은 언제 되나
https://v.daum.net/v/20240619171348741 : "AI 패권 전쟁, 韓기업 생존하려면 플랫폼 중심으로 관점 바꿔야"(종합)
https://v.daum.net/v/20240619155709776 : [동영상] MS는 못해도 팀왈도는 한다! 스타필드 한글화로 관심UP
https://v.daum.net/v/20240619170153252 : AI로 돌아가는 스마트시티…"도시 디지털 인프라 보안도 필수"
