## BeautifulSoup
- HTML과 XML에서 정보 추출

In [None]:
!pip install beautifulsoup4

In [1]:
#라이브러리 읽어 들이기
from bs4 import BeautifulSoup
import urllib.request as req

In [2]:
#분석하고 싶은 HTML
html = """
<html><body>
<h1 id="title">스크레이핑이란</h1>
<p id="body">웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body></html>
"""

In [3]:
#HTML 분석하기
soup = BeautifulSoup(html, 'html.parser')
soup


<html><body>
<h1 id="title">스크레이핑이란</h1>
<p id="body">웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body></html>

### - 태그 사용
- . (점) 연산자로 연결

In [4]:
#원하는 부분 추출하기
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

In [5]:
# 요소의 글자 출력하기
print("h1 = "+h1.text)
print("p = "+p1.string)
print("p =" +p2.string)

h1 = 스크레이핑이란
p = 웹 페이지를 분석하는 것
p =원하는 부분을 추출하는 것


### - id 요소 사용 
- find(id=값)

In [6]:
# id로 요소를 찾는 방법
title = soup.find(id="title")
body = soup.find(id="body")

#텍스트 부분 출력하기
print("#title="+title.string)
print("#body="+body.string)

#title=스크레이핑이란
#body=웹 페이지를 분석하는 것


### 태그와 속성 
- find_all(태그)
- 태그.attrs[속성명]

In [7]:
html2 = """
<html><body>
<ul>
<li><a href = "http://www.naver.com">naver</a></li>
<li><a href = "http://www.daum.net">daum</a></li>
</ul>
</body></html>
"""

soup = BeautifulSoup(html2, 'html.parser')

links = soup.find_all("a")

for a in links :
    href = a.attrs['href']
    text = a.string
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


### 기상청 RSS에서 데이터 가져오기

In [8]:
res = req.urlopen('http://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp')
soup = BeautifulSoup(res, 'html.parser')
soup

<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubdate>2019년 01월 24일 (목)요일 06:00</pubdate>
<item>
<author>기상청</author>
<category>육상중기예보</category>
<title>전국 육상 중기예보 - 2019년 01월 24일 (목)요일 06:00 발표</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<guid>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</guid>
<description>
<header>
<title>전국 육상중기예보</title>
<tm>201901240600</tm>
<wf><![CDATA[기압골의 영향으로 28일에는 서울.경기도와 강원영서에 눈이, 31일에는 전국에 비 또는 눈이 오겠습니다. <br />기온은 평년(최저기온: -12~-1℃, 최고기온: 1~8℃)과 비슷하거나 조금 높겠습니다.<br />강수량은 평년(0~3mm)과 비슷하거나 조금 많겠습니다.<br /><br />* 30일까지 대체로 맑은 날씨가 이어지면서 대기가 매우 건조해지겠으니, 산불 등 각종 화재예방에 각별히 유의하기 바랍니다.]]></wf>
</header>
<body>
<location wl_ver="3">
<province>서울ㆍ인천ㆍ경기도</province>
<city>서울</city>
<data>
<mode>A02</mode>
<tmef>2019-01-27 00:00</tmef>
<

In [9]:
#원하는 데이터 추출하기
title = soup.find("title").text
wf = soup.find("wf").text
print(title)
print(wf)

기상청 육상 중기예보
기압골의 영향으로 28일에는 서울.경기도와 강원영서에 눈이, 31일에는 전국에 비 또는 눈이 오겠습니다. <br />기온은 평년(최저기온: -12~-1℃, 최고기온: 1~8℃)과 비슷하거나 조금 높겠습니다.<br />강수량은 평년(0~3mm)과 비슷하거나 조금 많겠습니다.<br /><br />* 30일까지 대체로 맑은 날씨가 이어지면서 대기가 매우 건조해지겠으니, 산불 등 각종 화재예방에 각별히 유의하기 바랍니다.
