# BeautifulSoup 모듈
- 홈페이지 내 데이터를 쉽게 추출할 수 있게 해주는 파이썬 외부 라이브러리
- 웹 문서 내 수많은 HTML 태그들을 parser를 활용해 사용하기 편한 파이썬 객체로 만들어 제공
- 웹 문서 구조를 알고 있다면 편하게 데이터를 뽑아 활용할 수 있음

기존방식과의 차이점
- 정규 표현식, 문자열 함수 등을 활용하여 홈페이지 텍스트 내 패턴을 분석하여 하나씩 원하는 데이터를 찾아가는 형식
- BS는 HTML 문서를 태그를 기반으로 구조화하여 태그로 원하는 데이터를 찾아가는 형식


In [5]:
html_doc = """
<html lang="en">
<head><title>crawl</title></head>
<body>
<p class="a" align="center"> text1</p>
<p class="b" align="center"> text2</p>
<p class="c" align="center"> text3</p>
<div><img src="/source" width="300" height="200"></div>
</body>
</html>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc,'html.parser')

print(soup.prettify())

<html lang="en">
 <head>
  <title>
   crawl
  </title>
 </head>
 <body>
  <p align="center" class="a">
   text1
  </p>
  <p align="center" class="b">
   text2
  </p>
  <p align="center" class="c">
   text3
  </p>
  <div>
   <img height="200" src="/source" width="300"/>
  </div>
 </body>
</html>



In [12]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
h1 = soup.html.body.h1
p1 = soup.html.body.p

# p2 = p1.next_sibling 하나는 공백
p2 = p1.next_sibling.next_sibling

print(h1.string)
print(p1.string)
print(p2.string)

스크레이핑이란?
웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


## find
find() : HTML의 해당 태그에 대한 첫 번째 정보를 가져옴
- find(속성='값') : HTML 해당 속성과 일치하는 값에 대한 첫 번째 정보를 가져옴


In [15]:
html = """
<html><body>
  <h1 id ='title'>스크레이핑이란?</h1>
  <p id='body'>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""
#find 첫번째 태그를 반환
soup = BeautifulSoup(html,'html.parser')
title = soup.find(id='title')
body = soup.find(id='body')

# 태그 하위의 문자열을 객체화한다. 문자열이 없으면 None을 반환
print(title.string)
print(body.string)

# 하위 자식태그의 텍스트까지 문자열로 반환
print(title.text)
print(body.text)

# html 문서의 모든 텍스트를 추출
print(body.get_text()) 

스크레이핑이란?
웹 페이지를 분석하는 것
스크레이핑이란?
웹 페이지를 분석하는 것
웹 페이지를 분석하는 것


## findAll
find_all() : 
- HTML의 해당 태그에 대한 모든 정보를 리스트 형식으로 가져옴. limit 옵션으로 개수 지정 가능
- CSS 속성으로 필터링(class_로 클래스를 직접 사용 혹은 attrs에서 속성 = 값으로 필터링)


In [19]:
# findAll 조건에 해당되는 모든 태그를 리스트로 반환
# texts = soup.find_all('p') 도 동일

texts = soup.findAll('p')
# print(texts)

for t in texts:
    print(t.text)

웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


In [33]:
req = requests.get('https://naver.com')
html = req.text
# print(html)

soup = BeautifulSoup(html,'html.parser')

result = soup.find_all('span',class_='blind') # class과 예약어라 겹쳐서 _추가로 붙여준다.
result

[<span class="blind">네이버</span>,
 <span class="blind">쥬니어네이버</span>,
 <span class="blind">해피빈</span>,
 <span class="blind">검색</span>,
 <span class="blind">한글 입력기</span>,
 <span class="blind">자동완성 레이어</span>,
 <span class="blind">쇼핑</span>,
 <span class="blind">쇼핑LIVE</span>,
 <span class="blind">리스트형</span>,
 <span class="blind">썸네일형</span>,
 <span class="blind">설정</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="blind">닫기</span>,
 <span class="blind">닫기</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="blind">닫기</span>,
 <span class="blind">닫기</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="blind">다음</span>,
 <span class="blind">닫기</span>,
 <span class="blind">닫기</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="blind">닫기</span>,
 <span class="blind">닫기</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="bl

In [34]:
result = soup.find_all('span',class_='blind')[0]
result

#result = soup.find_all('a','api_link')

<span class="blind">네이버</span>

In [36]:
result = soup.find_all('span')
result

[<span>뉴스스탠드 바로가기</span>,
 <span>주제별캐스트 바로가기</span>,
 <span>타임스퀘어 바로가기</span>,
 <span>쇼핑캐스트 바로가기</span>,
 <span>로그인 바로가기</span>,
 <span class="_1syGnXOL _3VkgqBXB" data-clk="dropbanner1a" style="padding-right: 20px; font-size: 17px; color: black"><span>매일 쓰는 브라우저 보안이 걱정된다면, </span><strong>안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요.</strong></span>,
 <span>매일 쓰는 브라우저 보안이 걱정된다면, </span>,
 <span style="background-color: #0436c7">다운로드</span>,
 <span class="blind">네이버</span>,
 <span class="blind">쥬니어네이버</span>,
 <span class="blind">해피빈</span>,
 <span class="blind">검색</span>,
 <span class="ico_search_submit"></span>,
 <span class="blind">한글 입력기</span>,
 <span class="ico_keyboard"></span>,
 <span class="blind">자동완성 레이어</span>,
 <span class="ico_arr"></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="common_ico_kwd"><i class="imsc ico_search"></i></span>,
 <span>@txt@</span>,
 <span class="etc">
 <em class="date">@date@.</e

In [37]:
result = soup.find_all('span',class_='fix')
result

[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [38]:
result = soup.find_all('span',attrs={'class':'fix'}) # class를 딕셔너리로 지정
result

[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [39]:
import re

req = requests.get('https://naver.com')
soup = BeautifulSoup(html,'html.parser')

# find_all
print(soup.find_all(string='네이버'))

# 정규식
print(soup.find_all(string=re.compile('네이버')))

['네이버']
['네이버', '네이버를 시작페이지로', '쥬니어네이버', '언론사가 직접 편집한 뉴스들을 네이버 홈에서 바로 보실 수 있습니다.', '네이버 개발자 센터', '네이버 D2', '네이버 D2SF', '네이버 랩스', '네이버 정책 및 약관', '네이버 정책']


## urllib과 BeautifulSoup

In [3]:
# urlopen()과 BeautifulSoup의 조합

import warnings
warnings.filterwarnings('ignore')

from bs4 import BeautifulSoup
import urllib.request as req

# url 선언
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

# request로 url에 대한 응답값을 가져온다
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')

# title 태그의 문자열을 반환
title = soup.find('title').string

# 'wf' 첫번째 정보만 반환
wf = soup.find('wf').string

print(title,'\n')
print(wf)

기상청 육상 중기예보 

○ (강수) 26일(화)은 충청권과 남부지방에, 27일(수)은 수도권과 강원영서, 충남권, 전북에 소나기가 오는 곳이 있겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 22~25도, 낮 기온은 29~35도로 오늘(22일, 아침최저기온 22~25도, 낮최고기온 27~31도)보다 높겠습니다.<br /><br />* 27일(수)까지 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며, 소나기가 내리는 지역에서는 돌풍과 함께 천둥.번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


In [4]:
import requests
import re

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

data = requests.get(url).text
soup = BeautifulSoup(data,'html.parser')

wf = soup.find('wf').string

# wf에서 제외할 부분을 공백처리하여 wf에 저장하여 반환
wf = re.sub('[^0-9가-힣]',' ', wf)
wf

'   강수  26일 화 은 충청권과 남부지방에  27일 수 은 수도권과 강원영서  충남권  전북에 소나기가 오는 곳이 있겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 35도로 오늘 22일  아침최저기온 22 25도  낮최고기온 27 31도 보다 높겠습니다               27일 수 까지 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며  소나기가 내리는 지역에서는 돌풍과 함께 천둥 번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며  앞으로 발표되는 기상정보를 참고하기 바랍니다 '

#### 과제 0722
wf를 다시 정렬하여 불필요한 부분을 제거해서 아래와 같은 형식으로 출력하세요.
(정규표현식 이용)

In [7]:
import re
result = re.sub(' +',' ',wf)
result

' 강수 26일 화 은 충청권과 남부지방에 27일 수 은 수도권과 강원영서 충남권 전북에 소나기가 오는 곳이 있겠습니다 기온 이번 예보기간 아침 기온은 22 25도 낮 기온은 29 35도로 오늘 22일 아침최저기온 22 25도 낮최고기온 27 31도 보다 높겠습니다 27일 수 까지 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며 소나기가 내리는 지역에서는 돌풍과 함께 천둥 번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며 앞으로 발표되는 기상정보를 참고하기 바랍니다 '

In [28]:
texts = soup.find_all('wf')
# print(texts)

for t in texts:
    t = t.text
    t = re.sub('[^0-9가-힣]',' ',t)
    print(t, '\n')

   강수  27일 수 은 수도권과 강원영서에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 34도로 어제 21일  아침최저기온 20 24도  낮최고기온 23 32도 보다 높겠습니다               이번 예보기간 북태평양고기압의 발달 여부와 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며  정체전선의 영향권에서 벗어난 지역에도 대기 불안정으로 소나기가 내릴 가능성이 있겠으니  앞으로 발표되는 기상정보를 참고하기 바랍니다  

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많고 비 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

흐림 

흐림 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많고 비 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

흐림 

흐림 

구름많음 

구름많음 

흐림 

흐림 

구름많

## select
select_one(), select()
- CSS 선택자를 활용하여 원하는 정보를 가져옴(태그를 검색하는 find, find_all과 비슷함)
- class는 ., id는 #로 표시

In [41]:
import urllib.request as req

url = "https://finance.naver.com/marketindex/"

res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')

price = soup.select_one('div.head_info > span.value').string

print('usd/krw =', price)

usd/krw = 1,312.90


In [1]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [2]:
!pip install lxml



In [3]:
from bs4 import BeautifulSoup

# 객체 생성
bs = BeautifulSoup(html_doc, 'html.parser') # lxml

# 정렬
print(bs.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [4]:
bs.title

<title>The Dormouse's story</title>

In [5]:
bs.title.name

'title'

In [6]:
bs.title.parent.name

'head'

In [7]:
bs.p

<p class="title"><b>The Dormouse's story</b></p>

In [8]:
bs.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [9]:
bs.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [10]:
bs.find(id='link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [11]:
bs.a['class']

['sister']

In [12]:
for link in bs.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie
