In [1]:
from bs4 import BeautifulSoup

###### html 문자열 파싱
- 문자열로 정의된 html 데이터 파싱하기

In [2]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='loweer' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

###### find 함수
- 특정 html tag를 검색
- 검색 조건을 명시하여 찾고자하는 tag를 검색

In [4]:
soup = BeautifulSoup(html, "lxml")

In [5]:
soup.find('h3')

<h3 title="Good Content Title">Contents Title</h3>

In [6]:
soup.find('p')
#맨 처음에 발견한 p 태그를 찾음

<p>Test contents</p>

In [8]:
soup.find('div', custom='nice')
#custom 속성을 이용하여 특정 div를 찾음 단, class는 키워드이기때문에 class_이런 형식으로 해야지 검색할 수 있음

<div class="test" custom="nice" id="loweer">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

In [9]:
attrs = {'id':'upper', 'class':'test'}
soup.find('div', attrs=attrs)
#attrs를 이용하여 이 속성들을 가진 div를 찾을 수 있음

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

###### find_all 함수
- find가 조건에 만족하는 하나의 tag만 검색한다면, find_all은 조건에 맞는 모든 tag를 리스트로 반환

In [14]:
soup.find_all('div')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>, <div class="test" custom="nice" id="loweer">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

###### get_text 함수
- tag안의 value를 추출
- 부모tag의 경우, 모든 자식 tag의 value를 추출

In [15]:
tag = soup.find('h3')
print(tag)
tag.get_text()

<h3 title="Good Content Title">Contents Title</h3>


'Contents Title'

In [16]:
tag = soup.find('p')
print(tag)
tag.get_text()

<p>Test contents</p>


'Test contents'

In [18]:
tag = soup.find('div', id='upper')
print(tag)
tag.get_text().strip()
#부모태크에서 자식이 가지고 있는 모든 값들을 가져오는 경우를 말함

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


'Contents Title\nTest contents'

###### attribute 값 추출하기
- 경우에 따라 추출하고자 하는 값이 attribute에도 존재함
- 이 경우에는 검색한 tag에 attribute 이름을 []연산을 통해 추출가능
- 예) div.find('h3')['title']

In [19]:
tag = soup.find('h3')
print(tag)
tag['title']

<h3 title="Good Content Title">Contents Title</h3>


'Good Content Title'

In [20]:
import requests
from bs4 import BeautifulSoup

###### 다음 뉴스 데이터 추출
- 뉴스 기사에서 제목, 작성자, 작성일, 댓글 개수 추출
- 뉴스링크 : https://sports.v.daum.net/v/20200110115740130?d=y
- tag를 추출할 때는 가장 그 tag를 쉽게 특정할 수 있는 속성을 사용
- id의 경우 원칙적으로 한 html 문서 내에서 유일

##### id, class 속성으로 tag 찾기
- 타이틀
- 작성자, 작성일

In [21]:
url = 'https://sports.v.daum.net/v/20200110115740130?d=y'
resp = requests.get(url)

resp.text

'<!doctype html>\n<html lang="ko">\n <head> \n  <meta charset="utf-8"> \n  <title>호날두 어디에? 유벤투스 식사 불참..유럽 단거리 챔피언과 훈련 | 다음스포츠</title> \n  <meta http-equiv="X-UA-Compatible" content="IE=Edge"> \n  <meta name="referrer" content="always"> \n  <link rel="shortcut icon" href="//m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico"> \n  <style>\n@charset "utf-8";@font-face{font-family:\'Nanum Myeongjo\';font-style:normal;font-weight:400;src:url(//t1.daumcdn.net/media/news/news2016/font/NanumMyeongjo-Regular.eot);src:url(//t1.daumcdn.net/media/news/news2016/font/NanumMyeongjo-Regular.eot?#iefix) format(\'embedded-opentype\'),url(//t1.daumcdn.net/media/news/news2016/font/NanumMyeongjo-Regular.woff2) format(\'woff2\'),url(//t1.daumcdn.net/media/news/news2016/font/NanumMyeongjo-Regular.woff) format(\'woff\'),url(//t1.daumcdn.net/media/news/news2016/font/NanumMyeongjo-Regular.ttf) format(\'truetype\')}body,div,dl,dt,dd,ul,ol,li,h1,h2,h3,h4,h5,h6,pre,code,form,fieldset,legend,textarea,p,blockquote,th,

In [31]:
url = 'https://sports.v.daum.net/v/20200110115740130?d=y'
resp = requests.get(url)

soup = BeautifulSoup(resp.text, "lxml")
title = soup.find("h3", class_= "tit_view")
title.get_text()
#제목만 뽑기

'호날두 어디에? 유벤투스 식사 불참..유럽 단거리 챔피언과 훈련'

In [33]:
url = 'https://sports.v.daum.net/v/20200110115740130?d=y'
resp = requests.get(url)

soup = BeautifulSoup(resp.text, "lxml")

soup.find_all('span', class_='txt_info')[0]
soup.find_all('span', class_='txt_info')[1]

<span class="txt_info">입력 2020.01.10. 11:57</span>

In [34]:
url = 'https://sports.v.daum.net/v/20200110115740130?d=y'
resp = requests.get(url)

soup = BeautifulSoup(resp.text, "lxml")

info = soup.find('span', class_='info_view')
info.find('span', class_='txt_info')

<span class="txt_info">조용운</span>

In [36]:
url = 'https://sports.v.daum.net/v/20200110115740130?d=y'
resp = requests.get(url)

soup = BeautifulSoup(resp.text, "lxml")

container = soup.find('div', id='harmonyContainer')
contents=''
for p in container.find_all('p'):
    contents += p.get_text().strip()
    
contents

'[스포탈코리아] 조용운 기자= \'크리스티아누 호날두는 어디에?\'유벤투스 선수들이 신년을 맞아 식사 자리를 가졌다. 의기투합하는 성격의 자리로 보이는데 호날두의 모습을 찾을 수 없다.이탈리아 언론 \'코리엘레 델로 스포르트\'도 "유벤투스 선수들이 저녁을 함께했는데 호날두는 어디에 있는 걸까"라고 의문을 표했다. 레오나르도 보누치와 미랄렘 피야니치는 함께 모인 사진을 SNS 계정에 게재하며 \'패밀리\'라는 설명을 더했다.유벤투스 선수들이 모두 모여있을 때 호날두는 개인 훈련을 한 것으로 파악된다. 또 다른 언론 \'투토 스포르트\'는 "유벤투스는 지난 주말 칼리아리전을 이기고 선수들에게 짧은 휴식을 부여했다. 이 기간 호날두는 리스본을 방문한 것이 포착됐다"고 보도했다.호날두는 짧은 휴식기에도 훈련을 멈추지 않았다. 호날두는 2004 아테네올림픽 남자 100m 은메달리스트이자 유럽 단거리 최고 기록 보유자였던 프란시스 오비켈루(41)와 만난 것으로 알려졌다. 둘이 실내체육관으로 들어가는 모습이 공개되면서 훈련을 함께한 것으로 보고 있다.호날두는 지난해 여름에도 오비켈루에게 단거리 주행 기법과 기술 등에 조언을 구했다. 당시 호날두는 "오비켈루와 함께 훈련하는 것은 아주 좋은 경험이었다"라고 만족감을 표했고 올해 다시 만나 여전한 노력파다운 모습을 보여줬다.호날두는 최근에도 자신의 SNS에 근력 운동을 하는 모습을 공개했다. 30대 중반의 나이에도 완벽한 자기관리로 균형잡힌 몸매를 과시하면서 훈련 중독자라는 평가를 듣고 있다.사진=투토스포르트, 피야니치 SNS보도자료 및 취재문의 sportal@sportalkorea.co.kr'

###### CSS 이용하여 찾기
- select, select_one 함수 사용
- css selector 사용법
- 태그명 찾기 tag
- 자손 태그 찾기 - 자손관계(tag tag)
- wktlr xorm ckwrl - 다이렉트 자식 관계(tag > tag)
- 아이디 찾기#id
- 클래스 찾기 .class
- 속성값 찾기 [name='test']
- 속성값 prefix 찾기 [name^='test'] test로 시작하는 것만 가져옴
- 속성값 suffix 찾기 [name$='test'] test로 끝나는 것만 가져와
- 속성값 substring 찾기 [ name*='test'] test를 포함하는 모든 것을 가져와
- n번쨰 자식 tag찾기 : nth-chid(n)

In [72]:
url = 'https://sports.v.daum.net/v/20200110115740130?d=y'
resp = requests.get(url)

soup = BeautifulSoup(resp.text, 'lxml')
soup.select('h3')

[<h3 class="tit_view" data-translation="">호날두 어디에? 유벤투스 식사 불참..유럽 단거리 챔피언과 훈련</h3>,
 <h3 class="txt_newsview" data-reactid=".15zc0k0ilgf.0">많이본 뉴스</h3>,
 <h3 class="txt_newsview">이 시각 인기영상</h3>,
 <h3 class="txt_newsview">Daum 스포츠 칼럼</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 이슈</h3>]

In [58]:
soup.select('div#harmonyContainer p')
#div를 안써도 됨

[<p class="link_figure"><img class="thumb_g_article" dmcf-mid="jTxjsfMrfC" dmcf-mtype="image" height="360" src="https://t1.daumcdn.net/news/202001/10/sportalkr/20200110115741833bywf.jpg" width="650"/></p>,
 <p dmcf-pid="jQNweOqBJs" dmcf-ptype="general">[스포탈코리아] 조용운 기자= '크리스티아누 호날두는 어디에?'</p>,
 <p dmcf-pid="ji5zlyE943" dmcf-ptype="general">유벤투스 선수들이 신년을 맞아 식사 자리를 가졌다. 의기투합하는 성격의 자리로 보이는데 호날두의 모습을 찾을 수 없다.</p>,
 <p dmcf-pid="jxs4Bc5MZd" dmcf-ptype="general">이탈리아 언론 '코리엘레 델로 스포르트'도 "유벤투스 선수들이 저녁을 함께했는데 호날두는 어디에 있는 걸까"라고 의문을 표했다. 레오나르도 보누치와 미랄렘 피야니치는 함께 모인 사진을 SNS 계정에 게재하며 '패밀리'라는 설명을 더했다.</p>,
 <p dmcf-pid="jCkNwClJCl" dmcf-ptype="general">유벤투스 선수들이 모두 모여있을 때 호날두는 개인 훈련을 한 것으로 파악된다. 또 다른 언론 '투토 스포르트'는 "유벤투스는 지난 주말 칼리아리전을 이기고 선수들에게 짧은 휴식을 부여했다. 이 기간 호날두는 리스본을 방문한 것이 포착됐다"고 보도했다.</p>,
 <p dmcf-pid="jJNXMH85SQ" dmcf-ptype="general">호날두는 짧은 휴식기에도 훈련을 멈추지 않았다. 호날두는 2004 아테네올림픽 남자 100m 은메달리스트이자 유럽 단거리 최고 기록 보유자였던 프란시스 오비켈루(41)와 만난 것으로 알려졌다. 둘이 실내체육관으로 들어가는 모습이 공개되면서 훈련을 함께한 것으로 보고 있다.</p>,
 <p 

In [59]:
soup.select('h3.tit_view')
#.tit_view만 쓰면 tag관계없이 tit_view를 가지는 값만 가져오는 것임

[<h3 class="tit_view" data-translation="">호날두 어디에? 유벤투스 식사 불참..유럽 단거리 챔피언과 훈련</h3>]

In [60]:
soup.select('h3[class="tit_view"]')

[<h3 class="tit_view" data-translation="">호날두 어디에? 유벤투스 식사 불참..유럽 단거리 챔피언과 훈련</h3>]

In [61]:
soup.select('span.txt_info:nth-child(2)')

[]

###### 정규표현식으로 tag 찾기
- 타이틀
- 작성자, 작성일

In [62]:
import re

In [67]:
soup.find_all(re.compile('h\d'))

[<h1> <a class="link_daum #logo" href="http://www.daum.net/"> <img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/> </a> <a class="#service_sports" href="http://sports.media.daum.net/sports" id="kakaoServiceLogo"><span class="ir_wa">스포츠</span></a> </h1>,
 <h2 class="screen_out">검색</h2>,
 <h2 class="screen_out">스포츠 메인메뉴</h2>,
 <h2 class="screen_out" id="kakaoBody">해외축구</h2>,
 <h3 class="tit_view" data-translation="">호날두 어디에? 유벤투스 식사 불참..유럽 단거리 챔피언과 훈련</h3>,
 <h3 class="txt_newsview" data-reactid=".10l5rppcqvm.0">많이본 뉴스</h3>,
 <h3 class="txt_newsview">이 시각 인기영상</h3>,
 <h3 class="txt_newsview">Daum 스포츠 칼럼</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 이슈</h3>,
 <h2 class="screen_out">주요 메뉴 바로가기</h2>,
 <h2 class="screen_out">스포츠 이용정보</h2>]

In [70]:
soup.find_all('img', attrs={'src' : re.compile('.+\.png')})

[<img alt="송재우" class="thumb_g" src="https://t1.daumcdn.net/media/img-section/sports13/column/expert_110282.png"/>,
 <img alt="송재우" class="thumb_g" src="//t1.daumcdn.net/media/img-section/sports13/column/expert_118212.png"/>,
 <img alt="송재우" class="thumb_g" src="//t1.daumcdn.net/media/img-section/sports13/column/expert_110356.png"/>]

In [71]:
soup.find_all('h3', class_=re.compile('.+view$'))

[<h3 class="tit_view" data-translation="">호날두 어디에? 유벤투스 식사 불참..유럽 단거리 챔피언과 훈련</h3>,
 <h3 class="txt_newsview" data-reactid=".10l5rppcqvm.0">많이본 뉴스</h3>,
 <h3 class="txt_newsview">이 시각 인기영상</h3>,
 <h3 class="txt_newsview">Daum 스포츠 칼럼</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 이슈</h3>]

###### 댓글 개수 추출
- 댓글의 경우, 최초 로딩시에 전달되지 않음
- 이 경우는 추가적으로 AJAX로 비동기적 호출을 하여 따로 data 전송을 함
- 개발자 도구의 network 탭에서 확인(XHR: XmlHTTPRequest)
- 비동기적 호출 : 사이트의 전체가 아닌 일부분만 업데이트 가능하도록 함