## BeautifulSoup

In [1]:
import requests
from bs4 import BeautifulSoup

#### html 문자열 파싱

In [2]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

#### find 함수
 - 특정 html tag를 검색
 - 검색 조건을 명시하여 찾고자하는 tag를 검색

In [3]:
soup = BeautifulSoup(html)

In [4]:
soup.find('h3')

<h3 title="Good Content Title">Contents Title</h3>

In [5]:
soup.find('p')

<p>Test contents</p>

In [6]:
soup.find('div', class_='test')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [7]:
attrs = {'id': 'lower', 'class': 'test'}
soup.find('div', attrs=attrs)

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

#### find_all 함수
 - find가 조건에 만족하는 하나의 tag만 검색한다면, find_all은 조건에 맞는 모든 tag를 리스트로 반환

In [8]:
soup.find_all('div', class_='test')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>,
 <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

#### get_text 함수
 - tag안의 value를 추출
 - 부모tag의 경우, 모든 자식 tag의 value를 추출

In [9]:
tag = soup.find('h3')
print(tag)
tag.get_text()

<h3 title="Good Content Title">Contents Title</h3>


'Contents Title'

In [10]:
tag = soup.find('p')
print(tag)
tag.get_text()

<p>Test contents</p>


'Test contents'

In [11]:
tag = soup.find('div', id='upper')
print(tag)
tag.get_text().strip()

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


'Contents Title\nTest contents'

#### attribute 값 추출하기
 - 경우에 따라 추출하고자 하는 값이 attribute에도 존재함
 - 이 경우에는 검색한 tag에 attribute 이름을 [ ]연산을 통해 추출가능
 - 예) div.find('h3')['title']

In [12]:
tag = soup.find('h3')
print(tag)
tag['title']

<h3 title="Good Content Title">Contents Title</h3>


'Good Content Title'

#### 다음 뉴스 데이터 추출
 - 뉴스기사에서 제목, 작성자, 작성일
 , 댓글 개수 추출
 - [뉴스링크](https://news.v.daum.net/v/20190728165812603)
 - tag를 추출할때는 가장 그 tag를 쉽게 특정할 수 있는 속성을 사용
  - id의 경우 원칙적으로 한 html 문서 내에서 유일
  

* id, class 속성으로 tag 찾기
 - 타이틀
 - 작성자, 작성일

In [13]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)
resp

<Response [200]>

In [14]:
soup = BeautifulSoup(resp.text)
title = soup.find('h3', class_='tit_view')
title.get_text()

'일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"'

In [15]:
txt_info = soup.find_all('span', class_='txt_info')

print(txt_info[0])
print(txt_info[1])

<span class="txt_info">이민우</span>
<span class="txt_info">입력 2019.07.28. 16:58</span>


In [16]:
info = soup.find('span', class_='info_view')
info.find('span', class_='txt_info')

<span class="txt_info">이민우</span>

In [17]:
container = soup.find('div', id='harmonyContainer')
contents = ''
for p in container.find_all('p'):
    contents += p.get_text()
    
contents

'[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.테슬라가 이처럼 콘텐츠 방면으로 확장하려 든 것은 이번이 처음이 아니다. 지난달 세계 최대 게임쇼 E3에서는 이미 운전자가 \'폴아웃 쉘터\'라는 게임을 할 수 있을 것이라고 발표한 바 있다. 이후에도 최근 게임업체 아타리사(社)의 자동차 경주 게임 ‘폴포지션’, 슈팅게임 ‘템페스트’, ‘미사일커맨드’ 등 고전 게임을 제공하기도 했다. 운전대로 게임을 조작하는 방식으로, 차가 주차돼 있을 경우에만 즐길 수 있다.이번 영상 콘텐츠는 주행 중에도 감상할 수 있도록 하는 방안을 고려하고 있다. 테슬라 측은 규제당국이 자율주행에 대해 완전히 승인하면 차량이 움직일 때에도 승객이 동영상을 즐길 수 있을 것이라고 설명했다.하지만 아직까지 자율주행차의 안전에 대한 우려는 완전히 걷혀지지 않은 상황이다. 지난 2017년 차량공유 서비스 우버의 자율주행 시범차량이 보행자와 충돌한 사고가 발생한 바 있다. 게다가 당시 시험 운전자는 디즈니의 동영상 스트리밍 서비스인 \'훌루\'를 이용하고 있던 것으로 밝혀졌다.이민우 기자 letzwin@asiae.co.kr'

* CSS를 이용하여 tag 찾기
 - select, select_one함수 사용 
 - css selector 사용법
   - 태그명 찾기 tag 
   - 자손 태그 찾기 - 자손 관계 (tag tag)
   - 자식 태그 찾기 - 다이렉트 자식 관계 (tag > tag)
   - 아이디 찾기 #id
   - 클래스 찾기 .class
   - 속성값 찾기 [name='test']
     - 속성값 prefix 찾기 [name ^='test']
     - 속성값 suffix 찾기 [name $='test']
     - 속성값 substring 찾기 [name *='test]
   - n번째 자식 tag 찾기 :nth-child(n)

In [18]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

soup = BeautifulSoup(resp.text)
soup.select('h3')

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="txt_newsview" data-reactid=".fif5ha483m.0">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [19]:
# soup.select('div#harmonyContainer > p')   # tag#id

soup.select('#harmonyContainer  p')

[<p class="link_figure"><img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="366" src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="550"/></p>,
 <p>[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.</p>,
 <p>27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.</p>,
 <p class="link_figure"><img alt="(출처=일론 머스크 트위터 계정 캡쳐)" class="thumb_g_article" dmcf-mid="NRhnb5SRpx" dmcf-mtype="image" height="352" src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" width="550"/></p>,
 <p>테슬라가 이처럼 콘텐츠 방면으로 확장하려 든 것은 이번이 처음이 아니다. 지난달 세계 최대 게임쇼 E3에서는 이미 운전자가 '폴아웃 쉘터'라는 게임을 할 수 있을 것이라고 발표한 바 있다. 이후에도 최근 게임업체 아타리사(社)의 자동차 경주 게임 ‘폴포지션’, 슈팅게임 ‘템페스트

In [20]:
# 클래스 찾기 .class

# soup.select('h3.tit_view')
soup.select('.tit_view')

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [21]:
# 속성값 찾기 [name='test']

soup.select('h3[class="tit_view"]')

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [22]:
# 속성값 prefix

soup.select('h3[class^="t"]')
soup.select('h3[class^="tx"]')

[<h3 class="txt_newsview" data-reactid=".fif5ha483m.0">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [23]:
# 속성값 suffix

soup.select('h3[class$="view"]')
soup.select('h3[class$="_view"]')

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [24]:
# 속성값 substring

soup.select('h3[class*="view"]')

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="txt_newsview" data-reactid=".fif5ha483m.0">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [25]:
# n번째 자식 tag 찾기 :nth-child(n)

c1 = soup.select('span.txt_info:nth-child(1)')
c2 = soup.select('span.txt_info:nth-child(2)')

print(c1)
print(c2)

[<span class="txt_info">이민우</span>]
[<span class="txt_info">입력 2019.07.28. 16:58</span>]


* 정규표현식으로 tag 찾기

In [26]:
import re

In [27]:
soup.find_all(re.compile('h\d'))  # h1, h2, h3 ...

[<h1> <a class="link_daum" href="https://www.daum.net/"> <img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/> </a> <a href="https://news.daum.net/" id="kakaoServiceLogo"><span class="ir_wa">뉴스</span></a> </h1>,
 <h2 class="screen_out">검색</h2>,
 <h2 class="screen_out">뉴스 메인메뉴</h2>,
 <h2 class="screen_out" id="kakaoBody">IT</h2>,
 <h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="txt_newsview" data-reactid=".fif5ha483m.0">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>,
 <h2 class="tit_direct">바로가기</h2>,
 <h2 class="screen_out">서비스 이용정보</h2>]

In [28]:
# src 속성에 지정된 이미지 경로 추출

soup.find_all('img', attrs={'src': '.jpg'})

[]

In [29]:
soup.find_all('img', attrs={'src': re.compile('.+\.jpg')})

[<img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/>,
 <img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="366" src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="550"/>,
 <img alt="전남대 '1980년 전남대 총학생회와 박관현' 발간" class="thumb_g" src="https://img1.daumcdn.net/thumb/S288x280.q70/?fname=https://t1.daumcdn.net/news/202005/21/yonhap/20200521113058820yfig.jpg"/>,
 <img alt='[현장연결] 문희상 국회의장 퇴임.."평생 정치의 길"' class="thumb_g" src="https://img1.daumcdn.net/thumb/S288x280.q70/?fname=https://t1.daumcdn.net/news/202005/21/newsy/20200521110647061lfqv.jpg"/>,
 <img alt="" class="thumb_g" height="54" src="https://img1.daumcdn.net/thumb/S168x108.q70/?fname=https://t1.daumcdn.net/news/202005/21/NEWS1/20200521054503113wtdd.jpg" width="84"/>,
 <img alt="" class="thumb_g" height="54" src="https://img1.daumcdn.net/thumb/S168x108.q70/?fname=http

In [30]:
soup.find_all('h3', class_='tit_view')
soup.find_all('h3', class_=re.compile('.+newsview$'))

[<h3 class="txt_newsview" data-reactid=".fif5ha483m.0">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

* 댓글 개수 추출
 - 댓글의 경우, 최초 로딩시에 전달되지 않음
 - 이 경우는 추가적으로 AJAX로 비동기적 호출을 하여 따로 data 전송을 함
   - 개발자 도구의 network 탭에서 확인(XHR: XmlHTTPRequest)
   - 비동기적 호출: 사이트의 전체가 아닌 일부분만 업데이트 가능하도록 함