### 학습목표
1. beautifulsoup 모듈 사용하기

In [1]:
from bs4 import BeautifulSoup

#### html 문자열 파싱
 - 문자열로 정의된 html 데이터 파싱하기

In [4]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

#### find 함수
 - 특정 html tag를 검색
 - 검색 조건을 명시하여 찾고자하는 tag를 검색

In [5]:
soup = BeautifulSoup(html)

In [6]:
soup.find('h3')

<h3 title="Good Content Title">Contents Title</h3>

In [11]:
soup.find_all('p')

[<p>Test contents</p>,
 <p>Test Test Test 1</p>,
 <p>Test Test Test 2</p>,
 <p>Test Test Test 3</p>]

In [9]:
soup.find('div', class_='test')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [10]:
attrs = {'id' : 'upper', 'class': 'test'}
soup.find('div', attrs=attrs)

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [12]:
tag = soup.find('h3')
tag.get_text()

'Contents Title'

In [13]:
tag = soup.find('p')
tag.get_text()

'Test contents'

In [14]:
tag = soup.find('div', id='upper')
print(tag)
tag.get_text().strip()

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


'Contents Title\nTest contents'

#### attribute 값 추출하기
 - 경우에 따라 추출하고자 하는 값이 attribute에도 존재함
 - 이 경우에는 검색한 tag에 attribute 이름을 [ ]연산을 통해 추출가능
 - 예) div.find('h3')['title']

In [15]:
tag = soup.find('h3')
print(tag)

<h3 title="Good Content Title">Contents Title</h3>


In [16]:
tag['title']

'Good Content Title'

1. beautifulsoup 모듈 사용하기
2. id, class 속성으로 tag 찾기
3. CSS를 이용하여 tag 찾기
4. 속성 값으로 tag 찾기
5. 정규표현식으로 tag 찾기
6. 개발자도구를 이용하여 동적으로 로딩되는 데이터 추출하기

In [17]:
import requests

In [20]:
url = 'https://n.news.naver.com/article/021/0002499955'
res = requests.get(url)

# res.text

In [21]:
soup = BeautifulSoup(res.text)
title = soup.find('h2', class_='media_end_head_headline')
title.get_text()

'17세 ‘틱톡 스타’ 작년 수익, 기업 CEO보다 많아…208억원 최고'

In [27]:
date = soup.find_all('span', class_='media_end_head_info_datestamp_time _ARTICLE_DATE_TIME')[0]
date.get_text()

'2022.01.14. 오후 2:21'

In [42]:
container = soup.find('div', id='dic_area')
contents =''
for p in container.find_all('b'):
  contents += p.get_text()

contents

'■ 포브스, 스타 7명 수입 조사총 660억원… 전년보다 3배↑모두 10대 후반서 20대 초반'

* CSS를 이용하여 tag 찾기
 - select, select_one함수 사용 
 - css selector 사용법
   - 태그명 찾기 tag 
   - 자손 태그 찾기 - 자손 관계 (tag tag)
   - 자식 태그 찾기 - 다이렉트 자식 관계 (tag > tag)
   - 아이디 찾기 #id
   - 클래스 찾기 .class
   - 속성값 찾기 [name='test']
     - 속성값 prefix 찾기 [name ^='test']
     - 속성값 suffix 찾기 [name $='test']
     - 속성값 substring 찾기 [name *='test]
   - n번째 자식 tag 찾기 :nth-child(n)

In [44]:
url = 'https://news.v.daum.net/v/20190728165812603'
res = requests.get(url)

soup = BeautifulSoup(res.text)
soup.select('h3')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

In [45]:
soup.select('#harmonyContainer p')

[<p class="link_figure"><img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" data-org-width="550" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="658"/></p>,
 <p>[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.</p>,
 <p>27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.</p>,
 <p class="link_figure"><img alt="(출처=일론 머스크 트위터 계정 캡쳐)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" data-org-width="550" dmcf-mid="NRhnb5SRpx" dmcf-mtype="image" height="

In [46]:
soup.select('.tit_view')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [49]:
soup.select('h3[class="tit_view"]')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [50]:
soup.select('h3[class$="_view"]')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [52]:
soup.select('span.txt_info:nth-child(1)')

[<span class="txt_info">이민우</span>]

* 정규표현식으로 tag 찾기

In [53]:
import re

In [54]:
soup.find_all(re.compile('h\d'))

[<h1> <a class="link_daum" href="https://www.daum.net"> <img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/> </a> <a href="//news.daum.net" id="kakaoServiceLogo"><span class="ir_wa">뉴스</span></a> </h1>,
 <h2 class="screen_out">검색</h2>,
 <h2 class="screen_out">뉴스 메인메뉴</h2>,
 <h2 class="screen_out" id="kakaoBody">IT</h2>,
 <h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h4 class="screen_out">기사 도구 모음</h4>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h2 class="tit_direct">바로가기</h2>,
 <h2 class="screen_out">서비스 이용정보</h2>]

In [56]:
soup.find_all('img', attrs={'src': re.compile('.+\.jpg')})

[<img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/>,
 <img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" data-org-width="550" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="658"/>]

In [57]:
soup.find_all('h3', class_=re.compile('.+newsview$'))

[<h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

* 댓글 개수 추출
 - 댓글의 경우, 최초 로딩시에 전달되지 않음
 - 이 경우는 추가적으로 AJAX로 비동기적 호출을 하여 따로 data 전송을 함
   - 개발자 도구의 network 탭에서 확인(XHR: XmlHTTPRequest)
   - 비동기적 호출: 사이트의 전체가 아닌 일부분만 업데이트 가능하도록 함