In [69]:
from bs4 import BeautifulSoup
import requests
import re

In [3]:
html = '''
<html>
    <head>
        <title>BeautifulSoup test</title>
    </head>
    <body>
        <div id='upper' class='test' custom='good'>
            <h3 title='Good Content Title'>Contents Title</h3>
            <p>Test Contents</p>
        </div>
        <div id='lower' class='test' custom='nice'>
            <p>Test Test Test1</p>
            <p>Test Test Test2</p>
            <p>Test Test Test3</p>
        </div>
    </body>
</html>
'''

In [4]:
soup = BeautifulSoup(html)

In [6]:
soup.find('h3')

<h3 title="Good Content Title">Contents Title</h3>

In [8]:
soup.find('p')

<p>Test Contents</p>

In [9]:
soup.find('div')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test Contents</p>
</div>

In [11]:
soup.find('div', custom='nice')

<div class="test" custom="nice" id="lower">
<p>Test Test Test1</p>
<p>Test Test Test2</p>
<p>Test Test Test3</p>
</div>

In [12]:
soup.find('div', id='lower')

<div class="test" custom="nice" id="lower">
<p>Test Test Test1</p>
<p>Test Test Test2</p>
<p>Test Test Test3</p>
</div>

In [14]:
soup.find('div', id='upper')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test Contents</p>
</div>

In [15]:
soup.find('div', class_ ='test')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test Contents</p>
</div>

In [16]:
attrs = {'id' : 'upper', 'class': 'test'}
soup.find('div', attrs = attrs)

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test Contents</p>
</div>

In [17]:
soup.find_all('div')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test Contents</p>
 </div>, <div class="test" custom="nice" id="lower">
 <p>Test Test Test1</p>
 <p>Test Test Test2</p>
 <p>Test Test Test3</p>
 </div>]

In [18]:
soup.find_all('div', class_='test')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test Contents</p>
 </div>, <div class="test" custom="nice" id="lower">
 <p>Test Test Test1</p>
 <p>Test Test Test2</p>
 <p>Test Test Test3</p>
 </div>]

In [20]:
tag = soup.find('h3')
tag.get_text()

'Contents Title'

In [21]:
tag = soup.find('p')
tag.get_text()

'Test Contents'

In [23]:
tag = soup.find('div', id='upper')
tag.get_text().strip()

'Contents Title\nTest Contents'

In [25]:
tag = soup.find('h3')
print(tag)
tag['title']

<h3 title="Good Content Title">Contents Title</h3>


'Good Content Title'

In [32]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

soup = BeautifulSoup(resp.text)
title = soup.find('h3', class_='tit_view')
title.get_text()

'일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"'

In [43]:
info = soup.find('span', class_='info_view')
txt_info = info.find_all('span', class_='txt_info')
txt_info

[<span class="txt_info">이민우</span>,
 <span class="txt_info">입력 2019.07.28. 16:58</span>]

In [46]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

soup = BeautifulSoup(resp.text)

container = soup.find('div', id='harmonyContainer')
contents = ''
for p in container.find_all('p'):
    contents += p.get_text().strip()

contents

'[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.테슬라가 이처럼 콘텐츠 방면으로 확장하려 든 것은 이번이 처음이 아니다. 지난달 세계 최대 게임쇼 E3에서는 이미 운전자가 \'폴아웃 쉘터\'라는 게임을 할 수 있을 것이라고 발표한 바 있다. 이후에도 최근 게임업체 아타리사(社)의 자동차 경주 게임 ‘폴포지션’, 슈팅게임 ‘템페스트’, ‘미사일커맨드’ 등 고전 게임을 제공하기도 했다. 운전대로 게임을 조작하는 방식으로, 차가 주차돼 있을 경우에만 즐길 수 있다.이번 영상 콘텐츠는 주행 중에도 감상할 수 있도록 하는 방안을 고려하고 있다. 테슬라 측은 규제당국이 자율주행에 대해 완전히 승인하면 차량이 움직일 때에도 승객이 동영상을 즐길 수 있을 것이라고 설명했다.하지만 아직까지 자율주행차의 안전에 대한 우려는 완전히 걷혀지지 않은 상황이다. 지난 2017년 차량공유 서비스 우버의 자율주행 시범차량이 보행자와 충돌한 사고가 발생한 바 있다. 게다가 당시 시험 운전자는 디즈니의 동영상 스트리밍 서비스인 \'훌루\'를 이용하고 있던 것으로 밝혀졌다.이민우 기자 letzwin@asiae.co.kr'

In [48]:
url = 'https://news.v.daum.net/v/20190728165812603'
resp = requests.get(url)

soup = BeautifulSoup(resp.text)

soup.select('h3')


[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 이슈</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [52]:
soup.select('div#harmonyContainer')
soup.select('#harmonyContainer p') # 자손 태그 : 안에 있는거 다

soup.select('#harmonyContainer > p') # 자식 태그 : 바로 한 단계 아래

[]

In [54]:
soup.select('h3.tit_view')

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [55]:
soup.select('.tit_view')

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [57]:
soup.select('.txt_info')

[<span class="txt_info">이민우</span>,
 <span class="txt_info">입력 2019.07.28. 16:58</span>]

In [58]:
soup.select('h3[class="tit_view"]')

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [60]:
soup.select('h3[class^="tx"]') # 시작 문자

[<h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 이슈</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [61]:
soup.select('h3[class$="view"]') # 끝 문자

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 이슈</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [62]:
soup.select('h3[class$="_view"]')

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [63]:
soup.select('h3[class*="view"]') # 모든 문자

[<h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 이슈</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [67]:
soup.select('span.txt_info:first-child')

[<span class="txt_info">이민우</span>]

In [68]:
soup.select('span.txt_info:nth-child(1)')

[<span class="txt_info">이민우</span>]

In [70]:
soup.find_all(re.compile('h\d'))

[<h1> <a class="link_daum" href="https://www.daum.net/"> <img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/> </a> <a href="https://media.daum.net/" id="kakaoServiceLogo"><span class="ir_wa">뉴스</span></a> </h1>,
 <h2 class="screen_out">검색</h2>,
 <h2 class="screen_out">뉴스 메인메뉴</h2>,
 <h2 class="screen_out" id="kakaoBody">IT</h2>,
 <h3 class="tit_view" data-translation="">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 이슈</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>,
 <h2 class="tit_direct">바로가기</h2>,
 <h2 class="screen_out">서비스 이용정보</h2>]

In [74]:
soup.find_all('img', attrs= {'src': re.compile('.+\.png')})

[<img alt="(출처=일론 머스크 트위터 계정 캡쳐)" class="thumb_g_article" dmcf-mid="NRhnb5SRpx" dmcf-mtype="image" height="352" src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" width="550"/>]

In [78]:
soup.find_all('h3', class_=re.compile('.+newsview$'))

[<h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 이슈</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [86]:
url  = 'https://comment.daum.net/apis/v1/posts/@20190728165812603'

headers = {
    'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJncmFudF90eXBlIjoiYWxleF9jcmVkZW50aWFscyIsInNjb3BlIjpbXSwiZXhwIjoxNTY1MDE4NDYwLCJhdXRob3JpdGllcyI6WyJST0xFX0NMSUVOVCJdLCJqdGkiOiJhMTViMzExOC04ZTYzLTQxOTEtYWE0Ny1iMjk2NWM5YTg3YjkiLCJjbGllbnRfaWQiOiIyNkJYQXZLbnk1V0Y1WjA5bHI1azc3WTgifQ.QOOeeOSHfGsxixOdN0rnJal3ASZdmjJ6mnIvy_xgp5k',
'Origin': 'https://news.v.daum.net',
'Referer': 'https://news.v.daum.net/v/20190728165812603',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}

resp = requests.get(url, headers=headers)
resp.json()['commentCount']

44