In [1]:
from bs4 import BeautifulSoup

### html 문자열 파싱
- 문자열로 정의된 html 데이터 파싱하기
- 파싱 : 문자열 중에서 원하는 값을 추출한다는 뜻

In [3]:
#예제 html
html='''
<html>
<head>
<title>BeautifulSoup test</title>
</head>
<body>
<div id='upper' class='test' custom='good'>
<h3 title='Good Content Title'>Contents Title</h3>
<p>Test contents</p>
</div>
<div id='lower' class='test' custom='nice'>
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>
</body>
</html>'''

### find 함수
- 특정 html tag를 검색
- 검색 조건을 명시하여 찾고자 하는 tag를 검색
- 최초로 만족되는 결과값만을 출력
- 다중 출력될 여지가 있는 결과값에 대해 **세부적인 조건을 두어 결과 출력**
- 속성값에 대해 **추가적인 딕셔너리를 만들어 인자로 주는 것이 일반적**

In [5]:
soup=BeautifulSoup(html)
soup.find('h3')

<h3 title="Good Content Title">Contents Title</h3>

In [6]:
soup.find('p')

<p>Test contents</p>

In [8]:
soup.find('div', custom='nice')#세부 조건을 명시하여 검색 가능

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

In [9]:
soup.find('div',class_='test')#클래스를 이용한 검색 시 뒤에 언더바

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [11]:
attrs={'id':'lower','class':'test'} #딕셔너리 형태로 속성을 만드는 것이 일반적
soup.find('div',attrs=attrs)

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

### find_all 함수
- 조건에 맞는 모든 tag를 리스트 형태로 변환

In [12]:
soup.find_all('div')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>,
 <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

### get_text 함수
- 첫번째로 나온 태그 안의 value를 추출
- 부모 tag의 경우, 모든 자식 tag의 value를 추출
- strip를 이용하여 앞 뒤의 불필요한 내용을 제거할 수 있다.

In [13]:
tag=soup.find('h3')
print(tag)
tag.get_text()

<h3 title="Good Content Title">Contents Title</h3>


'Contents Title'

In [14]:
tag=soup.find('p')
print(tag)
tag.get_text()

<p>Test contents</p>


'Test contents'

In [15]:
tag=soup.find('div',id='upper')
print(tag)
tag.get_text().strip()#strip를 이용하여 앞뒤 불필요 내용을 제거

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


'Contents Title\nTest contents'

### attribute 값 추출하기
- 검색한 tag에 attribute 이름을 [] 연산을 통해 추출 가능
- ex) div.find('h3')['title']

In [19]:
tag=soup.find('h3')
print(tag)
tag['title'] #다음과 같은 형태로 속성 추출이 가능

<h3 title="Good Content Title">Contents Title</h3>


'Good Content Title'

## tag를 찾는 여러가지 방법
1. id, class 속성으로 tag 찾기
2. CSS를 이용하여 tag 찾기
3. 속성 값으로 tag 찾기
4. 정규표현식으로 tag 찾기
5. 개발자도구를 이용하여 동적으로 로딩되는 데이터 추출하기

In [41]:
# 속성으로 tag 찾기
import requests
url='https://news.v.daum.net/v/20190728165812603'
html=requests.get(url).text
titleattrs={
    'class':'tit_view', 'data-translation':'true'
}
soup=BeautifulSoup(html)
title=soup.find('h3',attrs=titleattrs)
arthor=soup.find('span',attrs={'class':'txt_info'})
date=soup.find('span',attrs={'class':'num_date'})
print(title.get_text())
print(arthor.get_text(),date.get_text())

일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"
이민우 2019. 07. 28. 16:58


In [38]:
arthordate=soup.find_all('span',class_='txt_info') #findall을 이용한 리스트 방법
print(arthordate[0].get_text(), arthordate[1].get_text()) #findall 이용

이민우 입력 2019. 07. 28. 16:58


In [40]:
info=soup.find('span',class_='info_view')
realarthor=info.find('span',class_='txt_info')#2중 참조를 해서도 가능
realdate=info.find('span',class_='num_date')
print(realinfo.get_text(),realdate.get_text())

이민우 2019. 07. 28. 16:58


In [50]:
#본문 찾기 과제
container=soup.find('div',id='harmonyContainer')
content=container.find_all('p')
for index in content:
    print(index.get_text())


[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.
27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.

테슬라가 이처럼 콘텐츠 방면으로 확장하려 든 것은 이번이 처음이 아니다. 지난달 세계 최대 게임쇼 E3에서는 이미 운전자가 '폴아웃 쉘터'라는 게임을 할 수 있을 것이라고 발표한 바 있다. 이후에도 최근 게임업체 아타리사(社)의 자동차 경주 게임 ‘폴포지션’, 슈팅게임 ‘템페스트’, ‘미사일커맨드’ 등 고전 게임을 제공하기도 했다. 운전대로 게임을 조작하는 방식으로, 차가 주차돼 있을 경우에만 즐길 수 있다.
이번 영상 콘텐츠는 주행 중에도 감상할 수 있도록 하는 방안을 고려하고 있다. 테슬라 측은 규제당국이 자율주행에 대해 완전히 승인하면 차량이 움직일 때에도 승객이 동영상을 즐길 수 있을 것이라고 설명했다.
하지만 아직까지 자율주행차의 안전에 대한 우려는 완전히 걷혀지지 않은 상황이다. 지난 2017년 차량공유 서비스 우버의 자율주행 시범차량이 보행자와 충돌한 사고가 발생한 바 있다. 게다가 당시 시험 운전자는 디즈니의 동영상 스트리밍 서비스인 '훌루'를 이용하고 있던 것으로 밝혀졌다.
이민우 기자 letzwin@asiae.co.kr
<ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제 무단전재 배포금지>


### CSS를 이용하여 tag 찾기
- select, select_one 함수 사용
- css selector 사용법
  - 태그명 찾기 tag
  - 자손 태그 찾기 - 자손 관계(tag tag)
  - 자식 태그 찾기 - 다이렉트 자식 관계(tag > tag)
  - 아이디 찾기 #id
  - 클래스 찾기 .class
  - 속성값 찾기 \[name='test'\]
    - 속성값 prefix 찾기 \[name ^= 'test'\]
    - 속성값 suffix 찾기 \[name $= 'test'\]
    - 속성값 substring 찾기 \[name \*= 'test' \]
  - n번째 자식 tag 찾기 : nth-child(n)
    - 1로 시작함에 유의

In [51]:
soup.select('h3')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

In [53]:
# 우물정(#)을 이용한 id 검색
print(soup.select('#harmonyContainer p')) # 우물정 태그가 붙은 건 id 검색을 의미
# harmonyContainer라는 아이디를 가지면서 p 태그인 모든 것들을 나타냄

[<p class="link_figure"><img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" data-org-width="550" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="658"/></p>,
 <p>[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.</p>,
 <p>27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.</p>,
 <p class="link_figure"><img alt="(출처=일론 머스크 트위터 계정 캡쳐)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813670hwxf.png" data-org-width="550" dmcf-mid="NRhnb5SRpx" dmcf-mtype="image" height="

In [55]:
print(soup.select('#harmonyContainer > p')) #다이렉트 자손 관계가 아니기 때문에 출력이 제대로 되지 않을 것

[<p data-translation="true">&lt;ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제 무단전재 배포금지&gt;</p>]


In [58]:
# .을 이용한 클래스 검색
soup.select('.tit_view')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [60]:
# 대괄호 []를 이용한 속성 검색
soup.select('h3[class="tit_view"]')

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>]

In [61]:
soup.select('h3[class^="t"]') #앞에 t 이름을 포함한 클래스 이름 검색

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

In [64]:
soup.select('h3[class$="w"]') #뒤에 w 이름을 포함한 클래스 이름 검색

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>]

In [68]:
soup.select('h3[class*="ti"]') # ti 문자열을 포함한 클래스 이름 검색

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>]

In [73]:
print(soup.select('span.txt_info:nth-child(2)')) #txt_info 클래스의 두 번째 자손을 찾기. 1로 시작
print(soup.select('span.txt_info')[1]) #작동방식은 이런 느낌과 같을 것

[<span class="txt_info">입력 <span class="num_date">2019. 07. 28. 16:58</span></span>]
<span class="txt_info">입력 <span class="num_date">2019. 07. 28. 16:58</span></span>


- 정규표현식을 이용하여 tag 찾아보기
- **키워드 내 텍스트로 다시 구분짓고 싶을 때 정규표현식을 사용해야 하는 듯 하다.**

In [76]:
import re
#h2와 h3를 동시에 찾고 싶다면 어떻게 해야할까?
soup.find_all(re.compile('h[23]')) #beautifulsoup에 re를 사용하고 싶다면 compile이 필수인 듯 하다.

[<h2 class="screen_out">검색</h2>,
 <h2 class="screen_out">뉴스 메인메뉴</h2>,
 <h2 class="screen_out" id="kakaoBody">IT</h2>,
 <h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">이 시각 추천뉴스</h3>,
 <h2 class="tit_direct">바로가기</h2>,
 <h2 class="screen_out">서비스 이용정보</h2>]

In [85]:
#특정 확장자만 가져오려면 어떻게 해야할까?
soup.find_all('img',src=re.compile('.+\.jpg'))

[<img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/>,
 <img alt="일론 머스크 테슬라 최고경영자(CEO) [이미지출처=로이터연합뉴스]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" data-org-width="550" dmcf-mid="NBMY3ZZhN4" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201907/28/akn/20190728165813230vjsq.jpg" width="658"/>]

In [88]:
soup.find_all('h3',class_=re.compile('tit.+')) #tit로 시작하는 모든 클래스 찾기

[<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>,
 <h3 class="tit_cp">아시아경제 주요 뉴스</h3>]