## Beautifulsoup Module 사용 (HTML Parsing)

### 1) find 함수 
* 특정 HTML 태그 검색

In [None]:
from bs4 import BeautifulSoup

In [None]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

In [None]:
soup = BeautifulSoup(html)

soup.find('h3')

#soup.find('div', custom='nice')
soup.find('div', id='upper')
soup.find('div', class_='test')


## 여러가지 속성 검색하기
attrs = {'id' : 'upper', 'class' : 'test'}
soup.find('div', attrs)

### 2) find_all 함수
* 조건에 맞는 모든 태그 검색
* 결과는 **List 형태로 반환**

In [None]:
soup.find_all('div')

### 3) get_text 함수
* tag 안의 Value 값 추출
* 부모 태그일 경우, 자식 태그의 Value까지 가져옴

In [None]:
tag = soup.find('h3')
print(tag)
tag.get_text()

In [None]:
tag = soup.find('p')
print(tag)
tag.get_text()

In [None]:
tag = soup.find('div', id='upper')
print(tag)
tag.get_text()

### 5) Attribute 값 추출
* 추출 대상이 속성값일 경우 사용
* 검색한 태그에 **attribute 이름을 []연산**을 통해 추출

In [None]:
tag = soup.find('h3')
print(tag)
tag['title']

In [None]:
## 여러가지 속성 검색하기
attrs = {'id' : 'upper', 'class' : 'test'}
soup.find('div', attrs)

### 다음 뉴스 데이터 추출 실습

In [1]:
import requests
from bs4 import BeautifulSoup

In [None]:
url = 'https://news.v.daum.net/v/20200826203108883'

resp = requests.get(url)
soup = BeautifulSoup(resp.text)

title = soup.find('h3', class_='tit_view')
name = soup.find('span', class_='txt_info')
create_time = soup.find('span', class_='num_date')

print("title : ", title.get_text())
print("name", name.get_text())
print("create_time", create_time.get_text())

container = soup.find('div', id='harmonyContainer')
contents = ''

for p in container.find_all('p'):
    contents += p.get_text()

print(contents)

## CSS 태그를 이용한 추출

#### select, select_one 함수 사용
* 태그명 찾기
* 자손 (하위 아래 모든 태그) 태그 찾기 : **tag tag** 
* 자식 (바로 하위에 위치한 태그) 태그 찾기 : **tag > tag**
* ID명 검색 : **#**id
* Class명 검색 **.**class

* 속성값 찾기 [name='test']
    * prefix : [name ^= 'test']
    * subfix : [name $= 'test']
    * substring : [name *= 'test']
    

In [3]:
url = 'https://news.v.daum.net/v/20200826203108883'

resp = requests.get(url)
soup = BeautifulSoup(resp.text)

soup.select('h3') # h3으로 시작하는 모든 태그 추출

[<h3 class="tit_view" data-translation="true">"마스크 안 써" 난동 부리다 또 구속.."엄정 대응"</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [None]:
# ID값이 harmonyContainer에 속하는 하위 태그들 중, p 태그인 자손 태그
soup.select('#harmonyContainer p')

#### class명 및 attribute 추출

In [11]:
soup.select('h3.tit_view') # h3 태그의 class명이 tit_view 인 것
soup.select('.tit_view') #태그와 상관없이 class명으로만 찾음

soup.select('h3[class="tit_view"]')

soup.select('h3[class^="txt"]') ## prefix

soup.select('h3[class$="view"]') ## subfix

soup.select('h3[class*="xt"]') ## subfix

[<h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]

In [15]:
## 여러 값중 
soup.select('span.txt_info:nth-child(1)')

[<span class="txt_info">이지수M</span>]

## 정규표현식을 이용한 파싱
* re Module을 이용한 find_all 함수 사용

In [16]:
import re

In [19]:
soup.find_all(re.compile('h\d'))

[<h1> <a class="link_daum" href="https://www.daum.net"> <img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/> </a> <a href="https://news.daum.net" id="kakaoServiceLogo"><span class="ir_wa">뉴스</span></a> </h1>,
 <h2 class="screen_out">검색</h2>,
 <h2 class="screen_out">뉴스 메인메뉴</h2>,
 <h2 class="screen_out" id="kakaoBody">사회</h2>,
 <h3 class="tit_view" data-translation="true">"마스크 안 써" 난동 부리다 또 구속.."엄정 대응"</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>,
 <h2 class="tit_direct">바로가기</h2>,
 <h2 class="screen_out">서비스 이용정보</h2>]

In [23]:
soup.find_all('img', attrs={"src" : re.compile('\.gif')})
soup.find_all('img', attrs={"src" : re.compile('\.jpg')})

[<img alt="Daum" class="thumb_g" height="19" src="//t1.daumcdn.net/media/news/news2016/retina/logo_daum.jpg" width="45"/>]

In [24]:
soup.find_all('h3', class_=re.compile('.+view$'))

[<h3 class="tit_view" data-translation="true">"마스크 안 써" 난동 부리다 또 구속.."엄정 대응"</h3>,
 <h3 class="txt_newsview">많이본 뉴스</h3>,
 <h3 class="txt_newsview">포토&amp;TV</h3>,
 <h3 class="txt_newsview">실시간 주요이슈</h3>]