## Beautifulsoup Module 사용 (HTML Parsing)

### 1) find 함수 
* 특정 HTML 태그 검색

In [2]:
from bs4 import BeautifulSoup

In [8]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

In [21]:
soup = BeautifulSoup(html)

soup.find('h3')

#soup.find('div', custom='nice')
soup.find('div', id='upper')
soup.find('div', class_='test')


## 여러가지 속성 검색하기
attrs = {'id' : 'upper', 'class' : 'test'}
soup.find('div', attrs)

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

### 2) find_all 함수
* 조건에 맞는 모든 태그 검색
* 결과는 **List 형태로 반환**

In [20]:
soup.find_all('div')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>, <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

### 3) get_text 함수
* tag 안의 Value 값 추출
* 부모 태그일 경우, 자식 태그의 Value까지 가져옴

In [24]:
tag = soup.find('h3')
print(tag)
tag.get_text()

<h3 title="Good Content Title">Contents Title</h3>


'Contents Title'

In [26]:
tag = soup.find('p')
print(tag)
tag.get_text()

<p>Test contents</p>


'Test contents'

In [30]:
tag = soup.find('div', id='upper')
print(tag)
tag.get_text()

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


'\nContents Title\nTest contents\n'

### 5) Attribute 값 추출
* 추출 대상이 속성값일 경우 사용
* 검색한 태그에 **attribute 이름을 []연산**을 통해 추출

In [33]:
tag = soup.find('h3')
print(tag)
tag['title']

<h3 title="Good Content Title">Contents Title</h3>


'Good Content Title'

In [None]:
## 여러가지 속성 검색하기
attrs = {'id' : 'upper', 'class' : 'test'}
soup.find('div', attrs)

### 다음 뉴스 데이터 추출 실습

In [10]:
import requests
from bs4 import BeautifulSoup

In [26]:
url = 'https://news.v.daum.net/v/20200826203108883'

resp = requests.get(url)
soup = BeautifulSoup(resp.text)

title = soup.find('h3', class_='tit_view')
name = soup.find('span', class_='txt_info')
create_time = soup.find('span', class_='num_date')

print("title : ", title.get_text())
print("name", name.get_text())
print("create_time", create_time.get_text())

container = soup.find('div', id='harmonyContainer')
contents = ''

for p in container.find_all('p'):
    contents += p.get_text()

print(contents)

title :  "마스크 안 써" 난동 부리다 또 구속.."엄정 대응"
name 이지수M
create_time 2020.08.26. 20:31
repl 0
[뉴스데스크] ◀ 앵커 ▶경기도의 한 시내버스에서 마스크를 쓰지 않은 채 20분 동안 난동을 부린 한 승객이 구속 되는 일이 있었습니다.요즘 같이 엄중한 상황에서 마스크 하나 쓰는게 어려운 일은 아니죠?경찰이 엄정 대응 하겠다고 밝혔습니다. 이지수 기자가 취재 했습니다.◀ 리포트 ▶지난 23일 오후 경기도 수원의 한 버스정류장.러닝 셔츠 차림의 50대 남성이 시내버스에 올라타 자리에 앉습니다.잠시 뒤, 이 남성은 마스크를 턱까지 내리더니 건너편 여성에게 삿대질을 합니다.시비가 붙자 여성에게 다가가 주먹으로 때리는 시늉까지 합니다.이유는 자신을 쳐다봤다는 것.다른 남자 승객이 말리자 주춤하나 싶더니 다시 주먹을 휘두르며 위협합니다.운전기사가 "난동을 멈추고 마스크도 써달라"고 요청했지만, 아랑곳하지 않습니다.난동은 버스 앞뒤를 옮겨다니며 무려 18분이나 계속됐습니다. [손상경/수원중부경찰서 형사과장] "(가해자는) 남이 자기를 쳐다보는게 그렇게 싫다는 거예요. 그때부터 마스크를 벗고 그 아주머니한테 행패를 (부렸어요)."경찰이 출동해 이 남성을 제압했는데, 결국 폭행 등의 혐의로 구속됐습니다.지난 14일 서울 동대문에서 버스기사의 머리채를 잡고 폭행한 60대 남성 등에 이어 마스크 착용 관련 벌써 세 번째 구속입니다. 택시 조수석에 앉아있던 60대 남성이 갑자기 운전 중인 택시 기사의 얼굴을 주먹으로 때립니다.기사가 손으로 막아보지만 소용이 없습니다.[가해자] "이 xx야 임마 아무리 잘났어도…""마스크를 제대로 착용해 달라"는 택시기사의 요청에 대한 반응은 주먹질이었습니다. 경찰은 이 남성에 대해서도 구속영장을 신청할 예정입니다.지난 5월 이후 마스크 미착용과 관련해 96명이 재판을 받게 됐고, 223명에 대해선 수사가 진행되고 있습니다.경찰은 대중교통뿐 아니라 전국 대부분 지역으로 마스크 착용 의무화가 확