In [1]:
from bs4 import BeautifulSoup

### html 문자열 파싱
- 문자열로 정의된 html 데이터 파싱하기

In [2]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

### find 함수
- 특정 html tag를 검색
- 검색 조건을 명시하여 찾고자하는 tag를 검색

In [3]:
soup = BeautifulSoup(html)

In [4]:
# 'h3' 태그를 html 문자열에서 찾는다
soup.find('h3')

<h3 title="Good Content Title">Contents Title</h3>

In [6]:
# 여러 개 있으면 가장 첫번째 것 찾는다
soup.find('p')

<p>Test contents</p>

In [9]:
# find 뒤에 조건을 넣을 수 있다
# custom의 값이 'nice'인 두 번째 div를 찾아낸다
soup.find('div', custom = 'nice')

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

In [10]:
# class의 경우 파이썬 예약어이므로
# 뒤에 언더바를 붙혀야한다
soup.find('div', class_ = 'test')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [13]:
# 조건을 여러 개 걸려면 dic로 attrs에 넣어주면 된다
# id가 upper고 class가 test인 애를 찾는다
attrs = {'id': 'upper', 'class': 'test'}
soup.find('div', attrs = attrs)

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

### find_all 함수
- find_all은 조건에 맞는 모든 tag를 리스트로 반환
- 조건 추가는 find와 같다

In [15]:
soup.find_all('div')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>, <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

### get_text()
- 태그 사이의 값을 뽑아낸다

In [18]:
tag = soup.find('h3')
print(tag)

# 태그 사이의 값을 뽑아낸다
tag.get_text()

<h3 title="Good Content Title">Contents Title</h3>


'Contents Title'

In [20]:
tag = soup.find('div', id = 'upper')
print(tag)

# 부모 태그에서 get_text를 하면
# 자식 태그들의 모든 값을 뽑아낸다
tag.get_text()

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


'\nContents Title\nTest contents\n'

### attribute 값 추출하기
- 추출하고자 하는 값이 attribute에도 존재한다
- 검색한 tag에 attribute 이름을 []연산을 통해 추출할 수 있다

In [23]:
tag = soup.find('h3')
print(tag)

# title이라는 attribute의 값을 뽑아낸다
tag['title']

<h3 title="Good Content Title">Contents Title</h3>


'Good Content Title'