### 학습목표
1. beautifulsoup 모듈 사용하기

In [1]:
from bs4 import BeautifulSoup

#### html 문자열 파싱
 - 문자열로 정의된 html 데이터 파싱하기

In [2]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

#### find 함수
 - 특정 html tag를 검색
 - 검색 조건을 명시하여 찾고자하는 tag를 검색

In [3]:
soup = BeautifulSoup(html)

In [4]:
soup.find('h3')

<h3 title="Good Content Title">Contents Title</h3>

In [5]:
#위의 자료에서 p는 4개가 존재하지만
#find함수는 찾을 때 가장 먼저 나오는 태그를 가져온다
soup.find('p')

<p>Test contents</p>

In [6]:
#제일 위에있는 div만 가져온다
soup.find('div')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [8]:
#find함수에 속성을 입력해 원하는 데이터를 지정할 수 있다.
#두번째 div를 가져오고 싶어서 속성 custom을 사용함
soup.find('div',custom='nice')

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

In [9]:
soup.find('div',id='lower')

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

In [10]:
soup.find('div',id='upper')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [11]:
#클래스는 키워드이기 때문에 사용할 수 없다
# 결과는 오류
soup.find('div',class='test')

SyntaxError: invalid syntax (<ipython-input-11-f0e11da98f56>, line 2)

In [12]:
#클래스를 사용해서 찾고 싶을 경우 클래스 뒤에_를 붙이고 사용하면 된다.
#find함수이기 때문에 class가 2개 존재하는 위의 HTML의 경우는 먼저오는 class를 가져온다
soup.find('div',class_='test')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [14]:
#attrs를 사용하면 원하는 값을 가져올 수 있다
attrs = {'id':'upper', 'class':'test'}
soup.find('div',attrs=attrs)

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

#### find_all 함수
 - find가 조건에 만족하는 하나의 tag만 검색한다면, find_all은 조건에 맞는 모든 tag를 리스트로 반환

In [15]:
soup.find_all('div')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>, <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

In [16]:
soup.find_all('p')

[<p>Test contents</p>,
 <p>Test Test Test 1</p>,
 <p>Test Test Test 2</p>,
 <p>Test Test Test 3</p>]

In [17]:
soup.find_all('div',class_='test')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>, <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

#### get_text 함수
 - tag안의 value를 추출
 - 부모tag의 경우, 모든 자식 tag의 value를 추출

In [22]:
soup.find('h3')

<h3 title="Good Content Title">Contents Title</h3>

In [24]:
#태그 안의 값만 들고 온다
tag = soup.find('h3')
tag.get_text()

'Contents Title'

In [26]:
#첫 번째 것만 들고온다
tag = soup.find('p')
print(tag)
tag.get_text()

<p>Test contents</p>


'Test contents'

In [30]:
#id를 설정하지 않았을 경우 첫 번째 div의 값을 가져오고
#tag,get_text()뒤에 .strip()을 붙이면 앞뒤로 필요없는 부분이 제거된다
tag = soup.find('div',id='upper')
print(tag)
tag.get_text()

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


'\nContents Title\nTest contents\n'

In [31]:
#id를 설정하지 않았을 경우 첫 번째 div의 값을 가져오고
#tag,get_text()뒤에 .strip()을 붙이면 앞뒤로 필요없는 부분이 제거된다
tag = soup.find('div',id='upper')
print(tag)
tag.get_text().strip()

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


'Contents Title\nTest contents'

#### attribute 값 추출하기
 - 경우에 따라 추출하고자 하는 값이 attribute에도 존재함
 - 이 경우에는 검색한 tag에 attribute 이름을 [ ]연산을 통해 추출가능
 - 예) div.find('h3')['title']

In [33]:
#태그['어트리뷰트']의 형식을 사용하면 그 어트리뷰트의 값만 출력 가능
tag = soup.find('h3')
print(tag)
tag['title']

<h3 title="Good Content Title">Contents Title</h3>


'Good Content Title'