# Beautiful Soup 사용법

## Local HTML 파일 열기

In [1]:
from bs4 import BeautifulSoup
with open('example.html') as fp:
  soup = BeautifulSoup(fp, 'html.parser')

In [2]:
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Web Crawling Example</title>
</head>
<body>
<div>
<p>a</p><p>b</p><p>c</p>
</div>
<div class="ex_class sample">
<p>1</p><p>2</p><p>3</p>
</div>
<div id="ex_id">
<p>X</p><p>Y</p><p>Z</p>
</div>
<h1>This is a heading.</h1>
<p>This is a paragraph.</p>
<p>This is another paragraph.</p>
<a class="a sample" href="www.naver.com">Naver</a>
</body>
</html>

### 테그 이용해서 가져오기

* find()
* find_all()

In [3]:
# find는 1개만 찾는 메서드
first_div = soup.find('div')    
first_div

<div>
<p>a</p><p>b</p><p>c</p>
</div>

In [5]:
# find_all - 모두를 찾는 메서드 (list형태로 나옴)
all_divs = soup.find_all('div')
all_divs

[<div>
 <p>a</p><p>b</p><p>c</p>
 </div>, <div class="ex_class sample">
 <p>1</p><p>2</p><p>3</p>
 </div>, <div id="ex_id">
 <p>X</p><p>Y</p><p>Z</p>
 </div>]

In [6]:
len(all_divs)

3

In [7]:
for div in all_divs:
  print(div)


<div>
<p>a</p><p>b</p><p>c</p>
</div>
<div class="ex_class sample">
<p>1</p><p>2</p><p>3</p>
</div>
<div id="ex_id">
<p>X</p><p>Y</p><p>Z</p>
</div>


In [9]:
all_ps = soup.find_all('p')
len(all_ps)
for p in all_ps:
  print(p)

<p>a</p>
<p>b</p>
<p>c</p>
<p>1</p>
<p>2</p>
<p>3</p>
<p>X</p>
<p>Y</p>
<p>Z</p>
<p>This is a paragraph.</p>
<p>This is another paragraph.</p>


In [10]:
len(all_ps)

11

### 태그와 속성을 이용해서 가져오기

* CSS Selector : select one(하나만 찾기)
  * soup.select_one()
  * #은 id
  * .은 클래스
* CSS Selector : 모두 찾기 (list로 결과가 나옴)
  * ex_id _divs = soup.select()
* 결과 가져오기

In [11]:
# #은 id
ex_id_div = soup.select_one('#ex_id')
ex_id_div


<div id="ex_id">
<p>X</p><p>Y</p><p>Z</p>
</div>

In [12]:
# .은 class
ex_sample_div = soup.select_one('.ex_class.sample')
ex_sample_div

<div class="ex_class sample">
<p>1</p><p>2</p><p>3</p>
</div>

In [13]:
# divs 결과는 리스트로
ex_id_divs = soup.select('#ex_id')
ex_id_divs

[<div id="ex_id">
 <p>X</p><p>Y</p><p>Z</p>
 </div>]

In [14]:
# divs 결과는 리스트로 (class)
sample_divs = soup.select('.sample')
sample_divs

[<div class="ex_class sample">
 <p>1</p><p>2</p><p>3</p>
 </div>, <a class="a sample" href="www.naver.com">Naver</a>]

#### 결과 가져오기

* 제목 가져오기
  * get_text()
  * .string

* 속성값 가져오기
  * href

* 내용물 가져오기
  * 상위값 먼저 찾고 원하는 내용물이 있는 p를 찾는다

In [15]:
# 결과 가져오기

# <a class = "a sample" href = "www.naver.com">Naver</a>
result = soup.select_one('.a.sample').get_text()
result

'Naver'

In [16]:
# get_text() 와 .string 동일
result = soup.select_one('.a.sample').string
result

'Naver'

In [18]:
#속성값
href = soup.select_one('.a.sample')['href']
href

'www.naver.com'

##### id = "ex_id" 인 div에서 p 내용물 가져오기

In [23]:
'''
<div id="ex_id">
        <p>X</p><p>Y</p><p>Z</p>
    </div>
'''
ex_id_div = soup.select_one('#ex_id')
all_ps = ex_id_div.select('p')
for p in all_ps:
  print(p.string)

X
Y
Z
