# BeautifulSoup 사용법

In [5]:
from bs4 import BeautifulSoup

fp = open("data/01_Example.html")
soup = BeautifulSoup(fp, 'html.parser')

In [6]:
soup

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<title>Web Crawling Example</title>
</head>
<body>
<div>
<p>a</p>
<p>b</p>
<p>c</p>
</div>
<div class="ex_class">
<p>1</p>
<p>2</p>
<p>3</p>
</div>
<div id="ex_id">
<p>X</p>
<p>Y</p>
<p>Z</p>
</div>
<h1>This is a heading.</h1>
<p>This is a paragraph.</p>
<p>This is another paragraph.</p>
<a class="a" href="www.naver.com">Naver</a>
</body>
</html>

## 태그를 이용해서 가져오기

### - find() : 해당 조건에 맞는 하나의 태그를 가져온다. 중복이면 가장 첫 번째 태그를 가져온다.

In [7]:
first_div = soup.find("div")
print(first_div)

<div>
<p>a</p>
<p>b</p>
<p>c</p>
</div>


In [8]:
print(first_div.get_text())


a
b
c



### - find_all() : 해당 조건에 맞는 모든 태그들을 가져온다.

In [10]:
all_divs = soup.find_all("div")
print(all_divs)

[<div>
<p>a</p>
<p>b</p>
<p>c</p>
</div>, <div class="ex_class">
<p>1</p>
<p>2</p>
<p>3</p>
</div>, <div id="ex_id">
<p>X</p>
<p>Y</p>
<p>Z</p>
</div>]


In [11]:
all_divs[:2]

[<div>
 <p>a</p>
 <p>b</p>
 <p>c</p>
 </div>, <div class="ex_class">
 <p>1</p>
 <p>2</p>
 <p>3</p>
 </div>]

In [13]:
all_divs[1:]

[<div class="ex_class">
 <p>1</p>
 <p>2</p>
 <p>3</p>
 </div>, <div id="ex_id">
 <p>X</p>
 <p>Y</p>
 <p>Z</p>
 </div>]

In [15]:
for div in all_divs:
    print(div.get_text())
    print()


a
b
c



1
2
3



X
Y
Z




In [16]:
# 모든 <p> 태그들을 가져오기
all_ps = soup.find_all("p")
print(all_ps)

[<p>a</p>, <p>b</p>, <p>c</p>, <p>1</p>, <p>2</p>, <p>3</p>, <p>X</p>, <p>Y</p>, <p>Z</p>, <p>This is a paragraph.</p>, <p>This is another paragraph.</p>]


In [17]:
for single_p in all_ps:
    print(single_p, single_p.get_text())

<p>a</p> a
<p>b</p> b
<p>c</p> c
<p>1</p> 1
<p>2</p> 2
<p>3</p> 3
<p>X</p> X
<p>Y</p> Y
<p>Z</p> Z
<p>This is a paragraph.</p> This is a paragraph.
<p>This is another paragraph.</p> This is another paragraph.


## 태그와 속성을 이용해서 가져오기
태그와 속성을 이용할 때 함수의 인자로 원하는 태그를 첫번째 인자로 그 다음에 속성:값의 형태(dictionary)로 만들어서 넣어주면 된다.

- find_all('태그명', {'속성명' : '값' ...})
- find('태그명', {'속성명' : '값' ...})

In [18]:
ex_id_divs = soup.find('div', {'id' : 'ex_id'})
print(ex_id_divs)

<div id="ex_id">
<p>X</p>
<p>Y</p>
<p>Z</p>
</div>


In [19]:
result = soup.find('div', id = 'ex_id')
print(result)

<div id="ex_id">
<p>X</p>
<p>Y</p>
<p>Z</p>
</div>


In [20]:
result = soup.find('div', {'class' : 'ex_class'})
print(result)

<div class="ex_class">
<p>1</p>
<p>2</p>
<p>3</p>
</div>


In [21]:
result = soup.find('div', class_ = 'ex_class')
print(result)

<div class="ex_class">
<p>1</p>
<p>2</p>
<p>3</p>
</div>


## HTML 구조를 이용해 부분부분 가져오기

In [22]:
ex_id_divs = soup.find("div", {"id":"ex_id"})
# 찾은 태그들 안에서 p 태그를 가져온다.
all_ps_in_ex_id_divs = ex_id_divs.find_all("p")
print(all_ps_in_ex_id_divs)

[<p>X</p>, <p>Y</p>, <p>Z</p>]


In [24]:
first_p = ex_id_divs.find('p')
print(first_p.get_text())

X


In [27]:
a = soup.find('a')
print(a)

<a class="a" href="www.naver.com">Naver</a>


In [30]:
print(a.get_text(), ': ', a['href'])

Naver :  www.naver.com


In [31]:
fp.close()