# Crawling - BeautifulSoup

- HTML DOM 트리 시간될때 읽어보기

In [137]:
from bs4 import BeautifulSoup

- 로컬 파일 사례

In [139]:
with open('00.example.html') as file:
    soup = BeautifulSoup(file, 'html.parser')
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Web Crawling Example</title>
</head>
<body>
<div>
<p>a</p><p>b</p><p>c</p>
</div>
<div class="ex_class sample">
<p>X</p><p>Y</p><p>Z</p>
</div>
<div id="ex_id">
<p>1</p><p>2</p><p>3</p>
</div>
<h1>This is a heading.</h1>
<p>This is a paragraph.</p>
<a class="a sample" href="www.naver.com">네이버</a>
<table border="1">
<tr>
<td>A</td>
<td>B</td>
<td>C</td>
</tr>
<tr>
<td>x</td>
<td>y</td>
<td>z</td>
</tr>
</table>
<ul>
<li>삼겹살</li>
<li>치킨</li>
<li>비빕밥</li>
</ul>
</body>
</html>

- find(): 해당 조건에 맞는 '한개의' 태그만 가져옴. (중복시에는 첫번째 값만)

In [110]:
soup.find('p')

<p>a</p>

In [111]:
soup.find('div')

<div>
<p>a</p><p>b</p><p>c</p>
</div>

In [140]:
soup.find('ul')

<ul>
<li>삼겹살</li>
<li>치킨</li>
<li>비빕밥</li>
</ul>

- findAll(): 해당 조건에 맞는 '모든' 태그를 가져옴

In [113]:
soup.findAll('p')

[<p>a</p>,
 <p>b</p>,
 <p>c</p>,
 <p>X</p>,
 <p>Y</p>,
 <p>Z</p>,
 <p>1</p>,
 <p>2</p>,
 <p>3</p>,
 <p> This is a paragraph.</p>]

In [114]:
lis = soup.find_all('li')
lis

[<li>삼겹살</li>, <li>치킨</li>, <li>비빔밥</li>]

In [115]:
len(lis)

3

In [116]:
all_ps = soup.find_all('p')
len(all_ps)

10

In [117]:
divs = soup.find_all('div')
divs[1].find_all('p')

[<p>X</p>, <p>Y</p>, <p>Z</p>]

- select_one(): CSS Selector 로 하나의 노드만 찾는 메소드

In [118]:
# tag 이름
soup.select_one('div')

<div>
<p>a</p><p>b</p><p>c</p>
</div>

In [119]:
# class 이름 앞에 . 을 붙임
soup.select_one('.a')               # a 태그를 찾아줌 ("a sample")

<a class="a sample" href="www.naver.com">네이버</a>

In [120]:
soup.select_one('a.a')              # tag 이름. class 이름

<a class="a sample" href="www.naver.com">네이버</a>

In [121]:
# id 이름 : id 이름앞에 # 을 붙임
soup.select_one('#ex_id')

<div id="ex_id">
<p>1</p><p>2</p><p>3</p>
</div>

In [122]:
soup.select_one('div#ex_id')        # tag이름 #id이름

<div id="ex_id">
<p>1</p><p>2</p><p>3</p>
</div>

In [123]:
# 여러개의 클래스 이름 (점을 여러개 쓰는것)
soup.select_one('.ex_class.sample')

<div class="ex_class sample">
<p>X</p><p>Y</p><p>Z</p>
</div>

In [124]:
soup.select_one('.ex_class.sample').get_text()

'\nXYZ\n'

- select(): CSS Selector로 모든 노드를 찾아 리스트로 반환

In [125]:
soup.select('.sample')

[<div class="ex_class sample">
 <p>X</p><p>Y</p><p>Z</p>
 </div>,
 <a class="a sample" href="www.naver.com">네이버</a>]

In [126]:
soup.select('#ex_id')

[<div id="ex_id">
 <p>1</p><p>2</p><p>3</p>
 </div>]

- 결과값 가져오기

In [127]:
atag = soup.find('a')
atag

<a class="a sample" href="www.naver.com">네이버</a>

In [128]:
atag.get_text()

'네이버'

In [129]:
atag.get_text(), atag.string

('네이버', '네이버')

In [130]:
soup.find('a').string

'네이버'

In [131]:
# 속성값
atag['href']

'www.naver.com'

In [132]:
lis

[<li>삼겹살</li>, <li>치킨</li>, <li>비빔밥</li>]

In [133]:
lis = soup.find('ul').find_all('li')            # 하나 위에껄 찾아서 들어가는 방법
lis

[<li>삼겹살</li>, <li>치킨</li>, <li>비빔밥</li>]

In [134]:
for li in lis:
    print(li.get_text())

삼겹살
치킨
비빔밥


In [135]:
menu = []
for li in lis:
    menu.append(li.string)
menu

['삼겹살', '치킨', '비빔밥']

In [136]:
trs = soup.find('table').find_all('tr')
for tr in trs:
    tds = tr.find_all('td')
    for td in tds:
        print(td.get_text(), end=' ')
    print

A B C a b c 