### Crawling - BeatifulSoup
- 로컬 파일 크롤링 하기

In [100]:
from bs4 import BeautifulSoup

In [101]:
with open('data/01.example.html') as f:
    soup = BeautifulSoup(f, 'html.parser') # 구문에맞게 문법을 읽어온다.. html이라고 했으니 html에맞게...
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Web Crawling Example</title>
</head>
<body style="margin:40px">
<div>
<p>a</p><p>b</p><p>c</p>
</div>
<div class="ex_class sample">
<p>x</p><p>y</p><p>z</p>
</div>
<div id="ex_id">
<p>1</p><p>2</p><p>3</p>
</div>
<h1>This is heading.</h1>
<p>This is paragraph.</p>
<a class="a sample" href="www.naver.com">네이버</a>
<table border="1" class="ex_table">
<tr>
<td>A</td><td>B</td><td>C</td>
</tr>
<tr>
<td>X</td><td>Y</td><td>Z</td>
</tr>
</table>
<ul>
<li>삼겹살</li>
<li>치킨</li>
<li>피자</li>
</ul>
</body>
</html>

- find(): 조건에 맞는 하나의 태그를 가져옴. 중복시에는 첫번째것만 (스트링형태로반환)

In [102]:
soup.find('p')

<p>a</p>

In [103]:
soup.find('div')

<div>
<p>a</p><p>b</p><p>c</p>
</div>

In [104]:
soup.find('ul')

<ul>
<li>삼겹살</li>
<li>치킨</li>
<li>피자</li>
</ul>

- find_all(): 조건에 맞는 모든 태그를 리스트 형태로 반환

In [105]:
soup.find_all('li')

[<li>삼겹살</li>, <li>치킨</li>, <li>피자</li>]

In [106]:
soup.find_all('td')

[<td>A</td>, <td>B</td>, <td>C</td>, <td>X</td>, <td>Y</td>, <td>Z</td>]

In [107]:
soup.find_all('p')

[<p>a</p>,
 <p>b</p>,
 <p>c</p>,
 <p>x</p>,
 <p>y</p>,
 <p>z</p>,
 <p>1</p>,
 <p>2</p>,
 <p>3</p>,
 <p>This is paragraph.</p>]

In [108]:
all_p = soup.find_all('p')
len(all_p) # p태그 10개


10

### select_one(): CSS selector로 매칭되는 하나의 요소만 추출

In [109]:
number_p = soup.select('#ex_id')
number_p

[<div id="ex_id">
 <p>1</p><p>2</p><p>3</p>
 </div>]

In [110]:
# id selector
# <div id="ex_id">
number_p = soup.select_one('#ex_id')
number_p

<div id="ex_id">
<p>1</p><p>2</p><p>3</p>
</div>

In [111]:
number_p = soup.select_one('#ex_id').find_all('p')
number_p

[<p>1</p>, <p>2</p>, <p>3</p>]

In [112]:
# <div class="ex_class sample">
# 클래스 이름이 여러개일 경우에는 모든 클래스 이름 앞에 .을 찍어주어야 함
# class selector
xyz_p = soup.select_one('.ex_class.sample') # blank에도 점 찍어주기
xyz_p

<div class="ex_class sample">
<p>x</p><p>y</p><p>z</p>
</div>

In [113]:
xyz_p = soup.select_one('.ex_class.sample').find_all('p')
xyz_p

[<p>x</p>, <p>y</p>, <p>z</p>]

In [114]:
# tag name selector
soup.select_one('h1')

<h1>This is heading.</h1>

- select(): CSS Selector로 모든 노드를 찾아 리스트로 반환

In [115]:
soup.select('.sample')

[<div class="ex_class sample">
 <p>x</p><p>y</p><p>z</p>
 </div>,
 <a class="a sample" href="www.naver.com">네이버</a>]

In [116]:
# data가 하나여도 리스트형태로 반환
soup.select('#ex_id')

[<div id="ex_id">
 <p>1</p><p>2</p><p>3</p>
 </div>]

- 결과값 가져오기

In [117]:
atag = soup.select_one('a.a') # a태그이면서 클래스가 a인것
atag 

<a class="a sample" href="www.naver.com">네이버</a>

In [118]:
# Inner text
atag.get_text(), atag.string

('네이버', '네이버')

In [119]:
first_div = soup.find('div')
first_div.get_text(), first_div.string # \n 줄바꿈까지 표현해줌 , <div>dfdf</div>이런형식이어야 None 아님

('\nabc\n', None)

In [120]:
# 속성값
atag['href']

'www.naver.com'

In [121]:
soup.find('body')['style']

'margin:40px'

- 실전에서 사용하는 방법

In [122]:
trs = soup.select_one('.ex_table').find_all('tr')
for tr in trs:
    for td in tr.find_all('td'):
        print(td.get_text(), end=' ')
    print()

A B C 
X Y Z 
