## [크롬개발자 도구](https://developers.google.com/web/tools/chrome-devtools/)

# BeautifulSoup
- HTML이나 XML 문서 내에서 원하는 정보를 가져오기 위한 파이썬 라이브러리.
- https://www.crummy.com/software/BeautifulSoup/
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 설치
```
conda install beautifulsoup4
pip install beautifulsoup4
```

## 코딩 패턴
1. BeautifulSoup 클래스 import
2. BeautifulSoup 객체 생성 
    - 생성시 조회할 HTML 문서 전달
3. 문서내에서 필요한 정보 조회
    - 태그이름과 태그 속성으로 조회
    - css selector를 이용해 조회
    - . 표기법을 이용한 탐색(Tree 구조 순서대로 탐색)

## 객체 생성
- BeautifulSoup(html str [, 파서])
    - 매개변수
        1. 정보를 조회할 html을 string으로 전달
        2. 파서
            - html.parser(기본파서)
            - lxml : 매우 빠르다. html, xml 파싱 가능(xml 파싱은 lxml만 가능)
                - 사용시 install 필요 
                - `conda install lxml`
                - `pip install lxml`

In [None]:
import re
from bs4 import BeautifulSoup

In [1]:
with open('example.html', encoding='UTF-8') as f:
    doc = f.read()
print(doc)

<html>
    <head>
		<meta charset="utf-8">
        <title>조회할 대상</title>
    </head>
    <body>
		<div id='animal1'>
			<div class='animal'>사자</div>
			<div class='cnt'>3마리</div>
		</div>
		<p>
		<div id='animal2'>
			<div class='animal'>호랑이</div>
			<div class='cnt'>2마리</div>
		</div>
		<p>
		<div id='animal3'>
			<div class='animal'>기린</div>
			<div class='cnt'>5마리</div>
		</div>
		<p>
		<div id='content'>
			동물원에 <span class='animal'>기린</span>이 <span class='cnt'>5마리</span> 있습니다.
		</div>
		<p>
		<h1>동물원 링크</h1>
		<ul>
			<li><a href='https://grandpark.seoul.go.kr'>서울대공원</a></li>
			<li><a href='http://www.everland.com'>에버랜드 동물원</a></li>
			<li><a href='https://www.coexaqua.com'>코엑스 아쿠아리움</a></li>
		</ul>
		<a href='http://www.google.co.kr'>구글</a>
        
    </body>
</html>


In [4]:
soup = BeautifulSoup(doc)
print(soup.prettify()) # 요고하면 더 예쁘게 나옴. 탭키까지 적용해서. 프리티파이~

<html>
 <head>
  <meta charset="utf-8"/>
  <title>
   조회할 대상
  </title>
 </head>
 <body>
  <div id="animal1">
   <div class="animal">
    사자
   </div>
   <div class="cnt">
    3마리
   </div>
  </div>
  <p>
  </p>
  <div id="animal2">
   <div class="animal">
    호랑이
   </div>
   <div class="cnt">
    2마리
   </div>
  </div>
  <p>
  </p>
  <div id="animal3">
   <div class="animal">
    기린
   </div>
   <div class="cnt">
    5마리
   </div>
  </div>
  <p>
  </p>
  <div id="content">
   동물원에
   <span class="animal">
    기린
   </span>
   이
   <span class="cnt">
    5마리
   </span>
   있습니다.
  </div>
  <p>
  </p>
  <h1>
   동물원 링크
  </h1>
  <ul>
   <li>
    <a href="https://grandpark.seoul.go.kr">
     서울대공원
    </a>
   </li>
   <li>
    <a href="http://www.everland.com">
     에버랜드 동물원
    </a>
   </li>
   <li>
    <a href="https://www.coexaqua.com">
     코엑스 아쿠아리움
    </a>
   </li>
  </ul>
  <a href="http://www.google.co.kr">
   구글
  </a>
 </body>
</html>


In [7]:
soup.find_all('a') # 슾 안에서 a 태그 전부 다 찾아줘~ 라는 뜻

# 메서드가 하나만 찾는 애도 있고, 여러 개 찾는 애도 있다.
# ex) find, find_all, select_one, select 

[<a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.everland.com">에버랜드 동물원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>,
 <a href="http://www.google.co.kr">구글</a>]

In [6]:
print(type(soup.find_all('a')[0]))
# 문자열처럼 보이지만 문자열이 아니라 태그 객체이다.

<class 'bs4.element.Tag'>


In [None]:
# 태그 전체를 요소라고 한다. element

## 문서내에서 원하는 정보 검색

### Tag 
- 하나의 태그(element)의 데이터를 담은 객체
    - BeautifulSoup 조회메소드들의 조회결과 반환타입.
    - 아래 조회 함수들을 이용해 조회하면 그 결과를 Tag 객체나 Tag 객체들을 담은 List로 반환한다.
    - Tag 객체를 이용해 element로 부터 text나 attribute등을 조회하거나 그 하위 element 들을 추가로 조회할 수 있다.
- 주요 속성/메소드
    - **태그의 속성값 조회**
        - tag객체.get('속성명') 
        - tag객체['속성명']
        - ex) tag.get('href') 또는 tag['href']
    - **태그내 text값 조회**
        - tag객체.get_text()
        - tag객체.text
        - tag.get_text() 또는 tag.text
    - **contents 속성**
        - 조회한 태그의 모든 자식 요소들을 리스트로 반환
        - child_list = tag.contents

## 조회 함수
- 태그의 이름으로 조회
    - find_all(), find()
- css selector를 이용해 조회
    - select(), select_one()
- `.` 표기법. dom tree 구조의 계층 순서대로 조회
    - 위의 두방식으로 찾은 tag를 기준으로 그 주위의 element 들을 찾을 때 사용

### 태그의 이름으로 조회
- **find_all**(name=태그명, attrs={속성명:속성값, ..})
   - 일치하는 모든 태그들을 반환
- **find**(name=태그명, attrs={속성명:속성값})
    - 일치하는 태그를 반환
    - 일치하는 태그가 여러개일 경우 첫번째 것 하나만 반환한다.

In [10]:
soup.find_all('a')[0].text

'서울대공원'

In [None]:
# 태그를 찾았는데 그 안에 더 찾아들어가고 싶을 때는 . 표기법을 사용한다.

In [15]:
soup.find_all('div')

[<div id="animal1">
 <div class="animal">사자</div>
 <div class="cnt">3마리</div>
 </div>,
 <div class="animal">사자</div>,
 <div class="cnt">3마리</div>,
 <div id="animal2">
 <div class="animal">호랑이</div>
 <div class="cnt">2마리</div>
 </div>,
 <div class="animal">호랑이</div>,
 <div class="cnt">2마리</div>,
 <div id="animal3">
 <div class="animal">기린</div>
 <div class="cnt">5마리</div>
 </div>,
 <div class="animal">기린</div>,
 <div class="cnt">5마리</div>,
 <div id="content">
 			동물원에 <span class="animal">기린</span>이 <span class="cnt">5마리</span> 있습니다.
 		</div>]

In [18]:
r1 = soup.find_all('div')
len(r1)

10

In [19]:
r2 = soup.find('div')
# find는 첫 번째꺼 딱 하나만 반환한다.
r2, type(r2)

(<div id="animal1">
 <div class="animal">사자</div>
 <div class="cnt">3마리</div>
 </div>,
 bs4.element.Tag)

In [21]:
r3 = soup.find('div', attrs={'id':'animal2'})
r3
# 이렇게 attrs로 제약조건을 줄 수 있음.

<div id="animal2">
<div class="animal">호랑이</div>
<div class="cnt">2마리</div>
</div>

In [22]:
r4 = soup.find_all('div', attrs={'class':'animal'})
r4

# div 태그 중에 class가 animal인 것들.

[<div class="animal">사자</div>,
 <div class="animal">호랑이</div>,
 <div class="animal">기린</div>]

In [23]:
r5 = soup.find_all('', attrs={'class':'animal'})
r5

# 태그와는 상관없이 조건에 만족하는 것들 전부 찾음.
# 그래서 span도 껴있음.

[<div class="animal">사자</div>,
 <div class="animal">호랑이</div>,
 <div class="animal">기린</div>,
 <span class="animal">기린</span>]

In [25]:
r6 = soup.find_all(['div', 'span'], attrs={'class':'animal'})
r6

# 여러가지 태그를 찾을 때. 요런 식으로.

[<div class="animal">사자</div>,
 <div class="animal">호랑이</div>,
 <div class="animal">기린</div>,
 <span class="animal">기린</span>]

In [31]:
for e in r6:
    print(e.text)

사자
호랑이
기린
기린


In [27]:
links = soup.find_all('a')
links

[<a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.everland.com">에버랜드 동물원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>,
 <a href="http://www.google.co.kr">구글</a>]

In [30]:
for link in links:
#     print(type(link))
    print(link.text, '-', link.get('href'))

서울대공원 - https://grandpark.seoul.go.kr
에버랜드 동물원 - http://www.everland.com
코엑스 아쿠아리움 - https://www.coexaqua.com
구글 - http://www.google.co.kr


In [33]:
soup.find_all('a', attrs={'href':re.compile(r'^https')})
# 정규표현식을 많이 사용한다.
# ^ 이게 뭘로 시작하는 거 찾는 거.

[<a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>]

In [34]:
soup.find_all('a', attrs={'href':re.compile(r'com$')})
# $ 요거는 끝나는 거.

[<a href="http://www.everland.com">에버랜드 동물원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>]

### CSS Selector를 이용해 조회
- select(selector='css셀렉터')
    - css 셀렉터와 일치하는 tag들을 반환한다.
- select_one(selector='css셀렉터')
    - css 셀렉터와 일치하는 tag를 반환한다.
    - 일치하는 것이 여러개일 경우 첫번째 것 하나만 반환한다.

In [38]:
soup.select('span, a')

[<span class="animal">기린</span>,
 <span class="cnt">5마리</span>,
 <a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.everland.com">에버랜드 동물원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>,
 <a href="http://www.google.co.kr">구글</a>]

In [39]:
soup.select('div.animal')

[<div class="animal">사자</div>,
 <div class="animal">호랑이</div>,
 <div class="animal">기린</div>]

In [None]:
soup.select('div#animal1')

# 어차피 하나 밖에 없는 것 찾을 때는, select_one으로 찾는게 좋다. 아이디로 검색할 때.
# 전체 다는 리스트로 반환되기 때문.

In [40]:
soup.select_one('div#animal')

[<div id="animal1">
 <div class="animal">사자</div>
 <div class="cnt">3마리</div>
 </div>]

In [41]:
soup.select('div#animal1 > div')
# 자식 태그 중에서 div인 것들 찾자.
# 꺽쇠 있고 없고 차이는?
# 있으면 자식만 되는거야. 있고 없고 차이 기억하기.

[<div class="animal">사자</div>, <div class="cnt">3마리</div>]

In [47]:
soup.select('ul > li > a')
# > 이거는 자식 태그만 찾는거다.
# ('ul a') ul 밑에 a

[<a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.everland.com">에버랜드 동물원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>]

In [50]:
links = soup.select('ul a')
[link.get('href') for link in links]
# 포문도 사용 가능하고. 리스트 컴프리헨션도 가능하다. 

['https://grandpark.seoul.go.kr',
 'http://www.everland.com',
 'https://www.coexaqua.com']

In [49]:
soup.select('a')

[<a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.everland.com">에버랜드 동물원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>,
 <a href="http://www.google.co.kr">구글</a>]

In [53]:
soup.select('div:nth-child(2)')

# div:n번째 자식인 요소 
# div 중에 두번째 자식인 친구들 찾는 거.

[<div class="cnt">3마리</div>,
 <div class="cnt">2마리</div>,
 <div class="cnt">5마리</div>]

In [56]:
soup.select('div:nth-of-type(2)')

# 같은 부모의 div 중 n번째 자식인 요소.
# 다른 태그는 신경 안쓰고 div만 봤을 때 두 번째 애들 찾는다. div 태그 중에서 두번째들

[<div class="cnt">3마리</div>,
 <div id="animal2">
 <div class="animal">호랑이</div>
 <div class="cnt">2마리</div>
 </div>,
 <div class="cnt">2마리</div>,
 <div class="cnt">5마리</div>]

In [57]:
soup.select('#animal3 > div.animal')

[<div class="animal">기린</div>]