# BeautifulSoup 사용방법

In [1]:
!pip install beautifulSoup4

Defaulting to user installation because normal site-packages is not writeable


In [2]:
# bs4라는 패키지로부터 BeautifulSoup라는 모듈을 임포트
from bs4 import BeautifulSoup

In [3]:
html = """
<html>
    <body>
        <h1 id='title'>[1]크롤링이란?</h1>
        <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
        <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
        <a href = 'http://www.facebook.com'> 바로가기 </a>
        <ul id="aladin_list">
            <li class="cssstyle" id='start'>[국내도서]신나는 파이썬</li>
            <li class="course" id='start'>[국내도서] 혼자 공부하는 파이썬</li>
            <li class="course" id='end'><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>
        </ul>
    </body>
</html>
"""

In [4]:
# BeautifulSoup 인스턴스 생성. 두번째 매개변수는 분석할 분석기(parser)의 종류.
soup = BeautifulSoup(html, 'html.parser')

In [5]:
soup


<html>
<body>
<h1 id="title">[1]크롤링이란?</h1>
<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
<p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
<a href="http://www.facebook.com"> 바로가기 </a>
<ul id="aladin_list">
<li class="cssstyle" id="start">[국내도서]신나는 파이썬</li>
<li class="course" id="start">[국내도서] 혼자 공부하는 파이썬</li>
<li class="course" id="end"><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>
</ul>
</body>
</html>

## 태그 선택

*  태그 이름이 tag1인 html요소를 리스트 형태로 모두 반환한다. 
```python
    soup.select('tag1')
```
* 태그 이름이 tag1인html요소중 첫번째 요소만 반환한다.
```python
   soup.select_one('tag1')
```

In [6]:
# <body> 태그를 입력
soup.select('body')

[<body>
 <h1 id="title">[1]크롤링이란?</h1>
 <p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
 <p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
 <a href="http://www.facebook.com"> 바로가기 </a>
 <ul id="aladin_list">
 <li class="cssstyle" id="start">[국내도서]신나는 파이썬</li>
 <li class="course" id="start">[국내도서] 혼자 공부하는 파이썬</li>
 <li class="course" id="end"><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>
 </ul>
 </body>]

In [8]:
# p 태그 요소 모두 반환
soup.select('p')

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>,
 <p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>]

In [9]:
# 첫 번째 p 태그 요소 반환
soup.select_one('p')

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>

## 하위 태그 선택

* 바로 아래 자식요소만 선택합니다. 
* '>' 를 사용합니다. 
```python
    soup.select('tag1 > tag2')
```

* 길이가 너무 긴 경우 중간 생략하고 하위 요소를 선택합니다. 
* ' ' 공백을 사용합니다. 
```python
    soup.select('tag1 tag2')
```

In [10]:
soup.select('body > p')

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>,
 <p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>]

In [11]:
soup.select('body > ul > li')

[<li class="cssstyle" id="start">[국내도서]신나는 파이썬</li>,
 <li class="course" id="start">[국내도서] 혼자 공부하는 파이썬</li>,
 <li class="course" id="end"><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>]

In [14]:
soup.select('body li')

[<li class="cssstyle" id="start">[국내도서]신나는 파이썬</li>,
 <li class="course" id="start">[국내도서] 혼자 공부하는 파이썬</li>,
 <li class="course" id="end"><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>]

## css class이름으로 검색
* **'.클래스이름'** 으로 검색한다. 
* class이름 앞에 점(.)을 사용해야 한다.
```python
    soup.select('.class1')
    soup.select_one('.class1')
```

In [15]:
soup.select('.cssstyle')

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>,
 <li class="cssstyle" id="start">[국내도서]신나는 파이썬</li>]

In [17]:
soup.select('p.cssstyle')

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>]

In [18]:
soup.select('.course')

[<li class="course" id="start">[국내도서] 혼자 공부하는 파이썬</li>,
 <li class="course" id="end"><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>]

In [19]:
soup.select('li.course')

[<li class="course" id="start">[국내도서] 혼자 공부하는 파이썬</li>,
 <li class="course" id="end"><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>]

> * 크롤링에서 CSS를 활용하는 이유
> * 추출 대상 문자열들은 같은 성격을 지닐 확률이 높고,이들은 웹페이지상에서 비슷한 공간에서 비슷한 속성으로 웹디자인이 되어있다. 이런 디자인 패턴을 활용해서 css  는 유니크한 식별자 역할을 하게 된다. 

## id 이름으로 검색
* **#id이름** 으로 검색
* id 값은 중복되지 않은 유일한 값이다.
* 찾고자 하는 태그에 id값이 있다면 더 쉽게 검색 가능하다.
```python
    soup.select('#id1')
    soup.selec_one('#id1')
```

In [20]:
soup.select('#end')

[<li class="course" id="end"><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>]

In [21]:
soup.select('li#end')

[<li class="course" id="end"><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>]

## 태그의 속성값 가져오기
```html
<a href="https://www.aladin.co.kr">[국내도서] 혼자 공부하는 파이썬</a>
<img src="/assets/img/octopus.jpg" width="200px">
```

* 이미지나 하이퍼링크에 대한 정보는 태그의 속성에 들어있다. 
* 태그의 속성값 추출해야한다. 
* item['속성이름']
* item.get('속성이름')

In [30]:
atag = soup.select_one('a')
atag

<a href="http://www.facebook.com"> 바로가기 </a>

In [31]:
#attribute 값 가져오기
atag['href']

'http://www.facebook.com'

In [39]:
atag.get('href')

'http://www.facebook.com'

## 태그사이의 문자 추출
```html
<h1 id='title'>[1]크롤링이란?</h1>
```
* 태그사이의 문자열 추출
* .get_text() 또는 .text 를 사용

In [40]:
#태그 객체 하나 추출
soup.select_one('.cssstyle')

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>

In [41]:
#태그 객체 하나 추출하고 객체 안의 함수 호출
soup.select_one('.cssstyle').get_text()

'웹페이지에서 필요한 데이터를 추출하는 것'

In [42]:
#태그 객체 하나 추출하고 객체 안의 변수 호출
soup.select_one('.cssstyle').text

'웹페이지에서 필요한 데이터를 추출하는 것'

In [43]:
#css select path를 사용해서
soup.select('p.cssstyle')

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>]

In [44]:
# 왜 에러가 날까?
soup.select('p.cssstyle').get_text()

AttributeError: ResultSet object has no attribute 'get_text'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [46]:
#리스트로 반환되니 인덱스로 접근
soup.select('p.cssstyle')[0]

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>

In [47]:
#리스트로 반환되니 인덱스로 접근하고
#그러면 태그 객체를 얻을 수 있으니 태그 객체안의 함수 호출 
soup.select('p.cssstyle')[0].get_text()

'웹페이지에서 필요한 데이터를 추출하는 것'

In [48]:
ptags = soup.select('p.cssstyle')
ptags

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>]

In [49]:
ptag = ptags[0]
ptag

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>

In [50]:
result = ptag.get_text()
result

'웹페이지에서 필요한 데이터를 추출하는 것'

In [51]:
soup.select_one('ul')

<ul id="aladin_list">
<li class="cssstyle" id="start">[국내도서]신나는 파이썬</li>
<li class="course" id="start">[국내도서] 혼자 공부하는 파이썬</li>
<li class="course" id="end"><a href="https://www.aladin.co.kr">[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 </a></li>
</ul>

In [52]:
txt = soup.select_one('ul').get_text()
txt

'\n[국내도서]신나는 파이썬\n[국내도서] 혼자 공부하는 파이썬\n[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 \n'

In [53]:
print(txt)


[국내도서]신나는 파이썬
[국내도서] 혼자 공부하는 파이썬
[국내도서] Effective Python 2nd 이펙티브 파이썬 : 파이썬 코딩의 기술 



In [54]:
print(txt.replace(" ",""))


[국내도서]신나는파이썬
[국내도서]혼자공부하는파이썬
[국내도서]EffectivePython2nd이펙티브파이썬:파이썬코딩의기술



### 내맘대로 추출

In [76]:
# 라이브러리 임포트
from bs4 import BeautifulSoup
# BeautifulSoup 객체(html -> 파싱해서 객체)
soup = BeautifulSoup(html, 'html.parser')
# 내가원하는 텍스트 추출
print(soup.select_one('p').get_text())
# 내가 원하는 속성 추출
atag = soup.select_one('a')
print(atag['href'])

웹페이지에서 필요한 데이터를 추출하는 것
http://www.facebook.com
