# 3. BeautifulSoup 기초
* HTML과 XML 문서를 파싱하기 위한 파이썬 패키지
* 대표페이지 소개 https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
# conda install bs4
# pip install bs4

In [3]:
html_doc = """
<html>
<head>
<title>My Script</title>
</head>
<body>
<p class="title">My Study</p>
<p class="story">내가 솔랭에서 하는 챔프
<a href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" class="champ" id="link1">샤코</a>
<a href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" class="champ" id="link2">뽀삐</a>
<a href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" class="champ" id="link3">트런들</a>
</p>
</body>
</html>
"""

In [4]:
soup = BeautifulSoup(html_doc,'html.parser') # lxml, html5lib -> 추가설치 필요
soup


<html>
<head>
<title>My Script</title>
</head>
<body>
<p class="title">My Study</p>
<p class="story">내가 솔랭에서 하는 챔프
<a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>
<a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>
<a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>
</p>
</body>
</html>

In [5]:
type(soup)

bs4.BeautifulSoup

In [6]:
print(soup.prettify())

<html>
 <head>
  <title>
   My Script
  </title>
 </head>
 <body>
  <p class="title">
   My Study
  </p>
  <p class="story">
   내가 솔랭에서 하는 챔프
   <a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">
    샤코
   </a>
   <a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">
    뽀삐
   </a>
   <a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">
    트런들
   </a>
  </p>
 </body>
</html>



## find함수
* 조건에 맞는 첫번째 tag만 검색


In [7]:
soup.find('p')

<p class="title">My Study</p>

In [8]:
soup.find('a',id='link2')

<a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>

In [9]:
soup.find('a',id='link1')

<a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>

In [10]:
soup.find(id='link2')

<a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>

In [11]:
soup.find('a',class_='champ',id='link3')

<a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>

In [12]:
attrs = {
    'class':'champ',
    'id':'link3'
}
soup.find('a',attrs=attrs)

<a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>

### find_all 함수
* 조건에 맞는 모든 tag를 리스트로 반환

In [13]:
soup.find_all('p')

[<p class="title">My Study</p>,
 <p class="story">내가 솔랭에서 하는 챔프
 <a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>
 <a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>
 <a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>
 </p>]

In [14]:
p = soup.find_all('a')
for x in p:
    print(x)

<a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>
<a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>
<a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>


### get_text 함수
* tag안의 value를 추출
* 부모 tag의 경우 모든 자식 tag의 value 추출

In [15]:
soup.get_text()

'\n\n\nMy Script\n\n\nMy Study\n내가 솔랭에서 하는 챔프\n샤코\n뽀삐\n트런들\n\n\n\n'

In [16]:
soup.find('p',class_="title").get_text()

'My Study'

In [17]:
soup.find('p').get_text()

'My Study'

In [26]:
for i in soup.find_all(class_="champ"):
    print(i.get_text())

샤코
뽀삐
트런들


### attribute값 추출하기
* 검색한 tag에서 attribute값을 추출
* tag['attr명']

In [31]:
soup.find('p').attrs

{'class': ['title']}

In [33]:
soup.find('p')['class']

['title']

In [40]:
for i in soup.find_all('a'):
    print(i['href'],i['id'])

https://namu.wiki/w/샤코(리그%20오브%20레전드) link1
https://namu.wiki/w/뽀삐(리그%20오브%20레전드) link2
https://namu.wiki/w/트런들(리그%20오브%20레전드) link3


### select 함수
* select는 CSS Selector로 tag 찾기가 가능하다.
* 자손태그 찾기 - tag1 tag2
* 직계자손태그 찾기 - tag1 > tag2
* id 선택자 - #id
* class 선택자 - .class
* 속성값 찾기 - [name="val"]
    * 속성값 prefix 찾기 [name^="val"]
    * 속성값 suffix 찾기 [name$="val"]
    * 속성값 포함문자열 찾기 [name*="val"]
    


In [41]:
print(soup.prettify())

<html>
 <head>
  <title>
   My Script
  </title>
 </head>
 <body>
  <p class="title">
   My Study
  </p>
  <p class="story">
   내가 솔랭에서 하는 챔프
   <a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">
    샤코
   </a>
   <a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">
    뽀삐
   </a>
   <a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">
    트런들
   </a>
  </p>
 </body>
</html>



In [42]:
soup.select('p')

[<p class="title">My Study</p>,
 <p class="story">내가 솔랭에서 하는 챔프
 <a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>
 <a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>
 <a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>
 </p>]

In [43]:
soup.select_one('p')

<p class="title">My Study</p>

In [45]:
# 자손 태그
soup.select('html title')

[<title>My Script</title>]

In [48]:
# 직계 자식 태그
soup.select('head > title')
soup.select('html > title')

[]

In [51]:
# id 선택자
soup.select('a#link3')

[<a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>]

In [52]:
# class 선택자

In [55]:
soup.select('.title')

[<p class="title">My Study</p>]

In [57]:
soup.select('.story')

[<p class="story">내가 솔랭에서 하는 챔프
 <a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>
 <a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>
 <a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>
 </p>]

In [58]:
soup.select('.food')

[]

In [59]:
# 속성값 찾기
soup.select('[href="https://namu.wiki/w/샤코(리그%20오브%20레전드)"]')

[<a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>]

In [63]:
# 시작문자열
soup.select('[href^="http"]')

[<a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>,
 <a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>,
 <a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>]

In [66]:
# 종료문자열
soup.select('[href$=")"]')

[<a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>,
 <a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>,
 <a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>]

In [70]:
# 포함문자열
soup.select('[href*="namu"]')

[<a class="champ" href="https://namu.wiki/w/샤코(리그%20오브%20레전드)" id="link1">샤코</a>,
 <a class="champ" href="https://namu.wiki/w/뽀삐(리그%20오브%20레전드)" id="link2">뽀삐</a>,
 <a class="champ" href="https://namu.wiki/w/트런들(리그%20오브%20레전드)" id="link3">트런들</a>]