# 3. BeautifulSoup 기초
* HTML과 XML 문서를 피싱하기 위한 파이썬 패키지
* 대표 패이지 소개

In [3]:
import requests
from bs4 import BeautifulSoup

In [4]:
# conda install bs4
# conda install bs4

In [5]:
html_doc = """
<html>
<head>
<title> My story </title>
</head>
<body>
<p class="title"> My story </p>
<p class="story"> 내가 좋아하는 음식 
<a href="http://www.pizzahut.co.kr" class="food" id="link1"> 피자 </a>
<a href="http://www.kyochon.com" class="food" id="link2"> 치킨 </a>
<a href="http://www.momstouch.co.kr" class="food" id="link3"> 버거 </a>
</p>
</body>
</html>
"""

In [6]:
soup = BeautifulSoup(html_doc, 'html.parser') #lmxl
soup


<html>
<head>
<title> My story </title>
</head>
<body>
<p class="title"> My story </p>
<p class="story"> 내가 좋아하는 음식 
<a class="food" href="http://www.pizzahut.co.kr" id="link1"> 피자 </a>
<a class="food" href="http://www.kyochon.com" id="link2"> 치킨 </a>
<a class="food" href="http://www.momstouch.co.kr" id="link3"> 버거 </a>
</p>
</body>
</html>

In [7]:
type(soup)

bs4.BeautifulSoup

In [8]:
print(soup.prettify())

<html>
 <head>
  <title>
   My story
  </title>
 </head>
 <body>
  <p class="title">
   My story
  </p>
  <p class="story">
   내가 좋아하는 음식
   <a class="food" href="http://www.pizzahut.co.kr" id="link1">
    피자
   </a>
   <a class="food" href="http://www.kyochon.com" id="link2">
    치킨
   </a>
   <a class="food" href="http://www.momstouch.co.kr" id="link3">
    버거
   </a>
  </p>
 </body>
</html>



## find 함수
* 조건에 만족하는 첫번째 tag만 검색

In [9]:
soup.find('p')

<p class="title"> My story </p>

In [10]:
soup.find('a')

<a class="food" href="http://www.pizzahut.co.kr" id="link1"> 피자 </a>

In [11]:
soup.find('a',id='link2')

<a class="food" href="http://www.kyochon.com" id="link2"> 치킨 </a>

In [12]:
soup.find('a', class_='food', id='link3')

<a class="food" href="http://www.momstouch.co.kr" id="link3"> 버거 </a>

In [13]:
attrs = {
    'class' : 'food',
    'id': 'link3'
}
soup.find('a',attrs=attrs)

<a class="food" href="http://www.momstouch.co.kr" id="link3"> 버거 </a>

## find_all 함수
* 조건에 맞는 모든 tag를 리스트로 변환

In [14]:
soup.find_all('p')

[<p class="title"> My story </p>,
 <p class="story"> 내가 좋아하는 음식 
 <a class="food" href="http://www.pizzahut.co.kr" id="link1"> 피자 </a>
 <a class="food" href="http://www.kyochon.com" id="link2"> 치킨 </a>
 <a class="food" href="http://www.momstouch.co.kr" id="link3"> 버거 </a>
 </p>]

In [15]:
for tag in soup.find_all('a'):
    print(tag)

<a class="food" href="http://www.pizzahut.co.kr" id="link1"> 피자 </a>
<a class="food" href="http://www.kyochon.com" id="link2"> 치킨 </a>
<a class="food" href="http://www.momstouch.co.kr" id="link3"> 버거 </a>


## get_text 함수
* tag안의 value 추출
* 부모 tag의 경우 모든 자식 tag의 value 추출

In [16]:
soup.get_text()

'\n\n\n My story \n\n\n My story \n 내가 좋아하는 음식 \n 피자 \n 치킨 \n 버거 \n\n\n\n'

In [17]:
print(soup.prettify())

<html>
 <head>
  <title>
   My story
  </title>
 </head>
 <body>
  <p class="title">
   My story
  </p>
  <p class="story">
   내가 좋아하는 음식
   <a class="food" href="http://www.pizzahut.co.kr" id="link1">
    피자
   </a>
   <a class="food" href="http://www.kyochon.com" id="link2">
    치킨
   </a>
   <a class="food" href="http://www.momstouch.co.kr" id="link3">
    버거
   </a>
  </p>
 </body>
</html>



In [18]:
soup.find('p').get_text()

' My story '

In [20]:
for tag in soup.find_all('a'):
    print(tag.get_text())

 피자 
 치킨 
 버거 


### attribute값 추출하기
* 검색한 tag에서 attribute값을 추출
* tag['attr명']

In [22]:
soup.find('p').attrs

{'class': ['title']}

In [23]:
soup.find('p')['class']

['title']

In [25]:
for tag in soup.find_all('a'):
    print(tag['href'], tag['id'])

http://www.pizzahut.co.kr link1
http://www.kyochon.com link2
http://www.momstouch.co.kr link3


### select 함수
* select는 CSS Selector로 tag 찾기
* 자손 태그 찾기 - tag1 tag2
* 직계 자손 태그 찾기 - tag1 > tag2
* id 선택자 - #id
* class 선택자 - .class
* 속성값 찾기 - [name ='value']
    * 속성값 시작문자열 찾기 [name ^= 'value']
    * 속성값 종료문자열 찾기 [name $= 'value']
    * 속성값 포함문자열 찾기 [name *= 'value']

In [26]:
soup.find('p')

<p class="title"> My story </p>

In [27]:
soup.select('p')

[<p class="title"> My story </p>,
 <p class="story"> 내가 좋아하는 음식 
 <a class="food" href="http://www.pizzahut.co.kr" id="link1"> 피자 </a>
 <a class="food" href="http://www.kyochon.com" id="link2"> 치킨 </a>
 <a class="food" href="http://www.momstouch.co.kr" id="link3"> 버거 </a>
 </p>]

In [29]:
soup.select_one('p')

<p class="title"> My story </p>

In [None]:
soup.select()

In [30]:
soup.select('#link1')

[<a class="food" href="http://www.pizzahut.co.kr" id="link1"> 피자 </a>]

In [31]:
soup.select('#link3')

[<a class="food" href="http://www.momstouch.co.kr" id="link3"> 버거 </a>]

In [32]:
# class 선택지
soup.select('.story')

[<p class="story"> 내가 좋아하는 음식 
 <a class="food" href="http://www.pizzahut.co.kr" id="link1"> 피자 </a>
 <a class="food" href="http://www.kyochon.com" id="link2"> 치킨 </a>
 <a class="food" href="http://www.momstouch.co.kr" id="link3"> 버거 </a>
 </p>]

In [37]:
soup.select('[href^="co"]')

[]

In [33]:
# 포햠 문자열
soup.select('[href*="ch"]')

[<a class="food" href="http://www.kyochon.com" id="link2"> 치킨 </a>,
 <a class="food" href="http://www.momstouch.co.kr" id="link3"> 버거 </a>]