## 파싱

* html 문서의 구조를 이해한 뒤, 사용자가 원하는 태그에 들어있는 텍스트를 골라내는데 사용하는 방법
* html 문서의 특성
    * 태그로 구성되어 있다
    * 태그 안에는 본문이 있다.
    * 태그들을 그루핑할때는 class를 사용한다. (클래스는 중복이 가능하다)
    * 태그에 유일한 이름을 붙일때는 id를 사용한다.

In [17]:
# bs4라는 큰 라이브러리에서
# BeautifulSoup라는 모듈을 그대로 사용할 것이다.
from bs4 import BeautifulSoup

html = """
<html>
  <head>
    <title>My Webpage</title>
  </head>
  <body>
    <h1>Welcome to my webpage</h1>
    <div id="content">
      <p class="first">This is a paragraph.</p>
      <p class="second">This is another paragraph.</p>
      <p id="first_id" class="first">This is real paragraph.</p>
      <p id="second_id" class="second">This is fake paragraph.</p>
    </div>
    <div>
        <p> Hi Ho </p>
        <p> Hi lu </p>
    </div>
  </body>
</html>
"""

soup = BeautifulSoup(html, "html.parser") # html.parser는 디폴트값, html문서 형태이니 이 형태로 파싱하겠다.

## 파싱된 변수에서 원하는 데이터를 추려내기

* 태그로 찾는방법
    - find로 찾는 방법: 여러개의 태그중 첫번째 것만 리턴
    - find_all: 매칭되는 모든 태그를 리스트에 저장
* 클래스로 찾는방법
* 아이디로 찾는방법

In [19]:
# h1 태그 내부의 텍스트 추출
h1_tag = soup.find("h1") # h1 태그를 가진 부분을 선택하고 싶다
h1_tag.text
# print(h1_tag.text)

'Welcome to my webpage'

In [20]:
# 첫 번째 p 태그 내부의 텍스트 추출
p_tag = soup.find("p") #본문에 태그가 여러개 있을때 find를 사용하면 첫번째 태그의 정보만 매칭되어 나온다.
print(p_tag.text) 

This is a paragraph.


In [22]:
# 모든 p 태그 내부의 텍스트 추출
p_tags = soup.find_all("p") 
# print(p_tags) # 본문의 p 태그를 가진 모든 부분이 리스트로 저장됨

# 리스트에서 하나씩 반복하면서 본문의 내용을 출력
for p_tag in p_tags: 
    print(p_tag.text) 

This is a paragraph.
This is another paragraph.
This is real paragraph.
This is fake paragraph.
 Hi Ho 
 Hi lu 


## ID로 찾기

In [24]:
# id가 content인 div 태그 내부의 첫 번째 p 태그 내부의 텍스트 추출
div_tag = soup.find_all("div", {'id':"content"}) # div 태그에서 id가 content인 것을 고르고 싶다.
# p_tag = div_tag.find("p")
# print(p_tag.text)
div_tag

[<div id="content">
 <p class="first">This is a paragraph.</p>
 <p class="second">This is another paragraph.</p>
 <p class="first" id="first_id">This is real paragraph.</p>
 <p class="second" id="second_id">This is fake paragraph.</p>
 </div>]

In [30]:
tag = div_tag[0] # 리스트의 첫번째값 빼옴
tag # 파싱된 또하나의 웹문서로 봐도 됨.
tag.find_all('p')

[<p class="first">This is a paragraph.</p>,
 <p class="second">This is another paragraph.</p>,
 <p class="first" id="first_id">This is real paragraph.</p>,
 <p class="second" id="second_id">This is fake paragraph.</p>]

In [31]:
# id가 content인 div 태그 내부의 p를 가진 모든 태그들의 텍스트 추출
div_tag = soup.find_all("div", {"id": "content"})
p_tag = div_tag[0].find_all("p") # 위에서 골라진 태그의 부분에 대하여 다시한번 find_all을 실행할 수 있다.
for i in p_tag:
    print(i.text)

This is a paragraph.
This is another paragraph.
This is real paragraph.
This is fake paragraph.


## 클래스로 찾기

In [33]:
first_class_tags = soup.find_all("p",{'class':"first"})
for t in first_class_tags:
    print(t.text)

This is a paragraph.
This is real paragraph.


In [23]:
# id가 content인 div 태그 내부의 p를 가진 모든 태그들의 텍스트 추출
div_tag = soup.find("div", {"id": "content"})
p_tag = div_tag.find_all("p",{"class": "first"})
for i in p_tag:
    print(i.text)

This is a paragraph.
