# BeautifulSoup을 이용한 HTML 문서의 파싱
-BeautifulSoup을 이용하면 텍스트 html을 DOM Tree형태로 변환해준다.

In [2]:
from bs4 import BeautifulSoup     #모듈로드

In [4]:
#샘플 html 로드
with open("./data/sample.html") as f:
    html_str = f.read()
    
print(html_str)

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Sample HTML Page</title>
</head>
<body>
    <div id="header">
        <h1>Sample Homepage</h1>
        <ul class="nav">
            <li>home</li>
            <li>About</li>
            <li>Contact</li>
        </ul>
    </div>
    <div id="content">
        <h1>Content Title</h1>
        <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus interdum.</p>
        <ul class="list">
            <li>Comment 1</li>
            <li>Comment 2</li>
            <li>Comment 3</li>
            <li>Comment 4</li>
        </ul>
    </div>
    <div id="footer">
        &copy; Bit Academy
    </div>
</body>
</html>


In [6]:
soup = BeautifulSoup(html_str)   # DOM Tree형태로 변환 
print(type(soup))                # >>bs4.BeautifulSoup

#title tag 확인
title_tag = soup.title
print("타이틀태그: ", title_tag, type(title_tag))   # >>type: bs4.element.Tag
print("태그의 이름: ", title_tag.name)
print("태그의 내용(content): ", title_tag.text)

<class 'bs4.BeautifulSoup'>
타이틀태그:  <title>Sample HTML Page</title> <class 'bs4.element.Tag'>
태그의 이름:  title
태그의 내용(content):  Sample HTML Page


In [14]:
# html의 최상위 노드는 html!
html_tag = soup.html
print("html_tag: ", html_tag.name)

# html노드의 자식 확인: children
children = html_tag.children
print("html의 childeren: ", children)

from bs4.element import Tag
# 자식 노드의 순회
for child in children:
    # print(type(child))     
    # >>navigableString은 Tree구조를 완성시키기 위한 특수 구분기호
    # >>Tag가 우리가 파싱하기 위한 실제 내용 
    
    if isinstance(child, Tag):   #Tag만 필터링
        print("child: ", child.name)

# body 태그는 여러 개의 자손들을 가지고 있을 것
for node in soup.body.descendants:
    if isinstance(node, Tag):
        print("body의 자손 노드: ", node.name)
        
# 부모 노드 확인: parent
print(soup.body.parent == soup.html)  # >> true여야함

html_tag:  html
html의 childeren:  <list_iterator object at 0x000001F4C315AFD0>
child:  head
child:  body
body의 자손 노드:  div
body의 자손 노드:  h1
body의 자손 노드:  ul
body의 자손 노드:  li
body의 자손 노드:  li
body의 자손 노드:  li
body의 자손 노드:  div
body의 자손 노드:  h1
body의 자손 노드:  p
body의 자손 노드:  ul
body의 자손 노드:  li
body의 자손 노드:  li
body의 자손 노드:  li
body의 자손 노드:  li
body의 자손 노드:  div
True


# -트리탐색하기

In [17]:
# 검색하기: find
# 문서 내 div 태그 찾아보기
#divs = soup.body.find("div")    # --find는 1 요소만 검색
divs = soup.body.findAll("div")    # --findAll은 매칭되는 모든 요소 검색
#print(divs)
print("html 내에 {}개의 div가 있습니다.".format(len(divs)))

html 내에 3개의 div가 있습니다.


In [19]:
# 속성을 가진 요소 검색하기
# class가 list인 ul 검색, 내부 자식노드 내용 출력하기
list_ul = soup.body.find("ul", { "class" : "list"})
print(list_ul)     #>>출력값들이 ul의 children 

for li in list_ul.children:
    if isinstance(li, Tag):
        print("list item: ", li.text)

<ul class="list">
<li>Comment 1</li>
<li>Comment 2</li>
<li>Comment 3</li>
<li>Comment 4</li>
</ul>
list item:  Comment 1
list item:  Comment 2
list item:  Comment 3
list item:  Comment 4


In [20]:
# 좀 더 편리하고 유연하게 노드 검색하기: CSS Selector
# class가 list인 ul의 모든 자식들 검색하기 
# selector 정리: 
#     -id: #id
#     -class: .class
#     -children: >
#     -자손:    (공백)
list_ul_children = soup.body.select("ul.list > li")
print(list_ul_children)

[<li>Comment 1</li>, <li>Comment 2</li>, <li>Comment 3</li>, <li>Comment 4</li>]
