# BeautifulSoup을 이용한 HTML 문서의 파싱
- BeautifulSoup을 이용하면 텍스트 html을 DOM Tree 형태로 변환해준다.

In [2]:
from bs4 import BeautifulSoup

In [4]:
# sample html load

with open('./data/sample.html') as f : 
    html_str = f.read()
    print(html_str)

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Sample HTML Page</title>
</head>
<body>
    <div id="header">
        <h1>Sample Homepage</h1>
        <ul class="nav">
            <li>home</li>
            <li>About</li>
            <li>Contact</li>
        </ul>
    </div>
    <div id="content">
        <h1>Content Title</h1>
        <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus interdum.</p>
        <ul class="list">
            <li>Comment 1</li>
            <li>Comment 2</li>
            <li>Comment 3</li>
            <li>Comment 4</li>
        </ul>
    </div>
    <div id="footer">
        &copy; Bit Academy
    </div>
</body>
</html>


In [7]:
soup = BeautifulSoup(html_str)
print(type(soup))
# print title tag
title_tag = soup.title
print("title tag : ", title_tag, type(title_tag))
print("tag name : ", title_tag.name)
print("tag content : ", title_tag.text)

<class 'bs4.BeautifulSoup'>
title tag :  <title>Sample HTML Page</title> <class 'bs4.element.Tag'>
tag name :  title
tag content :  Sample HTML Page


In [17]:
# html의 최상위 노드는 html
html_tag = soup.html
print("html tag:", html_tag.name)
# html 노드의 자식 : children
children = html_tag.children
print("children of html:", children)

from bs4.element import Tag
# 자식 노드의 순회
for child in children:
    # NavigableString:  Tree 구조를 구성하기 위한 특수 구분 기호
    # Tag : html의 Tag
    if isinstance(child, Tag):
        print("child:", child.name)

for node in soup.body.descendants:    
    if isinstance(node, Tag):
        print("body의 자손 노드:", node.name)
# 부모 노드의 확인 
print(soup.body.parent == soup.html)

html tag: html
children of html: <list_iterator object at 0x00000250D82FDD30>
child: head
child: body
body의 자손 노드: div
body의 자손 노드: h1
body의 자손 노드: ul
body의 자손 노드: li
body의 자손 노드: li
body의 자손 노드: li
body의 자손 노드: div
body의 자손 노드: h1
body의 자손 노드: p
body의 자손 노드: ul
body의 자손 노드: li
body의 자손 노드: li
body의 자손 노드: li
body의 자손 노드: li
body의 자손 노드: div
True


In [20]:
# 검색
# 문서 내 div 태그를 찾아봅시다.
# divs = soup.body.find("div") # find 는 1개 검색
divs = soup.body.findAll("div")
#print(divs)
print("html 내에 {}개의 div가 있습니다.".format(len(divs)))

html 내에 3개의 div가 있습니다.


In [25]:
# 속성을 가진 요소의 검새
# class=list인 ul을 검색, 내부의 자식노드 내용을 출력
list_ul = soup.body.find("ul",{"class":"list"})
#print(list_ul)
for li in list_ul.children:
    if isinstance(li, Tag):
        print("list item:", li.text)

list item: Comment 1
list item: Comment 2
list item: Comment 3
list item: Comment 4


In [28]:
# CSS Selector를 지원한다.
list_ul_children = soup.body.select("ul li")
#print(list_ul_children)   