# BeautifulSoup을 이용한 HTML 문서의 파싱
- BeautifulSoup을 이용한 텍스트 html을 DOM Tree 형태로 변환해준다.

In [None]:
from bs4 import BeautifulSoup  # 모듈 로드

In [None]:
# 샘플 html로드
with open("./data/sample.html") as f:
    html_str = f.read()
print(html_str)

In [None]:
soup = BeautifulSoup(html_str)  # DOM Tree 형태로 변환
print(type(soup))
# 타이틀 태그의 확인
title_tag = soup.title
print("타이틀 태그:", title_tag, type(title_tag))
print("태그의 이름:", title_tag.name)
print("태그의 내용:", title_tag.text)

In [None]:
# html의 최상위 노드는 html
html_tag = soup.html
print("html tag:", html_tag.name)
# html 노드의 자식 : children
children = html_tag.children
print("html의 children:", children)

from bs4.element import Tag

# 자식 노드의 순회
for child in children:
    # NavigableString은 Tree 구조를 구성하기 위한 특수 구분기호
    # Tag : 실제 우리가 파싱하기 위한 내용
    if isinstance(child, Tag):  # Tag만 필터링
        print("child:", child.name)

# body 태그는 여러 개의 자손들을 가지고 있을 것
for node in soup.body.descendants:
    if isinstance(node, Tag):
        print("body의 자손 노드:", node.name)

# 부모 노드의 확인
print(soup.body.parent == soup.html)

In [None]:
# 검색 : find
# 문서 내 div 태그를 찾아봅시다.
# divs = soup.body.find("div")   # find : 1개 검색
divs = soup.body.findAll("div")  # findAll : 매칭되는 모든 요소 검색
# print(divs)
print("html 내에 {}개의 div가 있습니다.".format(len(divs)))

In [None]:
# 속성을 가진 요소의 검색
# class=list인 ul을 검색.
# 내부의 자식노드 내용을 출력
list_ul = soup.body.find("ul", {"class": "list"})  # 속성 class=list인 ul 검색
# print(list_ul)
for li in list_ul.children:
    if isinstance(li, Tag):
        print("list item:", li.text)

In [None]:
# CSS Selector를 이용하면 좀 더 편리하고 유연하게 검색할 수 있다.
# class=list인 ul 태그의 모든 자식들을 검색
# id 셀렉터 : #id
# class 셀렉터 : .class
# 자식 셀렉터 : >
# 자손 셀렉터 : (공백)
list_ul_children = soup.body.select("ul.list > li")  # ul인데 클래스가 list, 자식들을 출력해보자.
print(list_ul_children)