1. **BeautifulSoup 설치 확인**

`bs4`는 Python의 BeautifulSoup4 라이브러리 패키지입니다. 

이 라이브러리는 웹 페이지를 파싱하고 데이터를 추출하는 데 유용합니다. 

`bs4`를 설치하려면, 다음 명령어를 사용할 수 있습니다:


- pip install bs4  # -> conda쓰고있으니 beautifulsoup4 아마 있을것

설치 여부를 확인하려면, 터미널에서 다음 명령어를 실행
- conda list beautifulsoup4

만약 설치되어 있지 않다면, conda를 사용하여 설치
<br>beautifulsoup4는 bs4 모듈을 포함하고 있으며, bs4는 이 모듈을 통해 사용할 수 있습니다.
- conda install beautifulsoup4

### 2. **HTML 파일 분석**

HTML 파일을 분석하기 위해 BeautifulSoup을 사용하여 HTML 문자열을 파싱하고, 

필요한 정보를 추출하는 방법을 보여드리겠습니다.

In [15]:
# ../data/sample.html 파일을 읽기 모드(rt, read text mode)로 엽니다
# with 문을 사용하여 파일을 여는 것은 파일 작업이 끝나면 자동으로 파일을 닫아주기 때문에 안전
# f: 파일 객체를 나타내며, 이 객체를 통해 파일 내용을 읽을 수 있습니다.
with open("../data/sample.html","rt") as f:
    html_str = f.read() # f객체를 통해 파일의 모든내용 읽고 이를 변수에 문자열로 할당

print(html_str)

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Sample HTML Page</title>
</head>
<body>
    <div id="header">
        <h1>Sample Homepage</h1>
        <ul class="nav">
            <li>home</li>
            <li>About</li>
            <li>Contact</li>
        </ul>
    </div>
    <div id="content">
        <h1>Content Title</h1>
        <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus interdum.</p>
        <ul class="list">
            <li>Comment 1</li>
            <li>Comment 2</li>
            <li>Comment 3</li>
            <li>Comment 4</li>
        </ul>
    </div>
    <div id="footer">
        &copy; Bit Academy
    </div>
</body>
</html>


In [2]:
# html text -> dom 객체로 변환위한 BeautifulSoup 사용
# soup으로 만들기

# BeautifulSoup 클래스를 'bs4' 라이브러리에서 임포트
# BeautifulSoup 은 HTML 이나 XML 파일을 파싱하여 파이썬 객체로 변환하는 기능 제공
from bs4 import BeautifulSoup

# DOM 객체: 파싱된 HTML 문서의 계층구조를 표현하며 다양한 메서드를 통해 HTML 요소를 탐색, 조작가능
soup = BeautifulSoup(html_str) #DOM객체로 변환후 저장

type(soup) # 타입확인

bs4.BeautifulSoup

In [3]:
# soup.prettify() : BeautifulSoup 객체의 메서드로 가독성있게 HTML문서를 들여쓰기 형태로 반환
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <title>
   Sample HTML Page
  </title>
 </head>
 <body>
  <div id="header">
   <h1>
    Sample Homepage
   </h1>
   <ul class="nav">
    <li>
     home
    </li>
    <li>
     About
    </li>
    <li>
     Contact
    </li>
   </ul>
  </div>
  <div id="content">
   <h1>
    Content Title
   </h1>
   <p>
    Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus interdum.
   </p>
   <ul class="list">
    <li>
     Comment 1
    </li>
    <li>
     Comment 2
    </li>
    <li>
     Comment 3
    </li>
    <li>
     Comment 4
    </li>
   </ul>
  </div>
  <div id="footer">
   © Bit Academy
  </div>
 </body>
</html>


In [4]:
# title 태그를 뽑아서 내용을 확인
title_tag = soup.title
print("문서의 title tag:", title_tag, type(title_tag))

문서의 title tag: <title>Sample HTML Page</title> <class 'bs4.element.Tag'>


In [5]:
# 태그 내 컨텐츠 확인하려면 text 속성
print("태그의 이름:", title_tag.name)
print("태그의 콘텐츠:", title_tag.text)

태그의 이름: title
태그의 콘텐츠: Sample HTML Page


In [6]:
# 문서 탐색 (Traversing)
# 최상위 노드(html 확인)
html_tag =soup.html
# print(html_tag.prettify())
# 현재 태그의 자식들 : children
children = html_tag.children
print(type(children)) # list_iterator : 순서, 인덱스 잡고, 루프 돌릴수있음

from bs4.element import Tag

for child in children:
    # 탐색에 있어 중요한것은 테그 tag
    # NavigableStrin -> DOM 트리 구조를 구축하기 위한 특수한 구분 기호
    if isinstance(child, Tag): # child가 tag 일때만 조건설정
        print(child.name, type(child))
    

<class 'list_iterator'>
head <class 'bs4.element.Tag'>
body <class 'bs4.element.Tag'>


In [7]:
# 부모 노드를 확인: .parent
print(soup.body.parent == soup.html) # body의 부모는 html

True


In [8]:
# find 메서드를 이용한 객체 탐색 
# 태그를 이용한 검색

#divs = soup.html.find("div") # 한개만 찾음
divs = soup.html.findAll("div") # 매칭되는 모든 요소를 검색
print(divs)

[<div id="header">
<h1>Sample Homepage</h1>
<ul class="nav">
<li>home</li>
<li>About</li>
<li>Contact</li>
</ul>
</div>, <div id="content">
<h1>Content Title</h1>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus interdum.</p>
<ul class="list">
<li>Comment 1</li>
<li>Comment 2</li>
<li>Comment 3</li>
<li>Comment 4</li>
</ul>
</div>, <div id="footer">
        © Bit Academy
    </div>]


In [9]:
# 태그의 속성을 이용해 검색할때
# class 속성이 list인 ul을 검색할때 (ex)
list_ul = soup.body.find("ul", {"class":"list"})
# print(list_ul)

# 검색된 ul의 자식노드 li를 순회하면서 출력해보기
for li in list_ul.children:
    if isinstance(li, Tag):
        print("list item:", li.text)
    

list item: Comment 1
list item: Comment 2
list item: Comment 3
list item: Comment 4


In [10]:
# CSS Selector를 이용해서 검색할때 : select
# id 셀렉터 : #id
# class 셀렉터 : .class
# 자식 셀렉터: >
# 자손 셀렉터 : 공백
list_ul = soup.body.select("ul.list > li")
print(list_ul)

[<li>Comment 1</li>, <li>Comment 2</li>, <li>Comment 3</li>, <li>Comment 4</li>]
