## 09. BeautifulSoup
- HTML과 XML파일에서 데이터를 추출하기 위한 라이브러리

In [2]:
from bs4 import BeautifulSoup
import requests

# conda install requests beautifulsoup4 lxml

In [3]:
with open("test.html", "r", encoding="utf-8") as f:
    html_data = f.read()

print(html_data)

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <h1 class="title">Hello BeautifulSoup</h1>
    <h1 class="sub_title">안녕 아름다운 수프</h1>
    <p id="description">이 페이지는 BeautifulSoup 학습을 위한 예제입니다.</p>
    <ul class="items">
        <li data-id="1">사과</li>
        <li data-id="2">바나나</li>
        <li data-id="3">체리</li>
    </ul>
    <ul class="items">
        <li data-id="1">python</li>
        <li data-id="2">c++</li>
        <li data-id="3">SQL</li>
    </ul>
</body>
</html>


In [4]:
# soup 객체 생성
# soup = BeautifulSoup(html_data, "html.parser") # 내장 parser
soup = BeautifulSoup(html_data, "lxml")
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <title>
   Document
  </title>
 </head>
 <body>
  <h1 class="title">
   Hello BeautifulSoup
  </h1>
  <h1 class="sub_title">
   안녕 아름다운 수프
  </h1>
  <p id="description">
   이 페이지는 BeautifulSoup 학습을 위한 예제입니다.
  </p>
  <ul class="items">
   <li data-id="1">
    사과
   </li>
   <li data-id="2">
    바나나
   </li>
   <li data-id="3">
    체리
   </li>
  </ul>
  <ul class="items">
   <li data-id="1">
    python
   </li>
   <li data-id="2">
    c++
   </li>
   <li data-id="3">
    SQL
   </li>
  </ul>
 </body>
</html>



In [None]:
# 데이터 선택

# find() : 첫번째 매칭 요소 선택
# 태그를 기준으로 탐색
result = soup.find("h1")

print(result)
# <h1 class="" title="">Hello BeautifulSoup</h1>
print(result.text)
# Hello BeautifulSoup
print(result.get_text())
# Hello BeautifulSoup


In [None]:
# find() : 속성 조건으로 검색 가능
result = soup.find("h1", class_="sub_title")
print(result.text)
# 안녕 아름다운 수프

안녕 아름다운 수프


In [None]:
# find_all() : 모든 매칭된 요소 선택
result = soup.find_all("h1")
print(result)
# [<h1 class="title">Hello BeautifulSoup</h1>, <h1 class="sub_title">안녕 아름다운 수프</h1>]

for i in result:
    print(i.text)
# Hello BeautifulSoup
# 안녕 아름다운 수프

[<h1 class="title">Hello BeautifulSoup</h1>, <h1 class="sub_title">안녕 아름다운 수프</h1>]
Hello BeautifulSoup
안녕 아름다운 수프


In [None]:
# select() : 모든 매칭 요소 선택
# CSS 선택자로 탐색
result = soup.select("ul.items")
print(result)
# [<ul class="items">
# <li data-id="1">사과</li>
# <li data-id="2">바나나</li>
# <li data-id="3">체리</li>
# </ul>, <ul class="items">
# <li data-id="1">python</li>
# <li data-id="2">c++</li>
# <li data-id="3">SQL</li>
# </ul>]

for i in result:
    print(i.text)
# 사과
# 바나나
# 체리

# python
# c++
# SQL

In [None]:
# select_one() : 첫번째 매칭 요소 선택
result = soup.select_one("ul.items")
print(result)
# <ul class="items">
# <li data-id="1">사과</li>
# <li data-id="2">바나나</li>
# <li data-id="3">체리</li>
# </ul>

In [None]:
# requests와 함께 사용
# requests : 웹 사이트에서 데이터를 송수신 할 수 있는 라이브러리
# 멜론에서 Top10의 노래 제목 받아오기
url = "https://www.melon.com/chart/index.htm"
# 봇 방지 
headers = {
    "User-Agent": "Mozilla/5.0"
}
response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.text, "lxml")

songs = soup.select("div.ellipsis.rank01 a")[:10]

for idx, song in enumerate(songs):
    print(f"{idx+1}. {song.text}")

In [64]:
# 실습 2. 웹 크롤링 실습

user = input("검색어를 입력하세요 :")
url = "https://search.naver.com/search.naver?&query=" + user

response = requests.get(url)

soup = BeautifulSoup(response.text, "lxml")
title = soup.select("a.BxOYkTUC7zH9xrtyOwDx.a2OpSM_aSvFbHwpL_f8N")

for i in title:
    print(i.text, i.get("href"))

정의당 “조국 사면, ‘공정’ 기준 무너뜨려···공감대 결여된 광복... https://www.khan.co.kr/article/202508110855001
경기도, 제80주년 광복절 기념 '광복군 태극기' 게양 https://www.yna.co.kr/view/AKR20250811037200061?input=1195m
조폐공사·성심당의 합작 '광복절빵'…'데니태극기' 담았다 https://www.newsis.com/view/NISX20250811_0003285511
추미애 "사법 피해자 윤미향, 광복절 특별사면해야" https://www.yna.co.kr/view/AKR20250810027700001?input=1195m
