## 09. BeautifulSoup
- HTML과 XML파일에서 데이터를 추출하기 위한 라이브러리

In [38]:
from bs4 import BeautifulSoup
import requests



In [33]:
with open("test.html", "r", encoding="utf-8") as f:
    html_data = f.read()

# soup 객체 생성
# soup = BeautifulSoup(html_data, "html.parser")  # 내장되어있는 파서
soup = BeautifulSoup(html_data, "lxml")         # 설치해줘야 하는 파서

# print(soup)
print(soup.prettify())  # 정렬된 상태

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <title>
   Document
  </title>
 </head>
 <body>
  <h1 class="title">
   Hello BeautifulSoup
  </h1>
  <h1 class="sub_title">
   안녕! 아름다운 수프
  </h1>
  <p id="description">
   이 페이지는 BeautifulSoup 학습을 위한 예제입니다.
  </p>
  <ul class="items">
   <li data-id="1">
    사과
   </li>
   <li data-id="2">
    바나나
   </li>
   <li data-id="3">
    체리
   </li>
  </ul>
  <ul class="items">
   <li data-id="1">
    python
   </li>
   <li data-id="2">
    C++
   </li>
   <li data-id="3">
    SQL
   </li>
  </ul>
 </body>
</html>



In [15]:
# 데이터 선택
# find() - 첫번째 매칭 요소 선택
# 태그를 기준으로 탐색
result = soup.find("h1")
print(result)
print(result.text)
print(result.get_text(strip=True))      # 공백 제거

<h1 class="title">Hello BeautifulSoup</h1>
Hello BeautifulSoup
Hello BeautifulSoup


In [31]:
# find() - 속성 조건으로 검색 가능
result = soup.find("h1", class_="sub_title")
print(result.text)

안녕! 아름다운 수프


In [24]:
# find_all() - 모든 매칭된 요소 선택
result = soup.find_all("h1")
#print(result)

for i in result: print(i.text)

Hello BeautifulSoup
안녕! 아름다운 수프


In [36]:
# select() - 모든 매칭 요소 선택
# CSS 선택자로 탐색
#result = soup.select("ul:nth-child(4)")
result = soup.select("ul.items")
print(result)
for i in result:
    print(i.text)

[<ul class="items">
<li data-id="1">사과</li>
<li data-id="2">바나나</li>
<li data-id="3">체리</li>
</ul>, <ul class="items">
<li data-id="1">python</li>
<li data-id="2">C++</li>
<li data-id="3">SQL</li>
</ul>]

사과
바나나
체리


python
C++
SQL



In [None]:
# select_one() - 첫번째 매칭 요소 선택
result = soup.select_one("ul.items")
print(result)

<ul class="items">
<li data-id="1">사과</li>
<li data-id="2">바나나</li>
<li data-id="3">체리</li>
</ul>


In [69]:
# requests와 함께 사용
# requests : 웹 사이트에서 데이터를 송수신 할 수 있는 라이브러리
# 멜론에서 Top10의 노래 제목을 받아오기

url = "https://www.melon.com/chart/index.htm"

headers = {
    "User-Agent" : "Mozilla/5.0"        # 크롤링을 하는 나는 로봇이 아닌 사람입니다~ 라는 뜻
}

response = requests.get(url, headers = headers)


soup = BeautifulSoup(response.text, "lxml")

songs = soup.select("div.ellipsis.rank01 a")[:10]
#songs = soup.select("#lst50 > td:nth-child(6) > div > div > div.ellipsis.rank01")[:10]


for idx, song in enumerate(songs):
    print(f"{idx+1}. {song.text}")

1. Golden
2. FAMOUS
3. 뛰어(JUMP)
4. Soda Pop
5. Drowning
6. Dirty Work
7. 시작의 아이
8. WICKED
9. 너에게 닿기를
10. Your Idol


In [73]:
# 실습. 웹 크롤링 실습
# 사용자에게 검색어를 입력 받아 검색된 뉴스의 제목과 링크 가져와 보세요.
import datetime

word = input("검색어를 입력하세요")

url = f"https://search.naver.com/search.naver?&query={word}"

headers = {
    "User-Agent" : "Mozilla/5.0"        
}

response = requests.get(url, headers = headers)

soup = BeautifulSoup(response.text, "lxml")

news_list = soup.select("a.BxOYkTUC7zH9xrtyOwDx.a2OpSM_aSvFbHwpL_f8N")


print(f"== {datetime.date.today()}")
for a in news_list:
    print(f"{a.get_text()}/링크: {a.get("href")}")
    print(a.get("href"))

== 2025-08-11
[단독]서울 도심 폐공장서 총·실탄 100발 발견/링크: https://www.munhwa.com/article/11525143?ref=naver
https://www.munhwa.com/article/11525143?ref=naver
특검 “김건희 구금 장소 서울구치소→남부구치소 변경신청”/링크: https://www.kmib.co.kr/article/view.asp?arcid=0028525522&code=61121111&cp=nv
https://www.kmib.co.kr/article/view.asp?arcid=0028525522&code=61121111&cp=nv
서울구치소 “윤 강제인치 현저히 곤란…물리력 행사 시 사고 우려”/링크: https://news.jtbc.co.kr/article/NB12258285?influxDiv=NAVER
https://news.jtbc.co.kr/article/NB12258285?influxDiv=NAVER
[단독] 해군 장성까지 번진 웨딩홀 비리, 서울경찰청 광역수사단 수사 .../링크: https://www.ohmynews.com/NWS_Web/View/at_pg.aspx?CNTN_CD=A0003156073&CMPT_CD=P0010&utm_source=naver&utm_medium=newsearch&utm_campaign=naver_news
https://www.ohmynews.com/NWS_Web/View/at_pg.aspx?CNTN_CD=A0003156073&CMPT_CD=P0010&utm_source=naver&utm_medium=newsearch&utm_campaign=naver_news
