## 10. Beautiful Soup
- HTML 과 XML파일에서 데이터를 추출하기 위한 라이브러리

In [1]:
from bs4 import BeautifulSoup
import requests

In [None]:
with open("test.html", "r", encoding="utf-8") as f:
    html_data = f.read()

# soup 객체 생성
# soup = BeautifulSoup(html_data, "html.parser")        # 내장 파서
soup = BeautifulSoup(html_data, "lxml")                # xml 일때 사용, 설치 필요
# print(soup)
print(soup.prettify())      # 들여쓰기 표시

# 파서 차이 비교
print(BeautifulSoup("<a></p>", "html.parser"))          # <a></a>
print(BeautifulSoup("<a></p>", "lxml"))                 # <html><body><a></a></body></html>



<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <title>
   크롤링 연습 페이지
  </title>
 </head>
 <body>
  <h1 class="title">
   Hello BeautifulSoup
  </h1>
  <h1 class="sub_title">
   안녕! 아름다운 수프
  </h1>
  <p id="description">
   이 페이지는 BeautifulSoup 학습을 위한 예제입니다.
  </p>
  <ul class="items">
   <li>
    사과
   </li>
   <li>
    바나나
   </li>
   <li>
    체리
   </li>
  </ul>
  <ul class="items">
   <li>
    Python
   </li>
   <li>
    C++
   </li>
   <li>
    SQL
   </li>
  </ul>
 </body>
</html>

<a></a>
<html><body><a></a></body></html>


In [4]:
# 데이터 선택
# find() - 첫번째 매칭 요소 선택
# 1. 태그를 기준으로 탐색
title_tag = soup.find("h1")
print(title_tag)
print(title_tag.text)
print(title_tag.get_text())


<h1 class="title">Hello BeautifulSoup</h1>
Hello BeautifulSoup
Hello BeautifulSoup


In [5]:
# find() - 속성 조건으로 검색 가능
result = soup.find("h1", class_="sub_title")
print(result.text)


안녕! 아름다운 수프


In [6]:
# find_all() - 모든 매칭된 요소 선택
result = soup.find_all("h1")
print(result)

for i in result:
    print(i.text)

[<h1 class="title">Hello BeautifulSoup</h1>, <h1 class="sub_title">안녕! 아름다운 수프</h1>]
Hello BeautifulSoup
안녕! 아름다운 수프


In [7]:
# select() - 모든 매칭 요소 선택
# CSS 선택자로 탐색
result = soup.select("ul.items")
print(result)

for i in result:
    print(i.text)

[<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>, <ul class="items">
<li>Python</li>
<li>C++</li>
<li>SQL</li>
</ul>]

사과
바나나
체리


Python
C++
SQL



In [8]:
# select_one() - 첫번째 매칭 요소 선택
result = soup.select_one("ul.items")
result

<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>

### Requests
- HTTP 프로토콜을 이용하여 웹 사이트로부터 데이터를 송수신 하는 라이브러리

In [57]:
# beautifulsoup & requests 함께 이용
# 멜론에서 Top10의 노래 제목 받아오기

url = "https://www.melon.com/chart/index.htm"
headers = {
    "User-Agent" : "Mozilla/5.0"
}

response = requests.get(url, headers=headers)
# print(response.status_code)             # 200: 성공/ 404:페이지 없음/ 500: 서버 에러
# print(response.text)

soup = BeautifulSoup(response.text, "html.parser")

songs = soup.select("div.ellipsis.rank01 a")[:10]

for idx, song in enumerate(songs):
    print(f"{idx+1}.{song.text}")

1.Good Goodbye
2.ONE MORE TIME
3.타임캡슐
4.Blue Valentine
5.Golden
6.SPAGHETTI (feat. j-hope of BTS)
7.Drowning
8.첫 눈
9.멸종위기사랑
10.달리 표현할 수 없어요


In [4]:
# <실습2>
# 사용자에게 검색어를 입력 받아 검색된 뉴스의 제목과 링크 가져와 보세요

word = input("검색어를 입력하세요.")

headers = {
    "User-Agent" : "Mozilla/5.0"
}

response = requests.get(f"https://search.naver.com/search.naver?query={word}", headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

news_list = soup.select("a.fender-ui_228e3bd1.moM44hE6Je7O8nL1iBI9")            # a태그에 있는 클래스를 가져옴
print("==오늘의 뉴스==")
# print(news_list)


for a in news_list:
    print(f"{a.get_text()} / 링크: {a.get('href')}")


==오늘의 뉴스==


In [8]:
url ="https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query=%ED%8C%8C%EC%97%85"
headers = {
    "User-Agent" : "Mozilla/5.0"
}
news = requests.get(url, headers=headers)
soup = BeautifulSoup(news.text, "html.parser") 

news1 = soup.select("span.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1")[:10]


for i in news1:
    title = i.get_text().strip()
    link_tag = i.find_parent('a') 
    link = link_tag.get("href") if link_tag else None
    print(f"{title} : {link}\n")


서울지하철 1노조 파업 철회…임단협 결렬 후 극적 타결 : https://www.yna.co.kr/view/AKR20251212012100004?input=1195m

[속보] 서울지하철 1노조 파업 안 한다…임단협 극적 타결 : https://www.hankookilbo.com/News/Read/A2025121206010005278?did=NA

서울지하철 1노조 임단협 타결…총파업 철회 : https://news.jtbc.co.kr/article/NB12274900?influxDiv=NAVER

서울지하철 1노조 "파업 유보"...사측 "교섭 진행 중" : https://www.ytn.co.kr/_ln/0115_202512120625177906

서울지하철 1노조 임단협 결렬…오늘 첫차부터 파업 : https://news.sbs.co.kr/news/endPage.do?news_id=N1008365748&plink=ORI&cooper=NAVER

철도노조 총파업 유보…대구지역 열차도 '정상화' : https://www.newsis.com/view/NISX20251211_0003436415

서울 지하철 파업 철회…노사 임단협 극적 타결 : http://www.mbn.co.kr/pages/news/newsView.php?news_seq_no=5161354

철도노조 파업 유보…KTX 등 열차 정상 운행(종합) : https://www.yna.co.kr/view/AKR20251211012451063?input=1195m

서울지하철 1노조 임단협 타결…파업 철회 : https://www.donga.com/news/Society/article/all/20251212/132951802/2

서울지하철 1노조 노사교섭 타결‥파업 철회·정상 운행 : https://imnews.imbc.com/news/2025/society/article/6784498_36718.html



## openpyxl

In [19]:
# 크롤링한 자료를 엑셀로 저장
import openpyxl 

# 엑셀 파일 만들기
wb = openpyxl.Workbook()
ws = wb.active
ws.title = "test"

# 시트 만들기
ws = wb.create_sheet("test")

ws["A1"] = "이름"
ws["B1"] = "나이"

ws["A2"] = "홍길동"
ws["B2"] = 30

wb.save("test.xlsx")

In [20]:
import openpyxl 

wb = openpyxl.Workbook()
ws = wb.active   # 기본 시트를 가져옵니다
ws.title = "test"

ws["A1"] = "이름"
ws["B1"] = "나이"

ws["A2"] = "홍길동"
ws["B2"] = 30

wb.save("test.xlsx")

In [22]:
import openpyxl 

# 파일 불러오기
wb = openpyxl.load_workbook("test.xlsx")

# 시트 선택
ws = wb["test"]

# 여러 자료 추가
data =[
    ["kim", 20],
    ["lee", 14],
    ["park",34]
]

for row in data:
    ws.append(row)

wb.save("test.xlsx")



In [5]:
# <실습3>
response = requests.get("https://finance.naver.com/marketindex/", headers=headers)
soup = BeautifulSoup(response.text, "html.parser")
result = soup.select("div.market1 a.head")          

headers = {"User-Agent" : "Mozilla/5.0"}

from openpyxl import Workbook
wb = Workbook() 
ws = wb.active
ws.title = "환율"

# data=[]
ws.append(["통화", "환율"])
for a in result:
    exchange = a.select_one("span.blind").get_text().split()[1] # USD
    value = a.select_one("span.value").get_text()
    # data.append([exchange, value]) # df 이용 저장 (to_excel)
    ws.append([exchange, value])


wb.save("test.xlsx")


NameError: name 'headers' is not defined

In [None]:
# import requests
# from bs4 import BeautifulSoup
# from openpyxl import Workbook

# url = "https://finance.naver.com/marketindex/"
# headers = {"User-Agent": "Mozilla/5.0"}
# response = requests.get(url, headers=headers)
# soup = BeautifulSoup(response.text, "html.parser")

# exchange_list = soup.select("div.head_info")

# for item in exchange_list:
#     name_tag = item.select_one("span.blind")
#     rate_tag = item.select_one("span.value")
    
#     if name_tag and rate_tag:
#         name = name_tag.get_text(strip=True)
#         rate = rate_tag.get_text(strip=True)
#         print(f"{name} : {rate}")
        

# wb = Workbook()
# ws = wb.active
# ws.title = "환율"

# # 헤더 작성
# ws["A1"] = "국가"
# ws["B1"] = "환율"

# row = 2

# # 환율 항목 선택
# # 네이버 금융 메인 페이지의 주요 환율은 div.head_info 안에 있음
# for item in soup.select("div.head_info"):
#     name_tag = item.select_one("span.blind")   # 통화명
#     value_tag = item.select_one("span.value")  # 환율 값
    
#     if name_tag and value_tag:
#         name = name_tag.get_text(strip=True)
#         value = value_tag.get_text(strip=True)
        
#         ws[f"A{row}"] = name
#         ws[f"B{row}"] = value
#         row += 1

# # 엑셀 저장
# wb.save(excel_file)
# print(f"엑셀 파일 생성 완료: {excel_file}")

원 : 1,472.20
원 : 946.17
원 : 1,727.77
원 : 208.76
엔 : 154.9400
달러 : 1.1740
달러 : 1.3420
하락 : 98.3400
달러 : 57.6
원 : 1744.69
달러 : 4313.0
원 : 202063.97
엑셀 파일 생성 완료: 환율.xlsx
