## 10. Beautiful Soup
- HTML과 XML 파일에서 데이터를 추출하기 위한 라이브러리

In [2]:
from bs4 import BeautifulSoup
import requests

In [8]:
with open("test.html", "r", encoding="utf-8") as f:
  html_data = f.read()
  
# soup 객체 생성
# soup = BeautifulSoup(html_data, "html.parser") # 내장 파서
soup = BeautifulSoup(html_data, "lxml") # xml 일때 사용, 설치 필요
# print(soup)
print(soup.prettify()) # 들여쓰기 표시

# 파서 차이 비교
# print(BeautifulSoup("<a></p>", "html.parser")) # <a></a>

# print(BeautifulSoup("<a></p>", "lxml")) # <html><body><a></a></body></html>

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <title>
   크롤링 연습 페이지
  </title>
 </head>
 <body>
  <h1 class="title">
   Hello BeautifulSoup
  </h1>
  <h1 class="sub_title">
   안녕! 아름다운 수프
  </h1>
  <p id="description">
   이 페이지는 BeautifulSoup 학습을 위한 예제입니다.
  </p>
  <ul class="items">
   <li>
    사과
   </li>
   <li>
    바나나
   </li>
   <li>
    체리
   </li>
  </ul>
  <ul class="items">
   <li>
    Python
   </li>
   <li>
    C++
   </li>
   <li>
    SQL
   </li>
  </ul>
 </body>
</html>



In [11]:
# 데이터 선택
# find() - 첫번째 매칭 요소 선택
# 1) 태그를 기준으로 탐색
title_tag = soup.find("h1")
print(title_tag)
print(title_tag.text)
print(title_tag.get_text())

<h1 class="title">Hello BeautifulSoup</h1>
Hello BeautifulSoup
Hello BeautifulSoup


In [12]:
# find() - 속성 조건으로 검색 가능
result = soup.find("h1", class_="sub_title")
print(result.text)

안녕! 아름다운 수프


In [14]:
# find_all() - 모든 매칭된 요소 선택
result = soup.find_all("h1")
print(result)

for i in result:
  print(i.text)

[<h1 class="title">Hello BeautifulSoup</h1>, <h1 class="sub_title">안녕! 아름다운 수프</h1>]
Hello BeautifulSoup
안녕! 아름다운 수프


In [16]:
# select() - 모든 매칭 요소 선택
# CSS 선택자로 탐색
result = soup.select("ul.items")
print(result)

for i in result:
  print(i.text)

[<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>, <ul class="items">
<li>Python</li>
<li>C++</li>
<li>SQL</li>
</ul>]

사과
바나나
체리


Python
C++
SQL



In [18]:
# select_one() - 첫번째 매칭 요소 선택
result = soup.select_one("ul.items")
result

<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>

### Requests
- HTTP 프로토콜을 이용하여 웹 사이트로부터 데이터를 송수신 하는 라이브러리

In [22]:
# beautifulsoup & requests 함께 이용
# 멜론에서 Top10의 노래 제목을 받아오기

url = "https://www.melon.com/chart/index.htm"
headers = {
  "User-Agent": "Mozilla/5.0"
}

response = requests.get(url, headers=headers)

# print(response.status_code) # 200: 성공, 404: 페이지 없음, 500: 서버 에러
# print(response.text)

soup = BeautifulSoup(response.text, "lxml")

songs = soup.select("div.ellipsis.rank01 a")[:10]

for idx, song in enumerate(songs):
  print(f"{idx+1}. {song.text}")

1. Good Goodbye
2. ONE MORE TIME
3. 타임캡슐
4. Blue Valentine
5. SPAGHETTI (feat. j-hope of BTS)
6. Golden
7. Drowning
8. 멸종위기사랑
9. 첫 눈
10. 달리 표현할 수 없어요


In [9]:
# 실습2. 사용자로부터 입력을 받아 크롤링

word = input("검색어를 입력하세요.")

headers = {
  "User-Agent" : "Mozilla/5.0"
}

response = requests.get(f"https://search.naver.com/search.naver?query={word}", headers=headers)
soup = BeautifulSoup(response.text, "lxml")
# print(soup.prettify())
news_list = soup.select("a.fender-ui_228e3bd1.moM44hE6Je7O8nL1iBI9")

print("== 오늘의 뉴스 ==")
# print(news_list)

for a in news_list:
  print(f"{a.get_text()} / 링크: {a.get("href")}")




== 오늘의 뉴스 ==
HD현대스포츠, '대한민국 스포츠산업대상' 수상... 최우수상은 KT스포츠 / 링크: https://www.starnewskorea.com/sports/2025/12/11/2025121108405175271
"박진만 감독 현역 시절 생각나" 고3 유격수 곧바로 1군 경쟁 돌입, 박찬... / 링크: https://www.starnewskorea.com/sports/2025/12/11/2025121118324144888
외야 골든글러브 수상한 kt 위즈 안현민 / 링크: https://www.newsis.com/view/NISI20251209_0021090910
“꿈만 같다” 한국야구 히트상품 떠오른 KT 안현민, 13년 만에 신인상... / 링크: https://sports.donga.com/sports/article/all/20251209/132933828/1


### openpyxl

In [10]:
# 크롤링한 자료를 엑셀로 저장
import openpyxl

# 엑셀 파일 만들기
wb = openpyxl.Workbook()

# 시트 만들기
ws = wb.create_sheet("test")

ws["A1"] = "이름"
ws["B1"] = "나이"

ws["A2"] = "홍길동"
ws["B2"] = 30

wb.save("test.xlsx")


In [12]:
# 파일 불러오기
wb = openpyxl.load_workbook("test.xlsx")

# 시트 선택
ws = wb["test"]

# 여러 자료 추가
data = [
  ["kim", 20],
  ["lee", 14],
  ["park", 34]
]

for row in data:
  ws.append(row)
  
wb.save("test.xlsx")

In [None]:
# 실습3.

wb = openpyxl.load_workbook("test.xlsx")

# 시트 선택
ws = wb["test"]

res  = requests.get("https://finance.naver.com/marketindex/")
soup = BeautifulSoup(res.text, "lxml")
result = soup.select("div.market1 a.head")

# data = []
ws.append(["통화", "환율"])
for a in result:
  exchange = a.select_one("span.blind").get_text().split()[1] # USD
  value = a.select_one("span.value").get_text()
  # data.append([exchange, value]) # df 이용 저장 (to_excel)
  ws.append([exchange, value])

  
wb.save("test.xlsx")