## 10. Beautiful Soup
- HTML과 XML 파일에서 데이터를 추출하기 위한 라이브러리


In [2]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

In [None]:
with open("test.html", "r", encoding="utf-8") as f:
    html_data = f.read()

# soup 객체 생성
# soup = BeautifulSoup(html_data, "html.parser") # 내장 파서
soup = BeautifulSoup(html_data, "lxml") # xml 일때 사용, 설치 필요
# print(soup)
print(soup.prettify()) # 들여쓰기 표시
# 파서 차이비교
print(BeautifulSoup("<a></p>", "html.parser")) # <a></a>
print(BeautifulSoup("<a></p>", "lxml")) # <html><body><a></a></body></html>

<a></a>
<html><body><a></a></body></html>


In [10]:
# 데이터 선택
# find() - 첫 번째 매칭 요소 선택
# 1) 태그를 기준으로 탐색
title_tag = soup.find("h1")
print(title_tag)
print(title_tag.text)
print(title_tag.get_text())

<h1 class="title">Hello BeautifulSoup</h1>
Hello BeautifulSoup
Hello BeautifulSoup


In [11]:
# find() = 속성 조건으로 검색 가능
result = soup.find("h1", class_="sub_title")
print(result.text)

안녕! 아름다운 수프


In [13]:
# find_all = 모든 매칭된 요소를 선택
result = soup.find_all("h1")
print(result)

for i in result:
    print(i.text)

[<h1 class="title">Hello BeautifulSoup</h1>, <h1 class="sub_title">안녕! 아름다운 수프</h1>]
Hello BeautifulSoup
안녕! 아름다운 수프


In [15]:
# select() - 모든 매칭 요소 선택
# css 선택자로 선택
result = soup.select("ul.items")
print(result)

for i in result:
    print(i.text)

[<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>, <ul class="items">
<li>Python</li>
<li>C++</li>
<li>SQL</li>
</ul>]

사과
바나나
체리


Python
C++
SQL



In [16]:
# select_one() - 첫 번째 매칭 요소 선택
result = soup.select_one("ul.items")
result

<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>

### Requests
- HTTP 프로토콜을 이용하여 웹 사이트로부터 데이터를 송수신하는 라이브러리

In [22]:
# BeautifulSoup & requests 함께 이용
# 멜론에서 Top10의 노래 제목을 받아오기

url = "https://www.melon.com/chart/index.htm"
headers = {
    "User-Agent": "Mozilla/5.0"
}

response = requests.get(url, headers=headers)
# print(response.status_code) # 200: 성공, 404: 페이지 없음, 500: 서버 에러
# print(response.text)

soup = BeautifulSoup(response.text, "lxml")

songs = soup.select("div.ellipsis.rank01 a")[:10]

for idx, song in enumerate(songs):
    print(f"{idx + 1}.{song.text}")

1.Good Goodbye
2.ONE MORE TIME
3.타임캡슐
4.Blue Valentine
5.SPAGHETTI (feat. j-hope of BTS)
6.Golden
7.Drowning
8.멸종위기사랑
9.첫 눈
10.달리 표현할 수 없어요


In [3]:


url = "https://news.naver.com/section/102"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "lxml")

articles = soup.select("div.sa_item_flex a.sa_text_title")

for a in articles[:15]:
    title = a.get_text(strip=True)
    href = a.get("href")

  
    if href.startswith("/"):
        link = "https://news.naver.com" + href
    else:
        link = href

    print(f"- {title}\n,{link}\n")



- ‘대장동 항소포기 반발’ 김창진·박현철 검사장, 좌천에 사의 표명
,https://n.news.naver.com/mnews/article/016/0002570888

- 서울지하철 1노조 파업 철회…임단협 결렬 후 극적 타결
,https://n.news.naver.com/mnews/article/055/0001315563

- 총리 직속 의료혁신위 첫 회의…“내년 3월까지 의제 확정”
,https://n.news.naver.com/mnews/article/056/0012083950

- 고양시, ‘2025 청소년정책 우수 지자체’ 국무총리 표창 수상
,https://n.news.naver.com/mnews/article/021/0002756305

- 강제동원 피해자, 일본제철 상대 손배소 또 승소 확정
,https://n.news.naver.com/mnews/article/056/0012083842

- 특검, 한덕수·최상목 임명권 자의적 행사 ‘윤 탄핵심판 방해’로 규정
,https://n.news.naver.com/mnews/article/028/0002781055

- 한강버스 규정 위반 28건 등 120건 지적…市 "이달 중 75건 조치"
,https://n.news.naver.com/mnews/article/011/0004566276

- 통일교 대국민 사과... “윤영호의 개인 일탈” 선 긋기
,https://n.news.naver.com/mnews/article/023/0003946434

- 광주대표도서관 붕괴사고 희생자 2명 빈소 차려져
,https://n.news.naver.com/mnews/article/055/0001315535

- 경찰, '통일교 금품' 수사 착수‥윤영호 구치소 접견
,https://n.news.naver.com/mnews/article/214/0001467479

- "에티켓 지켜라"…'노조 조끼' 입은 손 제지한 백화점 [소셜픽]
,https://n.news.naver.com/mnews/article/437/0

In [10]:
# 웹 크롤링 Leader
word = input("검색어를 입력하세요: ")

headers = {
    "User-Agent" : "Mozilla/5.0"
}

response = requests.get(f"https://search.naver.com/search.naver?query={word}", headers=headers)
soup = BeautifulSoup(response.text, "lxml")
# print(soup.prettify())
news_list = soup.select("a.fender-ui_228e3bd1.moM44hE6Je7O8nL1iBI9")
print("==오늘의 뉴스==")

for a in news_list:
    print(f"{a.get_text()} / 링크: {a.get("href")}")

==오늘의 뉴스==
김병기 원내대표, 쿠팡 박대준 대표와 국감 전 호텔서 식사 논란 / 링크: https://imnews.imbc.com/news/2025/politics/article/6784148_36711.html
[2보] '개인정보 유출' 박대준 쿠팡 대표 사임…사실상 경질 / 링크: https://www.yna.co.kr/view/AKR20251210108451030?input=1195m
김범석 '복심' 쿠팡 대표로…쿠팡Inc. 사태 직접 책임 의지(종합) / 링크: https://www.news1.kr/industry/distribution/6004224
쿠팡 이용자 수, 유출 사태 9일 만에 ‘이전 수준’ 복귀 / 링크: https://biz.chosun.com/distribution/channel/2025/12/11/CWFC2TYGMBCQZA3OC46HNXR4QM/?utm_source=naver&utm_medium=original&utm_campaign=biz


### openpyxl

In [13]:
# 크롤링한 자료를 엑셀로 저장
import openpyxl

# 엑셀 파일 만들기
wb = openpyxl.Workbook()

# 시트 만들기
ws = wb.create_sheet("test")

ws["A1"] = "이름"
ws["B1"] = "나이"

ws["A2"] = "홍길동"
ws["B2"] = 30

wb.save("test.xlsx")

In [14]:
# 파일 불러오기
wb = openpyxl.load_workbook("test.xlsx")

# 시트 선택
ws = wb["test"]

# 여러 자료 추가
data = [
    ["kim", 20],
    ["lee", 14],
    ["park", 34]
]

for row in data:
    ws.append(row)

wb.save("test.xlsx")


In [20]:
# 실습
url = "https://finance.naver.com/marketindex/exchangeList.naver"
headers = {
    "User-Agent": "Mozilla/5.0"
}

res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, "lxml")
rows = soup.select("table.tbl_exchange tbody tr")
currency = []
rate = []
data = []
for row in rows:
    name = row.select_one("td.tit a").text.strip()
    value = row.select_one("td.sale").text.strip()

    if ("USD" in name) or ("JPY" in name) or ("EUR" in name) or ("CNY" in name) or ("HKD" in name):
        data.append({"통화": name, "환율": value})

print("환율 정보")
for item in data:
    print(item["통화"], item["환율"])

wb = openpyxl.Workbook()
ws = wb.active
ws.title = "환율 정보"
ws.append(["통화","환율"])

for item in data:
    ws.append([item["통화"], item["환율"]])
wb.save("환율정보.xlsx")
print("\n엑셀 저장완료->환율정보.xlsx")

환율 정보
미국 USD 1,473.40
유럽연합 EUR 1,729.77
일본 JPY (100엔) 946.16
중국 CNY 208.94
홍콩 HKD 189.35

엑셀 저장완료->환율정보.xlsx


In [30]:
# 실습 3 leader
res = requests.get("https://finance.naver.com/marketindex/")
soup = BeautifulSoup(res.text, "lxml")
result = soup.select("div.market1 a.head")
wb = openpyxl.load_workbook("test.xlsx")
ws = wb["test"]
# data = []
ws.append(["통화", "환율"])
for a in result:
    exchange = a.select_one("span.blind").get_text().split()[1]
    value = a.select_one("span.value").get_text()
 #   data.append([exchange, value])
    ws.append([exchange, value])
wb.save("test.xlsx")