## 10. Beautiful Soup
-HTML과 XML 파일에서 데이터를 추출하기 위한 라이브러리

In [1]:
from bs4 import BeautifulSoup
import requests

In [2]:
# !(emmet약어)

In [3]:
with open("test.html", "r", encoding="utf-8") as f:
    html_data = f.read()

# soup 객체 생성
# soup = BeautifulSoup(html_data, "html.parser") # 기본으로 제공하는 내장 파서
soup = BeautifulSoup(html_data, "lxml") # xml 일때 사용, 설치 필요
# # print(soup)
print(soup.prettify()) # prettify : 들여쓰기 표시

# 파서 차이 비교
print(BeautifulSoup("<a></p>", "html.parser"))      # <a></a>
print(BeautifulSoup("<a></p>", "lxml"))             # <html><body><a></a></body></html>

FileNotFoundError: [Errno 2] No such file or directory: 'test.html'

In [None]:
# 데이터 선택
# find() - 첫번째 매칭 요소 선택 (첫번째로 만나는 요소)
# 1) 태그를 기준으로 탐색
title_tag = soup.find("h1")
print(title_tag)                # <h1 class="title">Hello Beautiful Soup</h1>
print(title_tag.text)           # Hello Beautiful Soup
print(title_tag.get_text())     # Hello Beautiful Soup

<h1 class="title">Hello Beautiful Soup</h1>
Hello Beautiful Soup
Hello Beautiful Soup


In [None]:
# find() - 속성 조건으로 검색 가능
result = soup.find("h1", class_ = "sub_title")
print(result)           # <h1 class="sub_title">안녕! 아름다운 수프</h1>
print(result.text)      # 안녕! 아름다운 수프

<h1 class="sub_title">안녕! 아름다운 수프</h1>
안녕! 아름다운 수프


In [None]:
# find_all() - 모든 매칭 요소 선택
result = soup.find_all("h1")
print(result)           # [<h1 class="title">Hello Beautiful Soup</h1>, <h1 class="sub_title">안녕! 아름다운 수프</h1>]

for i in result:
    print(i.text)
    # Hello Beautiful Soup
    # 안녕! 아름다운 수프

[<h1 class="title">Hello Beautiful Soup</h1>, <h1 class="sub_title">안녕! 아름다운 수프</h1>]
Hello Beautiful Soup
안녕! 아름다운 수프


In [None]:
# select() - 모든 매칭 요소 선택
# CSS 선택자로 탐색
result = soup.select("ul.items")
print(result)

# [<ul class="items">
# <li>사과</li>
# <li>바나나</li>
# <li>체리</li>
# </ul>, <ul class="items">
# <li>파이썬</li>
# <li>C++</li>
# <li>SQL</li>
# </ul>]
for i in result:
    print(i.text)
    # 사과
    # 바나나
    # 체리


    # 파이썬
    # C++
    # SQL

[<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>, <ul class="items">
<li>파이썬</li>
<li>C++</li>
<li>SQL</li>
</ul>]

사과
바나나
체리


파이썬
C++
SQL



In [None]:
# select_one() - 첫번째 매칭 요소 선택
result = soup.select_one("ul.items")
result

# <ul class="items">
# <li>사과</li>
# <li>바나나</li>
# <li>체리</li>
# </ul>

<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>

### Requests
- HTTP 프로토콜을 이용하여 웹 사이트로부터 데이터를 송수신할 수 있는 라이브러리

In [None]:
# BeautifulSoup & requests 함께 이용


# 실습 1. 멜론에서 Top 10의 노래 제목 받아오기
url = "https://www.melon.com/chart/index.htm"
headers = {
    "User-Agent" : "Mozilla/5.0"
}
response = requests.get(url, headers=headers)
# print(response.status_code)     # 상태 코드 (200 : 성공 404 : 페이지 없음 500 : 서버 에러)
# print(response.text)

soup = BeautifulSoup(response.text, "lxml")

songs = soup.select("div.ellipsis.rank01 a")[:10] # 띄어쓰기는 트리구조에서 뒤에 것이 하위 구조임을 나타냄

for idx, song in enumerate(songs):
    print(f"{idx+1}. {song.text}")

1. Good Goodbye
2. ONE MORE TIME
3. 타임캡슐
4. Blue Valentine
5. SPAGHETTI (feat. j-hope of BTS)
6. Golden
7. 첫 눈
8. Drowning
9. 멸종위기사랑
10. 달리 표현할 수 없어요


In [None]:
# 실습2. 웹 크롤링실습
url = "https://search.naver.com/search.naver?sm=tab_hty.top&where=news&ssc=tab.news.all&query=lg%ED%8A%B8%EC%9C%88%EC%8A%A4&oquery=lg%ED%8A%B8%EC%9C%88%EC%8A%A4&tqi=jgpKydqos5wssiUDbsh-289292&ackey=rv5xkg2q"
headers = {
    "User-Agent" : "Mozilla/5.0"
}
news = requests.get(url, headers=headers)
# print(news.status_code)

soup = BeautifulSoup(news.text, 'lxml')

lg_news = soup.select("span.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1")

for lg in lg_news:
    title = lg.get_text().strip()
    link_tag = lg.find_parent('a')
    link = link_tag.get('href') if link_tag else None
    print(f"{title} : {link}")
print("-----" * 50)

골든포토 포즈 취하는 LG 트윈스 박해민 : https://www.newsis.com/view/NISI20251209_0021090769
LG 트윈스, '2025 통합우승 기념 화보집' 발간 : https://www.sportschosun.com/baseball/2025-12-10/202512100100063690010095
LG 트윈스의 역대 3번째 ‘왕조’ 도전, 가능성과 과제 [김대호의 야구... : https://news.tf.co.kr/read/baseball/2271078.htm
"통합우승 순간 담았다"…LG트윈스, 구단 최초 공식 화보 제작 : https://www.topstarnews.net/news/articleView.html?idxno=15901660
LG트윈스, 부모님과 함께 하는 신인 선수 교육 세미나 개최 : http://www.edaily.co.kr/news/newspath.asp?newsid=01341526642396224
“행복 야구 약속” ‘야구대표자3’ LG 트윈스·한화 이글스로 마무리 : https://www.heraldpop.com/article/10632535?ref=naver
[한번에쓱]'첫 감독상 수상자는' LG트윈스 염경엽 감독 : https://www.starnewskorea.com/sports/2025/12/09/2025120918092955433
[2026 KBO 전망] '왕조 건설' 진격하는 LG 트윈스 : https://www.asiatoday.co.kr/view.php?key=20251203010001828
LG디스플레이 트윈스 클럽, 파주 복지시설 찾아 '사랑 나눔' 봉사활동 : https://www.news1.kr/local/gyeonggi/6001256
LG 트윈스 신민재...차세대 국가대표 스타의 3대 키워드 분석 : https://www.siminilbo.co.kr/news/newsview.php?ncode=1160310585054205
---------------------------------

In [None]:
# 리더님 해설
word = input("검색어를 입력하세요.")        # 사용자로부터 검색어를 입력받아 뉴스를 출력해야함.
headers = {
    "User-Agent" : "Mozilla/5.0"
}

response = requests.get(f"https://search.naver.com./search.naver?query={word}", headers=headers)
soup = BeautifulSoup(response.text, 'lxml')

news_list = soup.select("a.fender-ui_228e3bd1.moM44hE6Je7O8nL1iBI9")

print("== 오늘의 뉴스 ==")

for a in news_list:
    print(f"{a.get_text()} / 링크 : {a.get("href")}")


== 오늘의 뉴스 ==
골든포토상 수상한 LG 트윈스 박해민 / 링크 : https://www.newsis.com/view/NISI20251209_0021090768
LG 트윈스, '2025 통합우승 기념 화보집' 발간 / 링크 : https://www.sportschosun.com/baseball/2025-12-10/202512100100063690010095
LG 트윈스의 역대 3번째 ‘왕조’ 도전, 가능성과 과제 [김대호의 야구... / 링크 : https://news.tf.co.kr/read/baseball/2271078.htm
"통합우승 순간 담았다"…LG트윈스, 구단 최초 공식 화보 제작 / 링크 : https://www.topstarnews.net/news/articleView.html?idxno=15901660


### openpyxl

In [None]:
# 크롤링 자료를 엑셀로 저장
import openpyxl

# 엑셀 파일 만들기
wb = openpyxl.Workbook()

# 시트 만들기
ws = wb.create_sheet("test")

ws["A1"] = "이름"
ws["B1"] = "나이"
ws["A2"] = "홍길동"
ws["B2"] = 30

wb.save("test.xlsx")

In [None]:
# 파일 불러오기
wb = openpyxl.load_workbook("test.xlsx")

# 시트 선택
ws = wb["test"]

# 여러 자료 추가
data = [
    ["kim", 20],
    ["lee", 14],
    ["choi", 27]
]

for row in data:
    ws.append(row)

wb.save("test.xlsx")

In [None]:
# 실습 1. 환율 정보 크롤링 및 엑셀 저장
# 문제 1. 네이버 > 증권 > 시장지표 > 환전 고시 환율에 접속하여, 아래 출력결과 이미지대로 크롤링하세요.

url = "https://finance.naver.com/marketindex/"
headers = {
    "User-Agent" : "Mozilla/5.0"
}
exchange_rate = requests.get(url, headers=headers)
soup = BeautifulSoup(exchange_rate.text, "lxml")

list = soup.select("ul.data_lst li")
# print(exchange_rate.status_code)

for a in list:
    name = a.select_one("h3").get_text(strip=True)
    value = a.select_one("span.value").get_text(strip=True)
    print(f"{name} : {value}")

미국 USD : 1,472.40
일본 JPY(100엔) : 946.00
유럽연합 EUR : 1,728.89
중국 CNY : 208.83
달러/일본 엔 : 154.9400
유로/달러 : 1.1740
영국 파운드/달러 : 1.3420
달러인덱스 : 98.3400
WTI : 57.6
휘발유 : 1744.93
국제 금 : 4313.0
국내 금 : 202453.83


In [None]:
# 실습 1. 환율 정보 크롤링 및 엑셀 저장
# 문제 2. 크롤링을 통해 구한 정보를 아래와 같이 엑셀에 저장해주세요.
import openpyxl

wb = openpyxl.Workbook()
ws = wb.create_sheet("exchange_rate")
ws.append(["통화", "환율"])

for a in list:
    name = a.select_one("h3").get_text(strip=True)
    value = a.select_one("span.value").get_text(strip=True)
    ws.append([name, value])

wb.save("exchange_rate.xlsx")

TypeError: 'type' object is not iterable