## 09. BeautifulSoup
- HTML과 XML파일에서 데이터를 추출하기 위한 라이브러리

In [1]:
from bs4 import BeautifulSoup
import requests

In [None]:
with open("test.html", "r", encoding="utf-8") as f:
    html_data = f.read()

# soup객체 생성
# 파싱(Parsing) : 데이터나 문서의 구조를 분석하여 의미 있는 구성 요소로 분해하고 해석하는 과정
# soup = BeautifulSoup(html_data, "html.parser") # 내장 파서
soup = BeautifulSoup(html_data, "lxml")
# print(soup) # 그냥 나옴
print(soup.prettify()) # 정렬된 형태로 나옴

In [None]:
# 데이터 선택
# find() - 첫번째 매칭 요소 선택
# 태그를 기준으로 탐색
result = soup.find("h1")
print(result) # html 전체적으로 보임
print(result.text) # 내용물이 보여지게 됨
print(result.get_text(strip=True))

In [None]:
# find() - 속성 조건으로 검색 가능
result = soup.find("h1", class_="sub_title")
print(result.text)

In [None]:
# find_all() - 모든 매칭된 요소 선택
result = soup.find_all("h1")

print(result) # 리스트 형태로 나옴

# 텍스트 형태로만 출력
for i in result:
    print(i.text)

In [None]:
# select() - 모든 매칭 요소 선택
# CSS 선택자로 탐색
# result = soup.select("ul:nth-child(4)")
result = soup.select("ul.items")
print(result)

for i in result:
    print(i.text)

In [20]:
#select_one() - 첫번째 매칭 요소 선택
result = soup.select_one("ul.items")
print(result)

<ul class="items">
<li data-id="1">사과</li>
<li data-id="2">바나나</li>
<li data-id="3">체리</li>
</ul>


In [27]:
# request와 함께 사용
# requests : 웹 사이트에서 데이터를 송수신 할 수 있는 라이브러리
# 멜론에서 Top10의 노래 제목을 받아오기

url = "https://www.melon.com/chart/index.htm"
headers = {
    "User-Agent": "Mozilla/5.0"
}

response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.text, "lxml")

songs = soup.select("div.ellipsis.rank01 a")[:10]

for idx, song in enumerate(songs):
    print(f"{idx+1}. {song.text}")

1. Golden
2. Soda Pop
3. 뛰어(JUMP)
4. FAMOUS
5. Dirty Work
6. Drowning
7. 시작의 아이
8. 너에게 닿기를
9. Your Idol
10. WICKED


In [44]:
# 실습2. 사용자로부터 입력을 받아 크롤링
import datetime

word = input("검색어를 입력하세요.")

headers = { 
    "User-Agent" : "Mozilla/5.0"
}

response = requests.get(f"https://search.naver.com/search.naver?query={word}",
                        headers=headers)
soup = BeautifulSoup(response.text, "lxml")

news_list = soup.select("a.BxOYkTUC7zH9xrtyOwDx.a2OpSM_aSvFbHwpL_f8N")

print(f"== {datetime.date.today()} 오늘의 축구 뉴스 ==")
for a in news_list:
    print(f"{a.get_text()} / 링크: {a.get("href")}")

== 2025-08-11 오늘의 축구 뉴스 ==
[프로야구 중간순위] 10일 / 링크: https://www.yna.co.kr/view/AKR20250809042251007?input=1195m
야구 순위도 1·2위인데 주식 인기도 1·2위…이 기업들, 그냥 둘다 살까 / 링크: https://www.mk.co.kr/article/11389584
'신인왕 후보 0순위' KT 안현민, 7월 KBO MVP 삼켰다 / 링크: http://www.osen.co.kr/article/G1112632981
[프로야구] 중간 순위(9일) / 링크: https://www.news1.kr/sports/baseball/5874578


In [None]:
# herf
# HTML에서 **하이퍼링크의 목적지(주소)**를 지정하는 속성
a href="https://www.example.com" #Example 사이트로 이동</a>
# href="https://www.example.com" → 클릭 시 이동할 URL
# <a> 태그 안의 "Example 사이트로 이동" → 사용자가 화면에서 보는 글자

In [3]:
# openpyxl
# 크롤링한 자료를 엑셀로 저장
import openpyxl

# 엑셀 파일 만들기
wb = openpyxl.Workbook()

# 시트 만들기
ws = wb.create_sheet("codingon")

ws["A1"] = "이름"
ws["B1"] = "영어이름"

ws["A2"] = "태훈"
ws["B2"] = "TaeHun"

wb.save("codingon.xlsx")

In [None]:
# pandas를 통한 엑셀 만들기
import pandas as pd

data = {
    "이름" : ["태훈"],
    "영어이름" : ["TaeHun"]
}

df = pd.DataFrame(data)

df.to_excel("codingon2.xlsx", index=False, sheet_name="list")

In [18]:
# 파일 불러오기
wb = openpyxl.load_workbook("codingon.xlsx")

# 시트 선택
ws = wb["codingon"]

ws["A3"] = "윤코딩"
ws["B3"] = "codingYun"

data=[
    ["윤태훈", "Yun"],
    ["김철수", "Kim"],
    ["이철수", "Lee"],
    ["최수연", "Choi"],
    ["안민수", "An"],
    ["손흥민", "Son"]
]

for row in data:
    ws.append(row)

wb.save("codingon.xlsx")

In [None]:
# 실습3
# 결과 한칸 한칸 확인하면서 진행
# market1 다음 a 아래에 있는 span class blind, span class value를 뽑아야함
import pandas as pd

res = requests.get("https://finance.naver.com/marketindex/")
soup = BeautifulSoup(res.text, "lxml")
result = soup.select("div.market1 a.head")

data = []
for a in result:
    exchange = a.select_one("span.blind").get_text().split()[1]
    value = a.select_one("span.value")
    # print(exchange, value.get_text())
    data.append([exchange, value.get_text()])

print(data)
df = pd.DataFrame(data, columns=["통화", "환율"])
df.to_excel("exchange.xlsx", index=False)

[['USD', '1,391.70'], ['JPY(100엔)', '938.34'], ['EUR', '1,617.09'], ['CNY', '193.49']]
