In [2]:
# ======================================
# 0. 기본 라이브러리
# ======================================
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import folium
from bs4 import BeautifulSoup
import requests
import openpyxl

import matplotlib.font_manager as fm
from matplotlib import rcParams

# ======================================
# 1. 스타일 먼저 (중요: 폰트보다 먼저)
# ======================================
plt.style.use('_mpl-gallery-nogrid')   # matplotlib 스타일
sns.set_theme(style="white")           # seaborn 기본 테마

# ======================================
# 2. 폰트 설정 (나눔고딕)
# ======================================
FONT_PATH = r"C:/Users/user/Desktop/wdh/NanumGothic.ttf"

# matplotlib에 폰트 등록
fm.fontManager.addfont(FONT_PATH)

# 전역 폰트 지정
rcParams["font.family"] = "NanumGothic"

# 마이너스 깨짐 방지
rcParams["axes.unicode_minus"] = False

# (선택) 기본 폰트 사이즈 살짝 키우기
rcParams["font.size"] = 12
rcParams["axes.titlesize"] = 18
rcParams["axes.labelsize"] = 14
rcParams["xtick.labelsize"] = 12
rcParams["ytick.labelsize"] = 12

# ======================================
# 3. 개별 객체용 폰트 (pie, title 등)
# ======================================
font_prop = fm.FontProperties(fname=FONT_PATH)

# ======================================
# 4. seaborn스타일 설정
# ======================================
sns.set_style("ticks") # 스타일 테마 설정
sns.set_context("notebook") # 문맥에 따라 스타일 크기 조정
sns.set_palette("pastel")

## 10. Beautifulsoup

- HTML과 XML 파일에서 데이터를 추출하기 위한 라이브러리

In [3]:
with open("test.html", "r", encoding = "utf-8") as f:
    html_data = f.read()

 # soup 객체 생성
# soup = BeautifulSoup(html_data, "html.parser") > 내장 파서
soup = BeautifulSoup(html_data, "lxml") # > xml 일 때 사용, 설치 필요
print(soup.prettify()) # 들여쓰기 표시

# 파서 차이 비교
print(BeautifulSoup("<a></p>",  "html.parser")) # <a></b>
print(BeautifulSoup("<a></p>",  "lxml")) # <html><body><a></a></body></html>

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <title>
   크롤링 연습 페이지
  </title>
 </head>
 <body>
  <h1 class="title">
   Hello BeautifulSoup
  </h1>
  <h1 class="sub_title">
   안녕! 아름다운 수프
  </h1>
  <p id="description">
   이 페이지는 BeautifulSoup 학습을 위한 예제 입니다.
  </p>
  <ui class="items">
   <li>
    사과
   </li>
   <li>
    바나나
   </li>
   <li>
    체리
   </li>
  </ui>
  <ui class="items">
   <li>
    PYTHON
   </li>
   <li>
    SQL
   </li>
   <li>
    HTML
   </li>
  </ui>
 </body>
</html>

<a></a>
<html><body><a></a></body></html>


In [4]:
# 데이터 선택
# find( )  - 첫 번 째 매칭 요소 선택
# 1) 태그를 기준으로 탐색
title_tag = soup. find("h1")
print(title_tag)
print(title_tag.text)
print(title_tag.get_text())

<h1 class="title">Hello BeautifulSoup</h1>
Hello BeautifulSoup
Hello BeautifulSoup


In [5]:
# find() - 속서 조건으로  검색 가능
result = soup.find("h1", class_ = "sub_title")
print(result.text)

안녕! 아름다운 수프 


In [6]:
# find_all() - 모든 매칭된 요소 선택
result = soup.find_all()
print(result)

for i in result:
    print(i.text)

[<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>크롤링 연습 페이지</title>
</head>
<body>
<h1 class="title">Hello BeautifulSoup</h1>
<h1 class="sub_title">안녕! 아름다운 수프 </h1>
<p id="description">이 페이지는 BeautifulSoup 학습을 위한 예제 입니다.</p>
<ui class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ui>
<ui class="items">
<li>PYTHON</li>
<li>SQL</li>
<li>HTML</li>
</ui>
</body>
</html>, <head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>크롤링 연습 페이지</title>
</head>, <meta charset="utf-8"/>, <meta content="width=device-width, initial-scale=1.0" name="viewport"/>, <title>크롤링 연습 페이지</title>, <body>
<h1 class="title">Hello BeautifulSoup</h1>
<h1 class="sub_title">안녕! 아름다운 수프 </h1>
<p id="description">이 페이지는 BeautifulSoup 학습을 위한 예제 입니다.</p>
<ui class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ui>
<ui class="items">
<li>PYTHON</li>
<li>SQL</li>
<li>HTML</li>
</ui>
</bod

In [7]:
# select( ) - 모든 매칭 요소  선택
# CSS 선택자로 탐색
result = soup.select("ui.items")
print(result)

for i  in result:
    print(i.text)


[<ui class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ui>, <ui class="items">
<li>PYTHON</li>
<li>SQL</li>
<li>HTML</li>
</ui>]

사과
바나나
체리


PYTHON
SQL
HTML



In [8]:
# select_one() - 첫 번쨰 매칭 요소 선택
result = soup.select_one("ui.items")
result

<ui class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ui>

### Requests

- HTTP 프로토콜을 이용하여 웹 사이트로부터 데이터를 송수신 하는 라이브러리

In [9]:
# beautifulsoup & requests 함께 이용
# 멜론에서 top 10 의 노래제목 받아오기

url = "https://www.melon.com/chart/index.htm"
headers = {"User-Agent" : "Mozilla/5.0"}

response = requests.get(url, headers = headers)

print(response.status_code)
print(response.text)

200
<!DOCTYPE html>
<html lang="ko">













<head>
		
	
	
	
	

	

	
	
	
	

	<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
	<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />

	

	

	<title>멜론차트>TOP100>멜론</title>
	<meta name="keywords" content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" />
	<meta name="description" content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" />
	<meta name="naver-site-verification" content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" />
	<meta name="google-site-verification" content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" />
	<meta property="fb:app_id" content="4022717807957185"/>
	<meta property="og:title" content="Melon"/>
	<meta property="og:image" content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png"/>
	<meta property="og:description" content="음악이 필요한 순간, 멜론"/>
	<meta property="og:url" content="http://www.melon.com/chart/index.htm"/>
	<meta prop

In [10]:
soup = BeautifulSoup(response.text, "lxml")

songs = soup.select("div.ellipsis.rank01 a")[:10]

for idx, song in enumerate(songs):
    print(f"{idx + 1}.  {song.text}")

1.  Good Goodbye
2.  ONE MORE TIME
3.  타임캡슐
4.  Blue Valentine
5.  SPAGHETTI (feat. j-hope of BTS)
6.  Golden
7.  첫 눈
8.  Drowning
9.  멸종위기사랑
10.  달리 표현할 수 없어요


In [11]:
#실습2. 웹 크롤링 실습
    # 사용자에게 검색어를 입력 받아 검색된 뉴스의 제목과 링크를 가져와 보세요.

keyword = input("검색어를 입력해주세요: ")

url = "https://search.naver.com/search.naver"
headers = {"User-Agent": "Mozilla/5.0"}
params = {"where": "news", "sm": "nws_hty", "query": keyword}

response = requests.get(url, params=params, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

# ✅ 헤드라인에 해당하는 span만 선택
#   (내용/요약/기타 텍스트용 span은 제외)
headline_spans = soup.select("span.sds-comps-text-type-headline1")

if not headline_spans:
    print("검색 결과가 없습니다.")
else:
    seen_links = set()
    rank = 1

    for span in headline_spans:
        # span 기준으로 가장 가까운 부모 a 태그 찾기
        a_tag = span.find_parent("a", href=True)
        if a_tag is None:
            continue

        link = a_tag["href"]
        title = span.get_text(strip=True)

        # 🔁 같은 링크 중복 제거
        if link in seen_links:
            continue
        seen_links.add(link)

        print(f"{rank}. {title}")
        print(link)
        print()
        rank += 1

        # 상위 10개까지만 출력
        if rank > 10:
            break



1. 신안군-태양광산업협회, 기자재 국산 제품 사용 협약
https://www.yna.co.kr/view/AKR20251211151300054?input=1195m

2. 경기도, 북부청사에 400KW태양광발전시설 추가 설치
https://www.newsis.com/view/NISX20251211_0003437763

3. 제주, 풍력·태양광발전사업에 도민 수익 얻는 투자 추진
https://www.khan.co.kr/article/202512111346001

4. 영농형태양광정책 속도 내는데…“적합작물 연구 미비”
https://www.nongmin.com/article/20251210500866

5. 집에태양광설치하면 '탄소포인트' 1만원
https://www.sedaily.com/NewsView/2H1OD0PDP5

6. 탄소중립포인트, 일상 속 혜택↑…나무심기·베란다태양광도 포인트 지...
https://www.news1.kr/economy/env-policy/6003175

7. CTR-한화솔루션-CTR에너지,태양광발전사업 및 직접전력거래 공동개발...
https://www.donga.com/news/Economy/article/all/20251211/132944584/1

8. 태양광·바람만 있으면…성층권서 400일 장기 비행 가능한 드론
https://www.etnews.com/20251210000319

9. 스스로 전력 만들어 달린다…태양광충전 오토바이 등장
https://news.sbs.co.kr/news/endPage.do?news_id=N1008365723&plink=ORI&cooper=NAVER

10. 태양광‧바이오매스, 탄소 감축‧소득창출 '농촌의 돌파구'
http://www.aflnews.co.kr/news/articleView.html?idxno=309890



In [16]:
word = input("검색어를 입력하세요.")

headers = {
  "User-Agent" : "Mozilla/5.0"
}

response = requests.get(f"https://search.naver.com/search.naver?query={word}", headers=headers)
soup = BeautifulSoup(response.text, "lxml")
# print(soup.prettify())
news_list = soup.select("a.fender-ui_228e3bd1.moM44hE6Je7O8nL1iBI9")

print("== 오늘의 뉴스 ==")
# print(news_list)

for a in news_list:
  print(f"{a.get_text()} / 링크: {a.get("href")}")

== 오늘의 뉴스 ==
경기도, 북부청사에 400KW 태양광 발전시설 추가 설치 / 링크: https://www.newsis.com/view/NISX20251211_0003437763
신안군-태양광산업협회, 기자재 국산 제품 사용 협약 / 링크: https://www.yna.co.kr/view/AKR20251211151300054?input=1195m
제주, 풍력·태양광 발전사업에 도민 수익 얻는 투자 추진 / 링크: https://www.khan.co.kr/article/202512111346001
영농형태양광 정책 속도 내는데…“적합작물 연구 미비” / 링크: https://www.nongmin.com/article/20251210500866


## openpyxl

In [18]:
# 엑셀 파일 만들기
wb = openpyxl.Workbook()

# 시트만들기
ws = wb.create_sheet("test")

ws["A1"] = "이름"
ws["B1"] = "나이"

ws["A2"] = "장원영"
ws["B2"] = "21"

wb.save("test.xlsx")

In [22]:
# 파일 불러오기
wb = openpyxl.load_workbook("test.xlsx")

# 시트 선택
ws = wb["test"]

# 여러 자료 추가
data = [["Kim", 20], ["Lee", 14], ['Park', 34]]

for row in data:
    ws.append(row)

wb.save("test.xlsx")

In [30]:
# 실습3 환율 정보 크롤링 및 엑셀 저장

# 문제1. 네이버 > 증권 > 시장지표 > 환전 고시 환율에 접속하여 크롤링

headers = {"User-Agent" : "Mozilla/5.0"}

url = "https://finance.naver.com/marketindex/"

response = requests.get(url, headers = headers)

soup = BeautifulSoup(response.text, "lxml")

name_tags = soup.select("h3.h_lst")[:4]
value_tags = soup.select("span.value")[:4]

names = [tag.get_text(strip=True) for tag in name_tags]
values = [tag.get_text(strip=True) for tag in value_tags]

data = list(zip(names, values))

for country, price in data:
    print(country, price)

미국 USD 1,472.90
일본 JPY(100엔) 946.23
유럽연합 EUR 1,729.26
중국 CNY 208.87


In [31]:
# 문제2. 크롤링을 통해 구한 정보를 엑셀로 저장

# 엑셀 파일 만들기
wb = openpyxl.Workbook()

# 시트만들기
ws = wb.create_sheet("test")

# 제목(헤더)
ws["A1"] = "국가"
ws["B1"] = "환율"

# 데이터 쓰기
for i, (name, value) in enumerate(zip(names, values), start=2):
    ws[f"A{i}"] = name
    ws[f"B{i}"] = value

wb.save("환율.xlsx")

In [3]:
# 실습3.

wb = openpyxl.Workbook()
ws = wb.active   

res = requests.get("https://finance.naver.com/marketindex/")
soup = BeautifulSoup(res.text, "lxml")
result = soup.select("div.market1 a.head")

ws.append(["통화", "환율"])

for a in result:
    exchange = a.select_one("span.blind").get_text().split()[1] # USD
    value = a.select_one("span.value").get_text()
    ws.append([exchange, value])

wb.save("test.xlsx")