## 10. Beautiful Soup
- HTML 과 XML파일에서 데이터를 추출하기 위한 라이브러리

In [57]:
from bs4 import BeautifulSoup
import requests

In [None]:
with open("test.html", "r", encoding="utf-8") as f:
    html_data = f.read()

# soup 객체 생성
# soup = BeautifulSoup(html_data, "html.parser")        # 내장 파서
soup = BeautifulSoup(html_data, "lxml")                # xml 일때 사용, 설치 필요
# print(soup)
print(soup.prettify())      # 들여쓰기 표시

# 파서 차이 비교
print(BeautifulSoup("<a></p>", "html.parser"))          # <a></a>
print(BeautifulSoup("<a></p>", "lxml"))                 # <html><body><a></a></body></html>



<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <title>
   크롤링 연습 페이지
  </title>
 </head>
 <body>
  <h1 class="title">
   Hello BeautifulSoup
  </h1>
  <h1 class="sub_title">
   안녕! 아름다운 수프
  </h1>
  <p id="description">
   이 페이지는 BeautifulSoup 학습을 위한 예제입니다.
  </p>
  <ul class="items">
   <li>
    사과
   </li>
   <li>
    바나나
   </li>
   <li>
    체리
   </li>
  </ul>
  <ul class="items">
   <li>
    Python
   </li>
   <li>
    C++
   </li>
   <li>
    SQL
   </li>
  </ul>
 </body>
</html>

<a></a>
<html><body><a></a></body></html>


In [4]:
# 데이터 선택
# find() - 첫번째 매칭 요소 선택
# 1. 태그를 기준으로 탐색
title_tag = soup.find("h1")
print(title_tag)
print(title_tag.text)
print(title_tag.get_text())


<h1 class="title">Hello BeautifulSoup</h1>
Hello BeautifulSoup
Hello BeautifulSoup


In [5]:
# find() - 속성 조건으로 검색 가능
result = soup.find("h1", class_="sub_title")
print(result.text)


안녕! 아름다운 수프


In [6]:
# find_all() - 모든 매칭된 요소 선택
result = soup.find_all("h1")
print(result)

for i in result:
    print(i.text)

[<h1 class="title">Hello BeautifulSoup</h1>, <h1 class="sub_title">안녕! 아름다운 수프</h1>]
Hello BeautifulSoup
안녕! 아름다운 수프


In [7]:
# select() - 모든 매칭 요소 선택
# CSS 선택자로 탐색
result = soup.select("ul.items")
print(result)

for i in result:
    print(i.text)

[<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>, <ul class="items">
<li>Python</li>
<li>C++</li>
<li>SQL</li>
</ul>]

사과
바나나
체리


Python
C++
SQL



In [8]:
# select_one() - 첫번째 매칭 요소 선택
result = soup.select_one("ul.items")
result

<ul class="items">
<li>사과</li>
<li>바나나</li>
<li>체리</li>
</ul>

### Requests
- HTTP 프로토콜을 이용하여 웹 사이트로부터 데이터를 송수신 하는 라이브러리

In [9]:
# beautifulsoup & requests 함께 이용
# 멜론에서 Top10의 노래 제목 받아오기

url = "https://www.melon.com/chart/index.htm"
headers = {
    "User-Agent" : "Mozilla/5.0"
}

response = requests.get(url, headers=headers)
# print(response.status_code)             # 200: 성공/ 404:페이지 없음/ 500: 서버 에러
# print(response.text)

soup = BeautifulSoup(response.text, "lxml")

songs = soup.select("div.ellipsis.rank01 a")[:10]

for idx, song in enumerate(songs):
    print(f"{idx+1}.{song.text}")

1.Good Goodbye
2.ONE MORE TIME
3.타임캡슐
4.Blue Valentine
5.SPAGHETTI (feat. j-hope of BTS)
6.Golden
7.Drowning
8.멸종위기사랑
9.첫 눈
10.달리 표현할 수 없어요


In [56]:
# <실습2>
# 사용자에게 검색어를 입력 받아 검색된 뉴스의 제목과 링크 가져와 보세요
url ="https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query=%ED%8C%8C%EC%97%85"
headers = {
    "User-Agent" : "Mozilla/5.0"
}
news = requests.get(url, headers=headers)
soup = BeautifulSoup(news.text, "lxml") 

news1 = soup.select("span.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1")[:10]


for i in news1:
    title = i.get_text().strip()
    link_tag = i.find_parent('a') 
    link = link_tag.get("href") if link_tag else None
    print(f"{title} : {link}\n")


철도노조 파업 유보…KTX 등 열차 정상 운행 : https://www.yna.co.kr/view/AKR20251211012400063?input=1195m

철도노조 총파업 유보…KTX 등 열차 정상 운행 : https://news.tf.co.kr/read/life/2271282.htm

[속보]서울지하철 9호선 파업 철회…1~8호선은 막판교섭 : https://www.khan.co.kr/article/202512110503001

철도노조 내일부터 무기한 파업…노사 협상 결렬 : https://news.sbs.co.kr/news/endPage.do?news_id=N1008363632&plink=ORI&cooper=NAVER

코레일 노조 "총파업 유보"...모든 열차 정상운행 : https://www.ytn.co.kr/_ln/0102_202512110250231896

철도노조 내일 오전 9시부터 무기한 파업…노사 협상 결렬(종합) : https://www.yna.co.kr/view/AKR20251210126851063?input=1195m

[속보] 코레일 "철도노조 파업 유보…11일 전 열차 정상 운행" : https://www.hankyung.com/article/202512116248i

코레일 노사 '성과급 정상화' 잠정합의…파업 철회(종합) : https://www.newsis.com/view/NISX20251211_0003436478

서울교통公 9호선 노사 진통 끝 합의…총파업 일단락 : http://www.edaily.co.kr/news/newspath.asp?newsid=01567846642397536

서울지하철 노사 임단협 막판 교섭…결렬시 내일부터 파업 : https://www.yna.co.kr/view/AKR20251210163000004?input=1195m

