## 09. BeautifulSoup
- HTML과 XML파일에서 데이터를 추출하기 위한 라이브러리

In [8]:
from bs4 import BeautifulSoup
import requests

# conda install requests beautifulsoup4 lxml

In [None]:
with open("test.html", "r", encoding="utf-8") as f:
    html_data = f.read()

print(html_data)

In [None]:
# soup 객체 생성
# soup = BeautifulSoup(html_data, "html.parser") # 내장 parser
soup = BeautifulSoup(html_data, "lxml")
print(soup.prettify())

In [None]:
# 데이터 선택

# find() : 첫번째 매칭 요소 선택
# 태그를 기준으로 탐색
result = soup.find("h1")

print(result)
# <h1 class="" title="">Hello BeautifulSoup</h1>
print(result.text)
# Hello BeautifulSoup
print(result.get_text())
# Hello BeautifulSoup


In [None]:
# find() : 속성 조건으로 검색 가능
result = soup.find("h1", class_="sub_title")
print(result.text)
# 안녕 아름다운 수프

In [None]:
# find_all() : 모든 매칭된 요소 선택
result = soup.find_all("h1")
print(result)
# [<h1 class="title">Hello BeautifulSoup</h1>, <h1 class="sub_title">안녕 아름다운 수프</h1>]

for i in result:
    print(i.text)
# Hello BeautifulSoup
# 안녕 아름다운 수프

In [None]:
# select() : 모든 매칭 요소 선택
# CSS 선택자로 탐색
result = soup.select("ul.items")
print(result)
# [<ul class="items">
# <li data-id="1">사과</li>
# <li data-id="2">바나나</li>
# <li data-id="3">체리</li>
# </ul>, <ul class="items">
# <li data-id="1">python</li>
# <li data-id="2">c++</li>
# <li data-id="3">SQL</li>
# </ul>]

for i in result:
    print(i.text)
# 사과
# 바나나
# 체리

# python
# c++
# SQL

In [None]:
# select_one() : 첫번째 매칭 요소 선택
result = soup.select_one("ul.items")
print(result)
# <ul class="items">
# <li data-id="1">사과</li>
# <li data-id="2">바나나</li>
# <li data-id="3">체리</li>
# </ul>

In [None]:
# requests와 함께 사용
# requests : 웹 사이트에서 데이터를 송수신 할 수 있는 라이브러리
# 멜론에서 Top10의 노래 제목 받아오기
url = "https://www.melon.com/chart/index.htm"
# 봇 방지 
headers = {
    "User-Agent": "Mozilla/5.0"
}
response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.text, "lxml")

songs = soup.select("div.ellipsis.rank01 a")[:10]

for idx, song in enumerate(songs):
    print(f"{idx+1}. {song.text}")

In [None]:
# 실습 2. 웹 크롤링 실습

user = input("검색어를 입력하세요 :")
url = "https://search.naver.com/search.naver?&query=" + user

response = requests.get(url)

soup = BeautifulSoup(response.text, "lxml")
title = soup.select("a.BxOYkTUC7zH9xrtyOwDx.a2OpSM_aSvFbHwpL_f8N")

for i in title:
    print(i.text, i.get("href"))

In [4]:
# 크롤링한 자료를 엑셀로 저장
import openpyxl

# 엑셀 파일 만들기
wb = openpyxl.Workbook()

# 시트 만들기
ws = wb.create_sheet("codingon")

ws["A1"] = "이름"
ws["B1"] = "영어이름"

ws["A2"] = "태현"
ws["B2"] = "taehyun"

wb.save("codingon.xlsx")

In [None]:
# Pandas가 더 편함
import pandas as pd

data = {
    "이름":["태현"],
    "영어이름":["taehyun"]
}

df = pd.DataFrame(data)

df.to_excel("codingon2.xlsx", index=False, sheet_name="list")

In [6]:
# 파일 불러오기
wb = openpyxl.load_workbook("codingon.xlsx")

# 시트 선택
ws = wb["codingon"]

ws["A3"] = "이름1"
ws["b3"] = "name1"

# 여러 자료 추가
data = [
    ["이름2", "name2"],
    ["이름3", "name3"],
    ["이름4", "name4"],
    ["이름5", "name5"],
]

for row in data:
    ws.append(row)

wb.save("codingon.xlsx")

In [None]:
# 환율 정보 크롤링 및 엑셀 저장
import pandas as pd

url = "https://finance.naver.com/marketindex/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "lxml")

result = soup.select("div.market1 a.head")

data = []
for a in result:
    name = a.select_one("span.blind").get_text().split()[1]
    value = a.select_one("span.value")
    data.append([name, value.get_text()])

df = pd.DataFrame(data, columns=["통화", "환율"])
df.to_excel("test_file.xlsx", index=False)