# **BeautifulSoup**

**장점**
* table 형태가 아니더라도 내가 얻고 싶은 정보를 입맛대로 가져올 수 있다.
* 정보를 추출하고 싶은 웹 페이지의 html을 추출할 수 있다. 
* 추출된 html에서 내가 원하는 정보를 추출할 수 있다. 

**단점**
* url상에 나타나는 웹페이지에 있는 정보만 불러올 수 있다.
* 예를 들어 웹페이지에서 내가 검색할 날짜를 바꾸더라도 url이 바뀌지 않는다면 내가 원하는 날짜에 대한 정보를 추출할 수 없다.
* **<u>그러나</u>** 페이지가 변경 될 때마다 url이 바뀐다면 그 정보를 통해 python에서 페이지를 조정할 수 있다. 

## **실시간 멜론 차트 Top100**

* 1시간마다 실시간 멜론 차트가 100순위까지 나타나 있는 웹 페이지이다.

* **학습 목표**<br>
순위, 곡정보, 가수명, 좋아요 수를 추출할 수 있다.

<div markdown="1" style="text-align:center; margin-bottom:10px">
<img src="./images/melon_html.png" width="50%">
</div> 

## **1) html 추출**

In [24]:
from urllib.request import urlopen, Request

url = 'https://www.melon.com/chart/index.htm'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'}

request = Request(url, headers=headers)
with urlopen(request) as response:
    print(response.status)
    html = response.read().decode('utf-8')

html

200


'<!DOCTYPE html>\r\n<html lang="ko">\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n<head>\r\n\t\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\r\n\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />\r\n\t\r\n\r\n\t\r\n\r\n\t\r\n\r\n\t<title>멜론차트>TOP100>멜론</title>\r\n\t<meta name="keywords" content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" />\r\n\t<meta name="description" content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" />\r\n\t<meta name="naver-site-verification" content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" />\r\n\t<meta name="google-site-verification" content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" />\r\n\t<meta property="fb:app_id" content="357952407588971"/>\r\n\t<meta property="og:title" content="Melon"/>\r\n\t<meta property="og:image" content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png"/>\r\n\t

In [16]:
import requests as req

url = 'https://www.melon.com/chart/index.htm'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'}

response = req.get(url, headers=headers)
response.text

'<!DOCTYPE html>\r\n<html lang="ko">\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n<head>\r\n\t\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\r\n\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />\r\n\t\r\n\r\n\t\r\n\r\n\t\r\n\r\n\t<title>멜론차트>TOP100>멜론</title>\r\n\t<meta name="keywords" content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" />\r\n\t<meta name="description" content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" />\r\n\t<meta name="naver-site-verification" content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" />\r\n\t<meta name="google-site-verification" content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" />\r\n\t<meta property="fb:app_id" content="357952407588971"/>\r\n\t<meta property="og:title" content="Melon"/>\r\n\t<meta property="og:image" content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png"/>\r\n\t

## **2) 정보 추출**

In [27]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
soup.prettify()

'<!DOCTYPE html>\n<html lang="ko">\n <head>\n  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>\n  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>\n  <title>\n   멜론차트&gt;TOP100&gt;멜론\n  </title>\n  <meta content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" name="keywords"/>\n  <meta content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" name="description"/>\n  <meta content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" name="naver-site-verification"/>\n  <meta content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" name="google-site-verification"/>\n  <meta content="357952407588971" property="fb:app_id"/>\n  <meta content="Melon" property="og:title"/>\n  <meta content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png" property="og:image"/>\n  <meta content="음악이 필요한 순간, 멜론" property="og:description"/>\n  <meta content="http://www.melon.com/chart/index.htm" property="og:url"/>\n  <meta content="webs

<div markdown="1" style="justify-content:center; align-items:center; margin-bottom:10px;">
<img src="./images/beautifulsoup01.png" width="20%">
<img src="./images/beautifulsoup02.png" width="20%" style="margin-left:20px">
</div> 

* 웹 페이지에서 곡 리스트 테이블은 class가 'lst50`과 'lst100'으로 나뉘어져 있다. 
* 필요한 정보     

    <table>
        <tr> <th>필요한 정보</th><th>태그/id/class</th> </tr>
        <tr> <td>순위</th><td>class="rank"</td> </tr>
        <tr> <td>곡 명</th><td>class="ellipsis rank01"</td> </tr>
        <tr> <td>가수 명</th><td>class="ellipsis rank02"</td> </tr>
    </table>

In [74]:
import pandas as pd
play_lst = []
for lst in ['lst50', 'lst100']:
    rows = soup.find_all('tr', class_=lst)
    for row in rows:
        rank = row.find(class_='rank').text
        song = row.find(class_='ellipsis rank01').text.strip()
        singer = row.find(class_='ellipsis rank02').span.text.strip()
        play_lst.append([rank, song, singer])

day = soup.find(class_='year').text + ' ' + soup.find(class_='hour').text
print(day, '기준 Melon 차트')
melon = pd.DataFrame(play_lst, columns=['순위', '곡 명', '가수 명'])
melon.set_index('순위', inplace=True)
melon

2023.04.12 17:00 기준 Melon 차트


Unnamed: 0_level_0,곡 명,가수 명
순위,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Kitsch,IVE (아이브)
2,I AM,IVE (아이브)
3,꽃,지수 (JISOO)
4,Ditto,NewJeans
5,Hype boy,NewJeans
...,...,...
96,그중에 그대를 만나,김호중
97,That’s Not How This Works (feat. Dan + Shay),Charlie Puth
98,딱 10CM만,"10CM, BIG Naughty (서동현)"
99,아모르 파티,이홍기 (FT아일랜드)
