# 멜론사이트에서 인기 100곡 순위 수집하기.
- req 요청하고, res로 응답받기
- bs4로 html 파싱하기
- 제목과 href 추출하기
- 데이터프레임으로 만들기

In [15]:
# 주요 라이브러리 import
import requests as req
from bs4 import BeautifulSoup as bs


In [16]:
# 1-1 사이트 요청하기
req.get("https://www.melon.com/chart/")
# respose 406 오류 발생 client error

<Response [406]>

In [49]:
# 1-2 사이트 요청하기(브라우저 아님을 멜론에서 검증해서 406 클라이언트 차단해버림)
# 브라우저인것처럼 속여버리는방법 
# 문제점 : 406응답이 넘어온다 => 요청의 문제
# 현재 접근하는 환경이 브라우저가 아니고, 파이썬 환경
# 해결책 : 브라우저 인증정보는 network 탭에서 확인할 수 있다. 
# chart/headers 탭에서 확인해서 뭔가를 해야한데 
# user-agent값을 넣어야한다. user-agent Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36
# mobile과 web을 구분해서 요청해야한다. mobile은 요청이 안된다고한다. 
# dict 타입으로 바꿔서 python이 인식할 수 있도록 만들어야한다. 
# browser 변수에 담아주자 . 
# {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36"}

browser = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36"}

browser


{'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36'}

In [50]:
# 다시 request 보내기
# headers에 browser를 넣어서 요청하기 headers = browser 인증정보 넣어서 보내기. server가 브라우저로 인식하게끔
# req도 안되는 경우가 있다. 다른 library를 사용해야한다. 셀레늄이라는 라이브러리를 사용하면 브라우저를 띄워서 요청할 수 있다.
# 어떤 라이브러리? 
# 406 응답이 나온다면, 반드시 headers 공간에 브라우저 정보를 담아서 재요청
res = req.get("https://www.melon.com/chart/", headers = browser)
res

<Response [200]>

In [51]:
# 가수이름, 노래제목 수집
# 핵심포인트 => 선택자 분석하는 법
soup = bs(res.text, "lxml")
soup


<!DOCTYPE html>
<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title>멜론차트&gt;TOP100&gt;멜론</title>
<meta content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" name="keywords"/>
<meta content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" name="description"/>
<meta content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" name="naver-site-verification"/>
<meta content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" name="google-site-verification"/>
<meta content="4022717807957185" property="fb:app_id"/>
<meta content="Melon" property="og:title"/>
<meta content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png" property="og:image"/>
<meta content="음악이 필요한 순간, 멜론" property="og:description"/>
<meta content="http://www.melon.com/chart/" property="og:url"/>
<meta content="website" property="og:type"/>
<meta content="멜론" property="og:si

In [52]:
# 노래제목 수집
# 띄어쓰기를 하면 자손이라는 말이다 > 따라서 ellipsis rank01 공백을 . 처리한다. 
# class를 여러개 가지고 있을 수 있다. ID는 여러개 갖을 수 없다.
# 클래스를 복사해서 가져왓을 때, 중간에 공백이 있다면 클래스가 여러개
# 해결법 : 공백을 지우고 "."으로 이어준다. 
# title 변수에 담아준다.  
title = soup.select("div.ellipsis.rank01 > span > a")
title

[<a href="javascript:melon.play.playSong('1000002721',39166708);" title="Golden 재생">Golden</a>,
 <a href="javascript:melon.play.playSong('1000002721',39156202);" title="FAMOUS 재생">FAMOUS</a>,
 <a href="javascript:melon.play.playSong('1000002721',39121279);" title="Dirty Work 재생">Dirty Work</a>,
 <a href="javascript:melon.play.playSong('1000002721',39166705);" title="Soda Pop 재생">Soda Pop</a>,
 <a href="javascript:melon.play.playSong('1000002721',36397952);" title="Drowning 재생">Drowning</a>,
 <a href="javascript:melon.play.playSong('1000002721',39298775);" title="뛰어(JUMP) 재생">뛰어(JUMP)</a>,
 <a href="javascript:melon.play.playSong('1000002721',38388023);" title="시작의 아이 재생">시작의 아이</a>,
 <a href="javascript:melon.play.playSong('1000002721',38626852);" title="너에게 닿기를 재생">너에게 닿기를</a>,
 <a href="javascript:melon.play.playSong('1000002721',38429074);" title="모르시나요(PROD.로코베리) 재생">모르시나요(PROD.로코베리)</a>,
 <a href="javascript:melon.play.playSong('1000002721',38733032);" title="어제보다 슬픈 오늘 재생">어제보다 슬

In [72]:
# 멜론은 id가 #50 100번째는 id가 100이다 
# b = soup.select("#lst50 > td:nth-child(6) > div > div > div.ellipsis.rank01 > span > a")
b = soup.select(" #lst50 >td:nth-child(6) > div > div > div.ellipsis.rank01 > span > a")
print(b)
# c = soup.select("#lst100 > td:nth-child(6) > div > div > div.ellipsis.rank01 > span > a")
c = soup.select(" td > div > div > div.ellipsis.rank01 > span > a")

print(c) 

[<a href="javascript:melon.play.playSong('1000002721',39166708);" title="Golden 재생">Golden</a>, <a href="javascript:melon.play.playSong('1000002721',39156202);" title="FAMOUS 재생">FAMOUS</a>, <a href="javascript:melon.play.playSong('1000002721',39121279);" title="Dirty Work 재생">Dirty Work</a>, <a href="javascript:melon.play.playSong('1000002721',39166705);" title="Soda Pop 재생">Soda Pop</a>, <a href="javascript:melon.play.playSong('1000002721',36397952);" title="Drowning 재생">Drowning</a>, <a href="javascript:melon.play.playSong('1000002721',39298775);" title="뛰어(JUMP) 재생">뛰어(JUMP)</a>, <a href="javascript:melon.play.playSong('1000002721',38388023);" title="시작의 아이 재생">시작의 아이</a>, <a href="javascript:melon.play.playSong('1000002721',38626852);" title="너에게 닿기를 재생">너에게 닿기를</a>, <a href="javascript:melon.play.playSong('1000002721',38429074);" title="모르시나요(PROD.로코베리) 재생">모르시나요(PROD.로코베리)</a>, <a href="javascript:melon.play.playSong('1000002721',38733032);" title="어제보다 슬픈 오늘 재생">어제보다 슬픈 오늘</a>,

In [54]:
# 가수이름 수집하기. 
# singer = 125명이 나온다. 
#singer = soup.select("div.ellipsis.rank02>  a")
# singer가 여러명인경우  a로 는 안된다. div 태그를 구분자로 선택한다 100개로 
singer = soup.select("div.ellipsis.rank02> span.checkEllipsis")
singer

[<span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('4348386');" title="HUNTR/X - 페이지 이동">HUNTR/X</a>, <a href="javascript:melon.link.goArtistDetail('1458723');" title="EJAE - 페이지 이동">EJAE</a>, <a href="javascript:melon.link.goArtistDetail('2736606');" title="AUDREY NUNA - 페이지 이동">AUDREY NUNA</a>, <a href="javascript:melon.link.goArtistDetail('2742895');" title="REI AMI - 페이지 이동">REI AMI</a>, <a href="javascript:melon.link.goArtistDetail('4348387');" title="KPop Demon Hunters Cast - 페이지 이동">KPop Demon Hunters Cast</a></span>,
 <span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('4346804');" title="ALLDAY PROJECT - 페이지 이동">ALLDAY PROJECT</a></span>,
 <span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('2899555');" title="aespa - 페이지 이동">aespa</a></span>,
 <span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('4348387')

In [58]:
# 개수검증
for i in singer:
    print(i.text)


HUNTR/X, EJAE, AUDREY NUNA, REI AMI, KPop Demon Hunters Cast
ALLDAY PROJECT
aespa
KPop Demon Hunters Cast, Danny Chung, Saja Boys, Andrew Choi, Neckwav, Kevin Woo, samUIL Lee
WOODZ
BLACKPINK
마크툽 (MAKTUB)
10CM
조째즈
우디 (Woody)
aespa
제니 (JENNIE)
아이유
G-DRAGON
ALLDAY PROJECT
이무진
황가람
KPop Demon Hunters Cast, Danny Chung, Saja Boys, Andrew Choi, Neckwav, Kevin Woo, samUIL Lee
G-DRAGON
MEOVV (미야오)
로제 (ROSÉ), Bruno Mars
QWER
DAY6 (데이식스)
프로미스나인
BOYNEXTDOOR
IVE (아이브)
아일릿(ILLIT)
이클립스 (ECLIPSE)
DAY6 (데이식스)
오반(OVAN)
이창섭
aespa
로이킴
이예은, 아샤트리, 전건호
DAY6 (데이식스)
DAY6 (데이식스)
AKMU (악뮤)
로제 (ROSÉ)
Lady Gaga, Bruno Mars
Hearts2Hearts (하츠투하츠)
아이유
LE SSERAFIM (르세라핌)
QWER
세븐틴 (SEVENTEEN)
너드커넥션 (Nerd Connection)
QWER
임영웅
TWS (투어스)
FIFTY FIFTY
BABYMONSTER
프로미스나인
이무진
aespa
IVE (아이브)
황가람
아이유
G-DRAGON
순순희(지환)
이무진
HUNTR/X, EJAE, AUDREY NUNA, REI AMI, KPop Demon Hunters Cast
KiiiKiii (키키)
잔나비
아일릿(ILLIT)
성시경
정국
IVE (아이브)
NewJeans
NewJeans
i-dle (아이들)
KISS OF LIFE
멜로망스
임재현
임영웅
폴킴
임영웅
경서예지, 전건호
투모로우바이투게더
박재정
범진
RIIZE
H1-KEY

In [64]:
# 가수이름, 노래제목만 저장하는 리스트 제작
# 단! 반복문은 한번만 사용하기.
# .text를 사용해서 텍스트만 추출

title_list = []
singer_list = []

for i in range(len(title)):
    title_list.append(title[i].text)
    singer_list.append(singer[i].text)


print(title_list)
print(len(title_list))
print(singer_list)
print(len(singer_list))

['Golden', 'FAMOUS', 'Dirty Work', 'Soda Pop', 'Drowning', '뛰어(JUMP)', '시작의 아이', '너에게 닿기를', '모르시나요(PROD.로코베리)', '어제보다 슬픈 오늘', 'Whiplash', 'like JENNIE', 'Never Ending Story', 'HOME SWEET HOME (feat. 태양, 대성)', 'WICKED', '청춘만화', '나는 반딧불', 'Your Idol', 'TOO BAD (feat. Anderson .Paak)', 'HANDS UP', 'APT.', '눈물참기', 'HAPPY', 'LIKE YOU BETTER', '오늘만 I LOVE YOU', 'REBEL HEART', '빌려온 고양이 (Do the Dance)', '소나기', '한 페이지가 될 수 있게', 'Flower', '천상연', 'Supernova', '내게 사랑이 뭐냐고 물어본다면', 'MY LOVE(2025)', 'Welcome to the Show', '예뻤어', '어떻게 이별까지 사랑하겠어, 널 사랑하는 거지', 'toxic till the end', 'Die With A Smile', 'STYLE', '네모의 꿈', 'HOT', '내 이름 맑음', 'THUNDER', '그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))', '고민중독', '사랑은 늘 도망가', '첫 만남은 계획대로 되지 않아', 'Pookie', 'DRIP', 'Supersonic', '청혼하지 않을 이유를 못 찾았어', 'UP (KARINA Solo)', 'ATTITUDE', '미치게 그리워서', 'Love wins all', 'PO￦ER', '슬픈 초대장', '에피소드', 'How It’s Done', 'I DO ME', '주저하는 연인들을 위해', 'Magnetic', '너의 모든 순간', 'Seven (feat. Latto) - Clean Ver.', 'I AM', 'Hype Boy', 'How Sweet

# 이번 실습 정리
- 응답이 406이 나온다면 반드시 브라우저 정보를 동반해서 요청해보자.
- 선택자를 분석 할 때, 클래스 중간에 공백이 있다면 클래스가 북수개 의미.
- 해결책 : 클래스 중간에 공백을 지우고 "." 으로 클래스를 이어준다.
- 포인트 : 개수가 중요한 데이터는 반드시 개수, 중복 여부를 검증한다.