In [1]:
import numpy as np
import pandas as pd

import requests as req
from bs4 import BeautifulSoup as bs

In [2]:
# 1. req를 활용해서 멜론차트 페이지 정보 요청해서 받아오기
# 크롬에서는 되고, req로 안 됨... → req는 일반 브라우저가 아니기 때문!(melon에서 막음)
# 따라서, 우리는 일반 브라우저인 척 속이고 요청!
req.get('https://www.melon.com/chart/index.htm')

<Response [406]>

In [3]:
# F12(개발자 창) → network : 통신이 끝난 시점이기 때문에 아무 것도 안 나옴!
# F5 → type 컬럼 클릭(정렬) → document 찾고나서 name을 좌클릭
# 브라우저 정보들이 나옴! → 이 상태에서 User-Agent 복사 후 붙여넣기!
user_agent = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"}

In [6]:
res = req.get('https://www.melon.com/chart/index.htm', headers = user_agent)
res.status_code

200

In [8]:
res.text

'<!DOCTYPE html>\r\n<html lang="ko">\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n<head>\r\n\t\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\r\n\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />\r\n\t\r\n\r\n\t\r\n\r\n\t\r\n\r\n\t<title>멜론차트>TOP100>멜론</title>\r\n\t<meta name="keywords" content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" />\r\n\t<meta name="description" content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" />\r\n\t<meta name="naver-site-verification" content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" />\r\n\t<meta name="google-site-verification" content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" />\r\n\t<meta property="fb:app_id" content="357952407588971"/>\r\n\t<meta property="og:title" content="Melon"/>\r\n\t<meta property="og:image" content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png"/>\r\n\t

In [9]:
soup = bs(res.text, "lxml")
soup

<!DOCTYPE html>
<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title>멜론차트&gt;TOP100&gt;멜론</title>
<meta content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" name="keywords"/>
<meta content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" name="description"/>
<meta content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" name="naver-site-verification"/>
<meta content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" name="google-site-verification"/>
<meta content="357952407588971" property="fb:app_id"/>
<meta content="Melon" property="og:title"/>
<meta content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png" property="og:image"/>
<meta content="음악이 필요한 순간, 멜론" property="og:description"/>
<meta content="http://www.melon.com/chart/index.htm" property="og:url"/>
<meta content="website" property="og:type"/>
<meta content="멜론" propert

### 1. 노래제목 수집

In [13]:
# ' ' : 자손 선택자
# html 코드에서 class를 두 개 이상 작성하는 경우 ' '로 구분해서 작성함
# 근데, 지정 시에는 자손 선택자이기 때문에 ' '이 아닌, '.'으로 변경해서 접근 할 것
title = soup.select("div.ellipsis.rank01 > span > a")

titles = [i.text for i in title]

len(titles)

100

### 2. 가수명 수집

In [16]:
# display가 None 태그들 또는 각각 떨어진 a태그들이 존재하기 때문에 피해주고,
# 요소 지정을 명확하게 해야함!
singer = soup.select("div.ellipsis.rank02 > span > a")

singers = [i.text for i in singer]

# 검증 필수!
len(singers)

['EXO',
 'LE SSERAFIM (르세라핌)',
 'aespa',
 '태연 (TAEYEON)',
 'IVE (아이브)',
 '박재정',
 '정국',
 '임영웅',
 'Mariah Carey',
 '범진',
 'AKMU (악뮤)',
 '임영웅',
 '제니 (JENNIE)',
 '임영웅',
 'Sia',
 '임영웅',
 '임재현',
 '너드커넥션 (Nerd Connection)',
 '임영웅',
 'AKMU (악뮤)',
 '정국',
 'Ariana Grande',
 'IVE (아이브)',
 '성시경',
 '박효신',
 '이석훈',
 '서인국',
 'VIXX (빅스)',
 '임영웅',
 'NewJeans',
 '임영웅',
 'NewJeans',
 '임영웅',
 '우디 (Woody)',
 '임영웅',
 '아이유',
 '임영웅',
 '임영웅',
 'IVE (아이브)',
 'NewJeans',
 '디오 (D.O.)',
 '이무진',
 '임영웅',
 '성시경',
 '로이킴',
 'Ariana Grande',
 '다이나믹 듀오',
 '이영지',
 'NewJeans',
 'RIIZE',
 '(여자)아이들',
 '임영웅',
 'Red Velvet (레드벨벳)',
 'PLAVE',
 'IVE (아이브)',
 '전소미',
 '세븐틴 (SEVENTEEN)',
 'AKMU (악뮤)',
 '성시경',
 '나얼',
 'QWER',
 '윤하 (YOUNHA)',
 'aespa',
 '임한별',
 '멜로망스',
 'NewJeans',
 'League of Legends',
 'NewJeans',
 '이무진',
 'IVE (아이브)',
 '볼빨간사춘기',
 '방탄소년단',
 'LE SSERAFIM (르세라핌)',
 '방탄소년단',
 'DK(디셈버)',
 '김민석',
 'Lauv',
 'Charlie Puth',
 'IVE (아이브)',
 'STAYC(스테이씨)',
 '허각',
 'IVE (아이브)',
 '화사 (HWASA)',
 '잔나비',
 '#안녕',
 'Charlie Puth',
 

In [23]:
singer = soup.select("span.checkEllipsis")
singers = [i.text for i in singer]

singers

['EXO',
 'LE SSERAFIM (르세라핌)',
 'aespa',
 '태연 (TAEYEON)',
 'IVE (아이브)',
 '박재정',
 '정국',
 '임영웅',
 'Mariah Carey',
 '범진',
 'AKMU (악뮤)',
 '임영웅',
 '제니 (JENNIE)',
 '임영웅',
 'Sia',
 '임영웅',
 '임재현',
 '너드커넥션 (Nerd Connection)',
 '임영웅',
 'AKMU (악뮤)',
 '정국',
 'Ariana Grande',
 'IVE (아이브)',
 '성시경, 박효신, 이석훈, 서인국, VIXX (빅스)',
 '임영웅',
 'NewJeans',
 '임영웅',
 'NewJeans',
 '임영웅',
 '우디 (Woody)',
 '임영웅',
 '아이유',
 '임영웅',
 '임영웅',
 'IVE (아이브)',
 'NewJeans',
 '디오 (D.O.)',
 '이무진',
 '임영웅',
 '성시경',
 '로이킴',
 'Ariana Grande',
 '다이나믹 듀오, 이영지',
 'NewJeans',
 'RIIZE',
 '(여자)아이들',
 '임영웅',
 'Red Velvet (레드벨벳)',
 'PLAVE',
 'IVE (아이브)',
 '전소미',
 '세븐틴 (SEVENTEEN)',
 'AKMU (악뮤)',
 '성시경, 나얼',
 'QWER',
 '윤하 (YOUNHA)',
 'aespa',
 '임한별',
 '멜로망스',
 'NewJeans, League of Legends',
 'NewJeans',
 '이무진',
 'IVE (아이브)',
 '볼빨간사춘기',
 '방탄소년단',
 'LE SSERAFIM (르세라핌)',
 '방탄소년단',
 'DK(디셈버)',
 '김민석',
 'Lauv',
 'Charlie Puth',
 'IVE (아이브)',
 'STAYC(스테이씨)',
 '허각',
 'IVE (아이브)',
 '화사 (HWASA)',
 '잔나비',
 '#안녕',
 'Charlie Puth',
 '부석순 (SEVENTEEN)',
 '

In [26]:
# 크롤링한 데이터 csv로 만들어보자!
dic = {'가수':singers, '노래제목':titles}
melon = pd.DataFrame(dic)
melon

Unnamed: 0,가수,노래제목
0,EXO,첫 눈
1,LE SSERAFIM (르세라핌),Perfect Night
2,aespa,Drama
3,태연 (TAEYEON),To. X
4,IVE (아이브),Baddie
...,...,...
95,로이킴,"그대가 있는 곳, 언제 어디든"
96,정국,Hate You
97,김호중,그중에 그대를 만나
98,헤이즈 (Heize),입술 (Feat. 10CM)


In [27]:
# csv로 추출!
melon.to_csv('melon_top_100.csv',encoding='euc-kr')