In [2]:
# 라이브러리 로딩
import requests as req
from bs4 import BeautifulSoup as bs

In [6]:
# 멜론 차트 페이지 정보 받아오기
url = 'https://www.melon.com/chart/'
req.get(url)

# 400번대 오류 : 클라이언트의 요청 문제
# 멜론에서 브라우저가 아닌 코드로 페이지를 접근함을 인지하여 접근 불가능 !!

<Response [406]>

### 멜론 페이지에 브라우저인 척 속여서 접근하기
- 개발자 도구에서 'Network' 탭 클릭
    - 이미 정보를 주고받은 뒤 통신이 끊겼기 때문에 탭 클릭하였다 하더라도 빈 페이지 상태
    - 새로고침을 해서 주고 받은 데이터들을 다시 불러주어야 함
    - 데이터 중에서 Type이 document인 문서를 클릭 !
- 브라우저로 접근을 했다는 것을 알려주는 코드가 있다 -> User-Agent
    - Chrome, Safari 등 접근이 가능한 정보가 담겨있다.
    - 코드를 통해 접근했기 때문에 접근 가능한 정보가 들어가지 않는 것
    - User-Agent 전체 코드를 복사해서 코드로 가져오기

In [8]:
# 가져온 코드가 어떤 타입인지 알 수 없다. 문자열도 아니고.. 리스트도 아니고..
# 파이썬에서 가져온 코드이기 때문에 알맞는 타입으로 변경 해줘야 함!
# 콜론 발견 - Key와 Value를 가지는 딕셔너리가 알맞겠다

h = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}

### headers 작업
- 컴퓨터(코드)가 아닌 사람(브라우저)으로 속여주는 작업
- 요청할 때 headers 값을 같이 채워서 요청 해주어야 한다.
    - req.get(url, headers = 헤더정보)

In [10]:
url = 'https://www.melon.com/chart/'
h = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}
res = req.get(url, headers = h)
res

<Response [200]>

In [14]:
# bs 객체화
soup = bs(res.text,'lxml')

### 멜론차트 데이터 수집
- 노래 제목
- 가수 이름

In [32]:
# 1. 노래 제목 수집
# 내가 수집하고자 하는 태그에 구분자(id, class)가 없었다.
# 그 요소를 포함하고 있는 부모 태그를 타고타고 올라가서 가져와야 함(한칸씩!)
title = soup.select('div.ellipsis.rank01>span>a')

In [33]:
len(title)

# 주의@@@
# 하나의 클래스 이름 안에 띄어쓰기가 있는 경우
# 클래스가 두 개인 경우 -> 띄어쓰기(자손 부등호)를 온점(클래스 부등호)으로 변경

100

In [34]:
for i in range(len(title)):
    print(title[i].text)

Ditto
OMG
Hype boy
사랑하기 싫어
Teddy Bear
사건의 지평선
사랑은 늘 도망가
파이팅 해야지 (Feat. 이영지)
심(心)
우리들의 블루스
I Don't Think That I Like Her
CHRISTIAN
VIBE (feat. Jimin of BTS)
나비무덤
다시 만날 수 있을까
London Boy
Polaroid
Attention
무지개
Nostalgia
이제 나만 믿어요
아버지
on the street (with J. Cole)
ANTIFRAGILE
A bientot
인생찬가
After LIKE
손이 참 곱던 그대
사랑해 진짜
연애편지
Set Me Free Pt.2
보금자리
LOVE DIVE
사랑인가 봐
NIGHT DANCER
건물 사이에 피어난 장미 (Rose Blossom)
Candy
Dynamite
Dangerously
너와 함께
봄날
Rush Hour (Feat. j-hope of BTS)
너의 모든 순간
결국엔 너에게 닿아서
혼자가 아닌 나
Nxde
Butter
Monologue
사랑이라 믿었던 것들은 (Feat. 이수현)
Dreamers [Music from the FIFA World Cup Qatar 2022 Official Soundtrack] (Feat. FIFA Sound)
That's Hilarious
Say I Love You
너를 보는게 지친 하루에
해요 (2022)
새삥 (Prod. ZICO) (Feat. 호미들)
취중고백
Cookie
Unholy
Permission to Dance
Shut Down
Sugar Rush Ride
Expectations
STAY
그중에 그대를 만나
That That (prod. & feat. SUGA of BTS)
내가 아니라도
그때 그 순간 그대로 (그그그)
TOMBOY
Poppy (Korean Ver.)
당신을 만나
Pink Venom
그라데이션
FEARLESS
다정히 내 이름을 부르면
NOT SORRY (Feat. pH-1) (Prod. by Slom)
Left an

In [69]:
# 2. 가수 이름 수집
singer = soup.select('div.ellipsis.rank02>span')
len(singer)

100

In [66]:
singer[22].text

'j-hope, J. Cole'

In [67]:
for i in range(len(singer)):
    print(singer[i].text)

NewJeans
NewJeans
NewJeans
지아
STAYC(스테이씨)
윤하 (YOUNHA)
임영웅
부석순 (SEVENTEEN)
DK(디셈버)
임영웅
Charlie Puth
Zior Park
태양
포맨 (4MEN)
임영웅
임영웅
임영웅
NewJeans
임영웅
우디 (Woody)
임영웅
임영웅
j-hope, J. Cole
LE SSERAFIM (르세라핌)
임영웅
임영웅
IVE (아이브)
임영웅
임영웅
임영웅
지민
임영웅
IVE (아이브)
멜로망스
imase
H1-KEY (하이키)
NCT DREAM
방탄소년단
Charlie Puth
김민석 (멜로망스)
방탄소년단
Crush
성시경
WSG워너비 (가야G)
정효빈
(여자)아이들
방탄소년단
테이
BIG Naughty (서동현)
정국, 방탄소년단
Charlie Puth
우디 (Woody)
송하예
#안녕
지코 (ZICO)
김민석 (멜로망스)
NewJeans
Sam Smith, Kim Petras
방탄소년단
BLACKPINK
투모로우바이투게더
Anne-Marie, 민니 ((여자)아이들), (여자)아이들
The Kid LAROI, Justin Bieber
김호중
싸이 (PSY)
주호
WSG워너비 (가야G)
(여자)아이들
STAYC(스테이씨)
김호중, 송가인
BLACKPINK
10CM
LE SSERAFIM (르세라핌)
경서예지, 전건호
이영지
Charlie Puth, 정국, 방탄소년단
이홍기 (FT아일랜드)
먼데이 키즈 (Monday Kiz)
BIG Naughty (서동현)
윤하 (YOUNHA)
임창정
김호중
신예영
송하예
방탄소년단
폴킴
IVE (아이브)
최유리
주호
신예영
경서
10CM, BIG Naughty (서동현)
Justin Bieber
NMIXX
투모로우바이투게더
BE'O (비오)
BE'O (비오)
경서
김호중
BIGBANG (빅뱅)


### 개수가 정해져 있는 데이터를 수집할 때에는 반드시 개수가 맞는지 확인

In [77]:
# 수집한 정보를 리스트로 저장
titleList = []
singerList = []
for i in range(len(title)):
    titleList.append(title[i].text)
    singerList.append(singer[i].text)

In [78]:
titleList

['Ditto',
 'OMG',
 'Hype boy',
 '사랑하기 싫어',
 'Teddy Bear',
 '사건의 지평선',
 '사랑은 늘 도망가',
 '파이팅 해야지 (Feat. 이영지)',
 '심(心)',
 '우리들의 블루스',
 "I Don't Think That I Like Her",
 'CHRISTIAN',
 'VIBE (feat. Jimin of BTS)',
 '나비무덤',
 '다시 만날 수 있을까',
 'London Boy',
 'Polaroid',
 'Attention',
 '무지개',
 'Nostalgia',
 '이제 나만 믿어요',
 '아버지',
 'on the street (with J. Cole)',
 'ANTIFRAGILE',
 'A bientot',
 '인생찬가',
 'After LIKE',
 '손이 참 곱던 그대',
 '사랑해 진짜',
 '연애편지',
 'Set Me Free Pt.2',
 '보금자리',
 'LOVE DIVE',
 '사랑인가 봐',
 'NIGHT DANCER',
 '건물 사이에 피어난 장미 (Rose Blossom)',
 'Candy',
 'Dynamite',
 'Dangerously',
 '너와 함께',
 '봄날',
 'Rush Hour (Feat. j-hope of BTS)',
 '너의 모든 순간',
 '결국엔 너에게 닿아서',
 '혼자가 아닌 나',
 'Nxde',
 'Butter',
 'Monologue',
 '사랑이라 믿었던 것들은 (Feat. 이수현)',
 'Dreamers [Music from the FIFA World Cup Qatar 2022 Official Soundtrack] (Feat. FIFA Sound)',
 "That's Hilarious",
 'Say I Love You',
 '너를 보는게 지친 하루에',
 '해요 (2022)',
 '새삥 (Prod. ZICO) (Feat. 호미들)',
 '취중고백',
 'Cookie',
 'Unholy',
 'Permission to Dance',
 'S

In [79]:
singerList

['NewJeans',
 'NewJeans',
 'NewJeans',
 '지아',
 'STAYC(스테이씨)',
 '윤하 (YOUNHA)',
 '임영웅',
 '부석순 (SEVENTEEN)',
 'DK(디셈버)',
 '임영웅',
 'Charlie Puth',
 'Zior Park',
 '태양',
 '포맨 (4MEN)',
 '임영웅',
 '임영웅',
 '임영웅',
 'NewJeans',
 '임영웅',
 '우디 (Woody)',
 '임영웅',
 '임영웅',
 'j-hope, J. Cole',
 'LE SSERAFIM (르세라핌)',
 '임영웅',
 '임영웅',
 'IVE (아이브)',
 '임영웅',
 '임영웅',
 '임영웅',
 '지민',
 '임영웅',
 'IVE (아이브)',
 '멜로망스',
 'imase',
 'H1-KEY (하이키)',
 'NCT DREAM',
 '방탄소년단',
 'Charlie Puth',
 '김민석 (멜로망스)',
 '방탄소년단',
 'Crush',
 '성시경',
 'WSG워너비 (가야G)',
 '정효빈',
 '(여자)아이들',
 '방탄소년단',
 '테이',
 'BIG Naughty (서동현)',
 '정국, 방탄소년단',
 'Charlie Puth',
 '우디 (Woody)',
 '송하예',
 '#안녕',
 '지코 (ZICO)',
 '김민석 (멜로망스)',
 'NewJeans',
 'Sam Smith, Kim Petras',
 '방탄소년단',
 'BLACKPINK',
 '투모로우바이투게더',
 'Anne-Marie, 민니 ((여자)아이들), (여자)아이들',
 'The Kid LAROI, Justin Bieber',
 '김호중',
 '싸이 (PSY)',
 '주호',
 'WSG워너비 (가야G)',
 '(여자)아이들',
 'STAYC(스테이씨)',
 '김호중, 송가인',
 'BLACKPINK',
 '10CM',
 'LE SSERAFIM (르세라핌)',
 '경서예지, 전건호',
 '이영지',
 'Charlie Puth, 정국, 방탄소년단',
 '이

In [82]:
# for문 다른 방법
# 2개 이상의 리스트에 접근할 때 아래와 같은 for문 구조는 불편하다 
# -> 리스트별로 for문 해주어야함
titleList2 = []

# 이 for문의 i => title[i]의 의미
for i in title : 
    titleList2.append(i.text)

In [84]:
singerList2 = []
for i in singer :
    singerList2.append(i.text)

In [89]:
# 길이 확인 ! --> 데이터 프레임으로 만들기 위한 준비
len(titleList), len(singerList) 

(100, 100)

In [103]:
# 1. 수집한 여러 개의 리스트를 하나의 딕셔너리로 생성
# 2. 딕셔너리를 활용해서 데이터 프레임 생성
# {노래제목 : 데이터, 가수 : 데이터}

# pandas를 사용하기 위한 준비(라이브러리 로딩)
import pandas as pd

melon_dic = {'노래 제목':titleList,'가수':singerList}
melon_df = pd.DataFrame(melon_dic)

In [110]:
# 데이터프레임명.to_csv() : 데이터프레임을 파일로 저장하기
# to_csv(저장하고 싶은 파일명, 확장자)
# 한글 저장할 때 인코딩 해주자!

# 인코딩 방식 : euc-kr / utf-8 / cp949 
# csv -> 구분기호 ,로 이루어짐
# sep(seperate 구분자) : 하나의 기호만 사용 가능 

melon_df.to_csv('멜론차트 TOP100.txt',encoding ='euc-kr', sep = '\t')

In [111]:
# 경로 설정하기
melon_df.to_csv('C:/Users/smhrd/Desktop/멜론차트.txt',encoding ='euc-kr')

### csv는 txt(메모장) 파일과 excel(엑셀) 파일 둘 다 지원한다.
- 주의! 내가 저장하고 싶은 파일의 확장자를 정확히 적어주자  
> csv 장점 : excel보다 용량이 작고, 지원되는 폭이 넓다.<br>
> csv 단점 : excel에 비해 다양한 작업은 불가능하다.
