### Melon 100 chart 수집/분석/저장
* 100곡 노래의 제목,번호,노래상세정보url을 List에 저장하기 (정규표현식 사용)
* 노래의 상세정보를 추출해서 자료구조에 저장하고, json 파일로 저장하기
* json 파일을 Pandas의 read_json() 이용해서 DataFrame 객체로 저장하기
* DataFrame객체를 DB의 Table로 저장하기

In [1]:
import requests
from bs4 import BeautifulSoup
import re # Regular Expression
import pandas as pd
import json

In [19]:
url = 'https://www.melon.com/chart/index.htm'
req_header = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}

res = requests.get(url, headers=req_header)
print(res.status_code)
if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')
    print(len(soup.select("a[href*='playSong']")))
    print(len(soup.select("div#tb_list tr a[href*='playSong']")))
    a_tags = soup.select("a[href*='playSong']")
    
    # 100곡의 songs 정보를 저장할 List
    song_list = []
    for idx,a_tag in enumerate(a_tags,1):
        # 1곡의 song 정보를 저장할 dict
        song_dict = {}
        song_title = a_tag.text
        song_dict['song_title'] = song_title
        
        #print(idx, type(a_tag), a_tag, song_title)
        href_value = a_tag['href']
        #song id를 찾기 위한 정규표현식
        matched = re.search(r'(\d+)\);', href_value)
        if matched:
            song_id = matched.group(1)
            song_dict['song_id'] = song_id
                
            song_detail_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
            song_dict['song_url'] = song_detail_url
        song_list.append(song_dict)

print(len(song_list))
print(song_list[0:3])

200
100
100
100
[{'song_title': 'GANADARA (Feat. 아이유)', 'song_id': '34752700', 'song_url': 'https://www.melon.com/song/detail.htm?songId=34752700'}, {'song_title': 'INVU', 'song_id': '34626109', 'song_url': 'https://www.melon.com/song/detail.htm?songId=34626109'}, {'song_title': '사랑은 늘 도망가', 'song_id': '34061322', 'song_url': 'https://www.melon.com/song/detail.htm?songId=34061322'}]


#### 100개의 노래 상세정보 추출하기

In [44]:
import requests
from bs4 import BeautifulSoup
import re # Regular Expression
import pandas as pd
import json

req_header = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}

song_detail_list = []
for idx,song in enumerate(song_list[0:2],1):
    song_detail_dict = {}
    
    song_detail_url = song['song_url']
    res = requests.get(song_detail_url, headers=req_header)
    if res.ok:
        soup = BeautifulSoup(res.text, 'html.parser')
        #곡명
        song_detail_dict['곡명'] = song['song_title']
        
        #가수이름
        singer_span = soup.select("a[href*='goArtistDetail'] span")
        if singer_span:            
            song_detail_dict['가수'] = singer_span[0].text
        
        #앨범,발매일,장르
        song_dd = soup.select('div.meta dd')    
        if song_dd:
            song_detail_dict['앨범'] = song_dd[0].text
            song_detail_dict['발매일'] = song_dd[1].text
            song_detail_dict['장르'] = song_dd[2].text
        
        #좋아요 건수
        song_id = song['song_id']
        ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'    
        res = requests.get(ajax_url, headers=req_header)
        if res.ok:
            song_detail_dict['좋아요'] = res.json()['contsLike'][0]['CONTSID']
        
        #가사
        lyric_div = soup.select('div#d_video_summary')
        if lyric_div:
            lyric_temp = lyric_div[0].text
            # \n\r\t 특수문자를 찾아주는 Pattern 객체생성
            pattern = re.compile(r'[\r\n\t]')
            # 특수문자를 ''(empty string) 으로 대체(substitute)해라
            lyric = pattern.sub('', lyric_temp.strip())                        
        else: #가사가 없는 경우
            lyric = ''
        
        song_detail_dict['가사'] = lyric
        
        #song_detail_dict를 song_detail_list에 추가
        song_detail_list.append(song_detail_dict)

print(len(song_detail_list))        
song_detail_list[0:2]        

2


[{'곡명': 'GANADARA (Feat. 아이유)',
  '가수': '박재범',
  '앨범': 'GANADARA',
  '발매일': '2022.03.11',
  '장르': '2022.03.11',
  '좋아요': 34752700,
  '가사': '길거리를 걷다 보면사랑 노래만 흘러나와나는 왜 저런 게 낯설까난 한국말까지 서툴러번역기도 전혀 도움 안 돼네 맘엔 어떨까 걱정만어떤 단어를 쓸지 I don’t know어떤 말을 할지 I don’t know나는 왜 이런지 I don’t knowYou’re on my mind어떤 단어를 쓸지 I don’t know어떤 말을 할지 I don’t know나는 왜 이런지 I don’t knowYou’re on my mindBaby 정말 생각 안 나Body language로 자신 있어보여줄게girl just give me some your time너를 보면 손에 땀 나긴장 풀게 한 번 웃어줘Let me take u on a magic carpet ride손을 잡아 따라와맑은 날씨 보름달가르쳐줘 오늘 밤가나다라마바사손을 잡아 따라와맑은 날씨 보름달가르쳐줘 오늘 밤가나다라마바사너무 완벽하지 않아도걱정 마 네 맘을 조금 알 것 같아네게 좀 더 다가서 볼까고민해 매일 밤길거리를 걷다 보면계속 계속 네 생각이 나이런 내 모습이 왜 낯설까번역기 위에서헤매는 네 손가락까지자꾸만 생각이 나는 걸Body language도 나는 괜찮아But 생각 안 나면 그냥 웃어줘모든 것을 알려줄게 오늘 밤내가 나쁜 남자처럼 보여도너를 볼 때면 맘이 여려져I wouldn’t mind if I died in your arms손을 잡아 따라와맑은 날씨 보름달가르쳐줘 오늘 밤가나다라마바사손을 잡아 따라와맑은 날씨 보름달가르쳐줘 오늘 밤가나다라마바사손을 잡아 따라와맑은 날씨 보름달가르쳐줘 오늘 밤가나다라마바사손을 잡아 따라와맑은 날씨 보름달가르쳐줘 오늘 밤가나다라마바사'},
 {'곡명': 'INVU',
  '가수': '태연 (TAEYEON)',
  '앨범': 'I