### BeautifulSoup 
* select() 함수 사용
* melon 100 chart 데이터 파싱

In [5]:
import re # 정규표현식 re
import requests
from bs4 import BeautifulSoup


url = 'https://www.melon.com/chart/index.htm'

# melon은 'user-agent'정보가 무조건 필요함

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

#song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
res = requests.get(url, headers=headers)

if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')
    # select 하는 작업이 어렵다.
    atag_list = soup.select('a[href*=playSong]')
    # print(len(atag_lists))
    for a_tag in atag_list[:3]:
        song_title = a_tag.text
        href = a_tag['href']
        matched = re.search(r'(\d+)\)', href)  # 정규표현식은 r
        
        if matched:
            song_id = matched.group(1)
            print(song_id)
        song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
        print(song_url)
        
else:
    print(f"Error Code = {res.status_code}")

39166708
https://www.melon.com/song/detail.htm?songId=39166708
39166705
https://www.melon.com/song/detail.htm?songId=39166705
39298775
https://www.melon.com/song/detail.htm?songId=39298775


### 100곡 노래의 제목, ID, URL를 자료구조에 저장하기

In [None]:
import re
import requests
from bs4 import BeautifulSoup
from pprint import pprint

url = 'https://www.melon.com/chart/index.htm'

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

res = requests.get(url, headers=headers)
if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')    
    atag_list = soup.select("a[href*='playSong']")
    
    # [{},{}]
    song_list = [] # 100곡의 song list
    for idx, atag in enumerate(atag_list,1):
        print(f'순서 = {idx}')
        # 1곡의 song 정보를 저장할 dict
        song_dict = {}
        # song 제목
        title = atag.text
        song_dict['title'] = title
        
        # song id 추출하기
        href = atag['href']        
        matched = re.search(r'(\d+)\)', href) #정규표현식 parser
        if matched:
            song_id = matched.group(1) # group(0) 38589554) // group(1) 38589554
        song_dict['id'] = song_id
            
        # 노래 상세정보 url
        song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
        song_dict['url'] = song_url
        
        song_list.append(song_dict)
        
    # song_list 확인
    pprint(len(song_list))
    pprint(song_list[:3])    
else:
    print(f'Error Code = {res.status_code}')


### 곡상세 정보 추출하기

In [47]:
import re
import requests
from bs4 import BeautifulSoup
from pprint import pprint

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# 좋아요 건수 가져오기 ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'

# song 100곡의 상세정보 목록을 저장할 list 선언
song_lyric_list = list()

print('===> 100 곡 노래 파싱 시작')
for idx,song in enumerate(song_list,1):
    print(f'==> {idx} {song['title']}')
    # Song 1곡의 상세정보를 저장할 dict 선언
    song_lyric_dict = dict()
    
    res = requests.get(song['url'], headers=headers)
    if res.ok:
        soup = BeautifulSoup(res.text,'html.parser')
        song_lyric_dict['곡명'] = song['title']
        
        singer_span = soup.select_one("a[href*='goArtistDetail'] span")
        song_lyric_dict['가수'] = singer_span.text

        song_dd = soup.select('div.meta dd')

        if song_dd:
            song_lyric_dict['앨범'] = song_dd[0].text
            song_lyric_dict['발매일'] = song_dd[1].text
            song_lyric_dict['장르'] = song_dd[2].text

        #상세정보 url을 저장하기
        song_lyric_dict['detail_url'] = song['url']

        song_id = song['id']
        ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'
        res = requests.get(ajax_url, headers=headers)
        if res.ok:
            song_lyric_dict['좋아요'] = res.json()['contsLike'][0]['SUMMCNT']

        # 노래 가사 추가
        lyric_div = soup.select('div#d_video_summary') #<div id='d_video_summary'>

        if lyric_div:
            lyric = lyric_div[0].text
        else:
            lyric = ''

        # print(lyric)

        # 정규표현식으로 사용하여 가사에 포함된 특수문자 \n,\t,\r empty string('')로 치환하기
        pattern = re.compile(r'[\n\t\r]')
        song_lyric_dict['가사'] = pattern.sub('', lyric)

        #list에 상세정보를 포함한 song_lyric_dict를 song_lyric_list에 저장하기
        song_lyric_list.append(song_lyric_dict)

    else:
        print(f'Error Code = {res.status_code}')


pprint(len(song_lyric_list))
pprint(song_lyric_list[:3])
print('===> 100 곡 노래 파싱 끝')


===> 100 곡 노래 파싱 시작
==> 1 Golden
==> 2 Soda Pop
==> 3 뛰어(JUMP)
==> 4 FAMOUS
==> 5 Dirty Work
==> 6 Drowning
==> 7 시작의 아이
==> 8 너에게 닿기를
==> 9 Your Idol
==> 10 모르시나요(PROD.로코베리)
==> 11 어제보다 슬픈 오늘
==> 12 Whiplash
==> 13 WICKED
==> 14 like JENNIE
==> 15 HOME SWEET HOME (feat. 태양, 대성)
==> 16 Never Ending Story
==> 17 청춘만화
==> 18 눈물참기
==> 19 How It’s Done
==> 20 나는 반딧불
==> 21 TOO BAD (feat. Anderson .Paak)
==> 22 HANDS UP
==> 23 APT.
==> 24 HAPPY
==> 25 LIKE YOU BETTER
==> 26 REBEL HEART
==> 27 오늘만 I LOVE YOU
==> 28 빌려온 고양이 (Do the Dance)
==> 29 한 페이지가 될 수 있게
==> 30 STYLE
==> 31 소나기
==> 32 천상연
==> 33 내게 사랑이 뭐냐고 물어본다면
==> 34 Supernova
==> 35 Flower
==> 36 Pookie
==> 37 Welcome to the Show
==> 38 MY LOVE(2025)
==> 39 그날이 오면
==> 40 toxic till the end
==> 41 예뻤어
==> 42 Die With A Smile
==> 43 어떻게 이별까지 사랑하겠어, 널 사랑하는 거지
==> 44 HOT
==> 45 사랑은 늘 도망가
==> 46 내 이름 맑음
==> 47 고민중독
==> 48 여름이었다
==> 49 네모의 꿈
==> 50 THUNDER
==> 51 첫 만남은 계획대로 되지 않아
==> 52 그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))
==> 53 ATTI

#### song_lyric_lists를 DataFrame으로 저장하기

In [8]:
# [{'가수';'BTS','앨범':''},{}]


#### song_lyric_lists를 Json 파일로 저장
* json 파일로 저장해야 DataFrame으로 저장하기 용이함

In [48]:
import json

with open('data/songs100.json', 'w', encoding='utf-8') as file:
    json.dump(song_lyric_list, file)

### Json File을 DataFrame (표데이터) 객체로 저장하기

In [9]:
# 가수 별 Row Counting


In [10]:
# 장르 별 Row Counting


In [11]:
# 특정 가수의 노래 정보 출력하기


In [12]:
# unique 한 가수명을 리스트 형태로 출력하기


In [13]:
#앨범이 OST 인 노래는?


### SqlAlchemy와 Pymysql을 사용하여 DataFrame을 RDB의 테이블로 저장하기

In [14]:
!pip show pymysql



### DataFrame을 Table로 저장하기

### 복사한 DataFrame을 Table로 저장
* 컬럼명을 영문으로 변경
* 인덱스를 1부터 시작하도록 변경하고 DataFrame 객체의 인덱스가 테이블의 PK(primary key)가 되도록 설정
* 컬럼의 데이터 타입을 변경 (발매일을 DATE 타입으로 변경)

In [15]:
# 기존의 DataFrame의 복사본을 만들기 
# table_df = song_df.copy()
# table_df.head(3)

In [16]:
# table_df.columns = ['title','singer','album','release_date','genre','url','likes','lyric']
# table_df.head(2)

In [17]:
#index 값의 1 부터 시작하도록 설정
# import numpy as np

#index 변경
# table_df.index = np.arange(1, len(table_df)+1)
# table_df.index

In [18]:
# table_df.head(2)

In [19]:
# url 컬럼 삭제하기 axis=1은 column, axis=0 은 Row
# table_df.drop('url', axis=1, inplace=True)

In [20]:
#table_df.columns

#### DataFrame 객체 ==> Table 로 변환
* ['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric']
* table_df(DataFrame객체)를 songs100 테이블로 저장하기 to_sql() 함수 사용


In [21]:
# import pymysql
# import sqlalchemy

# pymysql.install_as_MySQLdb()
# from sqlalchemy import create_engine

# engine = None
# conn = None
# try:
    # engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
    # conn = engine.connect()    

#     table_df.to_sql(name='songs100', con=engine, if_exists='replace', index=True,\
#                     index_label='id',
#                     dtype={
#                         'id':sqlalchemy.types.INTEGER(),
#                         'title':sqlalchemy.types.VARCHAR(200),
#                         'singer':sqlalchemy.types.VARCHAR(200),
#                         'album':sqlalchemy.types.VARCHAR(200),
#                         'release_date':sqlalchemy.types.DATE,
#                         'genre':sqlalchemy.types.VARCHAR(200),
#                         'likes':sqlalchemy.types.BigInteger,
#                         'lyric':sqlalchemy.types.VARCHAR(5000)
#                     })
#     print('songs100 테이블 생성됨')
# finally:
#     if conn is not None: 
#         conn.close()
#     if engine is not None:
#         engine.dispose()

#### SQL 쿼리 결과를 DataFrame 객체로 저장하는 함수선언하기
* read_sql_query() sql문을 실행한 결과를 DataFrame 객체로 반환해주는 함수

In [22]:
# def search_album(keyword):
#     sql = """select * from songs100 where album like %s;"""

#     import pandas as pd
#     import pymysql
#     import sqlalchemy

#     pymysql.install_as_MySQLdb()
#     from sqlalchemy import create_engine
    
#     engine = None
#     conn = None
#     try:
#         engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
#         conn = engine.connect()

#         album_df = pd.read_sql_query(sql, con=conn, params=('%' + keyword + '%',))
#         print(album_df.shape)
#         return album_df
#     finally:
#         print('finally')
#         if conn is not None: 
#             conn.close()
#         if engine is not None:
#             engine.dispose()

In [23]:
# search_album('OST')