### BeautifulSoup 
* select() 함수 사용
* melon 100 chart 데이터 파싱

In [5]:
import re # 정규표현식 re
import requests
from bs4 import BeautifulSoup


url = 'https://www.melon.com/chart/index.htm'

# melon은 'user-agent'정보가 무조건 필요함

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

#song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
res = requests.get(url, headers=headers)

if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')
    # select 하는 작업이 어렵다.
    atag_list = soup.select('a[href*=playSong]')
    # print(len(atag_lists))
    for a_tag in atag_list[:3]:
        song_title = a_tag.text
        href = a_tag['href']
        matched = re.search(r'(\d+)\)', href)  # 정규표현식은 r
        
        if matched:
            song_id = matched.group(1)
            print(song_id)
        song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
        print(song_url)
        
else:
    print(f"Error Code = {res.status_code}")

39166708
https://www.melon.com/song/detail.htm?songId=39166708
39166705
https://www.melon.com/song/detail.htm?songId=39166705
39298775
https://www.melon.com/song/detail.htm?songId=39298775


### 100곡 노래의 제목, ID, URL를 자료구조에 저장하기

In [None]:
import re
import requests
from bs4 import BeautifulSoup
from pprint import pprint

url = 'https://www.melon.com/chart/index.htm'

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

res = requests.get(url, headers=headers)
if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')    
    atag_list = soup.select("a[href*='playSong']")
    
    # [{},{}]
    song_list = [] # 100곡의 song list
    for idx, atag in enumerate(atag_list,1):
        print(f'순서 = {idx}')
        # 1곡의 song 정보를 저장할 dict
        song_dict = {}
        # song 제목
        title = atag.text
        song_dict['title'] = title
        
        # song id 추출하기
        href = atag['href']        
        matched = re.search(r'(\d+)\)', href) #정규표현식 parser
        if matched:
            song_id = matched.group(1) # group(0) 38589554) // group(1) 38589554
        song_dict['id'] = song_id
            
        # 노래 상세정보 url
        song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
        song_dict['url'] = song_url
        
        song_list.append(song_dict)
        
    # song_list 확인
    pprint(len(song_list))
    pprint(song_list[:3])    
else:
    print(f'Error Code = {res.status_code}')


### 곡상세 정보 추출하기

In [None]:
import re
import requests
from bs4 import BeautifulSoup
from pprint import pprint

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# 좋아요 건수 가져오기 ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'

# song 100곡의 상세정보 목록을 저장할 list 선언
song_lyric_list = list()

print('===> 100 곡 노래 파싱 시작')
for idx,song in enumerate(song_list,1):
    print(f'==> {idx} {song['title']}')
    # Song 1곡의 상세정보를 저장할 dict 선언
    song_lyric_dict = dict()
    
    res = requests.get(song['url'], headers=headers)
    if res.ok:
        soup = BeautifulSoup(res.text,'html.parser')
        song_lyric_dict['곡명'] = song['title']
        
        singer_span = soup.select_one("a[href*='goArtistDetail'] span")
        song_lyric_dict['가수'] = singer_span.text

        song_dd = soup.select('div.meta dd')

        if song_dd:
            song_lyric_dict['앨범'] = song_dd[0].text
            song_lyric_dict['발매일'] = song_dd[1].text
            song_lyric_dict['장르'] = song_dd[2].text

        #상세정보 url을 저장하기
        song_lyric_dict['detail_url'] = song['url']

        song_id = song['id']
        ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'
        res = requests.get(ajax_url, headers=headers)
        if res.ok:
            song_lyric_dict['좋아요'] = res.json()['contsLike'][0]['SUMMCNT']

        # 노래 가사 추가
        lyric_div = soup.select('div#d_video_summary') #<div id='d_video_summary'>

        if lyric_div:
            lyric = lyric_div[0].text
        else:
            lyric = ''

        # print(lyric)

        # 정규표현식으로 사용하여 가사에 포함된 특수문자 \n,\t,\r empty string('')로 치환하기
        pattern = re.compile(r'[\n\t\r]')
        song_lyric_dict['가사'] = pattern.sub('', lyric)

        #list에 상세정보를 포함한 song_lyric_dict를 song_lyric_list에 저장하기
        song_lyric_list.append(song_lyric_dict)

    else:
        print(f'Error Code = {res.status_code}')


pprint(len(song_lyric_list))
pprint(song_lyric_list[:3])
print('===> 100 곡 노래 파싱 끝')


#### song_lyric_lists를 DataFrame으로 저장하기

In [None]:
# [{'가수';'BTS','앨범':''},{}]
import pandas as pd

song_list_df = pd.DataFrame(columns=['곡명', '가수', '앨범','발매일','장르','detail_url', '좋아요', '가사'])

for song_lyric in song_lyric_list:
    df_new_row = pd.DataFrame.from_records([song_lyric])
    song_list_df = pd.concat([song_list_df, df_new_row])
                             
song_list_df.head()


#### song_lyric_lists를 Json 파일로 저장
* json 파일로 저장해야 DataFrame으로 저장하기 용이함

In [49]:
import json

with open('data/songs100.json', 'w', encoding='utf-8') as file:
    json.dump(song_lyric_list, file)

### Json File을 DataFrame (표데이터) 객체로 저장하기

In [None]:
import json
import pandas as pd

song_df = pd.read_json('data/songs100.json')

song_df

Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,Golden,HUNTR/X,KPop Demon Hunters (Soundtrack from the Netfli...,2025.06.20,애니메이션/웹툰,https://www.melon.com/song/detail.htm?songId=3...,91416,"I was a ghost, I was alone, hah어두워진, hah, 앞길속에..."
1,Soda Pop,KPop Demon Hunters Cast,KPop Demon Hunters (Soundtrack from the Netfli...,2025.06.20,애니메이션/웹툰,https://www.melon.com/song/detail.htm?songId=3...,56552,"Hey, heyHey, heyHeyDon't want you, need youYea..."


In [63]:
song_df.columns

Index(['곡명', '가수', '앨범', '발매일', '장르', 'detail_url', '좋아요', '가사'], dtype='object')

In [75]:
# 가수 이름 가져오기 (중복 빼고)

song_df['가수'].unique()

array(['HUNTR/X', 'KPop Demon Hunters Cast', 'BLACKPINK',
       'ALLDAY PROJECT', 'aespa', 'WOODZ', '마크툽 (MAKTUB)', '10CM', '조째즈',
       '우디 (Woody)', '제니 (JENNIE)', 'G-DRAGON', '아이유', '이무진', 'QWER',
       '황가람', 'MEOVV (미야오)', '로제 (ROSÉ)', 'DAY6 (데이식스)', '프로미스나인',
       'IVE (아이브)', 'BOYNEXTDOOR', '아일릿(ILLIT)', 'Hearts2Hearts (하츠투하츠)',
       '이클립스 (ECLIPSE)', '이창섭', '로이킴', '오반(OVAN)', 'FIFTY FIFTY', '이예은',
       '투모로우바이투게더', 'Lady Gaga', 'AKMU (악뮤)', 'LE SSERAFIM (르세라핌)', '임영웅',
       'H1-KEY (하이키)', '세븐틴 (SEVENTEEN)', 'TWS (투어스)',
       '너드커넥션 (Nerd Connection)', 'TWICE (트와이스)', 'EJAE', 'BABYMONSTER',
       'NewJeans', '정국', '순순희(지환)', 'KiiiKiii (키키)', '성시경', '잔나비', '멜로망스',
       'KISS OF LIFE', 'i-dle (아이들)', '임재현', '폴킴', '경서예지', 'NCT DREAM',
       '박재정', '방탄소년단', '이영지', 'RIIZE', '범진', 'PLAVE', '도경수(D.O.)', '김민석'],
      dtype=object)

In [60]:
# 가수 별 Row Counting
song_df['가수'].value_counts()

가수
임영웅                   6
G-DRAGON              5
aespa                 5
DAY6 (데이식스)           4
HUNTR/X               3
                     ..
LE SSERAFIM (르세라핌)    1
H1-KEY (하이키)          1
세븐틴 (SEVENTEEN)       1
TWS (투어스)             1
김민석                   1
Name: count, Length: 63, dtype: int64

In [61]:
# 장르 별 Row Counting
song_df['장르'].value_counts()

장르
댄스                37
발라드               22
록/메탈              13
애니메이션/웹툰           7
랩/힙합               6
발라드, 국내드라마         6
발라드, 인디음악          3
R&B/Soul, 인디음악     1
댄스, 국내드라마          1
POP                1
인디음악, 록/메탈         1
성인가요/트로트           1
R&B/Soul           1
Name: count, dtype: int64

In [None]:
# 특정 가수의 노래 정보 출력하기
song_df.loc[song_df['가수'] == 'G-DRAGON']

In [74]:
# 특정 가수의 노래 정보 출력하기 ['곡명', '장르', '발매일']

song_df.loc[song_df['가수'] == 'aespa', ['곡명','장르','발매일']]


Unnamed: 0,곡명,장르,발매일
4,Dirty Work,댄스,2025.06.27
11,Whiplash,댄스,2024.10.21
33,Supernova,댄스,2024.05.13
59,UP (KARINA Solo),댄스,2024.10.09
97,Armageddon,댄스,2024.05.27


In [91]:
#좋아요 건수가 가장 많은 가수?
max_like = song_df['좋아요'].max()

song_df.loc[song_df['좋아요'] == max_like, ['곡명','가수','좋아요']]

Unnamed: 0,곡명,가수,좋아요
83,봄날,방탄소년단,514780


In [None]:
#좋아요 건수가 평균보다 높거나 같은 가수?
mean_like = song_df['좋아요'].mean()

print(f"평균 좋아요 건수 {mean_like}" )
song_df.loc[song_df['좋아요'] >= mean_like, ['곡명', '가수', '좋아요']]\
.sort_values(by='좋아요', ascending=False)\
.reset_index(drop=True)


In [None]:
#drop(['칼럼명']) 특정 칼럼을 제외한 나머지 칼럼을 표시
song_df.columns.drop(['좋아요', '가사'])

Index(['곡명', '가수', '앨범', '발매일', '장르', 'detail_url'], dtype='object')

In [104]:
# 발매일이 가장 최근인 앨범은?
# 발매일이 가장 오래된 앨범은?

date_max = song_df['발매일'].max()
date_min = song_df['발매일'].min()

max_date = song_df.loc[song_df['발매일'] == date_max, song_df.columns.drop(['detail_url', '가사'])]
min_date = song_df.loc[song_df['발매일'] == date_min, song_df.columns.drop(['detail_url', '가사'])]

print(max_date)
print(min_date)

         곡명         가수                     앨범         발매일  장르    좋아요
80     BTTF  NCT DREAM  Go Back To The Future  2025.07.14  댄스  19623
89  CHILLER  NCT DREAM  Go Back To The Future  2025.07.14  댄스  20264
          곡명   가수                   앨범         발매일          장르     좋아요
70  너의 모든 순간  성시경  별에서 온 그대 OST Part.7  2014.02.12  발라드, 국내드라마  310340


In [None]:
# 앨범이 OSTt인 노래?

# print(type(song_df['앨범'])) #Series
# print(type(song_df['앨범'].str)) #StringMethods

#contains()함수는 string 타입으로만 받아서 확인할 수 있음, contains()함수는 
song_df.loc[song_df['앨범'].str.contains('OST'), ['가수','곡명','장르','앨범']]



<class 'pandas.core.series.Series'>
<class 'pandas.core.strings.accessor.StringMethods'>


Unnamed: 0,가수,곡명,장르,앨범
30,이클립스 (ECLIPSE),소나기,"발라드, 국내드라마",선재 업고 튀어 OST Part 1
38,투모로우바이투게더,그날이 오면,"댄스, 국내드라마",언젠가는 슬기로울 전공의생활 OST Part 9
44,임영웅,사랑은 늘 도망가,"발라드, 국내드라마",신사와 아가씨 OST Part.2
70,성시경,너의 모든 순간,"발라드, 국내드라마",별에서 온 그대 OST Part.7
74,멜로망스,사랑인가 봐,"발라드, 국내드라마",사랑인가 봐 (사내맞선 OST 스페셜 트랙)
78,폴킴,"모든 날, 모든 순간 (Every day, Every Moment)","발라드, 국내드라마",'키스 먼저 할까요?' OST Part.3
94,도경수(D.O.),영원해,"발라드, 국내드라마",언젠가는 슬기로울 전공의생활 OST Part 6


### SqlAlchemy와 Pymysql을 사용하여 DataFrame을 RDB의 테이블로 저장하기

In [99]:
!pip show pymysql

Name: PyMySQL
Version: 1.1.1
Summary: Pure Python MySQL Driver
Home-page: 
Author: 
Author-email: Inada Naoki <songofacandy@gmail.com>, Yutaka Matsubara <yutaka.matsubara@gmail.com>
License: MIT License
Location: C:\Users\user\anaconda3\Lib\site-packages
Requires: 
Required-by: 


### DataFrame을 Table로 저장하기

### 복사한 DataFrame을 Table로 저장
* 컬럼명을 영문으로 변경
* 인덱스를 1부터 시작하도록 변경하고 DataFrame 객체의 인덱스가 테이블의 PK(primary key)가 되도록 설정
* 컬럼의 데이터 타입을 변경 (발매일을 DATE 타입으로 변경)

In [15]:
# 기존의 DataFrame의 복사본을 만들기 
# table_df = song_df.copy()
# table_df.head(3)

In [16]:
# table_df.columns = ['title','singer','album','release_date','genre','url','likes','lyric']
# table_df.head(2)

In [17]:
#index 값의 1 부터 시작하도록 설정
# import numpy as np

#index 변경
# table_df.index = np.arange(1, len(table_df)+1)
# table_df.index

In [18]:
# table_df.head(2)

In [19]:
# url 컬럼 삭제하기 axis=1은 column, axis=0 은 Row
# table_df.drop('url', axis=1, inplace=True)

In [20]:
#table_df.columns

#### DataFrame 객체 ==> Table 로 변환
* ['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric']
* table_df(DataFrame객체)를 songs100 테이블로 저장하기 to_sql() 함수 사용


In [21]:
# import pymysql
# import sqlalchemy

# pymysql.install_as_MySQLdb()
# from sqlalchemy import create_engine

# engine = None
# conn = None
# try:
    # engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
    # conn = engine.connect()    

#     table_df.to_sql(name='songs100', con=engine, if_exists='replace', index=True,\
#                     index_label='id',
#                     dtype={
#                         'id':sqlalchemy.types.INTEGER(),
#                         'title':sqlalchemy.types.VARCHAR(200),
#                         'singer':sqlalchemy.types.VARCHAR(200),
#                         'album':sqlalchemy.types.VARCHAR(200),
#                         'release_date':sqlalchemy.types.DATE,
#                         'genre':sqlalchemy.types.VARCHAR(200),
#                         'likes':sqlalchemy.types.BigInteger,
#                         'lyric':sqlalchemy.types.VARCHAR(5000)
#                     })
#     print('songs100 테이블 생성됨')
# finally:
#     if conn is not None: 
#         conn.close()
#     if engine is not None:
#         engine.dispose()

#### SQL 쿼리 결과를 DataFrame 객체로 저장하는 함수선언하기
* read_sql_query() sql문을 실행한 결과를 DataFrame 객체로 반환해주는 함수

In [22]:
# def search_album(keyword):
#     sql = """select * from songs100 where album like %s;"""

#     import pandas as pd
#     import pymysql
#     import sqlalchemy

#     pymysql.install_as_MySQLdb()
#     from sqlalchemy import create_engine
    
#     engine = None
#     conn = None
#     try:
#         engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
#         conn = engine.connect()

#         album_df = pd.read_sql_query(sql, con=conn, params=('%' + keyword + '%',))
#         print(album_df.shape)
#         return album_df
#     finally:
#         print('finally')
#         if conn is not None: 
#             conn.close()
#         if engine is not None:
#             engine.dispose()

In [23]:
# search_album('OST')