### BeautifulSoup 
* select() 함수 사용
* melon 100 chart 데이터 파싱

In [7]:
import re
import requests
from bs4 import BeautifulSoup

url = 'https://www.melon.com/chart/index.htm'

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# 노래 상세정보 song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
res = requests.get(url, headers=headers)
if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')    
    atag_list = soup.select("a[href*='playSong']")

    for a_tag in atag_list[:3]:
        title = a_tag.text
        href = a_tag['href']
        matched = re.search(r'(\d+)\)',href)
        print(matched[0],matched[1])
else:
    print(f'Error Code = {res.status_code}')

39166708) 39166708
39166705) 39166705
39298775) 39298775


### 곡상세 정보 추출하기

In [8]:
import re
import requests
from bs4 import BeautifulSoup
from pprint import pprint

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# 좋아요 건수 가져오기 ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'

# Song 100곡의 상세정보 목록을 저장할 list 선언
# [{},{}]
song_lyric_list = list()
print('===> 100 곡 노래 파싱 시작')
for idx,song in enumerate(song_list,1):
    print(f'==> {idx} {song['title']}')
    # Song 1곡의 상세정보를 저장할 dict 선언
    song_lyric_dict = dict()
    
    res = requests.get(song['url'], headers=headers)
    if res.ok:
        soup = BeautifulSoup(res.text,'html.parser')
        song_lyric_dict['곡명'] = song['title']
        #가수 이름 추출하기
        singer_span = soup.select_one("a[href*='goArtistDetail'] span")
        song_lyric_dict['가수'] = singer_span.text

        #앨범,발매일,장르 추출하기
        song_dd = soup.select('div.meta dd') #song_dd는 ResultSet타입, song_dd[0]는 Tag 타입
        if song_dd:
            song_lyric_dict['앨범'] = song_dd[0].text
            song_lyric_dict['발매일'] = song_dd[1].text
            song_lyric_dict['장르'] = song_dd[2].text
        
        #상세정보 url을 저장하기
        song_lyric_dict['detail_url'] = song['url']

        # 좋아요 건수
        song_id = song['id']
        ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'
        res = requests.get(ajax_url, headers=headers)
        if res.ok:
            song_lyric_dict['좋아요'] = res.json()['contsLike'][0]['SUMMCNT']

        # 노래 가사
        lyric_div = soup.select('div#d_video_summary') #<div id="d_video_summary">
        if lyric_div:
            lyric = lyric_div[0].text
        else: #가사가 없는 경우
            lyric = ''   
        
        # 정규표현식을 사용하여 가사에 포함된 특수문자 \n\r\t 를 empty string('') 로 치환하기
        pattern = re.compile(r'[\n\r\t]')
        song_lyric_dict['가사'] = pattern.sub('',lyric)

        #list에 상세정보를 포함한 song_lyric_dict를 song_lyric_list에가 추가한다.
        song_lyric_list.append(song_lyric_dict)
    else:
        print(f'Error Code = {res.status_code}')

print(len(song_lyric_list)) #100
pprint(song_lyric_list[:2])
print('===> 100 곡 노래 파싱 끝')

===> 100 곡 노래 파싱 시작
==> 1 Golden
==> 2 Soda Pop
==> 3 뛰어(JUMP)
==> 4 FAMOUS
==> 5 Dirty Work
==> 6 Drowning
==> 7 시작의 아이
==> 8 너에게 닿기를
==> 9 Your Idol
==> 10 모르시나요(PROD.로코베리)
==> 11 Whiplash
==> 12 어제보다 슬픈 오늘
==> 13 like JENNIE
==> 14 WICKED
==> 15 HOME SWEET HOME (feat. 태양, 대성)
==> 16 Never Ending Story
==> 17 청춘만화
==> 18 나는 반딧불
==> 19 TOO BAD (feat. Anderson .Paak)
==> 20 눈물참기
==> 21 APT.
==> 22 HANDS UP
==> 23 How It’s Done
==> 24 HAPPY
==> 25 오늘만 I LOVE YOU
==> 26 REBEL HEART
==> 27 LIKE YOU BETTER
==> 28 빌려온 고양이 (Do the Dance)
==> 29 한 페이지가 될 수 있게
==> 30 STYLE
==> 31 Supernova
==> 32 소나기
==> 33 천상연
==> 34 내게 사랑이 뭐냐고 물어본다면
==> 35 그날이 오면
==> 36 Flower
==> 37 toxic till the end
==> 38 Welcome to the Show
==> 39 Pookie
==> 40 MY LOVE(2025)
==> 41 예뻤어
==> 42 Die With A Smile
==> 43 HOT
==> 44 어떻게 이별까지 사랑하겠어, 널 사랑하는 거지
==> 45 내 이름 맑음
==> 46 고민중독
==> 47 첫 만남은 계획대로 되지 않아
==> 48 ATTITUDE
==> 49 DRIP
==> 50 그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))
==> 51 Supersonic
==> 52 Hype Boy
==> 53 

#### song_lyric_lists를 DataFrame으로 저장하기

In [9]:
# [{'가수';'BTS','앨범':''},{}]
import pandas as pd

#컬럼명을 설정하면서 empty DataFrame 객체생성
song_list_df = pd.DataFrame(columns=['곡명','가수','앨범','발매일','장르','detail_url','좋아요','가사'])

for song_lyric in song_lyric_list: #[ {},{},{} ]
    # 1개의 Row data 생성
    df_new_row = pd.DataFrame.from_records([song_lyric])
    song_list_df = pd.concat([song_list_df, df_new_row])

song_list_df.head()

Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,Golden,HUNTR/X,KPop Demon Hunters (Soundtrack from the Netfli...,2025.06.20,애니메이션/웹툰,https://www.melon.com/song/detail.htm?songId=3...,91783,"I was a ghost, I was alone, hah어두워진, hah, 앞길속에..."
0,Soda Pop,KPop Demon Hunters Cast,KPop Demon Hunters (Soundtrack from the Netfli...,2025.06.20,애니메이션/웹툰,https://www.melon.com/song/detail.htm?songId=3...,56751,"Hey, heyHey, heyHeyDon't want you, need youYea..."
0,뛰어(JUMP),BLACKPINK,뛰어(JUMP),2025.07.11,댄스,https://www.melon.com/song/detail.htm?songId=3...,38287,I’m not that easy to tameYou should see me und...
0,FAMOUS,ALLDAY PROJECT,FAMOUS,2025.06.23,댄스,https://www.melon.com/song/detail.htm?songId=3...,76640,분명 나쁜 아이는 아니어도또 틀에 가두면 we break itBum no bigge...
0,Dirty Work,aespa,Dirty Work,2025.06.27,댄스,https://www.melon.com/song/detail.htm?songId=3...,51152,World dominationI don’t gotta say it전엔 없던돌연변이 ...


#### song_lyric_lists를 Json 파일로 저장
* json 파일로 저장해야 DataFrame으로 저장하기 용이함

In [10]:

import json

with open('data/songs100.json','w', encoding='utf-8') as file:
    json.dump(song_lyric_list, file)

### Json File을 DataFrame (표데이터) 객체로 저장하기

In [11]:
import pandas as pd

song_df = pd.read_json('data/songs100.json')

print(type(song_df))
song_df.head(3)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,Golden,HUNTR/X,KPop Demon Hunters (Soundtrack from the Netfli...,2025.06.20,애니메이션/웹툰,https://www.melon.com/song/detail.htm?songId=3...,91783,"I was a ghost, I was alone, hah어두워진, hah, 앞길속에..."
1,Soda Pop,KPop Demon Hunters Cast,KPop Demon Hunters (Soundtrack from the Netfli...,2025.06.20,애니메이션/웹툰,https://www.melon.com/song/detail.htm?songId=3...,56751,"Hey, heyHey, heyHeyDon't want you, need youYea..."
2,뛰어(JUMP),BLACKPINK,뛰어(JUMP),2025.07.11,댄스,https://www.melon.com/song/detail.htm?songId=3...,38287,I’m not that easy to tameYou should see me und...


In [12]:

# 가수 별 Row Counting
song_df['가수'].value_counts().head()

가수
임영웅            6
aespa          5
G-DRAGON       5
DAY6 (데이식스)    4
IVE (아이브)      3
Name: count, dtype: int64

In [13]:

# 장르 별 Row Counting
song_df['장르'].value_counts()

장르
댄스                38
발라드               22
록/메탈              13
애니메이션/웹툰           6
랩/힙합               6
발라드, 국내드라마         6
발라드, 인디음악          3
R&B/Soul, 인디음악     1
댄스, 국내드라마          1
POP                1
인디음악, 록/메탈         1
R&B/Soul           1
성인가요/트로트           1
Name: count, dtype: int64

In [14]:

# 특정 가수의 노래 정보 출력하기 ('곡명','장르','발매일') 
song_df.loc[song_df['가수'] == '방탄소년단',['곡명','장르','발매일']]

Unnamed: 0,곡명,장르,발매일
81,봄날,랩/힙합,2017.02.13


In [15]:

# unique 한 가수명을 리스트 형태로 출력하기
# 가수 이름 가져오기 (중복 빼고)
song_df['가수'].unique()

array(['HUNTR/X', 'KPop Demon Hunters Cast', 'BLACKPINK',
       'ALLDAY PROJECT', 'aespa', 'WOODZ', '마크툽 (MAKTUB)', '10CM', '조째즈',
       '우디 (Woody)', '제니 (JENNIE)', 'G-DRAGON', '아이유', '이무진', '황가람',
       'QWER', '로제 (ROSÉ)', 'MEOVV (미야오)', 'DAY6 (데이식스)', 'BOYNEXTDOOR',
       'IVE (아이브)', '프로미스나인', '아일릿(ILLIT)', 'Hearts2Hearts (하츠투하츠)',
       '이클립스 (ECLIPSE)', '이창섭', '로이킴', '투모로우바이투게더', '오반(OVAN)',
       'FIFTY FIFTY', '이예은', 'Lady Gaga', 'LE SSERAFIM (르세라핌)',
       'AKMU (악뮤)', 'TWS (투어스)', 'BABYMONSTER', '너드커넥션 (Nerd Connection)',
       'NewJeans', '세븐틴 (SEVENTEEN)', 'H1-KEY (하이키)', '임영웅', '정국',
       'KiiiKiii (키키)', '순순희(지환)', '잔나비', 'KISS OF LIFE', '성시경',
       'i-dle (아이들)', '멜로망스', 'EJAE', 'TWICE (트와이스)', '임재현', '폴킴', '경서예지',
       '박재정', '방탄소년단', 'RIIZE', '이영지', '범진', 'NCT DREAM', '도경수(D.O.)',
       'PLAVE', '김민석'], dtype=object)

In [16]:
#앨범이 OST 인 노래는?


### SqlAlchemy와 Pymysql을 사용하여 DataFrame을 RDB의 테이블로 저장하기

In [17]:
!pip show pymysql

Name: PyMySQL
Version: 1.1.1
Summary: Pure Python MySQL Driver
Home-page: 
Author: 
Author-email: Inada Naoki <songofacandy@gmail.com>, Yutaka Matsubara <yutaka.matsubara@gmail.com>
License: MIT License
Location: C:\Users\user\anaconda3\Lib\site-packages
Requires: 
Required-by: 


### DataFrame을 Table로 저장하기

### 복사한 DataFrame을 Table로 저장
* 컬럼명을 영문으로 변경
* 인덱스를 1부터 시작하도록 변경하고 DataFrame 객체의 인덱스가 테이블의 PK(primary key)가 되도록 설정
* 컬럼의 데이터 타입을 변경 (발매일을 DATE 타입으로 변경)

In [18]:
# 기존의 DataFrame의 복사본을 만들기 
# table_df = song_df.copy()
# table_df.head(3)

In [19]:
# table_df.columns = ['title','singer','album','release_date','genre','url','likes','lyric']
# table_df.head(2)

In [20]:
#index 값의 1 부터 시작하도록 설정
# import numpy as np

#index 변경
# table_df.index = np.arange(1, len(table_df)+1)
# table_df.index

In [21]:
# table_df.head(2)

In [22]:
# url 컬럼 삭제하기 axis=1은 column, axis=0 은 Row
# table_df.drop('url', axis=1, inplace=True)

In [23]:
#table_df.columns

#### DataFrame 객체 ==> Table 로 변환
* ['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric']
* table_df(DataFrame객체)를 songs100 테이블로 저장하기 to_sql() 함수 사용


In [24]:
# import pymysql
# import sqlalchemy

# pymysql.install_as_MySQLdb()
# from sqlalchemy import create_engine

# engine = None
# conn = None
# try:
    # engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
    # conn = engine.connect()    

#     table_df.to_sql(name='songs100', con=engine, if_exists='replace', index=True,\
#                     index_label='id',
#                     dtype={
#                         'id':sqlalchemy.types.INTEGER(),
#                         'title':sqlalchemy.types.VARCHAR(200),
#                         'singer':sqlalchemy.types.VARCHAR(200),
#                         'album':sqlalchemy.types.VARCHAR(200),
#                         'release_date':sqlalchemy.types.DATE,
#                         'genre':sqlalchemy.types.VARCHAR(200),
#                         'likes':sqlalchemy.types.BigInteger,
#                         'lyric':sqlalchemy.types.VARCHAR(5000)
#                     })
#     print('songs100 테이블 생성됨')
# finally:
#     if conn is not None: 
#         conn.close()
#     if engine is not None:
#         engine.dispose()

#### SQL 쿼리 결과를 DataFrame 객체로 저장하는 함수선언하기
* read_sql_query() sql문을 실행한 결과를 DataFrame 객체로 반환해주는 함수

In [25]:
# def search_album(keyword):
#     sql = """select * from songs100 where album like %s;"""

#     import pandas as pd
#     import pymysql
#     import sqlalchemy

#     pymysql.install_as_MySQLdb()
#     from sqlalchemy import create_engine
    
#     engine = None
#     conn = None
#     try:
#         engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
#         conn = engine.connect()

#         album_df = pd.read_sql_query(sql, con=conn, params=('%' + keyword + '%',))
#         print(album_df.shape)
#         return album_df
#     finally:
#         print('finally')
#         if conn is not None: 
#             conn.close()
#         if engine is not None:
#             engine.dispose()

In [26]:
# search_album('OST')