### BeautifulSoup 
* select() 함수 사용
* melon 100 chart 데이터 파싱

In [37]:
import requests, re
from bs4 import BeautifulSoup
from pprint import pprint

url = 'https://www.melon.com/chart/index.htm'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
res = requests.get(url, headers=headers)

if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser') # 소스 보기의 텍스트를 가져옴
    atag_list = soup.select("a[href*='playSong']")
    # print(atag_list)
    # [{},{}]
    song_list = [] # 100곡의 song list
    for idx, atag in enumerate(atag_list, 1): # enumerate는 인덱스를 발생시킴
        # 1곡의 song 정보를 저장할 dict
        song_dict = {}
        
        # song 제목
        title = atag.text
        song_dict['title'] = title
        
        # song id 추출하기
        href = atag['href']
        matched = re.search(r'(\d+)\)', href)
        if matched:
            song_id = matched.group(1)
        song_dict['id'] = song_id
        
        # 노래 상세정보 url
        song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
        song_dict['url'] = song_url
        
        song_list.append(song_dict)

    # song_list 확인
    pprint(len(song_list))
    pprint(song_list[:6])
else:
    print(f'Error Code = {res.status_code}')
    
# 노래 상세정보 song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'



100
[{'id': '38589554',
  'title': 'TOO BAD (feat. Anderson .Paak)',
  'url': 'https://www.melon.com/song/detail.htm?songId=38589554'},
 {'id': '38429074',
  'title': '모르시나요(PROD.로코베리)',
  'url': 'https://www.melon.com/song/detail.htm?songId=38429074'},
 {'id': '36397952',
  'title': 'Drowning',
  'url': 'https://www.melon.com/song/detail.htm?songId=36397952'},
 {'id': '38629386',
  'title': 'like JENNIE',
  'url': 'https://www.melon.com/song/detail.htm?songId=38629386'},
 {'id': '38242510',
  'title': 'HOME SWEET HOME (feat. 태양, 대성)',
  'url': 'https://www.melon.com/song/detail.htm?songId=38242510'},
 {'id': '38123338',
  'title': '나는 반딧불',
  'url': 'https://www.melon.com/song/detail.htm?songId=38123338'}]


### 곡상세 정보 추출하기

In [76]:
import re
import requests
from bs4 import BeautifulSoup

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# Song 100곡의 상세정보를 저장할 list 건언
song_lyric_list = []
print('===> 100 곡 노래 파싱 시작')
for idx, song in enumerate(song_list, 1):
    print(f'==> {idx} {song['title']}')
    # Song 1곡의 상세 정보를 저장할 dict 선언
    song_lyric_dict = dict()
    res = requests.get(song['url'], headers=headers)
    if res.ok:
        song_lyric_dict['곡명'] = song['title'] # 곡 제목
        song_lyric_dict['detail_url'] = song['url'] # 곡 상세 정보 url
          
        soup = BeautifulSoup(res.text, 'html.parser')
        singer_span = soup.select_one("a[href*='goArtistDetail'] span")
        song_lyric_dict['가수'] = singer_span.text
        
        song_dd = soup.select('div.meta dd') # song_dd는 ResultSet Type, song_dd[0]는 Tag Type
        if song_dd:
            song_lyric_dict['앨범'] = song_dd[0].text
            song_lyric_dict['발매일'] = song_dd[1].text
            song_lyric_dict['장르'] = song_dd[2].text
        
        # 좋아요 건수
        song_id = song['id']
        ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'
        res = requests.get(ajax_url, headers=headers)
        if res.ok:
            song_likes = res.json()['contsLike'][0]['SUMMCNT']
            song_lyric_dict['좋아요'] = song_likes
        
        # 노래 가사
        lyric_div = soup.select('div#d_video_summary') # class가 아닌 id이므로 '#' 사용
        if lyric_div:
            lyric = lyric_div[0].text
        else:
            lyric = ''
        
        # \n\r\t 특수문자를 찾는 Pattern 객체 생성
        pattern = re.compile(r'[\n\r\t]')
        song_lyric_dict['가사'] = pattern.sub('', lyric) # 패턴을 만나면 빈 문자열로 치환
        
        # list에 상세정보를 담은 dict 저장
        song_lyric_list.append(song_lyric_dict)
    else:
        print(f'Error code = {res.status_code}')
print(len(song_lyric_list))
pprint(song_lyric_list[:3])
print('===> 100 곡 노래 파싱 끝')


===> 100 곡 노래 파싱 시작
==> 1 TOO BAD (feat. Anderson .Paak)
==> 2 모르시나요(PROD.로코베리)
==> 3 Drowning
==> 4 like JENNIE
==> 5 HOME SWEET HOME (feat. 태양, 대성)
==> 6 나는 반딧불
==> 7 REBEL HEART
==> 8 Whiplash
==> 9 오늘만 I LOVE YOU
==> 10 Flower
==> 11 APT.
==> 12 HOT
==> 13 HAPPY
==> 14 ATTITUDE
==> 15 toxic till the end
==> 16 내게 사랑이 뭐냐고 물어본다면
==> 17 PO￦ER
==> 18 I DO ME
==> 19 소나기
==> 20 TAKE ME
==> 21 사랑은 늘 도망가
==> 22 한 페이지가 될 수 있게
==> 23 Welcome to the Show
==> 24 미치게 그리워서
==> 25 천상연
==> 26 Dash
==> 27 Die With A Smile
==> 28 Supernova
==> 29 예뻤어
==> 30 우리들의 블루스
==> 31 청춘만화
==> 32 DRIP
==> 33 어떻게 이별까지 사랑하겠어, 널 사랑하는 거지
==> 34 온기
==> 35 슬픈 초대장
==> 36 무제(無題) (Untitled, 2014)
==> 37 MY LOVE(2025)
==> 38 그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))
==> 39 RIZZ
==> 40 Love wins all
==> 41 모래 알갱이
==> 42 내 이름 맑음
==> 43 Island
==> 44 Home
==> 45 UP (KARINA Solo)
==> 46 다시 만날 수 있을까
==> 47 The Chase
==> 48 Chroma Drift
==> 49 이제 나만 믿어요
==> 50 청혼하지 않을 이유를 못 찾았어
==> 51 12:32 (A to T)
==> 52 고민중독
==> 53 이렇게 좋아해

#### song_lyric_lists를 DataFrame으로 저장하기

In [77]:
# [{'가수';'BTS','앨범':''},{}]
import pandas as pd
# 칼럼명을 설정하면서 empty DataFrame 객체생성
song_list_df = pd.DataFrame(columns=['곡명', '가수', '앨범', '발매일', '장르', 'detail_url', '좋아요', '가사'])
print(type(song_list_df))

for song_lyric in song_lyric_list: # [{}, {}, {}]
    df_new_row = pd.DataFrame.from_records([song_lyric])
    song_list_df = pd.concat([song_list_df, df_new_row])

song_list_df.tail(3)
# -> 한 번 다시 gpt로 읽어볼 것

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,보금자리,임영웅,IM HERO,2022.05.02,성인가요/트로트,https://www.melon.com/song/detail.htm?songId=3...,54741,그대 사랑이 나였음 좋겠다아무것도 필요 없어요든든한 품에 안겨 잠들고 싶어라내 사랑...
0,earthquake,지수 (JISOO),AMORTAGE,2025.02.14,댄스,https://www.melon.com/song/detail.htm?songId=3...,27588,It hits me like an earthquake더 빠르게 my heart ra...
0,To. X,태연 (TAEYEON),To. X - The 5th Mini Album,2023.11.27,R&B/Soul,https://www.melon.com/song/detail.htm?songId=3...,172143,처음 본 널 기억해We skipped the small talk바로 다음 단계였지 ...


#### song_lyric_lists를 Json 파일로 저장
* json 파일로 저장해야 DataFrame으로 저장하기 용이함

In [40]:
import json

with open('data/songs100.json', 'w', encoding='utf-8') as file:
    json.dump(song_lyric_list, file)

### Json File을 DataFrame (표데이터) 객체로 저장하기

In [41]:
import pandas as pd

song_df = pd.read_json('data/songs100.json')
print(type(song_df))
song_df.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,곡명,detail_url,가수,앨범,발매일,장르,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,랩/힙합,126569,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,모르시나요(PROD.로코베리),https://www.melon.com/song/detail.htm?songId=3...,조째즈,모르시나요,2025.01.07,발라드,60103,찬바람 불어오니그대 생각에 눈물짓네인사 없이 떠나시던 날그리움만 남겨놓고그리워 글썽...
2,Drowning,https://www.melon.com/song/detail.htm?songId=3...,WOODZ,OO-LI,2023.04.26,록/메탈,170267,미치도록 사랑했던지겹도록 다투었던네가 먼저 떠나고여긴 온종일 비가 왔어금세 턱 끝까...
3,like JENNIE,https://www.melon.com/song/detail.htm?songId=3...,제니 (JENNIE),Ruby,2025.03.07,댄스,56670,"Come on, it’s gon be f hardSpecial edition and..."
4,"HOME SWEET HOME (feat. 태양, 대성)",https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024.11.22,랩/힙합,206791,"You say, It’s changedShow must go on, Behave오랜..."


In [42]:
song_df.tail()

Unnamed: 0,곡명,detail_url,가수,앨범,발매일,장르,좋아요,가사
95,Supernatural,https://www.melon.com/song/detail.htm?songId=3...,NewJeans,Supernatural,2024.06.21,J-POP,105602,Stormy nightCloudy skyIn a moment you and IOne...
96,Igloo,https://www.melon.com/song/detail.htm?songId=3...,KISS OF LIFE,Lose Yourself,2024.10.15,랩/힙합,43162,"Imma back up every wordMini skirt, pretty pink..."
97,보금자리,https://www.melon.com/song/detail.htm?songId=3...,임영웅,IM HERO,2022.05.02,성인가요/트로트,54741,그대 사랑이 나였음 좋겠다아무것도 필요 없어요든든한 품에 안겨 잠들고 싶어라내 사랑...
98,earthquake,https://www.melon.com/song/detail.htm?songId=3...,지수 (JISOO),AMORTAGE,2025.02.14,댄스,27588,It hits me like an earthquake더 빠르게 my heart ra...
99,To. X,https://www.melon.com/song/detail.htm?songId=3...,태연 (TAEYEON),To. X - The 5th Mini Album,2023.11.27,R&B/Soul,172143,처음 본 널 기억해We skipped the small talk바로 다음 단계였지 ...


In [43]:
# 가수 별 Row Counting
print(type(song_df['가수']))
song_df['가수'].value_counts()

<class 'pandas.core.series.Series'>


가수
임영웅                        14
G-DRAGON                    6
PLAVE                       5
DAY6 (데이식스)                 5
aespa                       4
NewJeans                    4
IVE (아이브)                   4
로제 (ROSÉ)                   3
이무진                         3
황가람                         2
BOYNEXTDOOR                 2
KISS OF LIFE                2
우디 (Woody)                  2
제니 (JENNIE)                 2
QWER                        2
폴킴                          1
정국                          1
방탄소년단                       1
경서예지                        1
범진                          1
프로미스나인                      1
박재정                         1
Crush                       1
재쓰비 (JAESSBEE)              1
10CM                        1
이영지                         1
임재현                         1
j-hope                      1
김민석                         1
송필근                         1
순순희                         1
지수 (JISOO)                  1
(여자)아이들                     1
Hearts2

In [44]:
# 장르 별 Row Counting
print(type(song_df['장르']))
song_df['장르'].value_counts()

<class 'pandas.core.series.Series'>


장르
댄스            30
발라드           27
록/메탈          16
랩/힙합           7
발라드, 국내드라마     6
발라드, 인디음악      4
R&B/Soul       4
성인가요/트로트       2
POP            1
인디음악, 록/메탈     1
포크/블루스         1
J-POP          1
Name: count, dtype: int64

In [45]:
# 조건을 만족하는 특정 Row와 모든 컬럼이 출력됨
song_df.loc[song_df['가수'] == 'G-DRAGON']

Unnamed: 0,곡명,detail_url,가수,앨범,발매일,장르,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,랩/힙합,126569,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
4,"HOME SWEET HOME (feat. 태양, 대성)",https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024.11.22,랩/힙합,206791,"You say, It’s changedShow must go on, Behave오랜..."
16,PO￦ER,https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,PO￦ER,2024.10.31,랩/힙합,155621,When G.D’s in the house (Übermensch)When G.D’s...
19,TAKE ME,https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,댄스,52658,M.B.T.M.I.U (My Baby Take Me I’m Yours)M.B.T.M...
35,"무제(無題) (Untitled, 2014)",https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,권지용,2017.06.08,R&B/Soul,312444,나에게 돌아오기가 어렵고 힘든 걸 알아이제 더는 상처받기가 두렵고 싫은 걸 알아네가...
92,DRAMA,https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,발라드,36242,When every scene’s rolling in goodWhy you acti...


In [46]:
# 특정 가수의 노래 정보 출력하기
# 조건을 만족하는 특정 Row와 특정 컬럼만 출력
# song_df.loc[row, col]
song_df.loc[song_df['가수'] == 'G-DRAGON', ['곡명', '장르']]

Unnamed: 0,곡명,장르
0,TOO BAD (feat. Anderson .Paak),랩/힙합
4,"HOME SWEET HOME (feat. 태양, 대성)",랩/힙합
16,PO￦ER,랩/힙합
19,TAKE ME,댄스
35,"무제(無題) (Untitled, 2014)",R&B/Soul
92,DRAMA,발라드


In [47]:
# 조건을 만족하는 특정 row와 Slicing으로 선택된 특정 구간의 칼럼이 출력된다.
song_df.loc[song_df['가수'] == 'G-DRAGON', '곡명':'장르'].reset_index(drop=True) # 기존의 index를 제거

Unnamed: 0,곡명,detail_url,가수,앨범,발매일,장르
0,TOO BAD (feat. Anderson .Paak),https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,랩/힙합
1,"HOME SWEET HOME (feat. 태양, 대성)",https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024.11.22,랩/힙합
2,PO￦ER,https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,PO￦ER,2024.10.31,랩/힙합
3,TAKE ME,https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,댄스
4,"무제(無題) (Untitled, 2014)",https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,권지용,2017.06.08,R&B/Soul
5,DRAMA,https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,발라드


In [48]:
# unique 한 가수명을 리스트 형태로 출력하기
print(type(song_df['가수'].unique()))
print(len(song_df['가수'].unique()))
song_df['가수'].unique()

<class 'numpy.ndarray'>
55


array(['G-DRAGON', '조째즈', 'WOODZ', '제니 (JENNIE)', '황가람', 'IVE (아이브)',
       'aespa', 'BOYNEXTDOOR', '오반(OVAN)', '로제 (ROSÉ)',
       'LE SSERAFIM (르세라핌)', 'DAY6 (데이식스)', '로이킴', 'KiiiKiii (키키)',
       '이클립스 (ECLIPSE)', '임영웅', '이창섭', 'PLAVE', 'Lady Gaga', '이무진',
       'BABYMONSTER', 'AKMU (악뮤)', '순순희(지환)', '이예은',
       '너드커넥션 (Nerd Connection)', '아이유', 'QWER', 'Hearts2Hearts (하츠투하츠)',
       '성시경', '멜로망스', 'TWS (투어스)', '아일릿(ILLIT)', '잔나비', '임재현', '(여자)아이들',
       '폴킴', '프로미스나인', 'NewJeans', '방탄소년단', '경서예지', '정국', '우디 (Woody)',
       '박재정', '범진', '재쓰비 (JAESSBEE)', '10CM', '이영지', 'Crush', 'j-hope',
       '김민석', '송필근', '순순희', 'KISS OF LIFE', '지수 (JISOO)', '태연 (TAEYEON)'],
      dtype=object)

In [49]:
# 앨범이 OST 인 노래는?
print(type(song_df['앨범'].str)) # 타입은 Series지만, String으로 바꾸어 문자열 메소드를 사용하기 위함 
song_df['앨범'].str.contains('OST')
song_df.loc[song_df['앨범'].str.contains('OST')]

<class 'pandas.core.strings.accessor.StringMethods'>


Unnamed: 0,곡명,detail_url,가수,앨범,발매일,장르,좋아요,가사
18,소나기,https://www.melon.com/song/detail.htm?songId=3...,이클립스 (ECLIPSE),선재 업고 튀어 OST Part 1,2024.04.08,"발라드, 국내드라마",177965,그치지 않기를 바랬죠처음 그대 내게로 오던 그날에잠시 동안 적시는그런 비가 아니길간...
20,사랑은 늘 도망가,https://www.melon.com/song/detail.htm?songId=3...,임영웅,신사와 아가씨 OST Part.2,2021.10.11,"발라드, 국내드라마",225315,눈물이 난다 이 길을 걸으면그 사람 손길이 자꾸 생각이 난다붙잡지 못하고 가슴만 떨...
53,너의 모든 순간,https://www.melon.com/song/detail.htm?songId=4...,성시경,별에서 온 그대 OST Part.7,2014.02.12,"발라드, 국내드라마",307609,이윽고 내가 한눈에너를 알아봤을 때모든 건 분명 달라지고 있었어내 세상은 널 알기 ...
54,사랑인가 봐,https://www.melon.com/song/detail.htm?songId=3...,멜로망스,사랑인가 봐 (사내맞선 OST 스페셜 트랙),2022.02.18,"발라드, 국내드라마",222680,너와 함께 하고 싶은 일들을상상하는 게요즘 내 일상이 되고너의 즐거워하는 모습을 보...
63,"모든 날, 모든 순간 (Every day, Every Moment)",https://www.melon.com/song/detail.htm?songId=3...,폴킴,'키스 먼저 할까요?' OST Part.3,2018.03.20,"발라드, 국내드라마",437058,네가 없이 웃을 수 있을까생각만 해도 눈물이나힘든 시간 날 지켜준 사람이제는 내가 ...
81,미안해 미워해 사랑해,https://www.melon.com/song/detail.htm?songId=3...,Crush,눈물의 여왕 OST Part.4,2024.03.24,"발라드, 국내드라마",106795,It's the same day이렇게 너를다시 불러보는 잊고 있던 마음들과이제야 내...


In [50]:
# 좋아요 건수가 가장 많은 가수는?
song_df.loc[song_df['좋아요'].max() == song_df['좋아요']]


Unnamed: 0,곡명,detail_url,가수,앨범,발매일,장르,좋아요,가사
67,봄날,https://www.melon.com/song/detail.htm?songId=3...,방탄소년단,YOU NEVER WALK ALONE,2017.02.13,랩/힙합,517165,보고 싶다이렇게 말하니까 더 보고 싶다너희 사진을 보고 있어도보고 싶다너무 야속한 ...


In [51]:
# 좋아요 건수의 평균
mean_list_value = song_df['좋아요'].mean()
song_df.loc[song_df['좋아요'] >= mean_list_value].sort_values(by='좋아요', ascending=False).reset_index(drop=True) # 오름차순 false => 내림차순

Unnamed: 0,곡명,detail_url,가수,앨범,발매일,장르,좋아요,가사
0,봄날,https://www.melon.com/song/detail.htm?songId=3...,방탄소년단,YOU NEVER WALK ALONE,2017.02.13,랩/힙합,517165,보고 싶다이렇게 말하니까 더 보고 싶다너희 사진을 보고 있어도보고 싶다너무 야속한 ...
1,"어떻게 이별까지 사랑하겠어, 널 사랑하는 거지",https://www.melon.com/song/detail.htm?songId=3...,AKMU (악뮤),항해,2019.09.25,발라드,481944,일부러 몇 발자국 물러나내가 없이 혼자 걷는 널 바라본다옆자리 허전한 너의 풍경흑백...
2,주저하는 연인들을 위해,https://www.melon.com/song/detail.htm?songId=3...,잔나비,전설,2019.03.13,"인디음악, 록/메탈",439038,나는 읽기 쉬운 마음이야당신도 스윽 훑고 가셔요달랠 길 없는 외로운 마음 있지머물다...
3,"모든 날, 모든 순간 (Every day, Every Moment)",https://www.melon.com/song/detail.htm?songId=3...,폴킴,'키스 먼저 할까요?' OST Part.3,2018.03.20,"발라드, 국내드라마",437058,네가 없이 웃을 수 있을까생각만 해도 눈물이나힘든 시간 날 지켜준 사람이제는 내가 ...
4,예뻤어,https://www.melon.com/song/detail.htm?songId=3...,DAY6 (데이식스),Every DAY6 February,2017.02.06,록/메탈,366627,지금 이 말이우리가 다시시작하자는 건 아냐그저 너의남아있던 기억들이떠올랐을 뿐이야정...
5,한 페이지가 될 수 있게,https://www.melon.com/song/detail.htm?songId=3...,DAY6 (데이식스),The Book of Us : Gravity,2019.07.15,록/메탈,348892,솔직히 말할게많이 기다려 왔어너도 그랬을 거라 믿어오늘이 오길매일같이 달력을 보면서...
6,"무제(無題) (Untitled, 2014)",https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,권지용,2017.06.08,R&B/Soul,312444,나에게 돌아오기가 어렵고 힘든 걸 알아이제 더는 상처받기가 두렵고 싫은 걸 알아네가...
7,Hype Boy,https://www.melon.com/song/detail.htm?songId=3...,NewJeans,NewJeans 1st EP 'New Jeans',2022.08.01,댄스,308815,"(1,2,3,4)Baby, got me looking so crazy빠져버리는 da..."
8,너의 모든 순간,https://www.melon.com/song/detail.htm?songId=4...,성시경,별에서 온 그대 OST Part.7,2014.02.12,"발라드, 국내드라마",307609,이윽고 내가 한눈에너를 알아봤을 때모든 건 분명 달라지고 있었어내 세상은 널 알기 ...
9,Ditto,https://www.melon.com/song/detail.htm?songId=3...,NewJeans,NewJeans 'OMG',2022.12.19,댄스,303831,Woo woo woo woo oohWoo woo woo wooStay in the ...


In [52]:
# song_df.columns.drop(['detail_url', '가사]) # url과 가사를 제외
song_df.loc[song_df['좋아요'] >= mean_list_value, song_df.columns.drop(['detail_url', '가사'])]\
.sort_values(by='좋아요', ascending=False).reset_index(drop=True)

Unnamed: 0,곡명,가수,앨범,발매일,장르,좋아요
0,봄날,방탄소년단,YOU NEVER WALK ALONE,2017.02.13,랩/힙합,517165
1,"어떻게 이별까지 사랑하겠어, 널 사랑하는 거지",AKMU (악뮤),항해,2019.09.25,발라드,481944
2,주저하는 연인들을 위해,잔나비,전설,2019.03.13,"인디음악, 록/메탈",439038
3,"모든 날, 모든 순간 (Every day, Every Moment)",폴킴,'키스 먼저 할까요?' OST Part.3,2018.03.20,"발라드, 국내드라마",437058
4,예뻤어,DAY6 (데이식스),Every DAY6 February,2017.02.06,록/메탈,366627
5,한 페이지가 될 수 있게,DAY6 (데이식스),The Book of Us : Gravity,2019.07.15,록/메탈,348892
6,"무제(無題) (Untitled, 2014)",G-DRAGON,권지용,2017.06.08,R&B/Soul,312444
7,Hype Boy,NewJeans,NewJeans 1st EP 'New Jeans',2022.08.01,댄스,308815
8,너의 모든 순간,성시경,별에서 온 그대 OST Part.7,2014.02.12,"발라드, 국내드라마",307609
9,Ditto,NewJeans,NewJeans 'OMG',2022.12.19,댄스,303831


In [53]:
print(song_df['발매일'].max())
song_df.loc[song_df['발매일'].max() == song_df['발매일']]

2025.03.31


Unnamed: 0,곡명,detail_url,가수,앨범,발매일,장르,좋아요,가사
73,어제보다 슬픈 오늘,https://www.melon.com/song/detail.htm?songId=3...,우디 (Woody),어제보다 슬픈 오늘,2025.03.31,발라드,6888,밤새도록 내리던 소낙비가 네 모습을 지울까네가 떠난 어제보다도 난 오늘이 더 슬퍼지...


### SqlAlchemy와 Pymysql을 사용하여 DataFrame을 RDB의 테이블로 저장하기

In [54]:
!pip show pymysql

Name: PyMySQL
Version: 1.1.1
Summary: Pure Python MySQL Driver
Home-page: 
Author: 
Author-email: Inada Naoki <songofacandy@gmail.com>, Yutaka Matsubara <yutaka.matsubara@gmail.com>
License: MIT License
Location: C:\Users\wlwog\anaconda3\Lib\site-packages
Requires: 
Required-by: 


### DataFrame을 Table로 저장하기

In [55]:
import pymysql, sqlalchemy

#pymysql과 sqlalchemy 연동
pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

engine = None
conn = None
try:
    # dialect+driver://username:password@host:port/database
    engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')#, encoding='utf-8')
    print('engine', engine)
    print(type(engine), engine)
    conn = engine.connect()
    print(type(conn), conn)
    
    #song_df(DataFrame객체)를 songs 테이블로 저장하기 to_sql() 함수 사용
    song_df.to_sql(name='songs', con=engine, if_exists='replace', index=False)
finally:
    if conn is not None: 
        conn.close()
    if engine is not None:
        engine.dispose()

engine Engine(mysql+pymysql://python:***@localhost:3306/python_db?charset=utf8mb4)
<class 'sqlalchemy.engine.base.Engine'> Engine(mysql+pymysql://python:***@localhost:3306/python_db?charset=utf8mb4)
<class 'sqlalchemy.engine.base.Connection'> <sqlalchemy.engine.base.Connection object at 0x000002571D345A60>


### 복사한 DataFrame을 Table로 저장
* 컬럼명을 영문으로 변경
* 인덱스를 1부터 시작하도록 변경하고 DataFrame 객체의 인덱스가 테이블의 PK(primary key)가 되도록 설정
* 컬럼의 데이터 타입을 변경 (발매일을 DATE 타입으로 변경)

In [66]:
# 기존의 DataFrame의 복사본을 만들기 
table_df = song_df.copy()
table_df.head(3)

Unnamed: 0,곡명,detail_url,가수,앨범,발매일,장르,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,랩/힙합,126569,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,모르시나요(PROD.로코베리),https://www.melon.com/song/detail.htm?songId=3...,조째즈,모르시나요,2025.01.07,발라드,60103,찬바람 불어오니그대 생각에 눈물짓네인사 없이 떠나시던 날그리움만 남겨놓고그리워 글썽...
2,Drowning,https://www.melon.com/song/detail.htm?songId=3...,WOODZ,OO-LI,2023.04.26,록/메탈,170267,미치도록 사랑했던지겹도록 다투었던네가 먼저 떠나고여긴 온종일 비가 왔어금세 턱 끝까...


In [79]:
table_df.columns = ['title','url','singer','album','release_date','genre','likes','lyric']
table_df.head(2)

Unnamed: 0,title,url,singer,album,release_date,genre,likes,lyric
1,TOO BAD (feat. Anderson .Paak),https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,랩/힙합,126569,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
2,모르시나요(PROD.로코베리),https://www.melon.com/song/detail.htm?songId=3...,조째즈,모르시나요,2025.01.07,발라드,60103,찬바람 불어오니그대 생각에 눈물짓네인사 없이 떠나시던 날그리움만 남겨놓고그리워 글썽...


In [80]:
print(table_df.index)
print(list(table_df.index))

Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,  14,
        15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,  27,  28,
        29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,  40,  41,  42,
        43,  44,  45,  46,  47,  48,  49,  50,  51,  52,  53,  54,  55,  56,
        57,  58,  59,  60,  61,  62,  63,  64,  65,  66,  67,  68,  69,  70,
        71,  72,  73,  74,  75,  76,  77,  78,  79,  80,  81,  82,  83,  84,
        85,  86,  87,  88,  89,  90,  91,  92,  93,  94,  95,  96,  97,  98,
        99, 100],
      dtype='int32')
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100]


In [81]:
# index 값의 1 부터 시작하도록 설정
import numpy as np

# index 변경
table_df.index = np.arange(1, len(table_df)+1)
table_df.index

Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,  14,
        15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,  27,  28,
        29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,  40,  41,  42,
        43,  44,  45,  46,  47,  48,  49,  50,  51,  52,  53,  54,  55,  56,
        57,  58,  59,  60,  61,  62,  63,  64,  65,  66,  67,  68,  69,  70,
        71,  72,  73,  74,  75,  76,  77,  78,  79,  80,  81,  82,  83,  84,
        85,  86,  87,  88,  89,  90,  91,  92,  93,  94,  95,  96,  97,  98,
        99, 100],
      dtype='int32')

In [82]:
table_df.head(2)

Unnamed: 0,title,url,singer,album,release_date,genre,likes,lyric
1,TOO BAD (feat. Anderson .Paak),https://www.melon.com/song/detail.htm?songId=3...,G-DRAGON,Übermensch,2025.02.25,랩/힙합,126569,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
2,모르시나요(PROD.로코베리),https://www.melon.com/song/detail.htm?songId=3...,조째즈,모르시나요,2025.01.07,발라드,60103,찬바람 불어오니그대 생각에 눈물짓네인사 없이 떠나시던 날그리움만 남겨놓고그리워 글썽...


##### inplace 속성
* default는 False
* inplace = False는 df에 반영은 하지 않고, 처리한 결과를 출력
* inplace = True는 df에 반영을 하고, 처리한 결과를 출력하지 않음

In [83]:
# url 컬럼 삭제하기 axis=0 은 row, axis=1은 column
# url 컬럼(1)을 삭제
table_df.drop('url', axis=1, inplace=True)

In [84]:
table_df.columns

Index(['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric'], dtype='object')

#### DataFrame 객체 ==> Table 로 변환
* ['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric']
* table_df(DataFrame객체)를 songs100 테이블로 저장하기 to_sql() 함수 사용


In [85]:
import pymysql, sqlalchemy

pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

engine = None
conn = None
try:
    engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
    conn = engine.connect()    

    table_df.to_sql(name='songs100', con=engine, if_exists='replace', index=True,\
                    index_label='id',
                    dtype={
                        'id':sqlalchemy.types.INTEGER(),
                        'title':sqlalchemy.types.VARCHAR(200),
                        'singer':sqlalchemy.types.VARCHAR(200),
                        'album':sqlalchemy.types.VARCHAR(200),
                        'release_date':sqlalchemy.types.DATE,
                        'genre':sqlalchemy.types.VARCHAR(200),
                        'likes':sqlalchemy.types.BigInteger,
                        'lyric':sqlalchemy.types.VARCHAR(5000)
                    })
    print('songs100 테이블 생성됨')
finally:
    if conn is not None: 
        conn.close()
    if engine is not None:
        engine.dispose()

songs100 테이블 생성됨


#### SQL 쿼리 결과를 DataFrame 객체로 저장하는 함수선언하기
* read_sql_query() sql문을 실행한 결과를 DataFrame 객체로 반환해주는 함수

In [86]:
import pandas as pd
import pymysql
pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

def search_album(keyword):
    sql = """select * from songs100 where album like %s;"""
    
    engine = None
    conn = None
    try:
        engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
        conn = engine.connect()

        album_df = pd.read_sql_query(sql, con=conn, params=('%' + keyword + '%',))
        print(album_df.shape)
        return album_df
    finally:
        print('finally')
        if conn is not None: 
            conn.close()
        if engine is not None:
            engine.dispose()

In [87]:
search_album('OST')

(6, 8)
finally


Unnamed: 0,id,title,singer,album,release_date,genre,likes,lyric
0,19,소나기,이클립스 (ECLIPSE),선재 업고 튀어 OST Part 1,2024-04-08,"발라드, 국내드라마",177965,그치지 않기를 바랬죠처음 그대 내게로 오던 그날에잠시 동안 적시는그런 비가 아니길간...
1,21,사랑은 늘 도망가,임영웅,신사와 아가씨 OST Part.2,2021-10-11,"발라드, 국내드라마",225315,눈물이 난다 이 길을 걸으면그 사람 손길이 자꾸 생각이 난다붙잡지 못하고 가슴만 떨...
2,54,너의 모든 순간,성시경,별에서 온 그대 OST Part.7,2014-02-12,"발라드, 국내드라마",307609,이윽고 내가 한눈에너를 알아봤을 때모든 건 분명 달라지고 있었어내 세상은 널 알기 ...
3,55,사랑인가 봐,멜로망스,사랑인가 봐 (사내맞선 OST 스페셜 트랙),2022-02-18,"발라드, 국내드라마",222680,너와 함께 하고 싶은 일들을상상하는 게요즘 내 일상이 되고너의 즐거워하는 모습을 보...
4,64,"모든 날, 모든 순간 (Every day, Every Moment)",폴킴,'키스 먼저 할까요?' OST Part.3,2018-03-20,"발라드, 국내드라마",437058,네가 없이 웃을 수 있을까생각만 해도 눈물이나힘든 시간 날 지켜준 사람이제는 내가 ...
5,82,미안해 미워해 사랑해,Crush,눈물의 여왕 OST Part.4,2024-03-24,"발라드, 국내드라마",106795,It's the same day이렇게 너를다시 불러보는 잊고 있던 마음들과이제야 내...


In [88]:
table_df['album'].unique()

array(['Übermensch', '모르시나요', 'OO-LI', 'Ruby',
       'HOME SWEET HOME (feat. 태양, 대성)', '나는 반딧불', 'IVE EMPATHY',
       'Whiplash - The 5th Mini Album', '오늘만 I LOVE YOU', '교회오빠', 'APT.',
       'HOT', 'Fourever', 'rosie', '내게 사랑이 뭐냐고 물어본다면', 'PO￦ER',
       'UNCUT GEM', '선재 업고 튀어 OST Part 1', '신사와 아가씨 OST Part.2',
       'The Book of Us : Gravity', '미치게 그리워서',
       "천상연 (웹툰 '선녀외전' X 이창섭 (LEE CHANGSUB))", 'Caligo Pt.1',
       'Die With A Smile', 'Armageddon - The 1st Album',
       'Every DAY6 February', 'IM HERO', '만화 (滿花)', 'DRIP', '항해', '온기',
       '슬픈 초대장', '권지용', 'MY LOVE(2025)',
       '그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))', 'The Winning',
       '모래 알갱이', "2nd Mini Album 'Algorithm's Blossom'",
       'SYNK : PARALLEL LINE - Special Digital Single', 'The Chase',
       '내일은 미스터트롯 우승자 특전곡', '청혼하지 않을 이유를 못 찾았어',
       "1st Mini Album 'MANITO'",
       '이렇게 좋아해 본 적이 없어요 (소녀의 세계 X BOYNEXTDOOR)', '별에서 온 그대 OST Part.7',
       '사랑인가 봐 (사내맞선 OST 스페셜 트랙)', 'TWS 1st Mini Album 