### BeautifulSoup 
* select() 함수 사용
* melon 100 chart 데이터 파싱

In [1]:
import re
import requests
from bs4 import BeautifulSoup
# pprint는 구조화 된 데이터(리스트, 딕셔너리 등)를 이쁘게 출력하려고 사용
# 대신 객체는 하나만 들어가야 함
from pprint import pprint 

url = 'https://www.melon.com/chart/index.htm'

headers = {
    # 얘는 안주면 안됨 꼭 줘야함!!!
    # f12 개발자 모드에서 Network 탭을 누르고 
    # 새로고침 후 맨 위의 파란색 Document를 누르고
    # Headers 택의 맨 밑에 User-Agent가 있음
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}
# headers를 넣는 이유: 사람이 접속했는지 봇이 접속했는지 구분하려고 함
# headers를 넣지 않으면 봇으로 인식되어 차단당하거나 빈 페이지를 받게 됨
res = requests.get(url, headers=headers)

if res.ok:
    # res.text는 위의 url의 html 문서를 들여쓰기 없이 한 줄로 뽑아냄
    # 그래서 사용하는 것이 BeautifulSoup
    # 원래는 res.text.find("<a href=") 처럼 아주 복잡하게 써야되는데
    # BeautifulSoup를 쓰면 select/select_one/find/find_all 등으로 간편하게 검색 가능
    soup = BeautifulSoup(res.text, 'html.parser') # res.text로 받은 html텍스트를 태그 단위로 파싱(정리)해서 저장
    # pprint(soup)
    pprint(len(soup.select("a[href*='playSong']"))) # 100이 뜸, 100개의 a태그 내 href 속성 중 'playSong'이 포함된 건 100개이다
    atag_list = soup.select("a[href*='playSong']") # a 태그이면서 href 속성에 'playSong'이 포함 된 태그들만 골라서 리스트 형태로 저장
    # 이 각각의 값들은 딕셔너리처럼 다룰 수 있음음
    # a_tag_list에는 이런 값들이 100개저장되어 있음
        # <a href="javascript:melon.play.playSong('1000002721',38589554);" 
        #    title="TOO BAD (feat. Anderson .Paak) 재생">
        # TOO BAD (feat. Anderson .Paak)
        # </a>
    print(f"len(atag_list): {len(atag_list)}")
    print(f"len(soup.select(\"a[href*='playSong'\")): {len(soup.select("a[href*='playSong']"))}")
    print()
    print(f"atag_list[0]: {atag_list[0]}")
    print()
    
    
    # [{}, {}] 
    song_list = [] # 100곡의 song을 저장하는 리스트
    for idx, atag in enumerate(atag_list, 1): # enumerate는 리스트 값을 뽑아주고 인덱스 값도 뽑아줌, 1은 인덱스 값에 1씩 더한다는 말
        # print(f"순서 = {idx} {atag}")
        # print(f"{atag}") #<a href="javascript:melon.play.playSong('1000002721',38589554);" title="TOO BAD (feat. Anderson .Paak) 재생">TOO BAD (feat. Anderson .Paak)</a>
        # print(f"순서 = {idx}") # 순서 = 1
        song_dict = {} # 1곡의 song 정보를 저장할 dict
        
        title = atag.text # song 제목  <a>song 제목</a> a태그 안의 텍스트를 title 변수에 저장
        # print(title)
        song_dict['title'] = title # song_dict의 키를 'title'로, 바로 위의 title을 값으로
        # print(song_dict)
        
        
        
        href = atag['href'] # song_id 추출 // BeautifulSoup는 딕셔너리 처럼 바로 속성 값을 꺼내올 수 있음  a 태그 안에 파라미터로 href와 title이 들어있으므로 가능함
        # print(href)
        
        
        # 정규표현식(regex) 패턴을 주고 대상되는 문자열 주기
        # re.search() 파라미터 설명:
            # r: 파이썬에서 특수문자처럼 해석되지 않게 함. 
            # 문자열 (\d+)\):
                # 첫 괄호 (): 캡쳐그룹. \d+ 같은 내가 추출해야 되는 것을 묶어줌. 나중에 .group(1)로 꺼내올 수 있음 
                # \d: 숫자 하나만 읽어오기
                # \d+: 숫자 여러 개 읽어오기
                # \): 닫는괄호. 문자 그대로 쓰려면 백슬래시 필요
            # href: 검색 대상 문자열열
        # 정리: 숫자들 + ')' 이 조합을 찾고, 그 중에서 숫자만 추출
        matched = re.search(r'(\d+)\)', href)   # 전체그룹은 ''안의 모든 값 group(0) 캡쳐그룹은 ()안의 값 group(1)
        # print(matched) # <re.Match object; span=(44, 53), match='38589554)'>

        if matched:
            # print(matched.group(0), matched.group(1)) # 38589554) 38589554
            song_id = matched.group(1) # group(0) 38589554) // group(1) 38589554
        song_dict['id'] = song_id # 키를'id'로, 값을 song_id로 넣음
        # 노래 상세정보 url
        song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
        song_dict['url'] = song_url # 키를 'url'로, 값을 song_url로 넣음음
        print(f"song_dict: {song_dict}") # 키로 title, id, url을 주고 값도 다 넣어준 형태로 나옴
        song_list.append(song_dict) # 1곡의 노래를 저장한 song_dict 딕셔너리를 song_list 리스트에 넣음
    # song_list 확인
    print("확인하기")
    print("len(song_list)과 song_list[:3]")
    # pprint(len(song_list), song_list[:3]) # 이렇게 두개의 객체를 넣는건 오류가 생겨서 밑처럼 하나씩 넣어야 됨
    pprint(len(song_list))
    pprint(song_list[:3])
else: 
    print(f'Error Code = {res.status_code}')



100
len(atag_list): 100
len(soup.select("a[href*='playSong'")): 100

atag_list[0]: <a href="javascript:melon.play.playSong('1000002721',38589554);" title="TOO BAD (feat. Anderson .Paak) 재생">TOO BAD (feat. Anderson .Paak)</a>

song_dict: {'title': 'TOO BAD (feat. Anderson .Paak)', 'id': '38589554', 'url': 'https://www.melon.com/song/detail.htm?songId=38589554'}
song_dict: {'title': 'like JENNIE', 'id': '38629386', 'url': 'https://www.melon.com/song/detail.htm?songId=38629386'}
song_dict: {'title': 'Drowning', 'id': '36397952', 'url': 'https://www.melon.com/song/detail.htm?songId=36397952'}
song_dict: {'title': '모르시나요(PROD.로코베리)', 'id': '38429074', 'url': 'https://www.melon.com/song/detail.htm?songId=38429074'}
song_dict: {'title': 'HOME SWEET HOME (feat. 태양, 대성)', 'id': '38242510', 'url': 'https://www.melon.com/song/detail.htm?songId=38242510'}
song_dict: {'title': '나는 반딧불', 'id': '38123338', 'url': 'https://www.melon.com/song/detail.htm?songId=38123338'}
song_dict: {'title': 'Whiplash'

### 곡상세 정보 추출하기

In [2]:
import re
import requests
from bs4 import BeautifulSoup

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# Song 100곡의 상세정보 목록을 저장할 list 선언
song_lyric_list = []
print('=====> 100곡 파싱 시작 <=====')
# 위의 코드에서 song_dict에 title, id, url을 키로 넣고 값도 넣어서 딕셔너리로 만든 뒤 song_list에 넣음
# 해당 키 값들은 각 곡의 제목인 title, 각 곡의 id, 각 곡의 상세 url
for idx, song in enumerate(song_list, 1):
    # 그래서 song에 song_list에 넣었던 song_dict가 들어감
    print(f"==> {idx} {song['title']} <==")
    
    # Song 1곡의 상세정보 목록을 저장할 dict 선언
    song_lyric_dict = dict()

    res = requests.get(song['url'], headers=headers)
    if res.ok:
        soup = BeautifulSoup(res.text, 'html.parser')
        song_lyric_dict['곡명'] = song['title'] # 노래 제목
        
        singer_span = soup.select_one("a[href*='goArtistDetail'] span") # a 태그의 href 속성 중 'goArtistDetail'이 포함된 것의 하위 span 태그 저장   <span>G-DRAGON</span>
        song_lyric_dict['가수'] = singer_span.text # span 태그 안 text 반환

        # song_dd는 ResultSet 타입, song_dd[0]는 Tag 타입임
        # Tag 타입은 하나의 태그이고 ResultSet 타입은 Tag 타입의 집합임 
        song_dd = soup.select("div.meta dd") 
        if song_dd: # 이렇게 안에 값이 있는지 없는지 물어봐야 안전함
            song_lyric_dict['앨범'] = song_dd[0].text
            song_lyric_dict['발매일'] = song_dd[1].text
            song_lyric_dict['장르'] = song_dd[2].text
        
        # Song 상세정보 링크
        song_lyric_dict['detail_url'] = song['url']
        
        # 좋아요 건수
        
        ### 보통 requests나 bs4.BeautifulSoup와 같은 크롤링 도구는 초기 HTML만 보고 파싱함
        ### 우리가 브라우저에서 보는 HTML 마크업 페이지는 초기 HTML과 JavaScript로 나중에 추가 된 내용이 합쳐져서 보이는 결과임
        
        ### 좋아요 수는 JavaScript로 동적으로 불러오는 데이터인 경우가 많음
        ### 초기 HTML에는 좋아요 수가 없음
        ### 대신에 JavaScript가 실행되면서 좋아요 수를 비동기 요청(Fetch/XHR)으로 불러옴 -> 그래서 Network 탭에만 존재
        
        ### 왜 이렇게 만드냐?
        ### 성능 최적화를 위해서
        ###     처음부터 모든걸 HTML에 넣으면 느려지니까 좋아요 같은건 필요할 때만 불러옴
        ### 실시간성
        ###     좋아요 수는 실시간으로 바뀌는 값이니까 JavaScript가 XHR로 서버에서 최신 값을 요청함
        ### 접근 제한
        ###     일부 사이트는 HTML에만 최소한의 정보를 주고 민감한건 JSON에서 인증된 사용자만 조회 가능하게 설계함
        
        ### 그래서 왜 Network → Fetch/XHR → Open in New Tab 하는지
        ###     네트워크 탭에서 찾은 XHR 요청은 실제로 브라우저가 API 서버에 요청 보낸 주소(JSON)임
        ###     그래서 우리가 그걸 보면 어떤 주소로/어떤 파라미터로/어떤 헤더로 요청해서
        ###     JSON 응답을 받았는지 확인 가능하고 그걸 우리 코드에서 requests.get()으로 재현하는 것임
        
        
        ### 제목, 본문, 이미지 등은 
        ###     초기 HTML에 포함된 정보라 파싱하는게 가능해서 JSON(XHR)이 필요 없음
        ### 좋아요 수, 댓글 수, 조회수 등은
        ###     초기 HTML에 포함되지 않은 정보라 JavaScript로 나중에 로드해야되서 JSON(XHR)이 필요하다
        
        ### Fetch가 뭔지 XHR이 뭔지
        ###     Fetch:  최신 방식의 네트워크 요청 방식
        ###     XHR:    오래 된 네트워크 요청 방식
        
        ###     Fetch/XHR 둘 다 API 요청을 보내는 방법이고 
        ###     Chrome에서는 'Fetch/XHR'이라는 이름으로 모든 비동기 요청을 모아 보여줌
        
        # Selenium 사용하면 이렇게 번거롭지 않지만 Selenium을 차단하는 사이트가 많고 느림
        song_id = song['id']
        ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'
        res = requests.get(ajax_url, headers=headers)
        if res.ok:
            # print(res.json()) # {'contsLike': [{'CONTSID': 38589554, 'LIKEYN': 'N', 'SUMMCNT': 124463}], 'httpDomain': 'http://www.melon.com', 'httpsDomain': 'https://www.melon.com', 'staticDomain': 'https://static.melon.co.kr'}
            # print(res.json()['contsLike']) # [{'CONTSID': 38589554, 'LIKEYN': 'N', 'SUMMCNT': 124465}]
            # print(res.json()['contsLike'][0]) # {'CONTSID': 38589554, 'LIKEYN': 'N', 'SUMMCNT': 124465}
            # print(res.json()['contsLike'][0]['SUMMCNT']) # 124465
            song_lyric_dict['좋아요'] = res.json()['contsLike'][0]['SUMMCNT']
            
            # 현재 song_lyric_dict에는 곡명, 가수, 앨범, 발매일, 장르, detail_url, 좋아요가 있음
            
        # 노래 가사 넣기
        # id가 'd_video_summary'인 div 태그 선택
        # → CSS 선택자에서 id는 '#'으로 표시하고 class는 '.'으로 표시함
        lyric_div = soup.select('div#d_video_summary')
        # print(lyric_div)
        if lyric_div: # 노래 가사는 거의 모든 노래에 있음
            lyric = lyric_div[0].text
        else: # 하지만 없는 경우도 있어서 예외를 넣음음
            lyric = '' # 빈 문자열 넣음
        # print(lyric) # /n, /r, /t을 포함한 가사 출력
        # song_lyric_dict['가사'] = lyric
            
        # lyric에는 특수문자가 있어서 정규표현식으로 없애야 됨
        # \n, \r, \t 특수문자를 찾는 Pattern 객체 생성
        pattern = re.compile(r'[\n\r\t]')
        # print(type(pattern)) # <class 're.Pattern'> 출력
        # print(pattern) # re.compile('[\n\r\t]')
        
        # song_lyric_dict['가사'] = pattern.sub('', lyric.split()) 이건 안됨
        # sub(대체문자열, 기존문자열)안의 인자는 바꿔줄 문자열과 기존 문자열을 넣어줘야 하는데 lyric.split()의 반환값은 리스트를 반환하기에 안됨
        ### sub()는 문자열만을 대상으로 동작
        song_lyric_dict['가사'] = pattern.sub('', lyric)
        
        song_lyric_list.append(song_lyric_dict)

        # print("------------------------------")
        # print("song_lyric_dict")
        # print(song_lyric_dict)
        # print("------------------------------")
    else: 
        print(f"Error Code: {res.status_code}")

print(len(song_lyric_list))
pprint(song_lyric_list)
print('=====> 100곡 파싱 끝 <=====')
# 좋아요 건수 가져오기 ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'



=====> 100곡 파싱 시작 <=====
==> 1 TOO BAD (feat. Anderson .Paak) <==
==> 2 like JENNIE <==
==> 3 Drowning <==
==> 4 모르시나요(PROD.로코베리) <==
==> 5 HOME SWEET HOME (feat. 태양, 대성) <==
==> 6 나는 반딧불 <==
==> 7 Whiplash <==
==> 8 REBEL HEART <==
==> 9 오늘만 I LOVE YOU <==
==> 10 천국보다 아름다운 <==
==> 11 사랑은 늘 도망가 <==
==> 12 HOT <==
==> 13 Flower <==
==> 14 우리들의 블루스 <==
==> 15 HAPPY <==
==> 16 APT. <==
==> 17 다시 만날 수 있을까 <==
==> 18 온기 <==
==> 19 toxic till the end <==
==> 20 ATTITUDE <==
==> 21 모래 알갱이 <==
==> 22 Home <==
==> 23 이제 나만 믿어요 <==
==> 24 내게 사랑이 뭐냐고 물어본다면 <==
==> 25 I DO ME <==
==> 26 PO￦ER <==
==> 27 무지개 <==
==> 28 London Boy <==
==> 29 Do or Die <==
==> 30 TAKE ME <==
==> 31 소나기 <==
==> 32 인생찬가 <==
==> 33 Dash <==
==> 34 미치게 그리워서 <==
==> 35 한 페이지가 될 수 있게 <==
==> 36 Welcome to the Show <==
==> 37 Die With A Smile <==
==> 38 천상연 <==
==> 39 Supernova <==
==> 40 DRIP <==
==> 41 청춘만화 <==
==> 42 예뻤어 <==
==> 43 어떻게 이별까지 사랑하겠어, 널 사랑하는 거지 <==
==> 44 RIZZ <==
==> 45 Island <==
==> 46 슬픈 초대장 <==
==> 47 C

#### song_lyric_lists를 DataFrame으로 저장하기
##### 시간 없어서 코드 복붙
###### json 파일을 만들지 않고 데이터 프레임을 만들 수 있음

In [3]:
song_lyric_list[0]

{'곡명': 'TOO BAD (feat. Anderson .Paak)',
 '가수': 'G-DRAGON',
 '앨범': 'Übermensch',
 '발매일': '2025.02.25',
 '장르': '랩/힙합',
 'detail_url': 'https://www.melon.com/song/detail.htm?songId=38589554',
 '좋아요': 127814,
 '가사': '‘G’, ‘A.P’“Let me kill ’em like I usually do, Man.” Check it How do you do?‘Tiki-Taka’ 난무 불이나 축이듯, 땀이 주르르르륵빛 쬐, Beautiful (That’s cool) 살짝쿵 손만 잡고 짝짝꿍 볼 맞장구게슴츠르레, G’azm 오르게 Dang, Is she that good?! Baby Girl! Too bad for me There you go! Toot that! As for me?All I want! Is in arms’ reach Break me off! Passionately Baby Girl! Too bad for meThere you go! Toot that! As for me?All I want! Is in arms’ reach Break me off! Passionately 긴가민가 어딘가 아리까리해Flirting인가? Bluffing인가? U got me bad MBTI가 SEXY TYPE 하니 내 색시나 해GD be like that N.G M이 나이 Zett“I don’t think so.”Baby Girl! Too bad for me There you go! Toot that! As for me?All I want! Is in arms’ reach Break me off! Passionately Baby Girl! Too bad for me There you go! Toot that! As for me?All I want! Is in arms’ reachBreak me off! Passio

In [4]:
# [{'가수';'BTS','앨범':''},{}]
import pandas as pd

#컬럼명을 설정하면서 empty DataFrame 객체생성
song_list_df = pd.DataFrame(columns=['곡명','가수','앨범','발매일','장르','detail_url','좋아요','가사'])

# print(song_list_df)
# 출력값
    # Empty DataFrame
    # Columns: [곡명, 가수, 앨범, 발매일, 장르, detail_url, 좋아요, 가사]
    # Index: []

for song_lyric in song_lyric_list: #[ {},{},{} ]
    df_new_row = pd.DataFrame.from_records([song_lyric])
    song_list_df = pd.concat([song_list_df, df_new_row])
    
song_list_df.head(3)
# song_list_df.tail(3)



Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,127814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
0,like JENNIE,제니 (JENNIE),Ruby,2025.03.07,댄스,https://www.melon.com/song/detail.htm?songId=3...,57821,"Come on, it’s gon be f hardSpecial edition and..."
0,Drowning,WOODZ,OO-LI,2023.04.26,록/메탈,https://www.melon.com/song/detail.htm?songId=3...,171653,미치도록 사랑했던지겹도록 다투었던네가 먼저 떠나고여긴 온종일 비가 왔어금세 턱 끝까...


#### song_lyric_list를 Json 파일로 저장
##### 이건 복사 붙여넣기함 그래도 중요
* json 파일로 저장해야 DataFrame으로 저장하기 용이함

In [None]:
import json
# data/songs100.json파일을 'utf-8'로 인코딩하고 쓰기 모드로 여는 함수
# 파일이 없다면 새로 생성
# 파일이 존재하면 다 지우고 다시 씀 
with open('data/songs100.json', 'w', encoding='utf-8') as file:
    # json.dump(): 파이썬 객체를 JSON 형식으로 변환해서 파일에 저장
    
    json.dump(song_lyric_list, file, ensure_ascii=False, indent=4)
    # ensure_ascii=False: 한글이 유니코드로 변환되지않게 저장
    # indent=4: 저장되는 JSON 파일에 들여쓰기 추가
# data/song100.json 파일을 json viewer 검색해서 보기

### Json File을 DataFrame (표데이터) 객체로 저장하기
#### pandas 사용

In [6]:
import pandas as pd

song_df = pd.read_json('data/songs100.json')

print(type(song_df))

song_df.head(3) # 기본적으로 5건의 데이터를 뿌려줌 # 지금은 3개

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,127814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,like JENNIE,제니 (JENNIE),Ruby,2025.03.07,댄스,https://www.melon.com/song/detail.htm?songId=3...,57821,"Come on, it’s gon be f hardSpecial edition and..."
2,Drowning,WOODZ,OO-LI,2023.04.26,록/메탈,https://www.melon.com/song/detail.htm?songId=3...,171653,미치도록 사랑했던지겹도록 다투었던네가 먼저 떠나고여긴 온종일 비가 왔어금세 턱 끝까...


In [7]:
song_df.tail(3) # 기본적으로 마지막 5곡을 뿌려줌

Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
97,해야 (HEYA),IVE (아이브),IVE SWITCH,2024.04.29,댄스,https://www.melon.com/song/detail.htm?songId=3...,90801,Let’s get itLook at itPay attention얼어붙은 맘 어디 깨...
98,Igloo,KISS OF LIFE,Lose Yourself,2024.10.15,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,43256,"Imma back up every wordMini skirt, pretty pink..."
99,number one girl,로제 (ROSÉ),number one girl,2024.11.22,발라드,https://www.melon.com/song/detail.htm?songId=3...,55424,Tell me that I’m specialTell me I look prettyT...


In [8]:
# 가수 별 Row(컬럼) Counting
print(type(song_df['가수'])) # <class 'pandas.core.series.Series'>
# 한 줄은 pandas.core.series.Series임
# 두 줄 이상부터는 데이터 프레임

song_df['가수'].value_counts().head() # 가수 컬럼별로 묶어 높은거부터 낮은거까지 순서대로 가수와 해당 가수가 같은게 몇개인지 출력

<class 'pandas.core.series.Series'>


가수
임영웅            13
G-DRAGON        6
DAY6 (데이식스)     5
PLAVE           5
aespa           4
Name: count, dtype: int64

In [9]:
# 장르 별 Row Counting
song_df['장르'].value_counts()

장르
댄스            32
발라드           28
록/메탈          15
랩/힙합           7
발라드, 국내드라마     6
발라드, 인디음악      4
R&B/Soul       3
성인가요/트로트       2
POP            1
인디음악, 록/메탈     1
J-POP          1
Name: count, dtype: int64

In [10]:
# 특정 가수의 노래 정보 출력하기
# 조건을 만족하는 특정 Row와 모든 컬럼이 출력됨
song_df.loc[song_df['가수'] == 'G-DRAGON']

Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,127814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
4,"HOME SWEET HOME (feat. 태양, 대성)",G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024.11.22,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,207106,"You say, It’s changedShow must go on, Behave오랜..."
25,PO￦ER,G-DRAGON,PO￦ER,2024.10.31,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,155777,When G.D’s in the house (Übermensch)When G.D’s...
29,TAKE ME,G-DRAGON,Übermensch,2025.02.25,댄스,https://www.melon.com/song/detail.htm?songId=3...,53082,M.B.T.M.I.U (My Baby Take Me I’m Yours)M.B.T.M...
48,"무제(無題) (Untitled, 2014)",G-DRAGON,권지용,2017.06.08,R&B/Soul,https://www.melon.com/song/detail.htm?songId=3...,312731,나에게 돌아오기가 어렵고 힘든 걸 알아이제 더는 상처받기가 두렵고 싫은 걸 알아네가...
94,DRAMA,G-DRAGON,Übermensch,2025.02.25,발라드,https://www.melon.com/song/detail.htm?songId=3...,36375,When every scene’s rolling in goodWhy you acti...


In [11]:
# 특정 가수의 노래 정보 출력하기

# 한 컬럼의 데이터 값은 Series
# 두 개 이상의 컬럼은 DataFrame
# 조건을 만족하는 특정 Row와 특정 컬럼이 출력됨 
# song_df.loc[song_df['가수'] == 'G-DRAGON', '곡명'] # 시리즈 객체라 텍스트로 출력
song_df.loc[song_df['가수'] == 'G-DRAGON', ['곡명', '장르']] # 데이터프레임 객체라 표로 출력

Unnamed: 0,곡명,장르
0,TOO BAD (feat. Anderson .Paak),랩/힙합
4,"HOME SWEET HOME (feat. 태양, 대성)",랩/힙합
25,PO￦ER,랩/힙합
29,TAKE ME,댄스
48,"무제(無題) (Untitled, 2014)",R&B/Soul
94,DRAMA,발라드


In [12]:
# 조건을 만족하는 특정 Row와 Slicing으로 선택 된 특정 구간의 컬럼이 출력됨

# 이거는 곡명부터 장르까지 출력됨
# song_df.loc[song_df['가수'] == 'G-DRAGON', '곡명':'장르']

# drop=True를 넣지 않으면 기존 인덱스 및 새로운 인덱스 같이 출력됨됨
# song_df.loc[song_df['가수'] == 'G-DRAGON', '곡명':'장르'].reset_index()

# 기존 index 컬럼 삭제하고 새 index 컬럼 추가 
song_df.loc[song_df['가수'] == 'G-DRAGON', '곡명':'장르'].reset_index(drop=True)


Unnamed: 0,곡명,가수,앨범,발매일,장르
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합
1,"HOME SWEET HOME (feat. 태양, 대성)",G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024.11.22,랩/힙합
2,PO￦ER,G-DRAGON,PO￦ER,2024.10.31,랩/힙합
3,TAKE ME,G-DRAGON,Übermensch,2025.02.25,댄스
4,"무제(無題) (Untitled, 2014)",G-DRAGON,권지용,2017.06.08,R&B/Soul
5,DRAMA,G-DRAGON,Übermensch,2025.02.25,발라드


In [13]:
# unique 한 가수명을 리스트 형태로 출력하기
print(type(song_df['가수'].unique())) # <class 'numpy.ndarray'>

print(len(song_df['가수'].unique())) # 56

song_df['가수'].unique()


<class 'numpy.ndarray'>
54


array(['G-DRAGON', '제니 (JENNIE)', 'WOODZ', '조째즈', '황가람', 'aespa',
       'IVE (아이브)', 'BOYNEXTDOOR', '임영웅', 'LE SSERAFIM (르세라핌)',
       '오반(OVAN)', 'DAY6 (데이식스)', '로제 (ROSÉ)', '로이킴', 'KiiiKiii (키키)',
       '이클립스 (ECLIPSE)', 'PLAVE', 'Lady Gaga', '이창섭', 'BABYMONSTER',
       '이무진', 'AKMU (악뮤)', '순순희(지환)', 'NCT WISH', '이예은', '아이유',
       'Hearts2Hearts (하츠투하츠)', '너드커넥션 (Nerd Connection)', 'QWER',
       '우디 (Woody)', '성시경', '멜로망스', 'TWS (투어스)', '아일릿(ILLIT)', '잔나비',
       '방탄소년단', 'NewJeans', '임재현', '정국', '프로미스나인', '폴킴', '경서예지',
       '(여자)아이들', '10CM', '박재정', 'j-hope', '이영지', '범진', '재쓰비 (JAESSBEE)',
       'Crush', '송필근', '김민석', 'KISS OF LIFE', '순순희'], dtype=object)

In [14]:
#앨범이 OST 인 노래는?

# song_df['앨범'].sample(10) # 아무거나 하나 선택해서 출력 지금은 10개

# 문자열 함수를 사용하기 위해 사용
print(type(song_df['앨범'].str)) # <class 'pandas.core.strings.accessor.StringMethods'>

# 시리즈 객체라 .contains()를 사용못해서 .str 객체로 변환하기
# song_df['앨범'].str # <pandas.core.strings.accessor.StringMethods at 0x18cbae7d970>
# song_df['앨범'].str.contains('OST') # 조건식

# song_df['앨범'].str.contains('OST'): song_df 데이터프레임에서 '앨범'에 'OST'가 포함된 값은 True를 반환하고 아니면 False 반환
song_df.loc[song_df['앨범'].str.contains('OST')]

<class 'pandas.core.strings.accessor.StringMethods'>


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
10,사랑은 늘 도망가,임영웅,신사와 아가씨 OST Part.2,2021.10.11,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,225629,눈물이 난다 이 길을 걸으면그 사람 손길이 자꾸 생각이 난다붙잡지 못하고 가슴만 떨...
30,소나기,이클립스 (ECLIPSE),선재 업고 튀어 OST Part 1,2024.04.08,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,178129,그치지 않기를 바랬죠처음 그대 내게로 오던 그날에잠시 동안 적시는그런 비가 아니길간...
60,너의 모든 순간,성시경,별에서 온 그대 OST Part.7,2014.02.12,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=4...,307669,이윽고 내가 한눈에너를 알아봤을 때모든 건 분명 달라지고 있었어내 세상은 널 알기 ...
62,사랑인가 봐,멜로망스,사랑인가 봐 (사내맞선 OST 스페셜 트랙),2022.02.18,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,222778,너와 함께 하고 싶은 일들을상상하는 게요즘 내 일상이 되고너의 즐거워하는 모습을 보...
71,"모든 날, 모든 순간 (Every day, Every Moment)",폴킴,'키스 먼저 할까요?' OST Part.3,2018.03.20,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,437092,네가 없이 웃을 수 있을까생각만 해도 눈물이나힘든 시간 날 지켜준 사람이제는 내가 ...
85,미안해 미워해 사랑해,Crush,눈물의 여왕 OST Part.4,2024.03.24,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,106883,It's the same day이렇게 너를다시 불러보는 잊고 있던 마음들과이제야 내...


In [15]:
# 좋아요 건수가 가장 많은 가수는?
# .max() 활용

song_df.loc[song_df['좋아요'] == song_df['좋아요'].max()]


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
66,봄날,방탄소년단,YOU NEVER WALK ALONE,2017.02.13,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,517113,보고 싶다이렇게 말하니까 더 보고 싶다너희 사진을 보고 있어도보고 싶다너무 야속한 ...


In [16]:
# 좋아요 건수 평균: .mean() 사용
# 빼고싶은 컬럼: song_df.columns.drop(['detail_url', '가사'])
# 너무 길어서 밑줄로 옮기려면: /
# 좋아요 건수 정렬: .sort_values(by='좋아요', ascending=False) 사용
# 인덱스 리셋: .reset_index(drop=True)

mean_like_value = song_df['좋아요'].mean()

song_df.loc[song_df['좋아요'] >= mean_like_value,
    song_df.columns.drop(['detail_url', '가사'])].\
        sort_values(by='좋아요', ascending=False).\
            reset_index(drop=True)


Unnamed: 0,곡명,가수,앨범,발매일,장르,좋아요
0,봄날,방탄소년단,YOU NEVER WALK ALONE,2017.02.13,랩/힙합,517113
1,"어떻게 이별까지 사랑하겠어, 널 사랑하는 거지",AKMU (악뮤),항해,2019.09.25,발라드,482003
2,주저하는 연인들을 위해,잔나비,전설,2019.03.13,"인디음악, 록/메탈",439139
3,"모든 날, 모든 순간 (Every day, Every Moment)",폴킴,'키스 먼저 할까요?' OST Part.3,2018.03.20,"발라드, 국내드라마",437092
4,예뻤어,DAY6 (데이식스),Every DAY6 February,2017.02.06,록/메탈,366744
5,한 페이지가 될 수 있게,DAY6 (데이식스),The Book of Us : Gravity,2019.07.15,록/메탈,349025
6,"무제(無題) (Untitled, 2014)",G-DRAGON,권지용,2017.06.08,R&B/Soul,312731
7,Hype Boy,NewJeans,NewJeans 1st EP 'New Jeans',2022.08.01,댄스,308823
8,너의 모든 순간,성시경,별에서 온 그대 OST Part.7,2014.02.12,"발라드, 국내드라마",307669
9,Ditto,NewJeans,NewJeans 'OMG',2022.12.19,댄스,303845


In [17]:
# 발매일 기준 (가장 빠른 발매일일)
print('가장 빠른 발매일')
print(song_df['발매일'].min())
song_df.loc[song_df['발매일']==song_df['발매일'].min()]

가장 빠른 발매일
2014.02.12


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
60,너의 모든 순간,성시경,별에서 온 그대 OST Part.7,2014.02.12,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=4...,307669,이윽고 내가 한눈에너를 알아봤을 때모든 건 분명 달라지고 있었어내 세상은 널 알기 ...


In [18]:
# 발매일 기준(가장 늦은 발매일)
print('가장 늦은 발매일')
print(song_df['발매일'].max())
song_df.loc[song_df['발매일']==song_df['발매일'].max()]

가장 늦은 발매일
2025.04.14


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
9,천국보다 아름다운,임영웅,천국보다 아름다운,2025.04.14,발라드,https://www.melon.com/song/detail.htm?songId=3...,23186,흐릿한 기억 속에 남아 있는 건 따뜻한 찰나의 우리차가운 새벽에도 피어나는 꽃처럼영...
49,poppop,NCT WISH,poppop - The 2nd Mini Album,2025.04.14,댄스,https://www.melon.com/song/detail.htm?songId=3...,16881,pop pop pop pop pop pop pop오늘만 여는 캔디 스토어한 사람만 ...
74,Melt Inside My Pocket,NCT WISH,poppop - The 2nd Mini Album,2025.04.14,댄스,https://www.melon.com/song/detail.htm?songId=3...,13248,Yay yeah Yay yeah고장 났어 또둘이 같이 있는 지금도I’m losing...
90,1000,NCT WISH,poppop - The 2nd Mini Album,2025.04.14,댄스,https://www.melon.com/song/detail.htm?songId=3...,11992,너를 위해천 마리의 학을 접어유리병에 넣어수줍게 네게 건네Maybe 이런 내 마음이...


---

# 25.04.11

### SqlAlchemy와 Pymysql을 사용하여 DataFrame을 RDB의 테이블로 저장하기

In [19]:
!pip show pymysql

Name: PyMySQL
Version: 1.1.1
Summary: Pure Python MySQL Driver
Home-page: 
Author: 
Author-email: Inada Naoki <songofacandy@gmail.com>, Yutaka Matsubara <yutaka.matsubara@gmail.com>
License: MIT License
Location: C:\Users\user\anaconda3\Lib\site-packages
Requires: 
Required-by: 


### DataFrame을 Table로 저장하기

In [20]:
import pymysql

#pymysql과 sqlalchemy 연동
pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

engine = None
conn = None
try:
    # dialect+driver://username:password@host:port/database
    engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')#, encoding='utf-8')
    print('engine', engine)
    print(type(engine), engine)
    conn = engine.connect()
    print(type(conn), conn)
    
    #song_df(DataFrame객체)를 songs 테이블로 저장하기 to_sql() 함수 사용
    song_df.to_sql(name='songs', con=engine, if_exists='replace', index=False)
finally:
    if conn is not None: 
        conn.close()
    if engine is not None:
        engine.dispose()

engine Engine(mysql+pymysql://python:***@localhost:3306/python_db?charset=utf8mb4)
<class 'sqlalchemy.engine.base.Engine'> Engine(mysql+pymysql://python:***@localhost:3306/python_db?charset=utf8mb4)
<class 'sqlalchemy.engine.base.Connection'> <sqlalchemy.engine.base.Connection object at 0x0000023A4D33FAD0>


### 복사한 DataFrame을 Table로 저장
* 컬럼명을 영문으로 변경
* 인덱스를 1부터 시작하도록 변경하고 DataFrame 객체의 인덱스가 테이블의 PK(primary key)가 되도록 설정
* 컬럼의 데이터 타입을 변경 (발매일을 DATE 타입으로 변경)

In [21]:
# 기존의 DataFrame의 복사본을 만들기 
# table_df = song_df (x) 같은 주소를 이므로 복사본을 수정하더라고 원본이 변경이 된다.
table_df = song_df.copy()
table_df.head(3)

Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,127814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,like JENNIE,제니 (JENNIE),Ruby,2025.03.07,댄스,https://www.melon.com/song/detail.htm?songId=3...,57821,"Come on, it’s gon be f hardSpecial edition and..."
2,Drowning,WOODZ,OO-LI,2023.04.26,록/메탈,https://www.melon.com/song/detail.htm?songId=3...,171653,미치도록 사랑했던지겹도록 다투었던네가 먼저 떠나고여긴 온종일 비가 왔어금세 턱 끝까...


In [22]:
table_df.columns = ['title','singer','album','release_date','genre','url','likes','lyric']
table_df.head(2)

Unnamed: 0,title,singer,album,release_date,genre,url,likes,lyric
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,127814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,like JENNIE,제니 (JENNIE),Ruby,2025.03.07,댄스,https://www.melon.com/song/detail.htm?songId=3...,57821,"Come on, it’s gon be f hardSpecial edition and..."


In [23]:
print(table_df.index)

RangeIndex(start=0, stop=100, step=1)


In [24]:
#index 값의 1 부터 시작하도록 설정
import numpy as np

#index 변경
table_df.index = np.arange(1, len(table_df)+1)
table_df.index

Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,  14,
        15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,  27,  28,
        29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,  40,  41,  42,
        43,  44,  45,  46,  47,  48,  49,  50,  51,  52,  53,  54,  55,  56,
        57,  58,  59,  60,  61,  62,  63,  64,  65,  66,  67,  68,  69,  70,
        71,  72,  73,  74,  75,  76,  77,  78,  79,  80,  81,  82,  83,  84,
        85,  86,  87,  88,  89,  90,  91,  92,  93,  94,  95,  96,  97,  98,
        99, 100],
      dtype='int32')

In [25]:
table_df.head(2)

Unnamed: 0,title,singer,album,release_date,genre,url,likes,lyric
1,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,127814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
2,like JENNIE,제니 (JENNIE),Ruby,2025.03.07,댄스,https://www.melon.com/song/detail.htm?songId=3...,57821,"Come on, it’s gon be f hardSpecial edition and..."


In [26]:
# url 컬럼 삭제하기 axis=1은 column, axis=0 은 Row
# url 컬럼 삭제
table_df.drop('url', axis=1,inplace=True)

In [27]:
table_df.columns

Index(['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric'], dtype='object')

#### DataFrame 객체 ==> Table 로 변환
* ['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric']
* table_df(DataFrame객체)를 songs100 테이블로 저장하기 to_sql() 함수 사용


In [28]:
import pymysql
import sqlalchemy

pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

engine = None
conn = None
try:
    engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
    conn = engine.connect()    

    table_df.to_sql(name='songs100', con=engine, if_exists='replace', index=True,\
                    index_label='id',
                    dtype={
                        'id':sqlalchemy.types.INTEGER(),
                        'title':sqlalchemy.types.VARCHAR(200),
                        'singer':sqlalchemy.types.VARCHAR(200),
                        'album':sqlalchemy.types.VARCHAR(200),
                        'release_date':sqlalchemy.types.DATE,
                        'genre':sqlalchemy.types.VARCHAR(200),
                        'likes':sqlalchemy.types.BigInteger,
                        'lyric':sqlalchemy.types.VARCHAR(5000)
                    })
    print('songs100 테이블 생성됨')
finally:
    if conn is not None: 
        conn.close()
    if engine is not None:
        engine.dispose()


songs100 테이블 생성됨


#### SQL 쿼리 결과를 DataFrame 객체로 저장하는 함수선언하기
* read_sql_query() sql문을 실행한 결과를 DataFrame 객체로 반환해주는 함수

In [29]:
import pandas as pd
import pymysql
pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

def search_album(keyword):
    sql = """select * from songs100 where album like %s;"""    
    engine = None
    conn = None
    try:
        engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
        conn = engine.connect()

        album_df = pd.read_sql_query(sql, con=conn, params=('%' + keyword + '%',))
        print(album_df.shape)
        return album_df
    finally:
        print('finally')
        if conn is not None: 
            conn.close()
        if engine is not None:
            engine.dispose()


In [30]:
search_album('H')

(26, 8)
finally


Unnamed: 0,id,title,singer,album,release_date,genre,likes,lyric
0,1,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025-02-25,랩/힙합,127814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,5,"HOME SWEET HOME (feat. 태양, 대성)",G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024-11-22,랩/힙합,207106,"You say, It’s changedShow must go on, Behave오랜..."
2,7,Whiplash,aespa,Whiplash - The 5th Mini Album,2024-10-21,댄스,129127,One look give ‘em WhiplashBeat drop with a big...
3,8,REBEL HEART,IVE (아이브),IVE EMPATHY,2025-01-13,댄스,93593,시작은 항상 다 이룬 것처럼엔딩은 마치 승리한 것처럼겁내지 않고 마음을 쏟을래 내 ...
4,12,HOT,LE SSERAFIM (르세라핌),HOT,2025-03-14,댄스,27025,위태로운 드라이브 바꿔 넣어 gear 불타는 노을너와 내 tears soDon’t ...
5,14,우리들의 블루스,임영웅,IM HERO,2022-05-02,발라드,115027,잊지는 말아요 함께 했던 날들눈물이 날 때면그대 뒤를 돌아보면 돼요아프지 말아요 쓸...
6,17,다시 만날 수 있을까,임영웅,IM HERO,2022-05-02,발라드,92478,너를 위해 해 줄 것이 하나 없어서보낼 수밖에 없었고네가 없이 사는 법을 알지 못해...
7,20,ATTITUDE,IVE (아이브),IVE EMPATHY,2025-02-03,댄스,52459,내 감정선은 어딘가 좀 다르게 흘러남들과는 다른 곳에 포커스를 걸어Dress up ...
8,27,무지개,임영웅,IM HERO,2022-05-02,록/메탈,82463,오늘 하루 어땠었나요많이 힘들었나요쉬지 않고 달려왔던 길에서나와 함께 쉬어가요그냥 ...
9,30,TAKE ME,G-DRAGON,Übermensch,2025-02-25,댄스,53082,M.B.T.M.I.U (My Baby Take Me I’m Yours)M.B.T.M...


In [31]:
table_df['album'].unique()

array(['Übermensch', 'Ruby', 'OO-LI', '모르시나요',
       'HOME SWEET HOME (feat. 태양, 대성)', '나는 반딧불',
       'Whiplash - The 5th Mini Album', 'IVE EMPATHY', '오늘만 I LOVE YOU',
       '천국보다 아름다운', '신사와 아가씨 OST Part.2', 'HOT', '교회오빠', 'IM HERO',
       'Fourever', 'APT.', '온기', 'rosie', '모래 알갱이', '내일은 미스터트롯 우승자 특전곡',
       '내게 사랑이 뭐냐고 물어본다면', 'UNCUT GEM', 'PO￦ER', 'Polaroid', 'Do or Die',
       '선재 업고 튀어 OST Part 1', 'Caligo Pt.1', '미치게 그리워서',
       'The Book of Us : Gravity', 'Die With A Smile',
       "천상연 (웹툰 '선녀외전' X 이창섭 (LEE CHANGSUB))",
       'Armageddon - The 1st Album', 'DRIP', '만화 (滿花)',
       'Every DAY6 February', '항해', '슬픈 초대장', '권지용',
       'poppop - The 2nd Mini Album', 'MY LOVE(2025)',
       'SYNK : PARALLEL LINE - Special Digital Single', 'The Winning',
       'The Chase', '그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))',
       "2nd Mini Album 'Algorithm's Blossom'", '어제보다 슬픈 오늘',
       '청혼하지 않을 이유를 못 찾았어', '이렇게 좋아해 본 적이 없어요 (소녀의 세계 X BOYNEXTDOOR)',
       '별에서 온 그대 OST P