### BeautifulSoup 
* select() 함수 사용
* melon 100 chart 데이터 파싱

In [10]:
import re
import requests
from bs4 import BeautifulSoup

url = 'https://www.melon.com/chart/index.htm'
headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
} # user-agent, referer 바꾸기

res = requests.get(url, headers=headers)
if res.ok:
    soup = BeautifulSoup(res.text, "html.parser")
    atag_list = soup.select("a[href*='playSong']")

    song_list = []
    for atag in atag_list:
        song_dict = {}
        song_dict['title'] = atag.text
        
        href = atag['href']
        matched = re.search(r'(\d+)\)', href)
        if matched:
            song_id = matched.group(1)
            song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
            
            song_dict['id'] = song_id
            song_dict['url'] = song_url

        song_list.append(song_dict)
    
    print(song_list)

[{'title': 'Supernova', 'id': '37524037', 'url': 'https://www.melon.com/song/detail.htm?songId=37524037'}, {'title': '클락션 (Klaxon)', 'id': '37737619', 'url': 'https://www.melon.com/song/detail.htm?songId=37737619'}, {'title': 'How Sweet', 'id': '37563682', 'url': 'https://www.melon.com/song/detail.htm?songId=37563682'}, {'title': 'Sticky', 'id': '37693124', 'url': 'https://www.melon.com/song/detail.htm?songId=37693124'}, {'title': 'Small girl (feat. 도경수(D.O.))', 'id': '37657039', 'url': 'https://www.melon.com/song/detail.htm?songId=37657039'}, {'title': 'Supernatural', 'id': '37659322', 'url': 'https://www.melon.com/song/detail.htm?songId=37659322'}, {'title': '소나기', 'id': '37390939', 'url': 'https://www.melon.com/song/detail.htm?songId=37390939'}, {'title': '고민중독', 'id': '37373234', 'url': 'https://www.melon.com/song/detail.htm?songId=37373234'}, {'title': '한 페이지가 될 수 있게', 'id': '31927275', 'url': 'https://www.melon.com/song/detail.htm?songId=31927275'}, {'title': 'Bubble Gum', 'id': 

### 100곡 노래 상세정보 추출하기

In [11]:
import re
import requests
from bs4 import BeautifulSoup

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

song_lyric_lists = [] # 노래100곡의 정보
print('100곡 파싱시작')  
for idx,song in enumerate(song_list,1):
    #Song 상세정보 저장할 dict
    song_lyric_dict = {}
    res = requests.get(song['url'], headers=headers)
    soup = BeautifulSoup(res.text,'html.parser')
    #곡명
    song_lyric_dict['곡명'] = song['title']
    print('=====', idx, song_lyric_dict['곡명'])
    
    #가수이름
    singer_span = soup.select_one('a[href*=".goArtistDetail"] span')
    song_lyric_dict['가수'] = singer_span.text
        
    #앨범,발매일,장르
    song_dd = soup.select('div.meta dd')
    if song_dd:
        song_lyric_dict['앨범'] = song_dd[0].text
        song_lyric_dict['발매일'] = song_dd[1].text
        song_lyric_dict['장르'] = song_dd[2].text
    
    #곡상세정보 url
    song_lyric_dict['url'] = song['url']
    '''
    {
      "contsLike": [
        {
          "CONTSID": 37524037,
          "LIKEYN": "N",
          "SUMMCNT": 149986
        }
      ],
    }
    '''
    #좋아요 건수
    song_id = song['id']
    ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'
    ajax_res = requests.get(ajax_url, headers=headers)
    if ajax_res.ok:
        song_lyric_dict['좋아요'] = ajax_res.json()['contsLike'][0]['SUMMCNT']
    
    lyric_div = soup.select_one('div#d_video_summary')
    if(lyric_div):
        lyric = lyric_div.text
    else:
        lyric = ''

    #\n\r\t 특수문자를 찾아주는 Pattern객체생성
    regex = re.compile(r'[\n\r\t]')
    #공백이 제거된 lyric(가사) \n\r\t 특수문자를 ''(empty string)으로 대체해라 
    song_lyric_dict['가사'] = regex.sub('', lyric.strip())
    
    #print(song_lyric_dict)
    song_lyric_lists.append(song_lyric_dict)

print('100곡 파싱종료')    
print(len(song_lyric_lists))    
#song_lyric_lists[98:]

100곡 파싱시작
===== 1 Supernova
===== 2 클락션 (Klaxon)
===== 3 How Sweet
===== 4 Sticky
===== 5 Small girl (feat. 도경수(D.O.))
===== 6 Supernatural
===== 7 소나기
===== 8 고민중독
===== 9 한 페이지가 될 수 있게
===== 10 Bubble Gum
===== 11 나는 아픈 건 딱 질색이니까
===== 12 Armageddon
===== 13 해야 (HEYA)
===== 14 Magnetic
===== 15 첫 만남은 계획대로 되지 않아
===== 16 Welcome to the Show
===== 17 SPOT! (feat. JENNIE)
===== 18 사랑은 늘 도망가
===== 19 예뻤어
===== 20 천상연
===== 21 온기
===== 22 우리들의 블루스
===== 23 Home
===== 24 모래 알갱이
===== 25 에피소드
===== 26 Boom Boom Bass
===== 27 다시 만날 수 있을까
===== 28 Hype Boy
===== 29 미안해 미워해 사랑해
===== 30 이제 나만 믿어요
===== 31 Do or Die
===== 32 무지개
===== 33 London Boy
===== 34 Polaroid
===== 35 슬픈 초대장
===== 36 Seven (feat. Latto) - Clean Ver.
===== 37 Love wins all
===== 38 내가 S면 넌 나의 N이 되어줘
===== 39 인생찬가
===== 40 비의 랩소디
===== 41 I AM
===== 42 연애편지
===== 43 그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))
===== 44 ETA
===== 45 WAY 4 LUV
===== 46 Attention
===== 47 오래된 노래
===== 48 Super Shy
===== 49 보금자리
===== 50 헤어지자 말해

#### song_lyric_lists를 DataFrame으로 저장하기

In [12]:
import pandas as pd

#컬럼명을 설정하면서 empty DataFrame 객체생성
song_list_df = pd.DataFrame(columns=['곡명','가수','앨범','발매일','장르','url','좋아요','가사'])
for song_lyric in song_lyric_lists: #[{},{}]
    df_new_row = pd.DataFrame.from_records([song_lyric])
    song_list_df = pd.concat([song_list_df, df_new_row])
    
song_list_df.head(3)

Unnamed: 0,곡명,가수,앨범,발매일,장르,url,좋아요,가사
0,Supernova,aespa,Armageddon - The 1st Album,2024.05.13,댄스,https://www.melon.com/song/detail.htm?songId=3...,149988,I’m like some kind of SupernovaWatch outLook a...
0,클락션 (Klaxon),(여자)아이들,I SWAY,2024.07.08,댄스,https://www.melon.com/song/detail.htm?songId=3...,35797,좀 미친 소리 같지만 난 네게 반했어(어어우워 어어우워)자꾸 눈으로 욕 하지마 더 ...
0,How Sweet,NewJeans,How Sweet,2024.05.24,댄스,https://www.melon.com/song/detail.htm?songId=3...,128941,All I know is now알게 됐어 나 (I know)그동안 맨날Always ...


#### song_lyric_lists를 Json 파일로 저장
* json 파일로 저장해야 DataFrame으로 저장하기 용이함

In [13]:
import json

with open('data/songs100.json','w',encoding='utf-8') as file:
    json.dump(song_lyric_lists, file) #[{곡명:퀸카},{}]

### Json File을 DataFrame (표데이터) 객체로 저장하기

In [15]:
import pandas as pd

song_df = pd.read_json('data/songs100.json')
print(song_df.shape)
song_df.head(3)

(100, 8)


Unnamed: 0,곡명,가수,앨범,발매일,장르,url,좋아요,가사
0,Supernova,aespa,Armageddon - The 1st Album,2024.05.13,댄스,https://www.melon.com/song/detail.htm?songId=3...,149988,I’m like some kind of SupernovaWatch outLook a...
1,클락션 (Klaxon),(여자)아이들,I SWAY,2024.07.08,댄스,https://www.melon.com/song/detail.htm?songId=3...,35797,좀 미친 소리 같지만 난 네게 반했어(어어우워 어어우워)자꾸 눈으로 욕 하지마 더 ...
2,How Sweet,NewJeans,How Sweet,2024.05.24,댄스,https://www.melon.com/song/detail.htm?songId=3...,128941,All I know is now알게 됐어 나 (I know)그동안 맨날Always ...


In [17]:
song_df.columns

Index(['곡명', '가수', '앨범', '발매일', '장르', 'url', '좋아요', '가사'], dtype='object')

In [18]:
song_df['가수'].value_counts().head(10)

가수
임영웅                   14
NewJeans              10
PLAVE                  5
RIIZE                  5
aespa                  4
IVE (아이브)              4
(여자)아이들                3
DAY6 (데이식스)            3
LE SSERAFIM (르세라핌)     2
AKMU (악뮤)              2
Name: count, dtype: int64

In [19]:
song_df['가수'].value_counts(normalize=True).head(10)

가수
임영웅                   0.14
NewJeans              0.10
PLAVE                 0.05
RIIZE                 0.05
aespa                 0.04
IVE (아이브)             0.04
(여자)아이들               0.03
DAY6 (데이식스)           0.03
LE SSERAFIM (르세라핌)    0.02
AKMU (악뮤)             0.02
Name: proportion, dtype: float64

In [20]:
song_df['장르'].value_counts(normalize=True).head(10)

장르
댄스            0.43
발라드           0.17
록/메탈          0.12
발라드, 국내드라마    0.09
랩/힙합          0.06
R&B/Soul      0.04
J-POP         0.02
성인가요/트로트      0.02
발라드, 인디음악     0.02
포크/블루스        0.01
Name: proportion, dtype: float64

In [21]:
song_df['장르'].value_counts(normalize=True).head(10)

장르
댄스            0.43
발라드           0.17
록/메탈          0.12
발라드, 국내드라마    0.09
랩/힙합          0.06
R&B/Soul      0.04
J-POP         0.02
성인가요/트로트      0.02
발라드, 인디음악     0.02
포크/블루스        0.01
Name: proportion, dtype: float64

In [22]:
song_df['가수'].value_counts().max()

14

In [29]:
song_df.loc[song_df['가수'] == '임영웅', ['곡명', '장르', '앨범', '발매일']].sort_values(by="발매일", ascending=False).reset_index(drop=True)

Unnamed: 0,곡명,장르,앨범,발매일
0,온기,발라드,온기,2024.05.06
1,Home,댄스,온기,2024.05.06
2,Do or Die,댄스,Do or Die,2023.10.09
3,모래 알갱이,발라드,모래 알갱이,2023.06.05
4,London Boy,록/메탈,Polaroid,2022.11.15
5,Polaroid,록/메탈,Polaroid,2022.11.15
6,우리들의 블루스,발라드,IM HERO,2022.05.02
7,다시 만날 수 있을까,발라드,IM HERO,2022.05.02
8,무지개,록/메탈,IM HERO,2022.05.02
9,인생찬가,발라드,IM HERO,2022.05.02


In [34]:
# 앨범명에 OST인 노래를 선택하기
print(type(song_df['앨범']))
print(type(song_df['앨범'].str))

song_df.loc[song_df['앨범'].str.contains('OST'), '곡명':'좋아요']

<class 'pandas.core.series.Series'>
<class 'pandas.core.strings.accessor.StringMethods'>


Unnamed: 0,곡명,가수,앨범,발매일,장르,url,좋아요
6,소나기,이클립스 (ECLIPSE),선재 업고 튀어 OST Part 1,2024.04.08,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,138191
17,사랑은 늘 도망가,임영웅,신사와 아가씨 OST Part.2,2021.10.11,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,217932
28,미안해 미워해 사랑해,Crush,눈물의 여왕 OST Part.4,2024.03.24,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,84544
56,너의 모든 순간,성시경,별에서 온 그대 OST Part.7,2014.02.12,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=4...,295954
58,사랑인가 봐,멜로망스,사랑인가 봐 (사내맞선 OST 스페셜 트랙),2022.02.18,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,213471
73,그랬나봐,유회승 (엔플라잉),선재 업고 튀어 OST Part 6,2024.05.06,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,30543
81,"모든 날, 모든 순간 (Every day, Every Moment)",폴킴,'키스 먼저 할까요?' OST Part.3,2018.03.20,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,432957
87,꿈,태연 (TAEYEON),웰컴투 삼달리 OST Part.3,2023.12.17,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,45877
92,봄눈,10CM,선재 업고 튀어 OST Part 8,2024.05.14,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,41570


In [35]:
like_max_val = song_df['좋아요'].max()
song_df.loc[song_df['좋아요'] == like_max_val]

Unnamed: 0,곡명,가수,앨범,발매일,장르,url,좋아요,가사
75,봄날,방탄소년단,YOU NEVER WALK ALONE,2017.02.13,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,524534,보고 싶다이렇게 말하니까 더 보고 싶다너희 사진을 보고 있어도보고 싶다너무 야속한 ...


### SqlAlchemy와 Pymysql을 사용하여 DataFrame을 RDB의 테이블로 저장하기

In [36]:
!pip show pymysql

Name: PyMySQL
Version: 1.1.1
Summary: Pure Python MySQL Driver
Home-page: 
Author: 
Author-email: Inada Naoki <songofacandy@gmail.com>, Yutaka Matsubara <yutaka.matsubara@gmail.com>
License: MIT License
Location: E:\Eunsol\Programs\comdo\anaconda3\Lib\site-packages
Requires: 
Required-by: 


### DataFrame을 Table로 저장하기

In [37]:
import pymysql
import sqlalchemy

pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

engine = None
conn = None
try:
    engine = create_engine('mysql+pymysql://python:python@localhost:3307/python_db?charset=utf8mb4')
    print(type(conn))
    conn = engine.connect()
    print(type(conn))

    song_df.to_sql(name='songs', con=engine, if_exists='replace', index=False)
finally:
    if conn is not None:
        conn.close()
    if engine is not None:
        engine.dispose()

<class 'NoneType'>
<class 'sqlalchemy.engine.base.Connection'>


### 복사한 DataFrame을 Table로 저장
* 컬럼명을 영문으로 변경
* 인덱스를 1부터 시작하도록 변경하고 DataFrame 객체의 인덱스가 테이블의 PK(primary key)가 되도록 설정
* 컬럼의 데이터 타입을 변경 (발매일을 DATE 타입으로 변경)

In [38]:
# 기존의 DataFrame의 복사본을 만들기 
table_df = song_df.copy()
table_df.head(3)

Unnamed: 0,곡명,가수,앨범,발매일,장르,url,좋아요,가사
0,Supernova,aespa,Armageddon - The 1st Album,2024.05.13,댄스,https://www.melon.com/song/detail.htm?songId=3...,149988,I’m like some kind of SupernovaWatch outLook a...
1,클락션 (Klaxon),(여자)아이들,I SWAY,2024.07.08,댄스,https://www.melon.com/song/detail.htm?songId=3...,35797,좀 미친 소리 같지만 난 네게 반했어(어어우워 어어우워)자꾸 눈으로 욕 하지마 더 ...
2,How Sweet,NewJeans,How Sweet,2024.05.24,댄스,https://www.melon.com/song/detail.htm?songId=3...,128941,All I know is now알게 됐어 나 (I know)그동안 맨날Always ...


In [39]:
table_df.columns = ['title','singer','album','release_date','genre','url','likes','lyric']
table_df.head(2)

Unnamed: 0,title,singer,album,release_date,genre,url,likes,lyric
0,Supernova,aespa,Armageddon - The 1st Album,2024.05.13,댄스,https://www.melon.com/song/detail.htm?songId=3...,149988,I’m like some kind of SupernovaWatch outLook a...
1,클락션 (Klaxon),(여자)아이들,I SWAY,2024.07.08,댄스,https://www.melon.com/song/detail.htm?songId=3...,35797,좀 미친 소리 같지만 난 네게 반했어(어어우워 어어우워)자꾸 눈으로 욕 하지마 더 ...


In [27]:
#index 값의 1 부터 시작하도록 설정


Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,  14,
        15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,  27,  28,
        29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,  40,  41,  42,
        43,  44,  45,  46,  47,  48,  49,  50,  51,  52,  53,  54,  55,  56,
        57,  58,  59,  60,  61,  62,  63,  64,  65,  66,  67,  68,  69,  70,
        71,  72,  73,  74,  75,  76,  77,  78,  79,  80,  81,  82,  83,  84,
        85,  86,  87,  88,  89,  90,  91,  92,  93,  94,  95,  96,  97,  98,
        99, 100],
      dtype='int32')

In [28]:
table_df.head(2)

Unnamed: 0,title,singer,album,release_date,genre,url,likes,lyric
1,Supernova,aespa,Armageddon - The 1st Album,2024.05.13,댄스,https://www.melon.com/song/detail.htm?songId=3...,144264,I’m like some kind of SupernovaWatch outLook a...
2,How Sweet,NewJeans,How Sweet,2024.05.24,댄스,https://www.melon.com/song/detail.htm?songId=3...,124033,All I know is now알게 됐어 나 (I know)그동안 맨날Always ...


In [29]:
# url 컬럼 삭제하기


In [30]:
table_df.columns

Index(['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric'], dtype='object')

#### DataFrame 객체 ==> Table 로 변환

In [40]:
import pymysql
import sqlalchemy

#pymysql과 sqlalchemy 연동
pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

engine = None
conn = None
try:
    # dialect+driver://username:password@host:port/database
    engine = create_engine('mysql+pymysql://python:python@localhost:3307/python_db?charset=utf8mb4')
    conn = engine.connect()
    
    #['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric']
    #table_df(DataFrame객체)를 songs100 테이블로 저장하기 to_sql() 함수 사용
    table_df.to_sql(name='songs100', con=engine, if_exists='replace', index=True,\
                    index_label='id',
                    dtype={
                        'id':sqlalchemy.types.INTEGER(),
                        'title':sqlalchemy.types.VARCHAR(200),
                        'singer':sqlalchemy.types.VARCHAR(200),
                        'album':sqlalchemy.types.VARCHAR(200),
                        'release_date':sqlalchemy.types.DATE,
                        'genre':sqlalchemy.types.VARCHAR(200),
                        'likes':sqlalchemy.types.BigInteger,
                        'lyric':sqlalchemy.types.VARCHAR(5000)
                    })
finally:
    if conn is not None: 
        conn.close()
    if engine is not None:
        engine.dispose()

#### SQL 쿼리 결과를 DataFrame 객체로 저장하는 함수선언하기

In [41]:
def search_album(keyword):
    sql = """select * from songs100 where album like %s;"""
    
    import pymysql
    import sqlalchemy

    #pymysql과 sqlalchemy 연동
    pymysql.install_as_MySQLdb()
    from sqlalchemy import create_engine
    
    engine = None
    conn = None
    try:
        # dialect+driver://username:password@host:port/database
        engine = create_engine('mysql+pymysql://python:python@localhost:3307/python_db?charset=utf8mb4')
        conn = engine.connect()
        
        album_df = pd.read_sql_query(sql, con=conn, params=('%' + keyword + '%',))
        print(album_df.shape)
        return album_df
    finally:
        print('finally')
        if conn is not None: 
            conn.close()
        if engine is not None:
            engine.dispose()

In [42]:
search_album('OST')

(9, 9)
finally


Unnamed: 0,id,title,singer,album,release_date,genre,url,likes,lyric
0,6,소나기,이클립스 (ECLIPSE),선재 업고 튀어 OST Part 1,2024-04-08,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,138191,그치지 않기를 바랬죠처음 그대 내게로 오던 그날에잠시 동안 적시는그런 비가 아니길간...
1,17,사랑은 늘 도망가,임영웅,신사와 아가씨 OST Part.2,2021-10-11,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,217932,눈물이 난다 이 길을 걸으면그 사람 손길이 자꾸 생각이 난다붙잡지 못하고 가슴만 떨...
2,28,미안해 미워해 사랑해,Crush,눈물의 여왕 OST Part.4,2024-03-24,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,84544,It's the same day이렇게 너를다시 불러보는 잊고 있던 마음들과이제야 내...
3,56,너의 모든 순간,성시경,별에서 온 그대 OST Part.7,2014-02-12,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=4...,295954,이윽고 내가 한눈에너를 알아봤을 때모든 건 분명 달라지고 있었어내 세상은 널 알기 ...
4,58,사랑인가 봐,멜로망스,사랑인가 봐 (사내맞선 OST 스페셜 트랙),2022-02-18,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,213471,너와 함께 하고 싶은 일들을상상하는 게요즘 내 일상이 되고너의 즐거워하는 모습을 보...
5,73,그랬나봐,유회승 (엔플라잉),선재 업고 튀어 OST Part 6,2024-05-06,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,30543,많은 친구 모인 밤 그 속에서 늘 있던 자리에니가 가끔 보이질 않을 때내가 좋아했던...
6,81,"모든 날, 모든 순간 (Every day, Every Moment)",폴킴,'키스 먼저 할까요?' OST Part.3,2018-03-20,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,432957,네가 없이 웃을 수 있을까생각만 해도 눈물이나힘든 시간 날 지켜준 사람이제는 내가 ...
7,87,꿈,태연 (TAEYEON),웰컴투 삼달리 OST Part.3,2023-12-17,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,45877,화려한 도시를그리며 찾아왔네그곳은 춥고도 험한 곳여기저기 헤매다초라한 문턱에서뜨거운...
8,92,봄눈,10CM,선재 업고 튀어 OST Part 8,2024-05-14,"발라드, 국내드라마",https://www.melon.com/song/detail.htm?songId=3...,41570,가려진 오랜 시간이우리를 다시 불러와어느 곳에 있어도그 끝은 항상 너인걸Cause ...
