### BeautifulSoup 
* select() 함수 사용
* melon 100 chart 데이터 파싱

In [11]:
import re
import requests
from bs4 import BeautifulSoup
from pprint import pprint

url = 'https://www.melon.com/chart/index.htm'

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
} #무조건 줘야해 안주면 안돼 사람 같이 보여야 하거든 
# header를 주지 않으면 406 에러코드가 나온다. 
# 뉴스 같은 경우는 가끔 되기도 하지만 멜론과 같은 경우는 프로그램으로 접속하는 것을 막기 위해 아예 막고있다.

# 노래 상세정보 song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'

res = requests.get(url, headers=headers)
if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser') # 소스 보기에서 가져온 텍스트를 넣는다.
    # print(len(soup.select("a[href*='playSong']"))) # 문자열이 포함된 a태그 찾기
    atag_list = soup.select("a[href*='playSong']")

    # [{}, {}]
    song_list = [] # 100곡의 song list
    for idx, a_tag in enumerate(atag_list, 1): # enumerate: 인덱스를 발생시키는 함수 , 1부터 숫자를 시작하고 싶다다
        # 1곡의 song 정보를 저장할 dict
        song_dict = {} 
        # print(f'순서 = {idx}')
        title = a_tag.text
        song_dict['title'] = title
        href = a_tag['href'] # 우리는 song 번호가 필요 함: 노래 정보 url 사용해야 하기 때문
        
        # 정규표현식을 사용한 문자열 찾기
        matched = re.search(r'(\d+)\)', href) # search(r'패턴', 찾는 대상 문자열)
        # print(matched)
        if matched:
            # print(matched.group(0), matched.group(1)) # group0 은 ) 까지 있는거
            song_id = matched.group(1)
        song_dict['id'] = song_id
        
        # 노래 상세정보
        song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
        song_dict['url'] = song_url
        
        song_list.append(song_dict)
    # song_list 확인
    pprint(len(song_list))
    pprint(song_list[:3])
else:
    print(f'error code = {res.statu_code}') 



100
[{'id': '38589554',
  'title': 'TOO BAD (feat. Anderson .Paak)',
  'url': 'https://www.melon.com/song/detail.htm?songId=38589554'},
 {'id': '38429074',
  'title': '모르시나요(PROD.로코베리)',
  'url': 'https://www.melon.com/song/detail.htm?songId=38429074'},
 {'id': '38629386',
  'title': 'like JENNIE',
  'url': 'https://www.melon.com/song/detail.htm?songId=38629386'}]


### 곡상세 정보 추출하기

In [20]:
import re
import requests
from bs4 import BeautifulSoup

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# Song 100곡의 상세정보 목록을을 저장할 list를 선언
song_lyric_list = list()
print('===> 100곡 노래 파싱 시작')

for idx, song in enumerate(song_list[:2], 1):
    print(idx)
    # Song 1곡의 상세정보를 저장할 dict 선언
    song_lyric_dict = dict()

    res = requests.get(song['url'], headers=headers)
    if res.ok:
        soup = BeautifulSoup(res.text, 'html.parser')
        song_lyric_dict['곡명'] = song['title']
        singer_span = soup.select_one("a[href*='goArtistDetail'] span")
        song_lyric_dict['가수'] = singer_span.text

        song_dd = soup.select('div.meta dd') # song_dd는 ResultSet타입, song_dd[0]는 Tag 타입 
        if song_dd: #있는지를 물어보고 하는 것이 안전
            song_lyric_dict['앨범'] = song_dd[0].text
            song_lyric_dict['발매일'] = song_dd[1].text
            song_lyric_dict['장르'] = song_dd[2].text

        # Song 상세정보 링크
        song_lyric_dict['detail_url'] = song['url']


        # 좋아요 건수
        song_id = song['id']
        ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'
        res = requests.get(ajax_url, headers=headers)
        if res.ok:
            song_lyric_dict['좋아요'] = res.json()['contsLike'][0]['SUMMCNT']
        
        # 노래 가사
        lyric_div = soup.select('div#d_video_summary')
        if lyric_div:
            lyric = lyric_div[0].text
        else:
            lyric = ''
        

        # \n\r\t 특수문자를 찾는 패턴 객체 생성
        pattern = re.compile(r'[\n\r\t]')
        
        song_lyric_dict['가사'] = pattern.sub('', lyric)

        song_lyric_list.append(song_lyric_dict)

    else:
        print(f'error code = {res.statu_code}')

print(len(song_lyric_list))
pprint(song_lyric_list[:2])

print('===> 100곡 노래 파싱 끝')
# 좋아요 건수 가져오기 ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'



===> 100곡 노래 파싱 시작
1
2
2
[{'detail_url': 'https://www.melon.com/song/detail.htm?songId=38589554',
  '가사': '‘G’, ‘A.P’“Let me kill ’em like I usually do, Man.” Check it How do '
        'you do?‘Tiki-Taka’ 난무 불이나 축이듯, 땀이 주르르르륵빛 쬐, Beautiful (That’s cool) '
        '살짝쿵 손만 잡고 짝짝꿍 볼 맞장구게슴츠르레, G’azm 오르게 Dang, Is she that good?! Baby '
        'Girl! Too bad for me There you go! Toot that! As for me?All I want! '
        'Is in arms’ reach Break me off! Passionately Baby Girl! Too bad for '
        'meThere you go! Toot that! As for me?All I want! Is in arms’ reach '
        'Break me off! Passionately 긴가민가 어딘가 아리까리해Flirting인가? Bluffing인가? U '
        'got me bad MBTI가 SEXY TYPE 하니 내 색시나 해GD be like that N.G M이 나이 Zett“I '
        'don’t think so.”Baby Girl! Too bad for me There you go! Toot that! As '
        'for me?All I want! Is in arms’ reach Break me off! Passionately Baby '
        'Girl! Too bad for me There you go! Toot that! As for me?All I want! '
        'Is in arms’ reachBreak 

#### song_lyric_lists를 DataFrame으로 저장하기

In [None]:
# json 없이 표 만들기
# [{'가수';'BTS','앨범':''},{}]
import pandas as pd

#컬럼명을 설정하면서 empty DataFrame 객체생성
song_list_df = pd.DataFrame(columns=['곡명','가수','앨범','발매일','장르','detail_url','좋아요','가사'])
print(song_list_df)
for song_lyric in song_lyric_list: #[ {},{},{} ]
    df_new_row = pd.DataFrame.from_records([song_lyric])
    song_list_df = pd.concat([song_list_df, df_new_row]) #concat으로 붙이는 것
    
song_list_df.tail(3)

Empty DataFrame
Columns: [곡명, 가수, 앨범, 발매일, 장르, url, 좋아요, 가사]
Index: []


#### song_lyric_lists를 Json 파일로 저장
* json 파일로 저장해야 DataFrame으로 저장하기 용이함

In [22]:
import json

with open('data/songs100.json','w',encoding='utf-8') as file:
    json.dump(song_lyric_list, file)

### Json File을 DataFrame (표데이터) 객체로 저장하기

In [72]:
import pandas as pd

song_df = pd.read_json('data/songs100.json')
print(type(song_df))
song_df.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,124465,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,모르시나요(PROD.로코베리),조째즈,모르시나요,2025.01.07,발라드,https://www.melon.com/song/detail.htm?songId=3...,58372,찬바람 불어오니그대 생각에 눈물짓네인사 없이 떠나시던 날그리움만 남겨놓고그리워 글썽...


In [26]:
# 가수 별 Row Counting
song_df['가수'].value_counts() # 겹치는 가수 숫자 

가수
G-DRAGON    1
조째즈         1
Name: count, dtype: int64

In [29]:
# 장르 별 Row Counting
song_df['장르'].value_counts()

장르
랩/힙합        1
발라드         1
G-DRAGON    1
Name: count, dtype: int64

In [None]:
song_df.loc[song_df['가수'] == 'G-DRAGON'] # 모든 칼럼 출력

In [34]:
# 특정 가수의 노래 정보 출력하기
song_df.loc[song_df['가수'] == 'G-DRAGON', ['곡명', '장르', '발매일']] #  특정 칼럼 가능

Unnamed: 0,곡명,장르,발매일
0,TOO BAD (feat. Anderson .Paak),랩/힙합,2025.02.25
가수,G-DRAGON,G-DRAGON,G-DRAGON


In [37]:
# 조건을 만족하는 특정 Row와 Slicing으로 선택된 칼럼이 출력된다.
song_df.loc[song_df['가수'] == 'G-DRAGON', '곡명': '장르'].reset_index(drop=True)

Unnamed: 0,곡명,가수,앨범,발매일,장르
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합
1,G-DRAGON,G-DRAGON,G-DRAGON,G-DRAGON,G-DRAGON


In [38]:
# unique 한 가수명을 리스트 형태로 출력하기
print(type(song_df['가수'].unique()))
song_df['가수'].unique()

<class 'numpy.ndarray'>


array(['G-DRAGON', '조째즈'], dtype=object)

In [60]:
#앨범이 OST 인 노래는?
print(type(song_df['앨범'].str))
# song_df['앨범'].sample(1) # sample() 아무거나 10개 가져오기
song_df['앨범'].str.contains('OST') #str 메소드를 통해 문자열을 다룰수 있게 된다.
# 시리즈 타입은 contains를 사용할 수 없다. 이 식은 조건식으로 boolean 타입을 반환한다.
song_df.loc[song_df['앨범'].str.contains('OST')]

<class 'pandas.core.strings.accessor.StringMethods'>


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사


In [67]:
# 좋아요 건수가 가장 많은 가수는?
# song_df['좋아요'].max()

song_df.loc[ song_df['좋아요'] == song_df['좋아요'].max()]

Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,124465,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."


In [74]:
# 좋아요 건수의 평균
mean_like_value = song_df['좋아요'].mean()
song_df.loc[song_df['좋아요'] >= mean_like_value]

Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,124465,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."


In [76]:
song_df.loc[song_df['좋아요'] >= mean_like_value, song_df.columns.drop(['detail_url', '가사'])]\
    .sort_values(by = '좋아요', ascending=False).reset_index(drop=True)

Unnamed: 0,곡명,가수,앨범,발매일,장르,좋아요
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,124465


In [77]:
print(song_df['발매일'].max())

song_df.loc[song_df['발매일'] == song_df['발매일'].max()]

2025.02.25


Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,124465,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."


### SqlAlchemy와 Pymysql을 사용하여 DataFrame을 RDB의 테이블로 저장하기

In [5]:
!pip show pymysql

Name: PyMySQL
Version: 1.1.1
Summary: Pure Python MySQL Driver
Home-page: 
Author: 
Author-email: Inada Naoki <songofacandy@gmail.com>, Yutaka Matsubara <yutaka.matsubara@gmail.com>
License: MIT License
Location: C:\Users\vega2\anaconda3\Lib\site-packages
Requires: 
Required-by: 


### DataFrame을 Table로 저장하기

<class 'sqlalchemy.engine.base.Engine'> Engine(mysql+pymysql://python:***@localhost:3306/python_db?charset=utf8mb4)
<class 'sqlalchemy.engine.base.Connection'> <sqlalchemy.engine.base.Connection object at 0x00000202BB891400>


### 복사한 DataFrame을 Table로 저장
* 컬럼명을 영문으로 변경
* 인덱스를 1부터 시작하도록 변경하고 DataFrame 객체의 인덱스가 테이블의 PK(primary key)가 되도록 설정
* 컬럼의 데이터 타입을 변경 (발매일을 DATE 타입으로 변경)

In [None]:
# 기존의 DataFrame의 복사본을 만들기 
# table_df = song_df.copy()
# table_df.head(3)

Unnamed: 0,곡명,가수,앨범,발매일,장르,url,좋아요,가사
0,"HOME SWEET HOME (feat. 태양, 대성)",G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024.11.22,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,179089,"You say, It’s changedShow must go on, Behave오랜..."
1,REBEL HEART,IVE (아이브),IVE EMPATHY,2025.01.13,댄스,https://www.melon.com/song/detail.htm?songId=3...,58009,시작은 항상 다 이룬 것처럼엔딩은 마치 승리한 것처럼겁내지 않고 마음을 쏟을래 내 ...
2,나는 반딧불,황가람,나는 반딧불,2024.10.21,발라드,https://www.melon.com/song/detail.htm?songId=3...,100574,나는 내가 빛나는 별인 줄 알았어요한 번도 의심한 적 없었죠몰랐어요 난 내가 벌레라...


In [None]:
# table_df.columns = ['title','singer','album','release_date','genre','url','likes','lyric']
# table_df.head(2)

Unnamed: 0,title,singer,album,release_date,genre,url,likes,lyric
0,"HOME SWEET HOME (feat. 태양, 대성)",G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024.11.22,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,179089,"You say, It’s changedShow must go on, Behave오랜..."
1,REBEL HEART,IVE (아이브),IVE EMPATHY,2025.01.13,댄스,https://www.melon.com/song/detail.htm?songId=3...,58009,시작은 항상 다 이룬 것처럼엔딩은 마치 승리한 것처럼겁내지 않고 마음을 쏟을래 내 ...


In [None]:
#index 값의 1 부터 시작하도록 설정
# import numpy as np

#index 변경
# table_df.index = np.arange(1, len(table_df)+1)
# table_df.index

Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,  14,
        15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,  27,  28,
        29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,  40,  41,  42,
        43,  44,  45,  46,  47,  48,  49,  50,  51,  52,  53,  54,  55,  56,
        57,  58,  59,  60,  61,  62,  63,  64,  65,  66,  67,  68,  69,  70,
        71,  72,  73,  74,  75,  76,  77,  78,  79,  80,  81,  82,  83,  84,
        85,  86,  87,  88,  89,  90,  91,  92,  93,  94,  95,  96,  97,  98,
        99, 100],
      dtype='int32')

In [None]:
# table_df.head(2)

Unnamed: 0,title,singer,album,release_date,genre,url,likes,lyric
1,"HOME SWEET HOME (feat. 태양, 대성)",G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024.11.22,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,179089,"You say, It’s changedShow must go on, Behave오랜..."
2,REBEL HEART,IVE (아이브),IVE EMPATHY,2025.01.13,댄스,https://www.melon.com/song/detail.htm?songId=3...,58009,시작은 항상 다 이룬 것처럼엔딩은 마치 승리한 것처럼겁내지 않고 마음을 쏟을래 내 ...


In [None]:
# url 컬럼 삭제하기 axis=1은 column, axis=0 은 Row
# table_df.drop('url', axis=1, inplace=True)

In [None]:
#table_df.columns

Index(['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric'], dtype='object')

#### DataFrame 객체 ==> Table 로 변환
* ['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric']
* table_df(DataFrame객체)를 songs100 테이블로 저장하기 to_sql() 함수 사용


In [None]:
# import pymysql
# import sqlalchemy

# pymysql.install_as_MySQLdb()
# from sqlalchemy import create_engine

# engine = None
# conn = None
# try:
    # engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
    # conn = engine.connect()    

#     table_df.to_sql(name='songs100', con=engine, if_exists='replace', index=True,\
#                     index_label='id',
#                     dtype={
#                         'id':sqlalchemy.types.INTEGER(),
#                         'title':sqlalchemy.types.VARCHAR(200),
#                         'singer':sqlalchemy.types.VARCHAR(200),
#                         'album':sqlalchemy.types.VARCHAR(200),
#                         'release_date':sqlalchemy.types.DATE,
#                         'genre':sqlalchemy.types.VARCHAR(200),
#                         'likes':sqlalchemy.types.BigInteger,
#                         'lyric':sqlalchemy.types.VARCHAR(5000)
#                     })
#     print('songs100 테이블 생성됨')
# finally:
#     if conn is not None: 
#         conn.close()
#     if engine is not None:
#         engine.dispose()

songs100 테이블 생성됨


#### SQL 쿼리 결과를 DataFrame 객체로 저장하는 함수선언하기
* read_sql_query() sql문을 실행한 결과를 DataFrame 객체로 반환해주는 함수

In [None]:
# def search_album(keyword):
#     sql = """select * from songs100 where album like %s;"""

#     import pandas as pd
#     import pymysql
#     import sqlalchemy

#     pymysql.install_as_MySQLdb()
#     from sqlalchemy import create_engine
    
#     engine = None
#     conn = None
#     try:
#         engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
#         conn = engine.connect()

#         album_df = pd.read_sql_query(sql, con=conn, params=('%' + keyword + '%',))
#         print(album_df.shape)
#         return album_df
#     finally:
#         print('finally')
#         if conn is not None: 
#             conn.close()
#         if engine is not None:
#             engine.dispose()

In [None]:
# search_album('OST')

(6, 8)
finally


Unnamed: 0,id,title,singer,album,release_date,genre,likes,lyric
0,19,소나기,이클립스 (ECLIPSE),선재 업고 튀어 OST Part 1,2024-04-08,"발라드, 국내드라마",172038,그치지 않기를 바랬죠처음 그대 내게로 오던 그날에잠시 동안 적시는그런 비가 아니길간...
1,21,사랑은 늘 도망가,임영웅,신사와 아가씨 OST Part.2,2021-10-11,"발라드, 국내드라마",223712,눈물이 난다 이 길을 걸으면그 사람 손길이 자꾸 생각이 난다붙잡지 못하고 가슴만 떨...
2,41,너의 모든 순간,성시경,별에서 온 그대 OST Part.7,2014-02-12,"발라드, 국내드라마",305502,이윽고 내가 한눈에너를 알아봤을 때모든 건 분명 달라지고 있었어내 세상은 널 알기 ...
3,59,미안해 미워해 사랑해,Crush,눈물의 여왕 OST Part.4,2024-03-24,"발라드, 국내드라마",103103,It's the same day이렇게 너를다시 불러보는 잊고 있던 마음들과이제야 내...
4,62,"모든 날, 모든 순간 (Every day, Every Moment)",폴킴,'키스 먼저 할까요?' OST Part.3,2018-03-20,"발라드, 국내드라마",436552,네가 없이 웃을 수 있을까생각만 해도 눈물이나힘든 시간 날 지켜준 사람이제는 내가 ...
5,80,사랑인가 봐,멜로망스,사랑인가 봐 (사내맞선 OST 스페셜 트랙),2022-02-18,"발라드, 국내드라마",219969,너와 함께 하고 싶은 일들을상상하는 게요즘 내 일상이 되고너의 즐거워하는 모습을 보...
