### BeautifulSoup 
* select() 함수 사용
* melon 100 chart 데이터 파싱

In [None]:
import re
import requests
from bs4 import BeautifulSoup
from pprint import pprint

url = 'https://www.melon.com/chart/index.htm'

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

res = requests.get(url, headers=headers)

if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')
    
    print(len(soup.select("a[href*='playSong']")))
    atag_list = soup.select("a[href*='playSong']")
    
    song_list = []  # 100곡 song list
    for idx, atag in enumerate(atag_list,1):
        print(f'순서 ={idx}')
        # 1곡의 song 정보를 저장할 dict
        song_dict = {}
        # song 제목
        title = atag.text
        song_dict['title'] = title

        # song_id 추출하기
        href = atag['href']
        matched = re.search(r'(\d+)\)', href)
        if matched:
            song_id = matched.group(1)
        song_dict['id'] = song_id
        
        # 노래 상세정보 url
        song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'
        song_dict['url'] = song_url
        
        song_list.append(song_dict)
        
    # song_list 확인
    pprint(len(song_list))
    pprint(song_list[:3])

else:
    print(f'Error Code = {res.status_code}')

# 노래 상세정보 song_url = f'https://www.melon.com/song/detail.htm?songId={song_id}'



### 곡상세 정보 추출하기

In [None]:
import re
import requests
from bs4 import BeautifulSoup

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

# Song 100곡의 상세정보 목록을 저장할 list 선언
song_lyric_list = list()
print('===> 100 곡 노래 파싱 시작')
for idx,song in enumerate(song_list,1):
    print(f'==> {idx} {song['title']}')
    # Song 1곡의 상세정보를 저장할 dict 선언
    song_lyric_dict = dict()
    
    res = requests.get(song['url'], headers=headers)
    if res.ok:
        soup = BeautifulSoup(res.text,'html.parser')
        song_lyric_dict['곡명'] = song['title']
        
        singer_span = soup.select_one("a[href*='goArtistDetail'] span")
        song_lyric_dict['가수'] = singer_span.text
        
        song_dd = soup.select('div.meta dd') #song_dd는 ResultSet타입, song_dd[0]는 Tag 타입입
        if song_dd:
            song_lyric_dict['앨범'] = song_dd[0].text
            song_lyric_dict['발매일'] = song_dd[1].text
            song_lyric_dict['장르'] = song_dd[2].text
        
        # Song 상세정보 링크
        song_lyric_dict['detail_url'] = song['url']
            
        # 좋아요 건수
        song_id = song['id']
        ajax_url = f'https://www.melon.com/commonlike/getSongLike.json?contsIds={song_id}'
        res = requests.get(ajax_url, headers=headers)
        if res.ok:
            song_lyric_dict['좋아요'] = res.json()['contsLike'][0]['SUMMCNT']
        
        # 노래 가사     
        lyric_div = soup.select('div#d_video_summary')
        if lyric_div:
            lyric = lyric_div[0].text
        else:
            lyric = ''            
        
        # \n\r\t 특수문자를 찾는 Pattern객체 생성
        pattern = re.compile(r'[\n\r\t]')
        song_lyric_dict['가사'] = pattern.sub('', lyric)
        
        # list에 상세정보 담은 dict를 저장
        song_lyric_list.append(song_lyric_dict)
    else:
        print(f'Error Code = {res.status_code}')
        
print(len(song_lyric_list))
pprint(song_lyric_list[:2])
print('===> 100 곡 노래 파싱 끝')

#### song_lyric_lists를 DataFrame으로 저장하기

In [None]:
# [{'가수';'BTS','앨범':''},{}]
import pandas as pd

#컬럼명을 설정하면서 empty DataFrame 객체생성
song_list_df = pd.DataFrame(columns=['곡명','가수','앨범','발매일','장르','url','좋아요','가사'])
for song_lyric in song_lyric_list: #[ {},{},{} ]
    df_new_row = pd.DataFrame.from_records([song_lyric])
    song_list_df = pd.concat([song_list_df, df_new_row])
    
song_list_df.head(3)

#### song_lyric_lists를 Json 파일로 저장
* json 파일로 저장해야 DataFrame으로 저장하기 용이함

In [4]:
import json

with open('data/songs100.json','w',encoding='utf-8') as file:
    json.dump(song_lyric_list, file)

### Json File을 DataFrame (표데이터) 객체로 저장하기

In [None]:
import pandas as pd

song_df = pd.read_json('data/songs100.json')
print(type(song_df))
song_df.head()

In [None]:
song_df.tail()

In [None]:
# 가수 별 Row Counting
print(type(song_df['가수']))
song_df['가수'].value_counts()

In [None]:
# 장르 별 Row Counting
song_df['장르'].value_counts()

In [None]:
# 조건을 만족하는 특정 Row와 모든 컬럼이 출력됨
song_df.loc[song_df['가수'] == 'G-DRAGON']

In [None]:
# 특정 가수의 노래 정보 출력하기
# 조건을 만족하는 특정 Row와 특정 컬럼만 출력됨
song_df.loc[song_df['가수'] == 'G-DRAGON',['곡명','장르']]

In [None]:
# 조건을 만족하는 특정 Row와 Slicing으로 선택된 컬럼만 출력됨
song_df.loc[song_df['가수'] == 'G-DRAGON','곡명':'장르'].reset_index(drop=True)

In [None]:
# unique 한 가수명을 리스트 형태로 출력하기
print(type(song_df['가수'].unique()))
print(len(song_df['가수'].unique())) # 100곡 중 가수는 56명
song_df['가수'].unique()

In [None]:
#앨범이 OST 인 노래는?
print(type(song_df['앨범'].str))
song_df['앨범'].str.contains('OST') # 100곡 중 OST는 6곡
song_df.loc[song_df['앨범'].str.contains('OST')]

In [None]:
# 좋아요 건수가 가장 큰 노래는?
song_df.loc[song_df['좋아요'] == song_df['좋아요'].max()]

In [None]:
# 좋아요 건수가 평균보다 큰것
mean_like_value = song_df['좋아요'].mean()
song_df.loc[song_df['좋아요'] >= mean_like_value,].sort_values(by='좋아요', ascending=False).reset_index(drop=True)

In [None]:
song_df.columns

In [None]:
#song_df.columns.drop(['detail_url', '가사'])
song_df.loc[song_df['좋아요'] >= mean_like_value,song_df.columns.drop(['detail_url', '가사'])]\
    .sort_values(by='좋아요',ascending=False).reset_index(drop=True)

In [None]:
song_df['발매일'].max()

song_df.loc[song_df['발매일'] == song_df['발매일'].max()]

### SqlAlchemy와 Pymysql을 사용하여 DataFrame을 RDB의 테이블로 저장하기

In [None]:
!pip show pymysql

### DataFrame을 Table로 저장하기

In [45]:
import pymysql
# import sqlalchemy

#pymysql과 sqlalchemy 연동
pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

engine = None
conn = None
try:
    # dialect+driver://username:password@host:port/database
    engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')#, encoding='utf-8')
    print('engine', engine)
    print(type(engine), engine)
    conn = engine.connect()
    print(type(conn), conn)
    
    #song_df(DataFrame객체)를 songs 테이블로 저장하기 to_sql() 함수 사용
    song_df.to_sql(name='songs', con=engine, if_exists='replace', index=False)
finally:
    if conn is not None: 
        conn.close()
    if engine is not None:
        engine.dispose()

engine Engine(mysql+pymysql://python:***@localhost:3306/python_db?charset=utf8mb4)
<class 'sqlalchemy.engine.base.Engine'> Engine(mysql+pymysql://python:***@localhost:3306/python_db?charset=utf8mb4)
<class 'sqlalchemy.engine.base.Connection'> <sqlalchemy.engine.base.Connection object at 0x0000025FFAD80BC0>


### 복사한 DataFrame을 Table로 저장
* 컬럼명을 영문으로 변경
* 인덱스를 1부터 시작하도록 변경하고 DataFrame 객체의 인덱스가 테이블의 PK(primary key)가 되도록 설정
* 컬럼의 데이터 타입을 변경 (발매일을 DATE 타입으로 변경)

In [43]:
# 기존의 DataFrame의 복사본을 만들기 
# table_df = song_df (x) 같은 주소 이므로 복사본을 수정해도 원본이 변경된다.
table_df = song_df.copy()
table_df.head(3)

Unnamed: 0,곡명,가수,앨범,발매일,장르,detail_url,좋아요,가사
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,124814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,모르시나요(PROD.로코베리),조째즈,모르시나요,2025.01.07,발라드,https://www.melon.com/song/detail.htm?songId=3...,58760,찬바람 불어오니그대 생각에 눈물짓네인사 없이 떠나시던 날그리움만 남겨놓고그리워 글썽...
2,like JENNIE,제니 (JENNIE),Ruby,2025.03.07,댄스,https://www.melon.com/song/detail.htm?songId=3...,54887,"Come on, it’s gon be f hardSpecial edition and..."


In [46]:
table_df.columns = ['title','singer','album','release_date','genre','url','likes','lyric']
table_df.head(2)

Unnamed: 0,title,singer,album,release_date,genre,url,likes,lyric
0,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,https://www.melon.com/song/detail.htm?songId=3...,124814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,모르시나요(PROD.로코베리),조째즈,모르시나요,2025.01.07,발라드,https://www.melon.com/song/detail.htm?songId=3...,58760,찬바람 불어오니그대 생각에 눈물짓네인사 없이 떠나시던 날그리움만 남겨놓고그리워 글썽...


In [34]:
print(table_df.index)

RangeIndex(start=0, stop=100, step=1)


In [50]:
#index 값의 1 부터 시작하도록 설정
import numpy as np

#index 변경
table_df.index = np.arange(1, len(table_df)+1)
table_df.index

Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,  14,
        15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,  27,  28,
        29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,  40,  41,  42,
        43,  44,  45,  46,  47,  48,  49,  50,  51,  52,  53,  54,  55,  56,
        57,  58,  59,  60,  61,  62,  63,  64,  65,  66,  67,  68,  69,  70,
        71,  72,  73,  74,  75,  76,  77,  78,  79,  80,  81,  82,  83,  84,
        85,  86,  87,  88,  89,  90,  91,  92,  93,  94,  95,  96,  97,  98,
        99, 100],
      dtype='int32')

In [51]:
table_df.head(2)

Unnamed: 0,title,singer,album,release_date,genre,likes,lyric
1,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025.02.25,랩/힙합,124814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
2,모르시나요(PROD.로코베리),조째즈,모르시나요,2025.01.07,발라드,58760,찬바람 불어오니그대 생각에 눈물짓네인사 없이 떠나시던 날그리움만 남겨놓고그리워 글썽...


#### inplace 속성
* default 는 False
* inplace = False는 df 에 반영은 하지 않고, 처리한 결과를 출력만 함
* inplace = True 는 df 에 반영을 하고, 처리한 결과를 출력하지 않음 

In [52]:
# url 컬럼 삭제하기 axis=1은 column, axis=0 은 Row
table_df.drop('url', axis=1, inplace=True)

KeyError: "['url'] not found in axis"

In [53]:
table_df.columns

Index(['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric'], dtype='object')

#### DataFrame 객체 ==> Table 로 변환
* ['title', 'singer', 'album', 'release_date', 'genre', 'likes', 'lyric']
* table_df(DataFrame객체)를 songs100 테이블로 저장하기 to_sql() 함수 사용


In [54]:
import pymysql
import sqlalchemy

pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

engine = None
conn = None
try:
    engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
    conn = engine.connect()    

    table_df.to_sql(name='songs100', con=engine, if_exists='replace', index=True,\
                    index_label='id',
                    dtype={
                        'id':sqlalchemy.types.INTEGER(),
                        'title':sqlalchemy.types.VARCHAR(200),
                        'singer':sqlalchemy.types.VARCHAR(200),
                        'album':sqlalchemy.types.VARCHAR(200),
                        'release_date':sqlalchemy.types.DATE,
                        'genre':sqlalchemy.types.VARCHAR(200),
                        'likes':sqlalchemy.types.BigInteger,
                        'lyric':sqlalchemy.types.VARCHAR(5000)
                    })
    print('songs100 테이블 생성됨')
finally:
    if conn is not None: 
        conn.close()
    if engine is not None:
        engine.dispose()

songs100 테이블 생성됨


#### SQL 쿼리 결과를 DataFrame 객체로 저장하는 함수선언하기
* read_sql_query() sql문을 실행한 결과를 DataFrame 객체로 반환해주는 함수

In [56]:
import pandas as pd
import pymysql
# import sqlalchemy
pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

def search_album(keyword):
    sql = """select * from songs100 where album like %s;"""
    engine = None
    conn = None
    try:
        engine = create_engine('mysql+pymysql://python:python@localhost:3306/python_db?charset=utf8mb4')
        conn = engine.connect()

        album_df = pd.read_sql_query(sql, con=conn, params=('%' + keyword + '%',))
        print(album_df.shape)
        return album_df
    finally:
        print('finally')
        if conn is not None: 
            conn.close()
        if engine is not None:
            engine.dispose()

In [58]:
search_album('h')

(24, 8)
finally


Unnamed: 0,id,title,singer,album,release_date,genre,likes,lyric
0,1,TOO BAD (feat. Anderson .Paak),G-DRAGON,Übermensch,2025-02-25,랩/힙합,124814,"‘G’, ‘A.P’“Let me kill ’em like I usually do, ..."
1,5,"HOME SWEET HOME (feat. 태양, 대성)",G-DRAGON,"HOME SWEET HOME (feat. 태양, 대성)",2024-11-22,랩/힙합,206175,"You say, It’s changedShow must go on, Behave오랜..."
2,7,REBEL HEART,IVE (아이브),IVE EMPATHY,2025-01-13,댄스,92538,시작은 항상 다 이룬 것처럼엔딩은 마치 승리한 것처럼겁내지 않고 마음을 쏟을래 내 ...
3,8,Whiplash,aespa,Whiplash - The 5th Mini Album,2024-10-21,댄스,128405,One look give ‘em WhiplashBeat drop with a big...
4,11,HOT,LE SSERAFIM (르세라핌),HOT,2025-03-14,댄스,25063,위태로운 드라이브 바꿔 넣어 gear 불타는 노을너와 내 tears soDon’t ...
5,13,ATTITUDE,IVE (아이브),IVE EMPATHY,2025-02-03,댄스,51480,내 감정선은 어딘가 좀 다르게 흘러남들과는 다른 곳에 포커스를 걸어Dress up ...
6,20,TAKE ME,G-DRAGON,Übermensch,2025-02-25,댄스,51983,M.B.T.M.I.U (My Baby Take Me I’m Yours)M.B.T.M...
7,22,한 페이지가 될 수 있게,DAY6 (데이식스),The Book of Us : Gravity,2019-07-15,록/메탈,348605,솔직히 말할게많이 기다려 왔어너도 그랬을 거라 믿어오늘이 오길매일같이 달력을 보면서...
8,25,천상연,이창섭,천상연 (웹툰 '선녀외전' X 이창섭 (LEE CHANGSUB)),2024-02-21,발라드,123305,아니길 바랬었어꿈이길 기도했지너 없는 가슴으로 살아가야 하는 건내게는 너무 힘겨운걸...
9,26,Supernova,aespa,Armageddon - The 1st Album,2024-05-13,댄스,179732,I’m like some kind of SupernovaWatch outLook a...
