# 발라드 인기순 데이터 concat

In [1]:
# 라이브러리 로드
import pandas as pd
import numpy as np
from glob import glob

In [2]:
# 데이터 확인
root_dir = "data_ballad"

song_list = glob(f"{root_dir}/*.csv")
song_list

['data_ballad\\melon_ballad_15001_24500.csv',
 'data_ballad\\melon_ballad_1_15000.csv',
 'data_ballad\\melon_ballad_24501_29500.csv',
 'data_ballad\\melon_ballad_30001_40000.csv',
 'data_ballad\\melon_ballad_40001_50000.csv',
 'data_ballad\\melon_ballad_50001_55000.csv',
 'data_ballad\\melon_ballad_55000_56000.csv',
 'data_ballad\\melon_ballad_56001_60000.csv',
 'data_ballad\\melon_ballad_60001_66000.csv',
 'data_ballad\\melon_ballad_70001_73000.csv',
 'data_ballad\\melon_ballad_73001_75000.csv']

In [3]:
# 리스트 형태로 담아서 concat
songs = []
raw = 0
for file_name in song_list:
    df = pd.read_csv(file_name, dtype={"좋아요수" : str})
    raw += df.shape[0]
    print(file_name, " shape : ", df.shape)
    print("행 합계 : ", raw)
    songs.append(df)

data_ballad\melon_ballad_15001_24500.csv  shape :  (8145, 6)
행 합계 :  8145
data_ballad\melon_ballad_1_15000.csv  shape :  (13346, 6)
행 합계 :  21491
data_ballad\melon_ballad_24501_29500.csv  shape :  (4290, 6)
행 합계 :  25781
data_ballad\melon_ballad_30001_40000.csv  shape :  (8440, 6)
행 합계 :  34221
data_ballad\melon_ballad_40001_50000.csv  shape :  (9181, 6)
행 합계 :  43402
data_ballad\melon_ballad_50001_55000.csv  shape :  (5273, 6)
행 합계 :  48675
data_ballad\melon_ballad_55000_56000.csv  shape :  (1478, 6)
행 합계 :  50153
data_ballad\melon_ballad_56001_60000.csv  shape :  (2861, 6)
행 합계 :  53014
data_ballad\melon_ballad_60001_66000.csv  shape :  (5925, 6)
행 합계 :  58939
data_ballad\melon_ballad_70001_73000.csv  shape :  (2241, 6)
행 합계 :  61180
data_ballad\melon_ballad_73001_75000.csv  shape :  (1589, 6)
행 합계 :  62769


In [4]:
# concat
df_all = pd.concat(songs)
display(df_all.head(2))
df_all.shape

Unnamed: 0,제목,가사,가수,발매일,좋아요수,장르
0,Remember,다시는 그 때로\r\n돌아갈 순 없나봐\r\n너무 먼 길을\r\n온 것만 같아\r\...,가비엔제이,2008.02.21,976,"발라드, 국내영화"
1,꿈의 시간들,수많은 방황을 지나\r\n난 눈을 뜬거야\r\n내 길이 여기에\r\n눈 앞이 흐려져...,테이,2008.06.17,582,"발라드, 국내드라마"


(62769, 6)

In [5]:
# 좋아요수 쉼표 제거
df_all["좋아요수"] = df_all["좋아요수"].str.replace(",", "")

- 쉼표를 제거했을 때 'melon_ballad_55000_56000.csv' 파일의 좋아요수만 값이 na로 바뀜
- 이유를 탐색하던 중 해당 파일만 좋아요수가 int형으로 되어있는 것 확인 => 불러올 때 좋아요수를 문자열로 고정해서 불러옴

In [6]:
# 좋아요수 uint32 downcast
df_all["좋아요수"] = df_all["좋아요수"].astype("uint32")

In [7]:
# 메모리 용량이 그렇게 크지 않기 때문에 문자열은 그냥 놔뒀음
df_all.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 62769 entries, 0 to 1588
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   제목      62769 non-null  object
 1   가사      62769 non-null  object
 2   가수      62769 non-null  object
 3   발매일     62769 non-null  object
 4   좋아요수    62769 non-null  uint32
 5   장르      62769 non-null  object
dtypes: object(5), uint32(1)
memory usage: 3.1+ MB


In [8]:
# 중복데이터 확인
df_all[df_all.duplicated(subset=["제목", "가사"], keep=False)].sort_values(by="좋아요수", ascending=False)

Unnamed: 0,제목,가사,가수,발매일,좋아요수,장르
18,"모든 날, 모든 순간 (Every day, Every Moment)",네가 없이 웃을 수 있을까\r\n생각만 해도 눈물이나\r\n힘든 시간 날 지켜준 사...,폴킴,2018.03.20,411881,"발라드, 국내드라마"
41,"어떻게 이별까지 사랑하겠어, 널 사랑하는 거지",일부러 몇 발자국 물러나\r\n내가 없이 혼자 걷는 널 바라본다\r\n옆자리 허전한...,AKMU (악뮤),2019.09.25,396470,발라드
102,좋니,이제 괜찮니 너무 힘들었잖아\r\n우리 그 마무리가 고작 이별뿐인 건데\r\n우린 ...,윤종신,2017.06.22,357019,발라드
1,너의 모든 순간,이윽고 내가 한눈에\r\n너를 알아봤을 때\r\n모든 건 분명 달라지고 있었어\r\...,성시경,2014.02.12,243092,"발라드, 국내드라마"
129,이 소설의 끝을 다시 써보려 해,시계가 반대로 돌아가고 있어\r\nTV속 영화가 되감아지고 있어\r\n내렸던 빗물이...,한동근,2014.09.30,233982,발라드
...,...,...,...,...,...,...
537,우리를 기다리잖아,붉은 화염과\r\n검은 연기 가득한 저곳에\r\n왜 들어가느냐고 묻는다\r\n저기에...,파이어포르테 (Fire Forte),2022.10.05,0,발라드
249,말하지 못했어,잔인하지만\r\n널 사랑하지 않게 됐다고 말하려해\r\n이제 그만하자 우린 충분히 ...,김대연,2019.09.29,0,발라드
7067,이 노래 좋아요,나지막이 들려오는\r\n기타 소리에\r\n잠시 눈을 감고\r\n포근해져요\r\n그대...,린,2013.08.29,0,발라드
1471,널 그리다,너의 반짝이던 눈빛과\n얇게 불어 오던 목소리\n숨을 멈추게 하던\n너의 모든 것들...,장우람,2015.07.17,0,"발라드, 국내드라마"


In [9]:
# 중복행 제거, 좋아요수 많은 것을 keep
df_all = df_all.sort_values(by="좋아요수", ascending=False).drop_duplicates().reset_index(drop=True)
df_all.shape

(56906, 6)

In [10]:
# inst 버전 확인
df_all[df_all["제목"].str.contains("Inst.", case=False)]

Unnamed: 0,제목,가사,가수,발매일,좋아요수,장르
1918,아름답고도 아프구나 (Inst.),사랑을 만나 이별을 하고\r\n수없이 많은 날을 울고 웃었다\r\n시간이란 건 순간...,비투비,2018.11.12,18648,발라드
2820,좋은 날 (Inst.),어쩜 이렇게 하늘은 더 파란 건지\r\n\r\n오늘따라 왜 바람은 또 완벽한지\r\...,아이유,2010.12.09,12651,발라드
2839,Bye Bye Love (Inst.),Be My love 너만을 원해도\r\nBe My love 넌 고개를 돌려\r\n숨...,비스트,2013.05.01,12582,발라드
2897,봄 사랑 벚꽃 말고 (Inst.),길었던 겨우내 줄곧 품이 좀 남는\r\n밤색 코트\r\n그 속에 나를 쏙 감추고 걸...,HIGH4 (하이포),2014.04.08,12333,발라드
2905,너를 위해 (Inst.),다른 공간의 다른 시간이지만\r\n내 사랑이 맞을거야\r\n바람에 스치는 너의 향기...,첸 (CHEN),2016.08.25,12304,"발라드, 국내드라마"
...,...,...,...,...,...,...
56674,돌아봐줘 (Instrumental),그대를 사랑하게 된 것이\r\n나의 잘못인가요\r\n그대 떠나가지마\r\n한때에 잘...,신승훈,1990.11.01,0,발라드
56736,이 길을 걸을 때 비가 내리면 (Inst.),이 길을 걸을 때 비가 내리면\r\n니가 내 곁에 잠시 온 것 같아\r\n나를 감싸...,김경훈,2022.09.02,0,발라드
56769,쿵 (Feat. 아녹) (Inst.),난 사랑에 미쳐서\n하루 온종일 너만 너만\n넌 사랑에 지쳐서\n하루 온종일 나만 ...,포맨 (4MEN),2017.10.24,0,발라드
56784,그 언젠가 기적처럼 (Inst.),그 언제쯤일까\n시작조차\n기억나지 않아\n네가 들어오던\n날 잠 못 들게 했던\n...,황치열,2018.02.10,0,발라드


In [11]:
# inst 버전 삭제
df_all = df_all[~df_all["제목"].str.contains("Inst.", case=False)]
df_all.shape

(54743, 6)

In [12]:
# parquet 로 저장하기
df_all.to_parquet(f"{root_dir}/ballad_all.gzip", compression="gzip")