# Preprocessing

In [1]:
import pandas as pd
import re
from dateutil.parser import parse

In [2]:
df = pd.read_csv('../data/data.csv', index_col=0)
df

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers
0,라일락,IU 5th Album 'LILAC',2021.03.25,댄스,157405,"1,736개",나리는 꽃가루에 눈이 따끔해 (아야)눈물이 고여도 꾹 참을래내 마음 한켠 비밀스런 ...,"임수호,Dr.JO,아이유,N!ko,웅킴"
1,Flu,IU 5th Album 'LILAC',2021.03.25,댄스,51991,346개,"Doc, I’m feeling bad 미열이 흐르고 또 어질어질해there’s to...","Martin Coogan,Zacchariah Palmer,Ryan S. Jhun,J..."
2,Coin,IU 5th Album 'LILAC',2021.03.25,R&B/Soul,71621,"1,035개",강자에게 더 세게 I love gamble과감할수록 신세계 on my tableI’...,"아이유,Poptime,Kako"
3,봄 안녕 봄,IU 5th Album 'LILAC',2021.03.25,발라드,56333,724개,아프던 너의 이름도이제는 미련이 아냐하얗게 잊어버린 듯 살다가또 한 번 마주치고 싶...,"나얼,아이유,강화성"
4,Celebrity,IU 5th Album 'LILAC',2021.03.25,댄스,270247,"3,794개","세상의 모서리구부정하게 커버린골칫거리 outsider걸음걸이, 옷차림, 이어폰 너머...","Jeppe London Bilsby,Ryan S. Jhun,Celine Svanba..."
...,...,...,...,...,...,...,...,...
173,너랑 나,2012 MelOn Music Awards Nominees,-,발라드,9263,8개,시곌 보며 속삭이는 비밀들간절한 내 맘속 이야기지금 내 모습을 해쳐도 좋아나를 재촉...,"이민수,김이나"
174,사랑이 잘 (With 오혁),Palette,2017.04.21,R&B/Soul,5623,15개,미리 말할게 사과는 안 해아무 말 없이 너 후회 안 해다 관심 없잖아 친구야 뭐야O...,"이종훈,오혁,아이유"
175,밤편지,Palette,2017.04.21,발라드,5505,33개,이 밤 그날의 반딧불을 당신의 창 가까이 보낼게요음 사랑한다는 말 이에요나 우리의 ...,"김희원,아이유,제휘"
176,봄 사랑 벚꽃 말고,HIGH4 1st Mini Album 'HI HIGH',2014.08.27,발라드,8701,5개,길었던 겨우내 줄곧 품이 좀 남는밤색 코트그 속에 나를 쏙 감추고 걸음을재촉해 걸었...,"이종훈,이채규,아이유"


## 입력 오류 전처리

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 178 entries, 0 to 177
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   SongName    178 non-null    object
 1   AlbumName   178 non-null    object
 2   Date        178 non-null    object
 3   Genre       178 non-null    object
 4   LikeCnt     178 non-null    object
 5   CommentCnt  178 non-null    object
 6   Lyrics      178 non-null    object
 7   Writers     178 non-null    object
dtypes: object(8)
memory usage: 12.5+ KB


In [4]:
df[df['Date']=='-']

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers
173,너랑 나,2012 MelOn Music Awards Nominees,-,발라드,9263,8개,시곌 보며 속삭이는 비밀들간절한 내 맘속 이야기지금 내 모습을 해쳐도 좋아나를 재촉...,"이민수,김이나"
177,분홍신,2013 MelOn Music Awards Nominees,-,댄스,5196,5개,길을 잃었다 어딜 가야 할까열두 개로 갈린 조각난 골목길어딜 가면 너를 다시 만날까...,"버터챙,죠르디-,평민_,치츄_지수_쪼율_사랑_"


In [5]:
# Date에서 입력 오류 있는 행 제거
df.drop(df[df['Date']=='-'].index, inplace=True)

In [6]:
# 확인
df[df['Date']=='-']

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers


In [7]:
df[df['Genre'].apply(lambda x: '-' in x)]

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers
116,Someday,드림하이 OST Part.1,2011.01.03,-,28420,55개,언젠간 이 눈물이 멈추길언젠간 이 어둠이 걷히고따스한 햇살이 이 눈물을 말려주길지친...,"심은지,박진영,준호 (2PM)"


In [8]:
df[df['SongName']=='Someday']

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers
115,Someday,드림하이 OST,2011.02.14,"발라드,국내드라마",75494,174개,언젠간 이 눈물이 멈추길언젠간 이 어둠이 걷히고따스한 햇살이 이 눈물을 말려주길지친...,"홍지상,박진영,심은지"
116,Someday,드림하이 OST Part.1,2011.01.03,-,28420,55개,언젠간 이 눈물이 멈추길언젠간 이 어둠이 걷히고따스한 햇살이 이 눈물을 말려주길지친...,"심은지,박진영,준호 (2PM)"


In [9]:
# 장르에서 입력 오류 있는 행 다른 행의 장르로 오류 대체
df.iloc[116]['Genre'] = df.iloc[115]['Genre']

In [10]:
# 확인
df[df['SongName']=='Someday']

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers
115,Someday,드림하이 OST,2011.02.14,"발라드,국내드라마",75494,174개,언젠간 이 눈물이 멈추길언젠간 이 어둠이 걷히고따스한 햇살이 이 눈물을 말려주길지친...,"홍지상,박진영,심은지"
116,Someday,드림하이 OST Part.1,2011.01.03,"발라드,국내드라마",28420,55개,언젠간 이 눈물이 멈추길언젠간 이 어둠이 걷히고따스한 햇살이 이 눈물을 말려주길지친...,"심은지,박진영,준호 (2PM)"


In [11]:
df[df['LikeCnt']=='-']

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers


In [12]:
df[df['CommentCnt']=='-']

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers


In [13]:
df[df['Lyrics']=='-']

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers


In [14]:
df[df['Writers']=='-']

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers


In [15]:
# 인덱스 리셋
df.reset_index(drop=True, inplace=True)

## SongName 전처리

### Inst. 인 곡 삭제하기

In [16]:
df[df['SongName'].apply(lambda x: '(Inst.)' in x)]

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers
14,마음을 드려요 (Inst.),사랑의 불시착 OST Part 11,2020.02.15,국내드라마,6661,11개,당신에게 드릴 게 없어서나의 마음을 드려요그대에게 받은 게 많아서표현을 다 할 수가...,"박진호,남혜승"
16,첫 겨울이니까 (Inst.),첫 겨울이니까,2019.12.09,발라드,5432,5개,무얼 고를까추운 겨울이니까캐시미어 스웨터는 어떨까처음이니까초록이 날까다홍색은 어떨까...,"이규호 (Kyo),강화성"
50,애타는 마음 (Inst.),애타는 마음,2014.06.30,댄스,10827,2개,너에게 눈을 뗄 수 없는 이유가뭔지 내게 말해줘사랑일까 이런 게 사랑일까바로 너야이...,"김도훈 (RBW),PJ"
59,봄 사랑 벚꽃 말고 (Inst.),봄 사랑 벚꽃 말고,2014.04.08,발라드,11291,3개,길었던 겨우내 줄곧 품이 좀 남는밤색 코트그 속에 나를 쏙 감추고 걸음을재촉해 걸었...,"이종훈,이채규"
108,얼음꽃 (Feat. 김세황) (Inst.),얼음꽃,2011.06.21,발라드,9950,8개,발길이 닿는 곳 하나하나 피어나 어느새 환해진 그 곳에 넘어설 무엇도 뒤쳐지는 걱정...,이민수
111,내 손을 잡아 (Inst.),최고의 사랑 OST Part.4,2011.05.25,발라드,9646,4개,느낌이 오잖아 떨리고 있잖아 언제까지 눈치만 볼 거니네 맘을 말해봐 딴청 피우지 말...,"아이유,G. 고릴라"
123,좋은 날 (Inst.),Real,2010.12.09,발라드,11536,9개,어쩜 이렇게 하늘은 더 파란 건지오늘따라 왜 바람은 또 완벽한지그냥 모르는 척 하나...,이민수
126,그대네요 (Inst.),그대네요,2010.09.28,발라드,9142,2개,그대네요 정말 그대네요그 따뜻한 눈빛은 늘 여전하네요이제야 날 봤나요한참을 보고 있...,"유성민,김형석"
135,다섯째 손가락 (Inst.),텔레시네마 프로젝트 Vol.6,2010.02.24,"발라드,국내영화",8534,3개,첫 눈보다 하얀 나비노을보다 빨간 장미커피보다 까만 아이 그 눈빛이날 자꾸 설레게만...,박수종
137,첫사랑이죠 (Inst.),첫사랑이죠,2010.01.12,발라드,8612,2개,어쩜 우리 어쩜 지금 어쩜 여기둘이 됐을까요흐르는 시간 별처럼 많은 사람 속에내 마...,"심현보,박민서"


In [17]:
# Inst.인 행 제거
df.drop(df[df['SongName'].apply(lambda x: '(Inst.)' in x)].index, axis=0, inplace=True)

In [18]:
# 확인
df[df['SongName'].apply(lambda x: '(Inst.)' in x)]

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers


### `SongName_short` 컬럼 생성하기

In [19]:
temp = df.copy()

In [20]:
# 곡명 내 괄호 안 제거
p = re.compile('\(.+\)')
temp['SongName_short'] = temp['SongName'].apply(lambda x: re.sub(p, '', x))

In [21]:
temp[5:10]

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers,SongName_short
5,돌림노래 (Feat. DEAN),IU 5th Album 'LILAC',2021.03.25,R&B/Soul,49726,548개,죄책감 없이 밤늦게 전화해도 돼(그 다음 날) 기억도 못 할 헛소릴 뱉어도 돼(아무...,"JUNNY (주니),Deanfluenza,박우상,jane,아이유",돌림노래
6,빈 컵 (Empty Cup),IU 5th Album 'LILAC',2021.03.25,R&B/Soul,37278,325개,창백한 눈으로 날 바라보는넌 변함 없이 빛나날 미치게 하던 그 눈을 더이상사랑하지 ...,"페노메코 (PENOMECO),아이유,WOOGIE",빈 컵
7,아이와 나의 바다,IU 5th Album 'LILAC',2021.03.25,발라드,71899,"1,525개",그러나 시간이 지나도아물지 않는 일들이 있지내가 날 온전히 사랑하지 못해서 맘이 가...,"김희원,아이유,제휘",아이와 나의 바다
8,어푸 (Ah puh),IU 5th Album 'LILAC',2021.03.25,댄스,54759,747개,I’m such a good surfer가라앉지 않기비틀 비 비틀 거리다가 풍덩 u...,"PEEJAY,아이유,이찬혁",어푸
9,에필로그,IU 5th Album 'LILAC',2021.03.25,발라드,51313,"1,101개",나를 알게 되어서 기뻤는지나를 사랑해서 좋았었는지우릴 위해 불렀던 지나간 노래들이여...,"SUMIN (수민),임금비,심은지,아이유,김수영",에필로그


In [22]:
df = temp

### `With` 컬럼 생성하기

In [23]:
temp = df.copy()

In [24]:
# 괄호 안 피쳐링 추출
temp['Bracket'] = temp['SongName'].apply(lambda x: re.compile('\(.+\)').search(x))
temp

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers,SongName_short,Bracket
0,라일락,IU 5th Album 'LILAC',2021.03.25,댄스,157405,"1,736개",나리는 꽃가루에 눈이 따끔해 (아야)눈물이 고여도 꾹 참을래내 마음 한켠 비밀스런 ...,"임수호,Dr.JO,아이유,N!ko,웅킴",라일락,
1,Flu,IU 5th Album 'LILAC',2021.03.25,댄스,51991,346개,"Doc, I’m feeling bad 미열이 흐르고 또 어질어질해there’s to...","Martin Coogan,Zacchariah Palmer,Ryan S. Jhun,J...",Flu,
2,Coin,IU 5th Album 'LILAC',2021.03.25,R&B/Soul,71621,"1,035개",강자에게 더 세게 I love gamble과감할수록 신세계 on my tableI’...,"아이유,Poptime,Kako",Coin,
3,봄 안녕 봄,IU 5th Album 'LILAC',2021.03.25,발라드,56333,724개,아프던 너의 이름도이제는 미련이 아냐하얗게 잊어버린 듯 살다가또 한 번 마주치고 싶...,"나얼,아이유,강화성",봄 안녕 봄,
4,Celebrity,IU 5th Album 'LILAC',2021.03.25,댄스,270247,"3,794개","세상의 모서리구부정하게 커버린골칫거리 outsider걸음걸이, 옷차림, 이어폰 너머...","Jeppe London Bilsby,Ryan S. Jhun,Celine Svanba...",Celebrity,
...,...,...,...,...,...,...,...,...,...,...
170,Feel So Good,Lost And Found,2008.09.23,발라드,18203,39개,아침에 눈을 뜨면 다가오는 햇살햇살에 눈 비비고 일어나고일어나 남은 잠을 깨워보는s...,"최갑원,PJ,김영환",Feel So Good,
171,Every Sweet Day,Lost And Found,2008.09.23,발라드,13187,28개,Hey boywhat you gonna do for me honey내 방안에 내 손...,"최갑원,한상원,이승민",Every Sweet Day,
173,사랑이 잘 (With 오혁),Palette,2017.04.21,R&B/Soul,5623,15개,미리 말할게 사과는 안 해아무 말 없이 너 후회 안 해다 관심 없잖아 친구야 뭐야O...,"이종훈,오혁,아이유",사랑이 잘,"<re.Match object; span=(6, 15), match='(With 오..."
174,밤편지,Palette,2017.04.21,발라드,5505,33개,이 밤 그날의 반딧불을 당신의 창 가까이 보낼게요음 사랑한다는 말 이에요나 우리의 ...,"김희원,아이유,제휘",밤편지,


In [25]:
# Bracket 전처리 하여 With 변수 생성
temp['With'] = None
for i, row in temp.iterrows():
    if row['Bracket']:
        res = row['Bracket'].group().replace('Feat', 'feat').replace('With', 'feat').replace('with', 'feat').replace('Prod', 'feat')#.replace('Vocal', 'feat').replace('Duet', 'feat').replace('원곡가수', 'feat').replace('feat. by', 'feat')
        p = re.compile('(?<=feat)[가-힣A-z\.\,\-& ]+')
        res = p.search(res)
        if res!=None:
            res = res.group().replace('. ', '')
            row['With'] = res.strip()

res = temp['With'].apply(lambda x: re.sub('feat', '', x).strip() if x!=None else x).apply(lambda x: re.sub('.&', '', x).strip() if x!=None else x)
temp['With'] = res

temp.drop('Bracket', axis=1, inplace=True)

In [26]:
temp[5:10]

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers,SongName_short,With
5,돌림노래 (Feat. DEAN),IU 5th Album 'LILAC',2021.03.25,R&B/Soul,49726,548개,죄책감 없이 밤늦게 전화해도 돼(그 다음 날) 기억도 못 할 헛소릴 뱉어도 돼(아무...,"JUNNY (주니),Deanfluenza,박우상,jane,아이유",돌림노래,DEAN
6,빈 컵 (Empty Cup),IU 5th Album 'LILAC',2021.03.25,R&B/Soul,37278,325개,창백한 눈으로 날 바라보는넌 변함 없이 빛나날 미치게 하던 그 눈을 더이상사랑하지 ...,"페노메코 (PENOMECO),아이유,WOOGIE",빈 컵,
7,아이와 나의 바다,IU 5th Album 'LILAC',2021.03.25,발라드,71899,"1,525개",그러나 시간이 지나도아물지 않는 일들이 있지내가 날 온전히 사랑하지 못해서 맘이 가...,"김희원,아이유,제휘",아이와 나의 바다,
8,어푸 (Ah puh),IU 5th Album 'LILAC',2021.03.25,댄스,54759,747개,I’m such a good surfer가라앉지 않기비틀 비 비틀 거리다가 풍덩 u...,"PEEJAY,아이유,이찬혁",어푸,
9,에필로그,IU 5th Album 'LILAC',2021.03.25,발라드,51313,"1,101개",나를 알게 되어서 기뻤는지나를 사랑해서 좋았었는지우릴 위해 불렀던 지나간 노래들이여...,"SUMIN (수민),임금비,심은지,아이유,김수영",에필로그,


In [27]:
df = temp

## `AlbumName` 전처리

### `IsOst` 컬럼 생성하기

In [28]:
temp = df.copy()

In [29]:
isost = []

for album in temp['AlbumName'].values:
    if 'OST' in album:
        isost.append(1)
    elif 'Soundtrack' in album:
        isost.append(1)
    else:
        isost.append(0)

temp['IsOst'] = isost

In [30]:
temp[110:115]

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers,SongName_short,With,IsOst
116,Someday,드림하이 OST Part.1,2011.01.03,"발라드,국내드라마",28420,55개,언젠간 이 눈물이 멈추길언젠간 이 어둠이 걷히고따스한 햇살이 이 눈물을 말려주길지친...,"심은지,박진영,준호 (2PM)",Someday,,1
117,이게 아닌데,Real,2010.12.09,발라드,36771,58개,전부 말할래 나 다 말할래 나\n어떻게 너 그랬냐고\n참지 않을래 나 안 버틸래 나...,"김형석,유성민,김이나",이게 아닌데,,0
118,느리게 하는 일,Real,2010.12.09,발라드,45704,78개,느리게 느리게 느리게\n그대를 잊으려 해요\n빠르게 빠르게 가는 시간보다 더\n천천...,"민웅식,김진훈,최갑원,PEEJAY,PJ, 민웅식",느리게 하는 일,,0
119,좋은 날,Real,2010.12.09,댄스,133251,397개,어쩜 이렇게 하늘은 더 파란 건지 오늘따라 왜 바람은 또 완벽한지 그냥 모르는 척 ...,"이민수,김이나",좋은 날,,0
120,첫 이별 그날 밤,Real,2010.12.09,발라드,88027,154개,멍하니 아무 일도 할 일이 없어\n이게 이별인 거니\n전화기 가득 찬 너와의 메시지...,"조정치,윤종신",첫 이별 그날 밤,,0


In [31]:
df = temp

## `Date` 전처리

### `Date_datetime` 컬럼 생성하기

In [32]:
df['Date_datetime'] = df['Date'].apply(lambda x: parse(x))

In [33]:
df.head()

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers,SongName_short,With,IsOst,Date_datetime
0,라일락,IU 5th Album 'LILAC',2021.03.25,댄스,157405,"1,736개",나리는 꽃가루에 눈이 따끔해 (아야)눈물이 고여도 꾹 참을래내 마음 한켠 비밀스런 ...,"임수호,Dr.JO,아이유,N!ko,웅킴",라일락,,0,2021-03-25
1,Flu,IU 5th Album 'LILAC',2021.03.25,댄스,51991,346개,"Doc, I’m feeling bad 미열이 흐르고 또 어질어질해there’s to...","Martin Coogan,Zacchariah Palmer,Ryan S. Jhun,J...",Flu,,0,2021-03-25
2,Coin,IU 5th Album 'LILAC',2021.03.25,R&B/Soul,71621,"1,035개",강자에게 더 세게 I love gamble과감할수록 신세계 on my tableI’...,"아이유,Poptime,Kako",Coin,,0,2021-03-25
3,봄 안녕 봄,IU 5th Album 'LILAC',2021.03.25,발라드,56333,724개,아프던 너의 이름도이제는 미련이 아냐하얗게 잊어버린 듯 살다가또 한 번 마주치고 싶...,"나얼,아이유,강화성",봄 안녕 봄,,0,2021-03-25
4,Celebrity,IU 5th Album 'LILAC',2021.03.25,댄스,270247,"3,794개","세상의 모서리구부정하게 커버린골칫거리 outsider걸음걸이, 옷차림, 이어폰 너머...","Jeppe London Bilsby,Ryan S. Jhun,Celine Svanba...",Celebrity,,0,2021-03-25


### `Year`, `Month` 컬럼 생성하기

In [34]:
df['Year'] = df['Date'].apply(lambda x: x.split('.')[0])
df['Month'] = df['Date'].apply(lambda x: x.split('.')[1])

In [35]:
df.head()

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers,SongName_short,With,IsOst,Date_datetime,Year,Month
0,라일락,IU 5th Album 'LILAC',2021.03.25,댄스,157405,"1,736개",나리는 꽃가루에 눈이 따끔해 (아야)눈물이 고여도 꾹 참을래내 마음 한켠 비밀스런 ...,"임수호,Dr.JO,아이유,N!ko,웅킴",라일락,,0,2021-03-25,2021,3
1,Flu,IU 5th Album 'LILAC',2021.03.25,댄스,51991,346개,"Doc, I’m feeling bad 미열이 흐르고 또 어질어질해there’s to...","Martin Coogan,Zacchariah Palmer,Ryan S. Jhun,J...",Flu,,0,2021-03-25,2021,3
2,Coin,IU 5th Album 'LILAC',2021.03.25,R&B/Soul,71621,"1,035개",강자에게 더 세게 I love gamble과감할수록 신세계 on my tableI’...,"아이유,Poptime,Kako",Coin,,0,2021-03-25,2021,3
3,봄 안녕 봄,IU 5th Album 'LILAC',2021.03.25,발라드,56333,724개,아프던 너의 이름도이제는 미련이 아냐하얗게 잊어버린 듯 살다가또 한 번 마주치고 싶...,"나얼,아이유,강화성",봄 안녕 봄,,0,2021-03-25,2021,3
4,Celebrity,IU 5th Album 'LILAC',2021.03.25,댄스,270247,"3,794개","세상의 모서리구부정하게 커버린골칫거리 outsider걸음걸이, 옷차림, 이어폰 너머...","Jeppe London Bilsby,Ryan S. Jhun,Celine Svanba...",Celebrity,,0,2021-03-25,2021,3


## `LikeCnt` 전처리

In [36]:
df['LikeCnt'] = df['LikeCnt'].apply(lambda x: int(x.replace(',', '')))

In [37]:
df.head()

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers,SongName_short,With,IsOst,Date_datetime,Year,Month
0,라일락,IU 5th Album 'LILAC',2021.03.25,댄스,157405,"1,736개",나리는 꽃가루에 눈이 따끔해 (아야)눈물이 고여도 꾹 참을래내 마음 한켠 비밀스런 ...,"임수호,Dr.JO,아이유,N!ko,웅킴",라일락,,0,2021-03-25,2021,3
1,Flu,IU 5th Album 'LILAC',2021.03.25,댄스,51991,346개,"Doc, I’m feeling bad 미열이 흐르고 또 어질어질해there’s to...","Martin Coogan,Zacchariah Palmer,Ryan S. Jhun,J...",Flu,,0,2021-03-25,2021,3
2,Coin,IU 5th Album 'LILAC',2021.03.25,R&B/Soul,71621,"1,035개",강자에게 더 세게 I love gamble과감할수록 신세계 on my tableI’...,"아이유,Poptime,Kako",Coin,,0,2021-03-25,2021,3
3,봄 안녕 봄,IU 5th Album 'LILAC',2021.03.25,발라드,56333,724개,아프던 너의 이름도이제는 미련이 아냐하얗게 잊어버린 듯 살다가또 한 번 마주치고 싶...,"나얼,아이유,강화성",봄 안녕 봄,,0,2021-03-25,2021,3
4,Celebrity,IU 5th Album 'LILAC',2021.03.25,댄스,270247,"3,794개","세상의 모서리구부정하게 커버린골칫거리 outsider걸음걸이, 옷차림, 이어폰 너머...","Jeppe London Bilsby,Ryan S. Jhun,Celine Svanba...",Celebrity,,0,2021-03-25,2021,3


## `CommentCnt` 전처리

In [38]:
df['CommentCnt'] = df['CommentCnt'].apply(lambda x: int(x.replace(',', '').replace('개', '')))

In [39]:
df.head()

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers,SongName_short,With,IsOst,Date_datetime,Year,Month
0,라일락,IU 5th Album 'LILAC',2021.03.25,댄스,157405,1736,나리는 꽃가루에 눈이 따끔해 (아야)눈물이 고여도 꾹 참을래내 마음 한켠 비밀스런 ...,"임수호,Dr.JO,아이유,N!ko,웅킴",라일락,,0,2021-03-25,2021,3
1,Flu,IU 5th Album 'LILAC',2021.03.25,댄스,51991,346,"Doc, I’m feeling bad 미열이 흐르고 또 어질어질해there’s to...","Martin Coogan,Zacchariah Palmer,Ryan S. Jhun,J...",Flu,,0,2021-03-25,2021,3
2,Coin,IU 5th Album 'LILAC',2021.03.25,R&B/Soul,71621,1035,강자에게 더 세게 I love gamble과감할수록 신세계 on my tableI’...,"아이유,Poptime,Kako",Coin,,0,2021-03-25,2021,3
3,봄 안녕 봄,IU 5th Album 'LILAC',2021.03.25,발라드,56333,724,아프던 너의 이름도이제는 미련이 아냐하얗게 잊어버린 듯 살다가또 한 번 마주치고 싶...,"나얼,아이유,강화성",봄 안녕 봄,,0,2021-03-25,2021,3
4,Celebrity,IU 5th Album 'LILAC',2021.03.25,댄스,270247,3794,"세상의 모서리구부정하게 커버린골칫거리 outsider걸음걸이, 옷차림, 이어폰 너머...","Jeppe London Bilsby,Ryan S. Jhun,Celine Svanba...",Celebrity,,0,2021-03-25,2021,3


## `Lyrics` 전처리

In [40]:
df['Lyrics'] = df['Lyrics'].apply(lambda x: x.replace('\n', ' ')).apply(lambda x: x.lower())

In [41]:
df.head()

Unnamed: 0,SongName,AlbumName,Date,Genre,LikeCnt,CommentCnt,Lyrics,Writers,SongName_short,With,IsOst,Date_datetime,Year,Month
0,라일락,IU 5th Album 'LILAC',2021.03.25,댄스,157405,1736,나리는 꽃가루에 눈이 따끔해 (아야)눈물이 고여도 꾹 참을래내 마음 한켠 비밀스런 ...,"임수호,Dr.JO,아이유,N!ko,웅킴",라일락,,0,2021-03-25,2021,3
1,Flu,IU 5th Album 'LILAC',2021.03.25,댄스,51991,346,"doc, i’m feeling bad 미열이 흐르고 또 어질어질해there’s to...","Martin Coogan,Zacchariah Palmer,Ryan S. Jhun,J...",Flu,,0,2021-03-25,2021,3
2,Coin,IU 5th Album 'LILAC',2021.03.25,R&B/Soul,71621,1035,강자에게 더 세게 i love gamble과감할수록 신세계 on my tablei’...,"아이유,Poptime,Kako",Coin,,0,2021-03-25,2021,3
3,봄 안녕 봄,IU 5th Album 'LILAC',2021.03.25,발라드,56333,724,아프던 너의 이름도이제는 미련이 아냐하얗게 잊어버린 듯 살다가또 한 번 마주치고 싶...,"나얼,아이유,강화성",봄 안녕 봄,,0,2021-03-25,2021,3
4,Celebrity,IU 5th Album 'LILAC',2021.03.25,댄스,270247,3794,"세상의 모서리구부정하게 커버린골칫거리 outsider걸음걸이, 옷차림, 이어폰 너머...","Jeppe London Bilsby,Ryan S. Jhun,Celine Svanba...",Celebrity,,0,2021-03-25,2021,3


## 데이터셋 저장

In [42]:
# 인덱스 리셋
df.reset_index(drop=True, inplace=True)

In [43]:
# 컬럼 순서 변경
df = df[['SongName', 'SongName_short', 'AlbumName', 'Date', 'Date_datetime', 'Year', 'Month',
         'IsOst', 'Genre', 'Lyrics', 'With', 'Writers', 'LikeCnt', 'CommentCnt']]

In [44]:
# 확인
df

Unnamed: 0,SongName,SongName_short,AlbumName,Date,Date_datetime,Year,Month,IsOst,Genre,Lyrics,With,Writers,LikeCnt,CommentCnt
0,라일락,라일락,IU 5th Album 'LILAC',2021.03.25,2021-03-25,2021,03,0,댄스,나리는 꽃가루에 눈이 따끔해 (아야)눈물이 고여도 꾹 참을래내 마음 한켠 비밀스런 ...,,"임수호,Dr.JO,아이유,N!ko,웅킴",157405,1736
1,Flu,Flu,IU 5th Album 'LILAC',2021.03.25,2021-03-25,2021,03,0,댄스,"doc, i’m feeling bad 미열이 흐르고 또 어질어질해there’s to...",,"Martin Coogan,Zacchariah Palmer,Ryan S. Jhun,J...",51991,346
2,Coin,Coin,IU 5th Album 'LILAC',2021.03.25,2021-03-25,2021,03,0,R&B/Soul,강자에게 더 세게 i love gamble과감할수록 신세계 on my tablei’...,,"아이유,Poptime,Kako",71621,1035
3,봄 안녕 봄,봄 안녕 봄,IU 5th Album 'LILAC',2021.03.25,2021-03-25,2021,03,0,발라드,아프던 너의 이름도이제는 미련이 아냐하얗게 잊어버린 듯 살다가또 한 번 마주치고 싶...,,"나얼,아이유,강화성",56333,724
4,Celebrity,Celebrity,IU 5th Album 'LILAC',2021.03.25,2021-03-25,2021,03,0,댄스,"세상의 모서리구부정하게 커버린골칫거리 outsider걸음걸이, 옷차림, 이어폰 너머...",,"Jeppe London Bilsby,Ryan S. Jhun,Celine Svanba...",270247,3794
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
156,Feel So Good,Feel So Good,Lost And Found,2008.09.23,2008-09-23,2008,09,0,발라드,아침에 눈을 뜨면 다가오는 햇살햇살에 눈 비비고 일어나고일어나 남은 잠을 깨워보는s...,,"최갑원,PJ,김영환",18203,39
157,Every Sweet Day,Every Sweet Day,Lost And Found,2008.09.23,2008-09-23,2008,09,0,발라드,hey boywhat you gonna do for me honey내 방안에 내 손...,,"최갑원,한상원,이승민",13187,28
158,사랑이 잘 (With 오혁),사랑이 잘,Palette,2017.04.21,2017-04-21,2017,04,0,R&B/Soul,미리 말할게 사과는 안 해아무 말 없이 너 후회 안 해다 관심 없잖아 친구야 뭐야o...,오혁,"이종훈,오혁,아이유",5623,15
159,밤편지,밤편지,Palette,2017.04.21,2017-04-21,2017,04,0,발라드,이 밤 그날의 반딧불을 당신의 창 가까이 보낼게요음 사랑한다는 말 이에요나 우리의 ...,,"김희원,아이유,제휘",5505,33


In [45]:
df.to_csv('../data/data_preprocessed.csv')