# 데이터 전처리 과정 1 - 결측치 처리

> - 데이터를 본격적으로 분석하기 전 데이터 통계나 분포 등을 알아보기 쉽게 하기 위해서 결측치부터 처리하는 과정 진행

In [1]:
import pandas as pd

## 데이터 로드

In [2]:
data = pd.read_csv('circle_chart.csv')
data.head()

Unnamed: 0,date,Rank,Title,Artist,Production,Weekly Views,Genre,Runtime,New_Artist,ky_rank,n_score,g_score
0,2023-09-24,1,Love Lee,AKMU (악뮤),YG Entertainment,11929992.0,가요 / 댄스,3:00,악뮤,,94.32015,100.0
1,2023-09-24,2,후라이의 꿈,AKMU (악뮤),YG Entertainment,11929992.0,가요 / 블루스/포크,3:25,악뮤,,94.32015,100.0
2,2023-09-24,3,"Smoke (Prod. Dynamicduo, Padi)","다이나믹 듀오 (Dynamic Duo), 이영지",Stone Music Entertainment,4473459.0,가요 / 랩/힙합,3:30,"다이나믹 듀오 , 이영지",,,0.0
3,2023-09-24,4,Super Shy,NewJeans,ADOR,11655019.0,가요 / 댄스,2:35,뉴진스,,10.55509,6.0
4,2023-09-24,5,Seven (feat. Latto) - Clean Ver.,정국,BIGHIT MUSIC,4173726.0,가요 / 댄스,3:04,정국,,61.50958,45.0


## 결측치 파악

In [3]:
data.isnull().sum()

date                0
Rank                0
Title               0
Artist              0
Production          0
Weekly Views     2671
Genre               5
Runtime             5
New_Artist          0
ky_rank         10224
n_score           837
g_score            56
dtype: int64

## 결측치 처리

> #### Weekly Views(주간 유튜브 조회수) :   
> - 해당 주에 곡에 대한 유튜브 영상이 없거나 누락되어 발생된 것으로 추정  
> - 유튜브 영상이 없는 것으로 인식되었으므로 조회수를 그냥 0으로 일괄 적용

In [4]:
data['Weekly Views'] = data['Weekly Views'].fillna(0)
data['Weekly Views'].isnull().sum()

0

> #### Genre(장르), Runtime(곡 길이) :   
> - 결측치가 5개 밖에 되지 않으므로 직접 확인

In [5]:
data[data['Genre'].isnull()]

Unnamed: 0,date,Rank,Title,Artist,Production,Weekly Views,Genre,Runtime,New_Artist,ky_rank,n_score,g_score
2675,2023-12-17,156,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,,,싱어게인3 49호 가수,,26.65516,0
3130,2023-12-31,186,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,,,싱어게인3 49호 가수,,4.24843,0
3296,2024-01-07,145,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,,,싱어게인3 49호 가수,,26.61203,0
3503,2024-01-14,141,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,,,싱어게인3 49호 가수,,5.00323,0
3744,2024-01-21,169,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,,,싱어게인3 49호 가수,,,0


> - 확인 결과 Genre와 Runtime 결측치가 존재하는 5개 행이 동일하며, 모두 같은 곡을 나타내고 있음이 확인됨  
> - 지니 뮤직에서 해당 곡을 검색한 결과, Genre는 '가요 / R&B/소울'이고, Runtime은 '03:09'로 확인
> - 해당 정보를 수동으로 채워넣음

In [6]:
data['Genre'] = data['Genre'].fillna('가요 / R&B/소울')
data['Runtime'] = data['Runtime'].fillna('03:09')

In [7]:
data['Genre'].isna().sum()

0

In [8]:
data['Runtime'].isna().sum()

0

> - Genre, Runtime의 결측치 모두 정상적으로 제거됨

> #### Artist 정보 추가 수정
> - Genre, Runtime 결측치가 존재했던 행의 Artist가 '싱어게인3 49호 가수'라는 프로그램 닉네임으로 등록되어 있음

In [9]:
data[data['Artist'] == '싱어게인3 49호 가수']

Unnamed: 0,date,Rank,Title,Artist,Production,Weekly Views,Genre,Runtime,New_Artist,ky_rank,n_score,g_score
2675,2023-12-17,156,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,가요 / R&B/소울,03:09,싱어게인3 49호 가수,,26.65516,0
3130,2023-12-31,186,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,가요 / R&B/소울,03:09,싱어게인3 49호 가수,,4.24843,0
3296,2024-01-07,145,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,가요 / R&B/소울,03:09,싱어게인3 49호 가수,,26.61203,0
3503,2024-01-14,141,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,가요 / R&B/소울,03:09,싱어게인3 49호 가수,,5.00323,0
3744,2024-01-21,169,넌 쉽게 말했지만,싱어게인3 49호 가수,"SLL, 뮤직팜",0.0,가요 / R&B/소울,03:09,싱어게인3 49호 가수,,,0


> - 확인 결과 해당 프로그램 출연자는 소수빈이라고 하는 가수로, 수집된 데이터에도 포함되어 있는 가수

In [10]:
data[data['Artist'] == '소수빈']

Unnamed: 0,date,Rank,Title,Artist,Production,Weekly Views,Genre,Runtime,New_Artist,ky_rank,n_score,g_score
3262,2024-01-07,114,머물러주오 (Prod. 안신애 & Philtre),소수빈,"SLL, 뮤직팜",0.0,가요 / R&B/소울,4:10,소수빈,,52.51478,8.0
3343,2024-01-07,189,Try Again,소수빈,"SLL, 뮤직팜",0.0,가요 / 발라드,3:32,소수빈,,52.51478,8.0
3446,2024-01-14,90,머물러주오 (Prod. 안신애 & Philtre),소수빈,"SLL, 뮤직팜",0.0,가요 / R&B/소울,4:10,소수빈,,100.0,11.0
3545,2024-01-14,180,Try Again,소수빈,"SLL, 뮤직팜",0.0,가요 / 발라드,3:32,소수빈,,100.0,11.0
3691,2024-01-21,120,머물러주오 (Prod. 안신애 & Philtre),소수빈,"SLL, 뮤직팜",1586463.0,가요 / R&B/소울,4:10,소수빈,,28.34874,5.0
3717,2024-01-21,144,한번만 더,소수빈,"SLL, 뮤직팜",1586463.0,가요 / R&B/소울,4:17,소수빈,,28.34874,5.0
3958,2024-01-28,171,머물러주오 (Prod. 안신애 & Philtre),소수빈,"SLL, 뮤직팜",1637746.0,가요 / R&B/소울,4:10,소수빈,,14.80243,3.0
6193,2024-04-14,114,Last Chance,소수빈,소리날리,0.0,OST / 드라마,4:09,소수빈,,7.9637,2.0
6403,2024-04-21,118,Last Chance,소수빈,소리날리,0.0,OST / 드라마,4:09,소수빈,,7.32743,1.0
6625,2024-04-28,134,Last Chance,소수빈,소리날리,0.0,OST / 드라마,4:09,소수빈,,5.33982,1.0


> - 따라서 싱어게인 닉네임으로 저장된 Artist를 본명으로 바꿔주는 것이 좋을 것으로 판단되어 해당되는 Artist 컬럼 정보를 변경

In [11]:
data['Artist'] = data['Artist'].replace('싱어게인3 49호 가수', '소수빈')

> - 아래 코드를 주석 해제 후 실행해보면 Artist 칼럼에서 '싱어게인3 49호 가수'라는 값이 모두 없어져 KeyError가 출력되는 것을 확인 가능

In [12]:
# data[data['Artist'] == data['싱어게인3 49호 가수']]

> - 아래 코드를 실행해보면 Artist가 '싱어게인3 49호 가수'로 등록되어 있던 곡 컬럼들의 Artist가 '소수빈'으로 잘 변경된 것을 확인

In [13]:
data[data['Artist'] == '소수빈']

Unnamed: 0,date,Rank,Title,Artist,Production,Weekly Views,Genre,Runtime,New_Artist,ky_rank,n_score,g_score
2675,2023-12-17,156,넌 쉽게 말했지만,소수빈,"SLL, 뮤직팜",0.0,가요 / R&B/소울,03:09,싱어게인3 49호 가수,,26.65516,0.0
3130,2023-12-31,186,넌 쉽게 말했지만,소수빈,"SLL, 뮤직팜",0.0,가요 / R&B/소울,03:09,싱어게인3 49호 가수,,4.24843,0.0
3262,2024-01-07,114,머물러주오 (Prod. 안신애 & Philtre),소수빈,"SLL, 뮤직팜",0.0,가요 / R&B/소울,4:10,소수빈,,52.51478,8.0
3296,2024-01-07,145,넌 쉽게 말했지만,소수빈,"SLL, 뮤직팜",0.0,가요 / R&B/소울,03:09,싱어게인3 49호 가수,,26.61203,0.0
3343,2024-01-07,189,Try Again,소수빈,"SLL, 뮤직팜",0.0,가요 / 발라드,3:32,소수빈,,52.51478,8.0
3446,2024-01-14,90,머물러주오 (Prod. 안신애 & Philtre),소수빈,"SLL, 뮤직팜",0.0,가요 / R&B/소울,4:10,소수빈,,100.0,11.0
3503,2024-01-14,141,넌 쉽게 말했지만,소수빈,"SLL, 뮤직팜",0.0,가요 / R&B/소울,03:09,싱어게인3 49호 가수,,5.00323,0.0
3545,2024-01-14,180,Try Again,소수빈,"SLL, 뮤직팜",0.0,가요 / 발라드,3:32,소수빈,,100.0,11.0
3691,2024-01-21,120,머물러주오 (Prod. 안신애 & Philtre),소수빈,"SLL, 뮤직팜",1586463.0,가요 / R&B/소울,4:10,소수빈,,28.34874,5.0
3717,2024-01-21,144,한번만 더,소수빈,"SLL, 뮤직팜",1586463.0,가요 / R&B/소울,4:17,소수빈,,28.34874,5.0


> #### ky_rank(노래방 순위) :   
> - 노래방 순위는 결측치 비율이 매우 높음

In [14]:
print("전체 데이터 컬럼 수 :", len(data))
print("노래방 차트 결측된 컬럼 수 : ", data['ky_rank'].isnull().sum())

전체 데이터 컬럼 수 : 10682
노래방 차트 결측된 컬럼 수 :  10224


> - 10682개의 데이터 중 10224개의 데이터가 누락(차트 순위 100위권 밖)되어 있어 해당 정보를 정상적으로 사용하기 어려워보임
> - 그러나 노래방 차트에는 최근 발매된 인기있는 신곡이 올라오는 경우도 많아서 사용하기에 아예 부적합한 정보는 아님
> - 따라서 결측치가 포함된 노래방 순위(연속형 데이터) 컬럼 대신,  
> 노래방 차트에 포함되었는지의 여부만 판단하는 이진 분류 형식(범주형 데이터) 컬럼으로 변경하는 것이 좋을 것으로 추정
> - 즉, 노래방 차트 순위가 있으면 True, 없으면 False가 저장되는 파생변수를 별도로 생성

In [15]:
data['ky_chart_on'] = data['ky_rank'].notnull()
data['ky_chart_on'].value_counts()

ky_chart_on
False    10224
True       458
Name: count, dtype: int64

> - 노래방 차트 순위가 결측된 행 9799개는 False로, 차트 순위가 존재하는 나머지 행 401개는 True로 저장됨

In [16]:
data = data.drop('ky_rank', axis=1)
data.head()

Unnamed: 0,date,Rank,Title,Artist,Production,Weekly Views,Genre,Runtime,New_Artist,n_score,g_score,ky_chart_on
0,2023-09-24,1,Love Lee,AKMU (악뮤),YG Entertainment,11929992.0,가요 / 댄스,3:00,악뮤,94.32015,100.0,False
1,2023-09-24,2,후라이의 꿈,AKMU (악뮤),YG Entertainment,11929992.0,가요 / 블루스/포크,3:25,악뮤,94.32015,100.0,False
2,2023-09-24,3,"Smoke (Prod. Dynamicduo, Padi)","다이나믹 듀오 (Dynamic Duo), 이영지",Stone Music Entertainment,4473459.0,가요 / 랩/힙합,3:30,"다이나믹 듀오 , 이영지",,0.0,False
3,2023-09-24,4,Super Shy,NewJeans,ADOR,11655019.0,가요 / 댄스,2:35,뉴진스,10.55509,6.0,False
4,2023-09-24,5,Seven (feat. Latto) - Clean Ver.,정국,BIGHIT MUSIC,4173726.0,가요 / 댄스,3:04,정국,61.50958,45.0,False


> - 기존 ky_rank 컬럼은 제거

> #### n_score(네이버 트랜드 지수) :   
> - 해당 주에 곡에 대한 네이버 트랜드 지수가 확인되지 않은 것으로 추정 
> - 네이버 트랜드 지수는 그냥 0으로 일괄 적용

In [17]:
data[data['n_score'].isnull()].head()

Unnamed: 0,date,Rank,Title,Artist,Production,Weekly Views,Genre,Runtime,New_Artist,n_score,g_score,ky_chart_on
2,2023-09-24,3,"Smoke (Prod. Dynamicduo, Padi)","다이나믹 듀오 (Dynamic Duo), 이영지",Stone Music Entertainment,4473459.0,가요 / 랩/힙합,3:30,"다이나믹 듀오 , 이영지",,0.0,False
56,2023-09-24,55,Stay,"The Kid LAROI, Justin Bieber",Columbia,0.0,POP / 팝,2:22,"The Kid LAROI, 저스틴 비버",,0.0,False
58,2023-09-24,57,다정히 내 이름을 부르면,"경서예지, 전건호",에버그로우,1586369.0,가요 / 발라드,3:51,"경서예지, 전건호",,0.0,False
73,2023-09-24,71,미친 사랑의 노래,"김연지, DK",방구석 캐스팅,0.0,가요 / 발라드,3:44,"김연지, 디케이",,26.0,False
99,2023-09-24,96,Dreamers (Feat. FIFA Sound),"정국, 방탄소년단",Katara Studios | 2101 Records under exclusive ...,4173726.0,POP / 월드뮤직,3:21,"정국, 방탄소년단",,0.0,False


In [18]:
data['n_score'].isnull().sum()

837

In [19]:
data['n_score'] = data['n_score'].fillna(0)
data['n_score'].isnull().sum()

0

> #### g_score(구글 트랜드 지수) :   
> - 해당 주에 곡에 대한 구글 트랜드 지수가 확인되지 않은 것으로 추정 
> - 먼저 g_score에 결측치와 문자열 'none'이 혼재되어 있으므로 문자열 'none'을 모두 nan값으로 변경

In [20]:
data['g_score'][data['g_score'] == 'none'].value_counts().sum()

89

In [21]:
data['g_score'].isnull().sum()

56

In [22]:
import numpy as np
data['g_score'] = data['g_score'].replace('none', np.nan)

> - 모두 대체되었는지 확인

In [23]:
data['g_score'][data['g_score'] == 'none'].value_counts().sum()

0

In [24]:
data['g_score'].isnull().sum()

145

In [25]:
data['g_score'] = data['g_score'].astype(float)

> - 마찬가지로 구글 트랜드 지수는 그냥 0으로 일괄 적용

In [26]:
data['g_score'] = data['g_score'].fillna(0)
data['g_score'].isnull().sum()

0

## 최종 확인 및 파일 추출

In [27]:
data.isnull().sum()

date            0
Rank            0
Title           0
Artist          0
Production      0
Weekly Views    0
Genre           0
Runtime         0
New_Artist      0
n_score         0
g_score         0
ky_chart_on     0
dtype: int64

> - 결측치가 모두 정상적으로 제거된 것을 확인

In [28]:
data.to_csv("circle_chart_removed_na.csv")

> - 결측치가 제거된 상태의 데이터를 CSV 파일로 저장함