# EDA의 기초
EDA는 전처리 단계에서 정제된 데이터를 받아 분석하고 피처 엔지니어링(feature enginnering)으로 넘겨 주는 역할입니다만 전처리의 일부는 EDA를 진행해야 할 수 있고 피처 엔지니어링 역시 EDA와 혼재되어있기 때문에 실은 명확하게 구분되는 과정은 아닙니다.

이번 풀잎에서 전처리는 주로 이상치와 결측값 처리 등을 주로 살펴볼 예정이며 EDA의 기본이라고 할 수 있는 기초 통계량을 확인하는 것부터 데이터의 특징(feature)를 찾아내는 과정까지 함께 공부해보도록 하겠습니다.

여기서 기초 통계량이란 데이터의 가장 기본적인 특징인 평균, 분산, 편차 등을 일컷지만 경우에 따라선 다섯 수치 요약, 왜도, 첨도 등을 포함하기도 합니다.

본 수업에서는 Fundamental 9. 다양한 데이터 전처리 기법에서 소개된 캐글 Video Game Sales 데이터의 일부를 변형한 데이터를 사용합니다.

In [60]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import norm
from sklearn.preprocessing import StandardScaler
from scipy import stats
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [61]:
df = pd.read_csv('./data/vgsales_lecture.csv')

## Unit 1. 데이터 살펴보기

이번 풀잎에서는 판다스 시리즈 / 데이터프레임을 이용하도록 하겠습니다.

판다스는 여러가지 함수를 제공하며 데이터 조작 및 EDA를 빠르고 손쉽게 진행할 수 있도록 도와주는 도구입니다.

아래서는 몇가지 함수를 통해 살펴보도록 하겠습니다.

### 방법 1. df.info()

info 함수는 총 데이터 수와 데이터 타입에 대한 정보를 제공합니다.

아래에서 조금 더 살펴보도록 하겠습니다.

In [62]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          16598 non-null  int64  
 1   Name          16598 non-null  object 
 2   Platform      16598 non-null  object 
 3   Year          16327 non-null  object 
 4   Genre         16598 non-null  object 
 5   Publisher     16335 non-null  object 
 6   NA_Sales      12099 non-null  float64
 7   EU_Sales      10870 non-null  float64
 8   JP_Sales      6141 non-null   float64
 9   Other_Sales   10123 non-null  float64
 10  Global_Sales  16596 non-null  float64
dtypes: float64(5), int64(1), object(5)
memory usage: 1.4+ MB


### 방법 2. df.head()

앞으로 주구장창 보게되실 head 함수는 데이터량이 많을때 앞의 몇개만 골라서 볼 수 있는 함수입니다.

반대로 뒤에서 뽑아오는 tail이란 함수도 있습니다.

In [63]:
df.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


### 방법 3. series.unique()

unique 함수는 함수 이름처럼 중복값을 제하고 남은 것들만 보여줍니다.

시리즈에서 사용하는 함수로 데이터 프레임에선 nunique() 함수를 사용해줄 수 있지만 갯수만을 카운트해줍니다.

In [64]:
df.nunique()

Rank            16598
Name            11493
Platform           33
Year               40
Genre              14
Publisher         577
NA_Sales          408
EU_Sales          304
JP_Sales          243
Other_Sales       156
Global_Sales      623
dtype: int64

In [65]:
df["Platform"].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       '3DS', 'PS4', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne', 'GC',
       'WiiU', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '2007', '3DO', 'GG', '2010', 'PCFX'], dtype=object)

In [66]:
# 아래와 같은 오류가 발생하는 것은 당연한 일입니다.
# df.unique()

### 방법 4. df.describe()

마지막으로 describe는 요약 통계를 한 번에 보여줍니다.

describe 역시 여러가지 파라미터가 있지만 해당 부분은 판다스 문서를 참조해주세요.

In [67]:
df.describe()

Unnamed: 0,Rank,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
count,16598.0,12099.0,10870.0,6141.0,10123.0,16596.0
mean,8300.605254,0.363084,0.223942,0.21021,0.078818,0.537498
std,4791.853933,0.937693,0.610455,0.480352,0.236416,1.555113
min,1.0,0.01,0.01,0.01,0.01,0.01
25%,4151.25,0.06,0.02,0.03,0.01,0.06
50%,8300.5,0.14,0.07,0.07,0.03,0.17
75%,12449.75,0.35,0.2,0.19,0.07,0.47
max,16600.0,41.49,29.02,10.22,10.57,82.74


### 조별학습 1

판다스 문서의 주소는 아래와 같습니다.

https://pandas.pydata.org/docs/reference/index.html

우측 목록에서 dataframe 혹은 series을 열어보면 수많은 함수들이 있을 것입니다.

❗(조별학습)지금부터는 조별로 위의 describe 함수 결과값을 하나씩 어떤 코드를 통해 구현해낼 수 있을지 고민해봅시다.

## Unit 2. 이상치와 결측치 탐색


그럼 이번엔 이상치를 탐색해 보도록 하겠습니다.

일반적인 경우 값이 매우 크거나 매우 작은 경우를 의미하기 때문에 그래프를 통해, 혹은  z-score 등을 통해서 찾아내는 것이 일반적이지만 연도의 경우 값의 종류 자체가 많지 않기 때문에 한 번 데이터를 뽑아보겠습니다.

In [68]:
df["Year"].unique()

array(['2006', '1985', '2008', '2009', '1996', '1989', '1984', '2005',
       '1999', '2007', '2010', '2013', '2004', '1990', '1988', '2002',
       '2001', '2011', '1998', '2015', '2012', '2014', '1992', '1997',
       '1993', '1994', '1982', '2003', '1986', '2000', nan, '1995',
       '2016', '1991', '1981', '1987', '1980', '1983', '2020',
       'Adventure', '2017'], dtype=object)

In [80]:
(df[df['Genre'] == 'Sports']) and (df[df['Year'].isnull()])

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
179,180,Madden NFL 2004,PS2,,Sports,Electronic Arts,4.26,0.26,0.01,0.71,5.23
377,378,FIFA Soccer 2004,PS2,,Sports,Electronic Arts,0.59,2.36,0.04,0.51,3.49
431,432,LEGO Batman: The Videogame,Wii,,Action,Warner Bros. Interactive Entertainment,1.86,1.02,,0.29,3.17
470,471,wwe Smackdown vs. Raw 2006,PS2,,Fighting,,1.57,1.02,,0.41,3.00
607,608,Space Invaders,2600,,Shooter,Atari,2.36,0.14,,0.03,2.53
...,...,...,...,...,...,...,...,...,...,...,...
16307,16310,Freaky Flyers,GC,,Racing,,0.01,,,,0.01
16327,16330,Inversion,PC,,Shooter,Namco Bandai Games,0.01,,,,0.01
16366,16369,Hakuouki: Shinsengumi Kitan,PS3,,Adventure,,0.01,,,,0.01
16427,16430,Virtua Quest,GC,,Role-Playing,,0.01,,,,0.01


In [71]:
df[df["Year"]=="Adventure"]

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales


Platform에는 연도가, Year에는 장르가, 장르에는 플랫폼이 적혀있습니다.

전형적인 휴먼에러로군요. 자연상의 데이터도 아닌 정제된 데이터에도 오류(노이즈)가 존재합니다.

다행히 그 이외엔 특별히 이상치가 눈에 보이진 않습니다.

이상치는 간단하게 drop함수를 통해 지워버릴 수도 있지만 이번에는 비교적 간단한 에러였기 때문에 직접 수정하도록 하겠습니다.

In [19]:
# 이 코드는 바로 적용해서 바꾸기 때문에 여러번 실행하면 계속 바뀌게 됩니다. 적용후에는 주석처리 해주세요

df.iloc[11593, [2, 3, 4]] = list(df.iloc[11593, [4, 2, 3]])
df.iloc[13538, [2, 3, 4]] = list(df.iloc[13538, [4, 2, 3]])

In [20]:
df.iloc[11593]

Rank                                                        11595
Name            Boku no Natsuyasumi 3: Hokkoku Hen: Chiisana B...
Platform                              Sony Computer Entertainment
Year                                                         2007
Genre                                                   Adventure
Publisher                                                     NaN
NA_Sales                                                      NaN
EU_Sales                                                     0.08
JP_Sales                                                      NaN
Other_Sales                                                  0.08
Global_Sales                                                  NaN
Name: 11593, dtype: object

그럼 계속해서 nan, 결측치에 대해서 살펴보도록 하겠습니다.

In [21]:
df[df[["Year"]].isnull().any(axis=1)].head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
179,180,Madden NFL 2004,PS2,,Sports,Electronic Arts,4.26,0.26,0.01,0.71,5.23
377,378,FIFA Soccer 2004,PS2,,Sports,Electronic Arts,0.59,2.36,0.04,0.51,3.49
431,432,LEGO Batman: The Videogame,Wii,,Action,Warner Bros. Interactive Entertainment,1.86,1.02,,0.29,3.17
470,471,wwe Smackdown vs. Raw 2006,PS2,,Fighting,,1.57,1.02,,0.41,3.0
607,608,Space Invaders,2600,,Shooter,Atari,2.36,0.14,,0.03,2.53


위키 백과에 따르면 가장 먼저 나오는 Madden NFL 2004는 2003년 Game Boy Advance, GameCube, Microsoft Windows, PlayStation, PlayStation 2, Xbox를 통해 발매되었다고 합니다.

https://en.wikipedia.org/wiki/Madden_NFL_2004

In [22]:
df.iloc[179]

Rank                        180
Name            Madden NFL 2004
Platform                    PS2
Year                        NaN
Genre                    Sports
Publisher       Electronic Arts
NA_Sales                   4.26
EU_Sales                   0.26
JP_Sales                   0.01
Other_Sales                0.71
Global_Sales               5.23
Name: 179, dtype: object

In [23]:
df.iloc[179, 3] = 2003
df.iloc[179]

Rank                        180
Name            Madden NFL 2004
Platform                    PS2
Year                       2003
Genre                    Sports
Publisher       Electronic Arts
NA_Sales                   4.26
EU_Sales                   0.26
JP_Sales                   0.01
Other_Sales                0.71
Global_Sales               5.23
Name: 179, dtype: object

### 조별학습 2

우리가 원하는대로 바뀌었습니다. 그런데 생각해보면 야구나 축구 게임 제목에 연도가 붙는 경우가 많은 것 같습니다.

마침 그 아래 항목을 보니 FIFA Soccer 2004의 경우도 2003년 발매가 되었습니다. 스포츠 게임 타이틀에 연도가 붙은 경우 해당 연도 -1을 적용하면 하나하나 찾아보지 않고 결측치를 채워넣을 수 있을 것 같습니다.

❗(조별학습)어떻게 하면 해당 결측치를 채워넣을 수 있을까요?

원본 데이터 프레임에 적용하기 전에 "Year" 컬럼이 NaN인 행만 뽑은 df_temp를 만들어 실습해봅시다.

Hint. apply 함수를 이용해서 한 번에 처리 할 수도 있을 것 같습니다.

In [24]:
# Pandas 사용이 낯설다면 좀 더 작은 데이터를 가지고 다뤄봐도 좋을 것입니다. 아래 코드는 Sports 장르만을 골라내는 코드입니다.

# 결측치만 모아서 보기
# df_temp = df[df[["Year"]].isnull().any(axis=1)][df["Genre"] == "Sports"]

# 50개만 사용해보기
# df_temp = df[df["Genre"] == "Sports"].iloc[:50]

df_temp = df[df["Genre"] == "Sports"]
df_temp.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
13,14,Wii Fit,Wii,2007,Sports,Nintendo,8.94,8.03,3.6,2.15,22.72
14,15,Wii Fit Plus,Wii,2009,Sports,Nintendo,9.09,8.59,2.53,1.79,22.0
77,78,FIFA 16,PS4,2015,Sports,Electronic Arts,1.11,6.06,0.06,1.26,8.49


In [55]:
df_temp.Year = df_temp.Year.astype(int)

ValueError: cannot convert float NaN to integer

### Hint(반드시 토의 후에 열어보세요)

In [25]:
# Hint

def year_function(row):
    if row[4] == "Sports":
        text = row[1].split()[-1]
        if text.isdigit() and (1960 <= int(text) <= 2022):
            return str(int(text) - 1)
        else:
            return row[3]
    else:
        return row[3]

df_temp["Year"] = df_temp.apply(year_function, axis = 1)

In [26]:
df_temp.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
13,14,Wii Fit,Wii,2007,Sports,Nintendo,8.94,8.03,3.6,2.15,22.72
14,15,Wii Fit Plus,Wii,2009,Sports,Nintendo,9.09,8.59,2.53,1.79,22.0
77,78,FIFA 16,PS4,2015,Sports,Electronic Arts,1.11,6.06,0.06,1.26,8.49


In [27]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2346 entries, 0 to 16587
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          2346 non-null   int64  
 1   Name          2346 non-null   object 
 2   Platform      2346 non-null   object 
 3   Year          2315 non-null   object 
 4   Genre         2346 non-null   object 
 5   Publisher     2317 non-null   object 
 6   NA_Sales      1852 non-null   float64
 7   EU_Sales      1573 non-null   float64
 8   JP_Sales      600 non-null    float64
 9   Other_Sales   1588 non-null   float64
 10  Global_Sales  2346 non-null   float64
dtypes: float64(5), int64(1), object(5)
memory usage: 219.9+ KB


제 코드대로라면 10개의 "Year"값이 추가될겁니다!

### 조별학습 3

다들 잘 해내셨으리라 생각합니다!

저 같은 경우 Triple Play 99처럼 맨 뒤 두글자만 표기하는 부분을 빠뜨렸군요!

그 외에도 20-03 이라던가 2K8 같이 생각지도 못한 표기들이 있었습니다.

다들 저보다 더 많은 경우에 대해서 고민해보셨으리라 기대합니다.

만일 연도가 없는 경우는 어떻게 할까요?

실은 제목을 통해서 찾아내는 것 보다 더 확실한 방법이 있습니다.

눈치채신 분들도 계시겠지만 이 데이터는 같은 게임이라도 발매된 플랫폼에 따라서 통계가 따로 잡혀있습니다. 운이 좋다면 다른 플랫폼에서 발매된 같은 게임의 통계자료에서 유의미한 자료를 찾아낼지도 모릅니다.

❗(조별학습)"Year" 컬럼이 빈 데이터 중 다른 플랫폼에서 발매된 데이터에 "Year"값이 있을 경우 이 값으로 결측치를 채워봅시다.

### Hint(반드시 토의 후에 열어보세요)

In [28]:
df_sorted = df.sort_values(by = [df.columns[1], df.columns[3]], ascending = False, na_position = "first")
df_sorted.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
9135,9137,¡Shin Chan Flipa en colores!,DS,2007.0,Platform,505 Games,,,0.14,,0.14
470,471,wwe Smackdown vs. Raw 2006,PS2,,Fighting,,1.57,1.02,,0.41,3.0
7835,7837,uDraw Studio: Instant Artist,Wii,2011.0,Misc,THQ,0.08,0.09,,0.02,0.19
15523,15526,uDraw Studio: Instant Artist,X360,2011.0,Misc,THQ,0.01,0.01,,,0.02
627,628,uDraw Studio,Wii,2010.0,Misc,THQ,1.67,0.58,,0.2,2.46


위 목록에선 보이지 않지만 na_position 인자를 first(default는 last)로 주게 되면 Nan 값을 제일 위로 올려줍니다. 저는 이 성질을 이용해 Null 값을 찾도록 하겠습니다.

In [29]:
df_sorted[df_sorted["Name"] == "Madden NFL 07"]

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
2484,2486,Madden NFL 07,PSP,,Sports,,0.77,0.03,,0.04,0.83
240,241,Madden NFL 07,PS2,2006.0,Sports,Electronic Arts,3.63,0.24,0.01,0.61,4.49
964,966,Madden NFL 07,X360,2006.0,Sports,Electronic Arts,1.66,,0.01,0.13,1.8
2037,2039,Madden NFL 07,XB,2006.0,Sports,Electronic Arts,0.97,0.03,,0.03,1.02
3246,3248,Madden NFL 07,GC,2006.0,Sports,Electronic Arts,0.48,0.13,,0.02,0.62
3862,3864,Madden NFL 07,PS3,2006.0,Sports,Electronic Arts,0.47,,0.01,0.04,0.52
3975,3977,Madden NFL 07,Wii,2006.0,Sports,Electronic Arts,0.46,,,0.04,0.5
7277,7279,Madden NFL 07,DS,2006.0,Sports,Electronic Arts,0.2,,,0.02,0.22
14814,14817,Madden NFL 07,GBA,2006.0,Sports,Electronic Arts,0.02,0.01,,,0.03


In [30]:
def general_year_function(row):
    if str(row[3]) == "nan":
        text = str(df_sorted[df_sorted["Name"] == row[1]].iloc[-1][3])
        if text.isdigit():
            return df_sorted[df_sorted["Name"] == row[1]].iloc[-1][3]
    else:
        return row[3]

In [31]:
df_sorted["Year"] = df_sorted.apply(general_year_function, axis = 1)
df_sorted[df_sorted["Name"] == "Madden NFL 07"]

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
2484,2486,Madden NFL 07,PSP,2006,Sports,,0.77,0.03,,0.04,0.83
240,241,Madden NFL 07,PS2,2006,Sports,Electronic Arts,3.63,0.24,0.01,0.61,4.49
964,966,Madden NFL 07,X360,2006,Sports,Electronic Arts,1.66,,0.01,0.13,1.8
2037,2039,Madden NFL 07,XB,2006,Sports,Electronic Arts,0.97,0.03,,0.03,1.02
3246,3248,Madden NFL 07,GC,2006,Sports,Electronic Arts,0.48,0.13,,0.02,0.62
3862,3864,Madden NFL 07,PS3,2006,Sports,Electronic Arts,0.47,,0.01,0.04,0.52
3975,3977,Madden NFL 07,Wii,2006,Sports,Electronic Arts,0.46,,,0.04,0.5
7277,7279,Madden NFL 07,DS,2006,Sports,Electronic Arts,0.2,,,0.02,0.22
14814,14817,Madden NFL 07,GBA,2006,Sports,Electronic Arts,0.02,0.01,,,0.03


In [32]:
df_sorted.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16598 entries, 9135 to 4754
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          16598 non-null  int64  
 1   Name          16598 non-null  object 
 2   Platform      16598 non-null  object 
 3   Year          16451 non-null  object 
 4   Genre         16598 non-null  object 
 5   Publisher     16335 non-null  object 
 6   NA_Sales      12099 non-null  float64
 7   EU_Sales      10870 non-null  float64
 8   JP_Sales      6141 non-null   float64
 9   Other_Sales   10123 non-null  float64
 10  Global_Sales  16596 non-null  float64
dtypes: float64(5), int64(1), object(5)
memory usage: 1.5+ MB


내친김에 아까 만들어둔 year_function도 적용해봅시다.

단, 이미 처리된 데이터가 있기 때문에 처음에 했던 것과 달리 큰 효과는 없을 수 있습니다.

In [33]:
df_sorted["Year"] = df_sorted.apply(year_function, axis = 1)

In [34]:
df_sorted.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16598 entries, 9135 to 4754
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          16598 non-null  int64  
 1   Name          16598 non-null  object 
 2   Platform      16598 non-null  object 
 3   Year          16455 non-null  object 
 4   Genre         16598 non-null  object 
 5   Publisher     16335 non-null  object 
 6   NA_Sales      12099 non-null  float64
 7   EU_Sales      10870 non-null  float64
 8   JP_Sales      6141 non-null   float64
 9   Other_Sales   10123 non-null  float64
 10  Global_Sales  16596 non-null  float64
dtypes: float64(5), int64(1), object(5)
memory usage: 1.5+ MB


여러분의 결과물은 어떠신가요? 짧은 시간에 만든 것 치고는 제법 잘 채워진 것 같네요.

저는 아래 코드를 통해 원본 데이터에 적용해 두겠습니다.

In [35]:
df = df_sorted.sort_index(ascending = False)
df.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
16597,16600,Spirits & Spells,GBA,2003,Platform,Wanadoo,0.01,,,,0.01
16596,16599,Know How 2,DS,2010,Puzzle,7G//AMES,,0.01,,,0.01
16595,16598,SCORE International Baja 1000: The Official Game,PS2,2008,Racing,Activision,,,,,0.01
16594,16597,Men in Black II: Alien Escape,GC,2003,Shooter,Infogrames,0.01,,,,0.01
16593,16596,Woody Woodpecker in Crazy Castle 5,GBA,2002,Platform,Kemco,0.01,,,,0.01


### 조별 학습 4

남은 "Year" 컬럼은 어떻게 채울 수 있을까요?

이제 남은 수가 많지 않기 때문에 일일히 검색할 수도 있겠지만 10만개, 100만개짜리 데이터를 다룬다고 생각하고 방법을 논의해 봅시다.

## Unit 3. 판매량을 채워보자!

사실 어떻게 보면 연도에 있던 결측치는 큰 문제가 아니었을지도 모릅니다. 수도 적고 범위 역시 좁았기 때문이죠.

이번 유닛에서는 판매량에 있는 수많은 결측치를 채워보도록 하겠습니다.

그 중에서도 가장 일반적이면서도 많이 사용하는 방법들에 대해서 살펴보도록 하겠습니다.

### 방법 1. pd.drop()
단순히 행 혹은 열을 제거하는 방법입니다.

예를 들어서 JP_sales의 경우 절반 이상이 결측치(본래는 0으로 기록)으로 비디오 게임이 일본에서 갖는 인기를 생각해볼때 6000여개의 데이터는 조금 이상합니다.

이런 경우 JP_sales 데이터 자체의 신뢰도가 낮기 때문에 아예 배제하는 것을 고려해볼 수 있습니다.

In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16598 entries, 16597 to 0
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          16598 non-null  int64  
 1   Name          16598 non-null  object 
 2   Platform      16598 non-null  object 
 3   Year          16455 non-null  object 
 4   Genre         16598 non-null  object 
 5   Publisher     16335 non-null  object 
 6   NA_Sales      12099 non-null  float64
 7   EU_Sales      10870 non-null  float64
 8   JP_Sales      6141 non-null   float64
 9   Other_Sales   10123 non-null  float64
 10  Global_Sales  16596 non-null  float64
dtypes: float64(5), int64(1), object(5)
memory usage: 1.5+ MB


이렇게 데이터에 결측치가 너무 많은 경우 JP_Sales 컬럼 자체를 제거하는 것도 고려해볼만 할 것 같습니다.

In [37]:
# inplace = False(default값)일 경우 원본에 적용되지 않기 때문에 아래 코드를 적용하기 위해서 주석과 같이 작성해야합니다.

# df = df.drop(columns = "JP_Sales", axis = 1)

df.drop(columns = "JP_Sales", axis = 1)

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,Other_Sales,Global_Sales
16597,16600,Spirits & Spells,GBA,2003,Platform,Wanadoo,0.01,,,0.01
16596,16599,Know How 2,DS,2010,Puzzle,7G//AMES,,0.01,,0.01
16595,16598,SCORE International Baja 1000: The Official Game,PS2,2008,Racing,Activision,,,,0.01
16594,16597,Men in Black II: Alien Escape,GC,2003,Shooter,Infogrames,0.01,,,0.01
16593,16596,Woody Woodpecker in Crazy Castle 5,GBA,2002,Platform,Kemco,0.01,,,0.01
...,...,...,...,...,...,...,...,...,...,...
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,11.27,8.89,1.00,31.37
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,2.96,33.00
2,3,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.31,35.82
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,0.77,40.24


이 방법을 사용하니 Global_Sales의 값을 수정할 필요가 있어보입니다.

하지만 그 전에 16595번이 제 눈에 띄는군요.(Global_Sales의 값을 수정하는 것은 숙제로 남겨두겠습니다.)

NA, EU, 기타 지역에서 판매된 데이터가 없는데 global만? 아마도 일본에서만 팔렸던 데이터가 삭제되면서 문제가 된 모양입니다.

global 판매량이 너무 낮은 경우 결측치도 너무 많고 데이터에 의미도 적을 것 같다는 생각이 드는군요. 어느정도 판매가 된 게임만을 골라보겠습니다.

다만 이 경우는 굳이 drop을 사용하지 않아도 괜찮습니다만 조금 복잡한 경우 여러번의 drop을 통해 원하는 결과만을 남기는 방법도 좋습니다.

In [38]:
df[df["Global_Sales"] >= 1]

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
2080,2082,Jampack Winter 2000,PS,2000,Misc,Sony Computer Entertainment,0.55,0.38,,0.07,1.00
2079,2081,Puzzler Collection,DS,2008,Puzzle,Ubisoft,0.17,0.78,,0.04,1.00
2078,2080,Dark Souls,X360,2011,Role-Playing,Namco Bandai Games,0.64,0.28,,0.08,1.00
2077,2079,Disney Infinity,PS3,2013,Action,Disney Interactive Studios,0.48,0.35,,0.16,1.00
2076,2078,Wheel of Fortune,Wii,2010,Misc,THQ,0.89,0.04,,0.06,1.00
...,...,...,...,...,...,...,...,...,...,...,...
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
2,3,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24


### 방법 2. df.dropna()

dropna는 결측치를 기준으로 행이나 열을 삭제하는 방법입니다.
결측치가 포함되어있으면 삭제할 수도 있고 혹은 조건등을 다는 방법도 있습니다.

dropna의 경우 많이 사용하기 때문에 파라미터에 대해서 간단하게 짚고 넘어가겠습니다.

### axis(default 값은 0입니다)
>0, or 'index' : 결측값이 있는 행(가로)을 제거합니다.
>
>1, or 'columns' : 결측값이 있는 열(세로)을 제거합니다.

### how(default 값은 'any'입니다)
>'any' : 결측치가 하나라도 있으면 해당 열/행을 제거합니다.
>
>'all' : 모든 항목이 결측치일때 해당 열/행을 제거합니다.

### threshint
> int : 행/열 중 value가 있는 칸의 갯수가 int개 미만인 행/열을 제거합니다.

### subset
> colomns or lows : 선택한 행/열들에 한해서 위 조건들을 적용합니다.

In [39]:
# default 값인 axis = 0, how = 'any'

df.dropna()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
13281,13283,Smash Court Tennis 3,PSP,2007,Sports,Namco Bandai Games,0.01,0.01,0.01,0.01,0.05
13000,13002,Natural Doctrine,PS3,2014,Role-Playing,Nippon Ichi Software,0.03,0.01,0.01,0.01,0.05
12488,12490,Odin Sphere: Leifthrasir,PS3,2016,Role-Playing,Nippon Ichi Software,0.01,0.02,0.03,0.01,0.06
12012,12014,Guilty Gear Xrd -Revelator-,PS3,2016,Fighting,PQube,0.01,0.02,0.02,0.01,0.07
11896,11898,Grand Kingdom,PSV,2015,Role-Playing,Nippon Ichi Software,0.01,0.02,0.04,0.01,0.07
...,...,...,...,...,...,...,...,...,...,...,...
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
2,3,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24


In [40]:
df.dropna().info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2368 entries, 13281 to 0
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          2368 non-null   int64  
 1   Name          2368 non-null   object 
 2   Platform      2368 non-null   object 
 3   Year          2368 non-null   object 
 4   Genre         2368 non-null   object 
 5   Publisher     2368 non-null   object 
 6   NA_Sales      2368 non-null   float64
 7   EU_Sales      2368 non-null   float64
 8   JP_Sales      2368 non-null   float64
 9   Other_Sales   2368 non-null   float64
 10  Global_Sales  2368 non-null   float64
dtypes: float64(5), int64(1), object(5)
memory usage: 222.0+ KB


결측치가 하나도 없는 데이터 셋을 만들어냈습니다만 너무 많은 데이터가 잘린 것 같습니다.

이번엔 적당한 조건을 달아보도록 하겠습니다.

In [41]:
df.dropna(thresh = 3, subset = ["NA_Sales", "EU_Sales", "JP_Sales", "Other_Sales"])

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
14301,14304,Metroid Prime: Federation Force,3DS,2016,Action,Nintendo,0.02,0.01,0.01,,0.03
14299,14302,Men of War,PC,2009,Strategy,505 Games,0.01,0.02,,0.01,0.03
14267,14270,Mystery Case Files: Ravenhearst,PC,2007,Puzzle,Focus Home Interactive,0.01,0.02,,0.01,0.03
14185,14187,Sacra Terra: Angelic Night,PC,2011,Puzzle,Avanquest,0.01,0.02,,0.01,0.03
14183,14185,MX vs. ATV Supercross,PS3,2014,Racing,Nordic Games,0.02,0.01,,0.01,0.03
...,...,...,...,...,...,...,...,...,...,...,...
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
2,3,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24


이 경우 작은 단위에서 숫자가 안 맞는 것이 거슬리는군요.

이전에 했던 방법을 응용해 보겠습니다.

In [42]:
df.dropna(thresh = 3, subset = ["NA_Sales", "EU_Sales", "JP_Sales", "Other_Sales"])[df["Global_Sales"] >= 1]

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
2080,2082,Jampack Winter 2000,PS,2000,Misc,Sony Computer Entertainment,0.55,0.38,,0.07,1.00
2079,2081,Puzzler Collection,DS,2008,Puzzle,Ubisoft,0.17,0.78,,0.04,1.00
2078,2080,Dark Souls,X360,2011,Role-Playing,Namco Bandai Games,0.64,0.28,,0.08,1.00
2077,2079,Disney Infinity,PS3,2013,Action,Disney Interactive Studios,0.48,0.35,,0.16,1.00
2076,2078,Wheel of Fortune,Wii,2010,Misc,THQ,0.89,0.04,,0.06,1.00
...,...,...,...,...,...,...,...,...,...,...,...
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
2,3,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24


### 방법 3. df.fillna()

결측치를 버리자니 데이터가 조금밖에 남지 않고 남겨두자니 눈에 가시로군요.

그렇다면 채우는 것은 어떨까요?

fillna는 결측치를 채우는 방법 중 가장 쉬운 방법 중 하나입니다.

제 생각엔 퍼블리셔는 종류도 너무 많은데다 딱히 중요할 것 같지 않네요. 퍼블리셔에 있는 결측치는 Unknown으로 채우겠습니다.

또 판매량 데이터를 보니 주로 적게 팔린 경우에 결측치가 많다는 것은 혹시 아예 안 팔린 것은 아닐까요? 판매량의 결측치는 0으로 주도록 하겠습니다.

In [43]:
value = {"Publisher" : "Unknown", "NA_Sales" : 0, "EU_Sales" : 0, "JP_Sales" : 0, "Other_Sales" : 0}
df.fillna(value = value)

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
16597,16600,Spirits & Spells,GBA,2003,Platform,Wanadoo,0.01,0.00,0.00,0.00,0.01
16596,16599,Know How 2,DS,2010,Puzzle,7G//AMES,0.00,0.01,0.00,0.00,0.01
16595,16598,SCORE International Baja 1000: The Official Game,PS2,2008,Racing,Activision,0.00,0.00,0.00,0.00,0.01
16594,16597,Men in Black II: Alien Escape,GC,2003,Shooter,Infogrames,0.01,0.00,0.00,0.00,0.01
16593,16596,Woody Woodpecker in Crazy Castle 5,GBA,2002,Platform,Kemco,0.01,0.00,0.00,0.00,0.01
...,...,...,...,...,...,...,...,...,...,...,...
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
2,3,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24


### 조별학습 5

이처럼 결측치에 문자나 숫자를 정해서 집어넣어줄 수 있습니다.

당연히 그 숫자는 데이터의 평균값과 같은 통계값에서 가져올 수도 있겠죠.

혹은 method 파라미터에 'backfill'이나 'ffill' 등의 파라미터를 주면 다음에 나오는 첫번째 유효값으로 채우거나 이전에 나온 마지막 유효값으로 채울 수도 있습니다.

다만 이 방법은 이 데이터 셋에선 크게 유용해보이지 않는데 여러분들은 어떻게 생각하시나요? 잠시 생각해봅시다.

❗(생각해보기) 여기에도 써볼만 할까요? 그 이유는 무엇인가요?
혹은 별로일 것 같나요? 그렇다면 어떤 데이터에서 쓸만할까요?