# 결측치 정제

## #01. 작업 준비

### 패키지 가져오기

`scikit-learn` 패키지의 설치가 필요하다.

In [1]:
from pandas import read_excel, DataFrame
from sklearn.impute import SimpleImputer
import numpy as np

### 데이터 가져오기

In [2]:
df = read_excel("https://data.hossam.kr/D03/ref_sample.xlsx", index_col="이름")
df

Unnamed: 0_level_0,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,98.0,77,88.0,64.0
영희,88.0,120,62.0,72.0
민철,,70,83.0,79.0
수현,63.0,60,31.0,71.0
호영,75.0,50,90.0,
영호,80.0,88,91.0,72.0
용식,82.0,88,,90.0
나영,90.0,92,81.0,
석영,91.0,90,89.0,80.0


## #02. 결측치 확인하기

### 결측치 여부 확인

각 열에 대해 결측치가 아닐 경우 `False``, 결측치는 `True`로 표시됨

`isna()` 함수도 같은 기능

In [3]:
empty = df.isnull()
empty

Unnamed: 0_level_0,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,False,False,False,False
영희,False,False,False,False
민철,True,False,False,False
수현,False,False,False,False
호영,False,False,False,True
영호,False,False,False,False
용식,False,False,True,False
나영,False,False,False,True
석영,False,False,False,False


### 각 열별로 결측치의 수를 확인

`isnull()` 혹은 `isna()`의 결과에 대한 합계를 구한다.

`True=1`, `False=0`

In [4]:
empty.sum()

국어    1
영어    0
수학    1
과학    2
dtype: int64

## #03. 결측치 처리

### 1. 결측치 소거

#### 행단위 삭제

결측치가 있는 모든 행 삭제 (원본은 변화 없음, 삭제결과 리턴됨)

`inplace=True`를 적용할 경우 원본에 즉시 반영되고 리턴값 없음

In [5]:
na1 = df.dropna()
na1

Unnamed: 0_level_0,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,98.0,77,88.0,64.0
영희,88.0,120,62.0,72.0
수현,63.0,60,31.0,71.0
영호,80.0,88,91.0,72.0
석영,91.0,90,89.0,80.0


#### 열 단위 삭제

In [6]:
na2 = df.dropna(axis=1)
na2

Unnamed: 0_level_0,영어
이름,Unnamed: 1_level_1
철수,77
영희,120
민철,70
수현,60
호영,50
영호,88
용식,88
나영,92
석영,90


## #04. 결측치 대체

### 1. 고정값으로 대체

모든 결측치를 동일한 값으로 교체

원본은 변화 없음, 삭제결과 리턴됨

`inplace=True`를 적용할 경우 원본에 즉시 반영되고 리턴값 없음

In [7]:
re_df1 = df.fillna(value=50)
re_df1

Unnamed: 0_level_0,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,98.0,77,88.0,64.0
영희,88.0,120,62.0,72.0
민철,50.0,70,83.0,79.0
수현,63.0,60,31.0,71.0
호영,75.0,50,90.0,50.0
영호,80.0,88,91.0,72.0
용식,82.0,88,50.0,90.0
나영,90.0,92,81.0,50.0
석영,91.0,90,89.0,80.0


### 통계적 값으로 대체

#### 결측치를 정제할 규칙 정의

각 열단위로 평균(strategy='mean')을 결측치(missing_values)에 지정

strategy 옵션 : mean=평균, median=중앙값, most_frequent: 최빈값(가장 많이 관측되는 수)

In [8]:
imr = SimpleImputer(missing_values=np.nan, strategy='mean')
imr

SimpleImputer()

### 생성된 규칙을 적용

In [9]:
df_imr = imr.fit_transform(df.values)
df_imr

array([[ 98.        ,  77.        ,  88.        ,  64.        ],
       [ 88.        , 120.        ,  62.        ,  72.        ],
       [ 83.375     ,  70.        ,  83.        ,  79.        ],
       [ 63.        ,  60.        ,  31.        ,  71.        ],
       [ 75.        ,  50.        ,  90.        ,  75.42857143],
       [ 80.        ,  88.        ,  91.        ,  72.        ],
       [ 82.        ,  88.        ,  76.875     ,  90.        ],
       [ 90.        ,  92.        ,  81.        ,  75.42857143],
       [ 91.        ,  90.        ,  89.        ,  80.        ]])

In [10]:
re_df2 = DataFrame(df_imr, index=df.index, columns=df.columns)
re_df2

Unnamed: 0_level_0,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,98.0,77.0,88.0,64.0
영희,88.0,120.0,62.0,72.0
민철,83.375,70.0,83.0,79.0
수현,63.0,60.0,31.0,71.0
호영,75.0,50.0,90.0,75.428571
영호,80.0,88.0,91.0,72.0
용식,82.0,88.0,76.875,90.0
나영,90.0,92.0,81.0,75.428571
석영,91.0,90.0,89.0,80.0
