# 04wk-015: 결측치 처리, `sklearn.impute`

최규빈  
2023-09-26

# 1. 강의영상

<https://youtu.be/playlist?list=PLQqh36zP38-xoMM63o6AOYEePSFHrVsv9&si=DMXAb7dsADV4BG7C>

# 2. Import

In [1]:
import numpy as np
import pandas as pd 
import sklearn.impute

# 3. `sklearn.impute`

## A. 숫자형자료의 impute

`-` 주어진자료

In [179]:
df = pd.DataFrame({'A':[2.1,1.9,2.2,np.nan,1.9], 'B':[0,0,np.nan,0,0]})
df

`-` 빈칸은 대충 아래와 같이 추정하면 되지 않을까?

In [180]:
df.loc[3,'A'] = df.A.mean()
df.loc[2,'B'] = df.B.mean()

In [181]:
df

`-` 자동으로 하려면?

In [182]:
df = pd.DataFrame({'A':[2.1,1.9,2.2,np.nan,1.9], 'B':[0,0,np.nan,0,0]})
df

(방법1)

In [183]:
imputer = sklearn.impute.SimpleImputer()
imputer.fit(df)
imputer.transform(df)

(방법2)

In [184]:
imputer = sklearn.impute.SimpleImputer()
imputer.fit_transform(df)

`-` 다른방식으로 결측값 대체

(방법1) – 평균으로 대체

In [185]:
imputer = sklearn.impute.SimpleImputer(strategy='mean')
imputer.fit_transform(df)

(방법2) – 중앙값으로 대체

In [186]:
imputer = sklearn.impute.SimpleImputer(strategy='median')
imputer.fit_transform(df)

(방법3) – 최빈값으로 대체

In [187]:
imputer = sklearn.impute.SimpleImputer(strategy='most_frequent')
imputer.fit_transform(df)

(방법4) – 상수대체

In [188]:
imputer = sklearn.impute.SimpleImputer(strategy='constant',fill_value=-999)
imputer.fit_transform(df)

## B. 범주형자료의 impute

`-` 자료

In [192]:
df = pd.DataFrame({'A':['Y','N','Y','Y',np.nan], 'B':['stat','math',np.nan,'stat','bio']})
df

`-` 최빈값 혹은 상수대체만 가능

(방법1) – 최빈값을 이용

In [193]:
imptr = sklearn.impute.SimpleImputer(strategy='most_frequent')
imptr.fit_transform(df)

(방법2) – 상수로 대체함

In [194]:
imptr1 = sklearn.impute.SimpleImputer(strategy='constant',fill_value='Y')
imptr1.fit_transform(df[['A']])
imptr2 = sklearn.impute.SimpleImputer(strategy='constant',fill_value='math')
imptr2.fit_transform(df[['B']])

In [196]:
np.concatenate([imptr1.fit_transform(df[['A']]),imptr2.fit_transform(df[['B']])],axis=1)

## C. 혼합형자료의 impute – (1) 모두 최빈값으로 impute

`# 예제`: 아래의 df에서 결측치를 모두 최빈값으로 impute하라.

In [216]:
df = pd.DataFrame(
    {'A':[2.1,1.9,2.2,np.nan,1.9],
     'B':[0,0,np.nan,0,0],
     'C':['Y','N','Y','Y',np.nan], 
     'D':['stat','math',np.nan,'stat','bio']}
)
df

(풀이)

In [199]:
imptr = sklearn.impute.SimpleImputer(strategy='most_frequent')
imptr.fit_transform(df)

`#`

## D. 혼합형자료의 impute – (2) 숫자형은 평균값으로, 범주는 최빈값으로 impute

`# 예제`: 아래의 df를 숫자형일 경우는 평균대치, 문자형일 경우는
최빈값으로 대치하라.

In [201]:
df = pd.DataFrame(
    {'A':[2.1,1.9,2.2,np.nan,1.9],
     'B':[0,0,np.nan,0,0],
     'C':['Y','N','Y','Y',np.nan], 
     'D':['stat','math',np.nan,'stat','bio']}
)
df

(풀이)

`-` step1: 복사본 생성

In [219]:
df_imputed = df.copy()
df_imputed

`-` step2: 데이터프레임 분리

In [211]:
df_num = df.select_dtypes(include="number")
df_num

In [212]:
df_cat = df.select_dtypes(exclude="number")
df_cat 

`-` step3: impute

In [214]:
df_imputed[df_num.columns] = sklearn.impute.SimpleImputer(strategy='mean').fit_transform(df_num)
df_imputed[df_cat.columns] = sklearn.impute.SimpleImputer(strategy='most_frequent').fit_transform(df_cat)

In [215]:
df_imputed