## 결측치 예측 모델 활용
- 결측치 예측 모델은 어느 상황에서도 무난하게 활용할 수 있으나, 사용 조건 및 단점을 반드시 숙지해야함
- 사용 조건 및 단점
  - 조건1. 결측이 소수 컬럼에 쏠리면 안 된다
  - 조건2. 특징 간에 관계가 존재해야 한다.
  - 단점 : 다른 결측치 처리 방법에 비해 시간이 오래 소요된다.

### sklearn.impute.KNNImputer
- 결측이 아닌 값만 사용하여 이웃을 구한 뒤, 이웃들의 값의 대표값으로 결측을 대체하는 결측치 예측 모델
- 주요 입력
  - n_neighbors: 이웃 수( 주의: 너무 적으면 결측 대체가 정상적으로 이뤄지지 않을 수 있으므로, 5 정도가 적절)

In [1]:
import os
import pandas as pd
os.chdir(r'C:\Users\신상훈\Desktop\preprocessing\part-4.-머신러닝을-위한-필수-전처리\Part 4. 머신러닝을 위한 필수 전처리\데이터')

In [2]:
df = pd.read_csv("mammographic.csv")

In [3]:
# 특징과 라벨 분리
X = df.drop('Output', axis = 1)
Y = df['Output']

In [4]:
# 학습 데이터와 평가 데이터 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

In [5]:
# 열별 결측치 비율 확인 => 그리 높지 않음을 확인
Train_X.isnull().sum() / len(Train_X)

BI-RADS    0.001389
Age        0.002778
Shape      0.033333
Margin     0.048611
Density    0.075000
dtype: float64

In [6]:
# 특징 간 상관 계수 확인 => 평균적으로 40 ~ 50%로 매우 높음을 확인
Train_X.corr().sum() / len(Train_X.columns)

BI-RADS    0.459323
Age        0.416464
Shape      0.523956
Margin     0.538566
Density    0.266282
dtype: float64

In [7]:
# KNN Imputer 인스턴스화
from sklearn.impute import KNNImputer
KI = KNNImputer(n_neighbors = 5)

# KNN Imputer 학습
KI.fit(Train_X)

# 결측 대체
Train_X = pd.DataFrame(KI.transform(Train_X), columns = Train_X.columns)
Test_X = pd.DataFrame(KI.transform(Test_X), columns = Test_X.columns)

In [8]:
Train_X.isnull().sum() / len(Train_X)

BI-RADS    0.0
Age        0.0
Shape      0.0
Margin     0.0
Density    0.0
dtype: float64

In [9]:
Test_X.isnull().sum() / len(Test_X)

BI-RADS    0.0
Age        0.0
Shape      0.0
Margin     0.0
Density    0.0
dtype: float64