### 결측치 예측 모델

- 결측이 발생하지 않은 컬럼을 바탕으로 결측치를 예측하는 모델을 학습하고 활용
![image.png](attachment:image.png)

### 결측치 예측모델 활용 조건

- 대부분 상황에 사용 가능 but, 사용조건 및 단점 존재

    - 조건 1. 결측이 소수의 컬럼에만 쏠려있으면 안됨
    - 조건 2. 특징 간에 관계가 존재 해야 함  
    - 단점: 다른 결측치 처리 방법에 비해 시간이 오래 걸림
    

### 결측 예측 모델  : sklearn.impute.KNNImputer

- 결측이 아닌 값만 사용하여 이웃을 구한 뒤, 이웃값들의 대표값으로 결측을 대체하는 예측 모델
- 주요 파라미터 : n_neightobrs -> 이웃의 범위수(보통 5를 사용함)
![image-2.png](attachment:image-2.png)

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

import warnings
warnings.filterwarnings(action='ignore')

In [2]:
import pandas as pd
import numpy as np

In [3]:
import matplotlib.pyplot as plt #그래프 패키지 모듈 등록
%matplotlib inline

In [4]:
df = pd.read_csv("./데이터/mammographic.csv")

In [5]:
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 961 entries, 0 to 960
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   BI-RADS  959 non-null    float64
 1   Age      956 non-null    float64
 2   Shape    930 non-null    float64
 3   Margin   913 non-null    float64
 4   Density  885 non-null    float64
 5   Output   961 non-null    int64  
dtypes: float64(5), int64(1)
memory usage: 45.2 KB


Unnamed: 0,BI-RADS,Age,Shape,Margin,Density,Output
0,5.0,67.0,3.0,5.0,3.0,1
1,4.0,43.0,1.0,1.0,,1
2,5.0,58.0,4.0,5.0,3.0,1
3,4.0,28.0,1.0,1.0,3.0,0
4,5.0,74.0,1.0,5.0,,1


In [7]:
X = df.drop("Output", axis=1)
y= df["Output"]

In [8]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

In [10]:
X_train.isna().sum() / len(X_train)

BI-RADS    0.002604
Age        0.005208
Shape      0.027344
Margin     0.045573
Density    0.076823
dtype: float64

In [11]:
X_train.corr().sum()/len(X_train.columns)

BI-RADS    0.459543
Age        0.422858
Shape      0.518593
Margin     0.537027
Density    0.254198
dtype: float64

In [12]:
from sklearn.impute import KNNImputer
# 1. 객체 인스턴스 생성
ki = KNNImputer(n_neighbors=5)
# 2. fit(결측치를 대체할 이웃 결정)
ki.fit(X_train)
# 3. transform(결정된 이웃의 값을 활용한 결측치 대체)
ki.transform(X_train)

array([[ 5. , 65. ,  4. ,  5. ,  3. ],
       [ 4. , 58. ,  3.2,  4. ,  3. ],
       [ 4. , 65. ,  2. ,  1. ,  3. ],
       ...,
       [ 5. , 52. ,  3. ,  5. ,  3. ],
       [ 4. , 39. ,  1. ,  3. ,  3. ],
       [ 4. , 38. ,  2. ,  1. ,  3. ]], shape=(768, 5))

In [15]:
X_train = pd.DataFrame(ki.transform(X_train), columns=X_train.columns)
X_train.isna().sum()

# 위에서 fit은 X_train 기준으로 된 것을 해주는게 맞다
X_test = pd.DataFrame(ki.transform(X_test), columns=X_test.columns)
X_test.isna().sum()

BI-RADS    0
Age        0
Shape      0
Margin     0
Density    0
dtype: int64

BI-RADS    0
Age        0
Shape      0
Margin     0
Density    0
dtype: int64