In [1]:
import warnings
warnings.filterwarnings('always')
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('ggplot')

# sklearn.impute.SimpleImputer
- 각 열에 따라서, 기술통계(평균, 중앙값, 등)를 사용하거나 상수 값을 사용하여 결측치를 대체
- 클래스 원형
```
class sklearn.impute.SimpleImputer(
  *, missing_values=nan, strategy='mean', 
  fill_value=None, verbose='deprecated', 
  copy=True, add_indicator=False, keep_empty_features=False)
```

## 주요 파라미터
- missing_values: 결측치 지정, default=np.nan
- strategy: 결측치를 대체할 값, default='mean'
- fill_value: strategy = 'constant'인 경우에 사용

In [5]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer( missing_values=np.nan, strategy='mean' )
imputer.fit([
  [7, 2, 3], 
  [4, np.nan, 6], 
  [10, 5, 9]
])

X = [
  [np.nan, 2, 3], 
  [4, np.nan, 6], 
  [10, np.nan, 9]
]
print(imputer.transform(X))

[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]


# sklearn.impute.IterativeImputer
- 다른 모든 입력변수를 이용하여 결측치를 추정하는 다변량 보간법
- 클래스 원형
```
class sklearn.impute.IterativeImputer(
  estimator=None, *, 
  missing_values=nan, 
  sample_posterior=False, max_iter=10, tol=0.001, 
  n_nearest_features=None, 
  initial_strategy='mean', 
  imputation_order='ascending', 
  skip_complete=False, 
  min_value=-inf, 
  max_value=inf, verbose=0, random_state=None, 
  add_indicator=False, keep_empty_features=False
)
```

## 주요 파라미터
- estimator: 각 단계에서 사용할 추정기(classifier, regressor), default=BaysianRidge()
- n_nearest_features: 결측치를 추정하는 데 사용할 다른 변수의 수, default=None(모든 변수를 사용)
- initial_strategy: 결측치 초기값(mean, median, mode, constant), default=mean   
...

In [3]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import LinearRegression

In [4]:
model = LinearRegression()
imputer = IterativeImputer( estimator=model )

imputer.fit([
  [7, 2, 3], 
  [4, np.nan, 6], 
  [10, 5, 9]
])

X = [
  [np.nan, 2, 3], 
  [4, np.nan, 6], 
  [10, np.nan, 9]
]
imputer.transform(X)

array([[ 7. ,  2. ,  3. ],
       [ 4. ,  2.6,  6. ],
       [10. ,  5. ,  9. ]])

# sklearn.impute.KNNImputer
- 최근접 이웃을 사용하여 결측치를 대체
- 클래스 원형
```
class sklearn.impute.KNNImputer(
  *, missing_values=nan, n_neighbors=5, 
  weights='uniform', metric='nan_euclidean', 
  copy=True, add_indicator=False, keep_empty_features=False)
```

## 주요 파라미터
- n_neighbors: 결측치를 대체할 인접한 샘플의 수, default=5
- weights: 예측에 사용되는 가중치(uniform, distance, callable), default='uniform'
- metric: 이웃 검색을 위한 거리 메트릭, default='nan_euclidean'

In [None]:
# 시험 버전에는 없는 기능
from sklearn.impute import KNNImputer

X = [
  [1, 2, np.nan], 
  [3, 4, 3], 
  [np.nan, 6, 5], 
  [8, 8, 7]
]
imputer = KNNImputer(n_neighbors=2)
imputer.fit_transform(X)