# 1.1 데이터 전처리
## 1.1.1 이상치 확인 및 결측값 처리
- 단순대치
- 다중 대치
- 단순확률 대치 (Hot-deck, nearest neighbor)
- knnImputation

#### 단순대치
- 결측값 제거
- Mean /Median 대치 
    > SimpleImputer(strategy = 'mean')
    
    > SimpleImputer(strategy = 'median')
- 빈번한 값으로 대치 
    > SimpleImputer(strategy = 'most_frequent')
- 일정한 값으로 대치 
    > SimpleImputer(missing_values = np.nan, strategy = 'constant')

In [1]:
import numpy as np
from sklearn.impute import SimpleImputer

# 수치형 데이터 - 평균값으로 대치
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

## 모듈 훈련
train = [[55, 20], [np.nan, 35], [71, 64]]
imp_mean.fit(train)

# 모듈 변환
test = [[np.nan, 43], [81, np.nan], [76, 34]]
imp_mean.transform(test)

array([[63.        , 43.        ],
       [81.        , 39.66666667],
       [76.        , 34.        ]])

In [3]:
# 카테고리형 데이터 - 가장 빈번한 값으로 대치
imp_freqeunt = SimpleImputer(strategy="most_frequent")

## 모듈 훈련
train = [['X', 'Y'], [np.nan, 'X'], ['X', 'X']]
imp_freqeunt.fit(train)

# 모듈 변환
test = [[np.nan, 'Y'], ['X', np.nan], ['Y', 'X']]
imp_freqeunt.transform(test)

array([['X', 'Y'],
       ['X', 'X'],
       ['Y', 'X']], dtype=object)

### 다중대치
> 다중대치에 사용하는 Chained Equation은 데이터가 MAR(Missing at Random) 라는 가정하에 수행 
- 단순대치법을 m번 반복하여 m개의 가상적 완전 자료를 만드는 방법
    - 1단계 : 대치(Imputation step)
    - 2단계 : 분석(Analysis step)
    - 3단계 : 결합(Combination step)




In [None]:
# IterativeImputer를 쓰기위해 필요한 라이브러리
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# 회귀모델 사용
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

# Default = BaysianRidge()
imp_multiple = IterativeImputer(estimator = lr,random_state = 123)

imp_multiple.fit(train)
imp_multiple.transform(test)

### knnImputation

In [None]:
from sklearn.impute import KNNImputer

knnimp = KNNImputer(n_neighbors= 3, add_indicator=True)
knnimp.fit(train)
knnimp.transform(test)