<a href="https://colab.research.google.com/github/Eungyum/scikit-learn_study/blob/main/4_1_%EB%88%84%EB%9D%BD%EB%90%9C_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%8B%A4%EB%A3%A8%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 사이킷런 결측치 대체 모듈 impute

## 누락된 값 대체 : 사이킷런의 impute 모듈 사용



*   SimpleImputer : 평균, 중앙값, 최빈값 등으로 결측치 대체
*   KNNImputer : 주변 데이터 포인트의 가중 평균을 이용하여 대체
*   IterativeImputer : 해당 변수 뿐만 아니라 다른 변수들도 사용해서 결측치를 추정




---


## 1. SimpleImputer

- 재료
  - 데이터셋(어레이)
  - 결측치 대체 방식(평균, 중앙값 등)

In [None]:
from sklearn.impute import SimpleImputer
import numpy as np

data = np.array([[1, 2, np.nan],
                 [4, np.nan, 6],
                 [7, 8, 9]])

# SimpleImputer 객체를 생성 (median)
# missing_values:결측치 인식, strategy:mean, median, most_frequent, constant( <fill_value=채울값> 과 함께 사용)
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

# fit_transform: 결측치 대체를 수행
imputed_data = imputer.fit_transform(data)

#결과를 확인
print("원래 데이터:\n", data)
print("결측값을 대체한 데이터:\n", imputed_data)

원래 데이터:
 [[ 1.  2. nan]
 [ 4. nan  6.]
 [ 7.  8.  9.]]
결측값을 대체한 데이터:
 [[1.  2.  7.5]
 [4.  5.  6. ]
 [7.  8.  9. ]]



---


## 2. KNNImputer

- 재료
   - 데이터셋(어레이)
   - 이웃수(데이터 중심점) 개수

In [None]:
import numpy as np
from sklearn.impute import KNNImputer

data = np.array([[1, 2, np.nan],
                 [4, np.nan, 6],
                 [7, 8, 9]])

# KNNImputer 객체를 생성(이웃수=2)
# 이웃수를 지정하지 않으면 이웃수=5
imputer = KNNImputer(n_neighbors=2)

# fit_transform: 결측치 대체를 수행
imputed_data = imputer.fit_transform(data)

#결과를 확인
print("원래 데이터:\n", data)
print("결측값을 대체한 데이터:\n", imputed_data)

원래 데이터:
 [[ 1.  2. nan]
 [ 4. nan  6.]
 [ 7.  8.  9.]]
결측값을 대체한 데이터:
 [[1.  2.  7.5]
 [4.  5.  6. ]
 [7.  8.  9. ]]



---


## 3. IterativeImputer

- 재료
  - 데이터셋(어레이)
  - IterativeImputer의 옵션들..(아래)

In [None]:
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

data = np.array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, np.nan, np.nan],
       [np.nan, 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [np.nan, 3.4, np.nan, 0.3],
       [5. , 3.4, 1.5, 0.2]])

# IterativeImputer 객체를 생성
# max_iter : MICE알고리즘 최대 반복 횟수(기본값:10), random_state : 무작위성제어 시드
# tol : 수렴 허용 오차(기본값:1e-3), n_nearest_features : 사용할 이웃 특성 수(기본값은None으로 모든 특성 사용)
# min_value : 대체값의 최소값 제한, max_value : 대체값의 최대값 제한
imputer = IterativeImputer(max_iter=10, random_state=0)

# fit_transform: 결측치 대체를 수행.
imputed_data = imputer.fit_transform(data)

print("결측값을 대체한 데이터:\n", imputed_data[:5])

결측값을 대체한 데이터:
 [[5.1        3.5        1.4        0.2       ]
 [4.9        3.         1.4        0.2       ]
 [4.7        3.2        1.3        0.2       ]
 [4.6        3.1        1.25723605 0.15683881]
 [5.02779526 3.6        1.4        0.2       ]]
