In [2]:
import numpy as np

## 결측치 종류

- MCAR(Missing Completely at Random): 완전 랜덤하게 누락
- MAR(Missing at Random): 랜덤하게 누락. 값이 누락될 확률이 다른 특성에서 얻은 정보에 의존함. eg. 결혼 여부와 자녀 유무에 관한 설문에서, 미혼자는 자녀 유무 항목을 건너뛸 가능성이 높다. 이때 자녀 유무 항목의 응답 여부는 결혼 여부 특성에 의존한다.
- MNAR(Not Missing at Random): 값이 누락될 확률이 특성에서 잡지 못한 정보에 의존. eg. 고소득자는 수입에 관한 설문항목에 응답하지 않을 가능성이 높다.

=> MCAR이나 MAR은 이따금 결측치가 있는 샘플을 삭제해도 괜찮다. **MNAR은 값이 누란된 사실 자체가 정보다.** MNAR인 샘플을 삭제하면 데이터에 편향을 추가하게 된다.

## 결측치 없는 샘플만 반환

- 넘파이: ~ 연산자와 np.isnan(ndarray) 사용
- 판다스: df.dropna()

In [3]:
features = np.array([[1.1, 11.1],
                     [2.2, 22.2],
                     [3.3, 33.3],
                     [4.4, 44.4],
                     [np.nan, 55]])

features[~np.isnan(features).any(axis=1)]

array([[ 1.1, 11.1],
       [ 2.2, 22.2],
       [ 3.3, 33.3],
       [ 4.4, 44.4]])

## 결측치 채우기

데이터 양이 작으면 KNN 알고리즘을 사용해 누락된 값을 예측한다.(fancyimpute 모듈) <br>
-> fancyimpute 설치 에러. 아마도 

sklearn.preprocessing.SimpleImputer 사용


In [None]:
from sklearn.preprocessing import StandardScaler
from fancyimpute import KNN
from sklearn.datasets import make_blobs

features, _ = make_blobs(n_samples=1000,
                         n_features=2,
                         random_state=1)

scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# 첫 번째 샘플의 첫 번째 특성 삭제
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

# 특성 행렬에 있는 누락된 값 예측
features_knn_imputed = KNN(k=5, verbose=0).fit_transform(standardized_features)

# 실제 값과 대체된 값 비교
print('실제 값:', true_value)
print('대체된 값:', features_knn_imputed[0,0])

In [19]:
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

features, _ = make_blobs(n_samples=1000,
                         n_features=2,
                         random_state=1)

scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# 첫 번째 샘플의 첫 번째 특성 삭제
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

si = SimpleImputer() # 기본값은 mean
feature_simpleImputed = si.fit_transform(standardized_features)

# 실제 값과 대체된 값 비교
print('실제 값:', true_value)
print('대체된 값:', feature_simpleImputed[0,0])

실제 값: 0.8730186113995938
대체된 값: -0.000873892503901796
