# 欠損値の補完

sklearn.impute.IterativeImputer を用いて欠損値を補完する。

- https://scikit-learn.org/stable/modules/impute.html
- https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html
  - 他の特徴量を引数とするモデルによる予測値で欠損値を補完

### 欠損値を含むデータセット

https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data

- 第5回の回帰分析で使用したデータセット
- 欠損値は '?'

In [None]:
import pandas as pd
import numpy as np
autos = pd.read_csv('data/imports-85.data', na_values='?')
autos.columns = ['symboling', 'normalized_losses', 'make', 'fuel_type', 'aspiration',
                 'num_of_doors', 'body_style', 'drive_wheels', 'engine_location',
                 'wheel_base', 'length','width', 'height', 'curb_weight',
                 'engine_type', 'num_of_cylinders', 'engine_size', 'fuel_system',
                 'bore', 'stroke', 'compression_ratio', 'horsepower', 'peak_rpm',
                 'city_mpg', 'highway_mpg','price']
autos.head()

In [None]:
# 欠損値の数の確認
autos.isna().sum()

In [None]:
# num_of_doors列の欠損値を確認
# - IterativeImputer はカテゴリカル変数は処理できないため、最頻値を代入することにする
autos[autos.num_of_doors.isna()]

In [None]:
# num_of_doors列の最頻値
autos['num_of_doors'].mode()

In [None]:
# DataFrameを作業用の変数にコピー
df = autos

# num_of_doors列の欠損値を最頻値に置き換える
# - autos['num_of_doors'].mode()[0] となっている（[0]）が付いているのは最頻値は複数返ることがあるため
df['num_of_doors'] = autos['num_of_doors'].fillna(autos['num_of_doors'].mode()[0])

In [None]:
# num_of_doors列の欠損値がないことを確認
autos.num_of_doors.isna().sum()

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# ダミー変数化
df = pd.get_dummies(data=df, drop_first=True)

# IterativeImputerを初期化、欠損値を補完
imputer = IterativeImputer()
imputed = imputer.fit_transform(df)

# 結果を確認
df_imputed = pd.DataFrame(imputed, columns=df.columns, index=df.index)
df_imputed.isna().sum()

In [None]:
# 欠損値の数の合計
df_imputed.isna().sum().sum()