# 欠陥値 (missing value)

In [1]:
# 欠測値のサンプルデータの作成
import pandas as pd
from io import StringIO

# サンプルデータの生成
csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
9.0,10.0,11.0,'''

# CSVデータの読み込み
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,9.0,10.0,11.0,


## 欠陥値の削除
欠測値を無視して処理を進めると予期せぬ結果を生み出すことがあるので、欠測値に対処することは重要です。

In [2]:
# 欠測値のカウント
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [3]:
# 欠測値を持つサンプル/特徴量を取り除く
# nanを含む「列」を削除
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [4]:
# 欠測値を持つサンプル/特徴量を取り除く
# nanを含む「行」を削除
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,9.0,10.0


## 欠陥値の補完

In [7]:
# 平均値補完: 欠陥値を特徴量の列全体の平均値と置き換える
# データセットの行を削除したり、特徴量の列全体を削除したりすると、貴重なデータを多く
# 失ってしまうので、たいてい現実的ではないので、通常は欠測値の補完をおこないます。
from sklearn.preprocessing import Imputer

# Imputerクラスを使い補完する
# strategy引数には、median (中央値), most_frequent (最頻値) などがある
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = imr.fit(df)

# 保管したデータの取得
imputed_data = imr.transform(df.values)
pd.DataFrame(imputed_data)


Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0
2,9.0,10.0,11.0,6.0
