# 4.1　欠測データへの対処
- ほとんどの計算ツールは欠測値に対処できないか、欠測値を無視した場合に予期せぬ結果を生み出す。
- そのため、分析をすすめる前に、欠測値に対処することがきわめて重要となる

In [6]:
#サンプルデータで例示
import pandas as pd
from io import StringIO #ハードディスク上の通常のCSVと同じように、変数csv_dataに代入した文字列を扱うため

#サンプルデータの作成
csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''
# python2.7を使用している場合は文字列をunicodeに変化する必要がある
# csv_data = unicode(csv_data)
#サンプルデータを読み込む
csv_data = unicode(csv_data)
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [12]:
#各特徴量の欠測値をカウント
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

##### コラム
- scikit-learnはNumPyの配列に対応するように開発されている
- DataFrameオブジェクトはNumpyの配列であり、value属性を使っていつでもアクセスできる。

# 4.1.1 欠測値をもつサンプル／特徴量を取り除く
- 欠測地に対処する最も簡単な方法の１つは、該当する列または行をデータセットから削除することである。

In [13]:
#欠測値を含む行を削除
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [14]:
#欠測値を含む列を削除
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [15]:
#すべての列がNaNである列だけを削除
df.dropna(how='all')
#非NaN値が4つ未満の行を削除
df.dropna(thresh=4)
#特定の列にNaNが含まれている行だけを削除
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


- サンプルを削除しすぎてしまうと、解析の信頼性が失われることがあるので注意
- 特徴量の列を削除しすぎてしまうと、分類器がクラスを識別するのに必要な、有益な情報が失われる恐れがある。

# 4.1.2 欠測値を補完する
- 行を削除したり、列を削除したりすると、貴重なデータを多く失いかねないため、そうした方法はたいてい現実的ではない。
- 補間法を用いて欠測値を推測する。
- 最も一般的な補間法の１つは、平均値補完である。平均値補完は、単に欠測値を特徴量の列全体の平均値と置き換える

In [17]:
from sklearn.preprocessing import Imputer
#欠測値補完のインスタンスを生成
imr = Imputer(missing_values='NaN',strategy='mean',axis=0)#strategyには他に、median,most_frequentがある
# データを適合
imr = imr.fit(df)
#補完を実行
imputed_data = imr.transform(df.values)
imputed_data

array([[  1. ,   2. ,   3. ,   4. ],
       [  5. ,   6. ,   7.5,   8. ],
       [ 10. ,  11. ,  12. ,   6. ]])

# 4.1.3 scikit-learnの推定器API
- Imputerクラスはskleranの変換器クラスに属している。変換器クラスはデータの変換に使用される
- 変換器には基本的なメソッドとして、fitとtransformの２つがある。
- fitメソッドはトレーニングセットからパラメータを学習するために利用される。
- transformメソッドは学習したパラメータに基づいてデータを変換するために使用される