# 第4章 データ前処理　よりよいトレーニングセットの構築

## 4.1 欠測データへの対処
* _欠測値(missing value)_はNaNやNULLとみなされる
* ほとんどの計算ツールは欠測値に対処できないか、欠測地を無視した場合に予期せぬ結果を生み出す。

### 4.1.1 欠測値の特定

In [1]:
import pandas as pd
from io import StringIO
# sample dataの作成
csv_data = '''A,B,C,D
             1.0,2.0,3.0,4.0
             5.0,6.0,,8.0
             10.0,11.0,12.0'''
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


欠測値を手動で探すのは大変。  
_**isnull()**_メソッドを使う。　

In [2]:
df.isnull() # セルにNaNがある場合はTrue

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,False,True,False
2,False,False,False,True


In [3]:
df.isnull().sum() # 列ごとのNaNの数をカウントする

A    0
B    0
C    1
D    1
dtype: int64

### 4.1.2 欠測値を持つサンプル/特徴量を取り除く
_**dropna()**_メソッドで欠測値を含んでいる行を削除

In [4]:
# 欠測値を含む行を削除
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [5]:
# axis=1
# 欠測値を含む列を削除
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [6]:
# すべての列がNaNである行だけを削除
# すべての列がNaNである行は存在しないのでそのまま返ってくる
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [7]:
# 非NaN値が4つ未満の行を削除
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [9]:
# 特定の列にNaNが含まれている行だけを削除
# CにおいてNaNがある行が削除される
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


### 4.1.3 欠測値を補完する
dropna()で削除しすぎるとサンプル数が減り、解析の信頼性が失われることがある。  
**補間法(interpolation technique)**によって_データセットの他のトレーニングサンプルから欠測値を推測できる。_  
  
_**平均値補間(mean imputation)**_：欠測値をその列全体の平均値と置き換える。  
scikit-learn のImputerクラスを使用すると便利。

In [10]:
from sklearn.preprocessing import Imputer
# 欠測値補完のインスタンスを生成(平均値補完)
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
# データを適合
# df.valuesによってnumpy配列にアクセスできる
# skleanにはnp.array形式で投げること。
# DataFrameでは不可。
imr = imr.fit(df.values)
#補完を実行
imputed_data = imr.transform(df.values)
imputed_data

array([[  1. ,   2. ,   3. ,   4. ],
       [  5. ,   6. ,   7.5,   8. ],
       [ 10. ,  11. ,  12. ,   6. ]])

* strategy引数のその他例
    * median(中央値)
    * most_frequent(最頻値)
* axis=0 を axis=1 にすると、行の平均値が計算されるようになる。

### 4.1.4 scikit-learn の推定器API  
  
* scikit-learnは_**変換器(transformer)**_クラスが存在する


* Imputerクラスもそのひとつ


* 基本的なメソッドにはfitとtransformの2つがある。  


* _**fitメソッド**_
    * トレーニングセットからパラメータを学習するために使用    


* _**transformメソッド**_
    * 学習したパラメータに基づいてデータを変換するために使用
    * fitした際の特徴量と同じにすること

* 第3章の分類器は_**推定器(estimator)**_に属している
* fitで学習し、predictメソッドで推定していたが、transformメソッドも使用できる