## 欠測データへの対処

In [1]:
import pandas as pd
from io import StringIO

# sampledate create
csv_data = '''A,B,C,D
              1.0,2.0,3.0,4.0
              5.0,6.0,,8.0
              10.0,11.0,12.0'''

# Sampledata read
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [2]:
# 各特徴量の欠測値をカウント
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

scikit-learnはNumpyの配列に対応するように開発されたいるが、データの前処理においてはpandasのDataFrameクラスを使用するほうが便利なことがある。scikit-learnの推定器に入力される前のDataFrameオブジェクトはNumpyの配列である、values属性を使っていつでもアクセスできる。

#### データの処理においてはpandasのほうが便利な機能があるからだと思う。

In [3]:
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

## 欠測値をもつサンプル/特徴量を取り除く

In [4]:
# 欠測値を含む行を削除
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [5]:
# 欠測値を含む列を削除
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [8]:
# すべて列がNaNである行だけ削除
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [9]:
# 非NaN値が4つ未満の行を削除
print(df.dropna(thresh=4))

     A    B    C    D
0  1.0  2.0  3.0  4.0


In [10]:
# 特定の列に（この場合はC）にNaNが含まれている行だけ削除
print(df.dropna(subset=['C']))

      A     B     C    D
0   1.0   2.0   3.0  4.0
2  10.0  11.0  12.0  NaN


#### 有益な情報を削除しないよう注意！

## 欠測値を補完する。

In [13]:
from sklearn.preprocessing import Imputer

# 欠測値補完のインスタンスを生成(平均値補完）
imr = Imputer(missing_values='NaN',strategy='mean',axis=0)
# データを適合
imr = imr.fit(df.values)

# 補完を実行
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])