In [1]:
# 欠損値のサンプルデータを作成する
import pandas as pd
from io import StringIO
csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''
# python2.7を利用している場合は文字列をunicodeに変換する
csv_data = unicode(csv_data)
# サンプルデータをpandasのデータフレームに変換する
# StringIOは変数csv_dataに代入された文字列をdataframeオブジェクトに読み込めるようになる
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [2]:
# 各特徴量の欠損値を列ごとにカウント
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [3]:
# 参考）
# scikit-learnはNumpyの配列に対応するよう開発されているが、前処理はpandasのDataframeクラスを使用するほうが便利
# scikit-learnの推定器に入力される前のDataframeオブジェクトNumpyの配列であり、values属性をつかっていつでもアクセスできる
df.values

array([[  1.,   2.,   3.,   4.],
       [  5.,   6.,  nan,   8.],
       [ 10.,  11.,  12.,  nan]])

# 欠損値を持つサンプル／特徴量を取り除く

In [4]:
# 欠損値を含む行を削除
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [5]:
# 欠損値を含む列を削除
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [6]:
# dropnaには他にも引数がある
# すべての列がNaNの時削除
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [7]:
# 非NaN値が4つ未満の行を削除
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [8]:
# 特定の列にNaNが含まれている行だけを削除（Cを指定）
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


欠損値データを削除すると、サンプルが削除されすぎて解析の信頼性を損なったり、特徴量を削除しすぎて分類に必要な情報が失われる恐れがある

# 欠損値を補完する

In [9]:
# 平均値補完を行う
from sklearn.preprocessing import Imputer
# 欠損値補完のインスタンスを作成(axis=1にすると、行の平均値が計算される strategyはmedian, most_frequentなども選択可)
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
# データを適合
imr = imr.fit(df)
# 補完
imputed_data = imr.transform(df.values)
imputed_data

array([[  1. ,   2. ,   3. ,   4. ],
       [  5. ,   6. ,   7.5,   8. ],
       [ 10. ,  11. ,  12. ,   6. ]])