# 4章 データ前処理 -よりよいデータセットの構築-

2018/05/18

- データセットにおける欠測値の削除と補完
- 機械学習アルゴリズムに合わせたカテゴリデータの整形
- モデルの構築に適した特徴量の選択

## 4.1 欠測データへの対処


### 4.1.1 欠測値を含む要素を取り除く

- 一般的な計算ツールは欠測値へのできない
- 無視すると予期せぬ結果を生み出す
- 分析者が適切に対応することが重要

- pandas.DataFrame.dropna が便利。
    - デメリット: 削除しすぎると解析の信頼性が失われる可能性もある。
        - --> 補完（次項）の方法
        
### 4.1.2 補完

- 平均補完
    - サンプルの平均値で補完

## 4.2 カテゴリデータの対処

## 4.3 データセットをトレーニングデータとテストデータと分割する

In [37]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [38]:
import pandas as pd
from io import StringIO


# サンプルデータを作成
csv_data = """A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,
13.0,14.0,,
,,,
"""

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
3,13.0,14.0,,
4,,,,


In [39]:
# 欠測値かどうか
df.isnull()

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,False,True,False
2,False,False,False,True
3,False,False,True,True
4,True,True,True,True


In [40]:
# 各特徴料の欠測値をカウント
df.isnull().sum()

A    1
B    1
C    3
D    3
dtype: int64

In [41]:
# 欠測値を含む行を削除
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [42]:
# axis=1 とすれば列削除に
df.dropna(axis=1)

0
1
2
3
4


In [43]:
# 全ての要素がNaNの行だけ削除
df.dropna(how="all")

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
3,13.0,14.0,,


In [44]:
# 非NaNの要素が3つ以下の場合削除
df.dropna(thresh=3)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [45]:
# 特定の列(ここではC列)にNaNが含まれている場合削除

df.dropna(subset=["C"])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


In [59]:
# 平均補完

from sklearn.preprocessing import Imputer


# 欠損値補完のインスタンス
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr.fit(df)

# 補完の実行
_dat = imr.transform(df.values)

# 補完データの表示（列名情報は失われるのか
pd.DataFrame(_dat)

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,6.0
3,13.0,14.0,7.5,6.0
4,7.25,8.25,7.5,6.0


In [53]:
df  # 元データ

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
3,13.0,14.0,,
4,,,,
