# 欠損値

## 欠損値とは

- NaN・空欄・プレースホルダ文字列など、何らかの理由で値の抜け落ちたデータ
- ほとんどのアルゴリズムは欠損値があると動かないので、対処が必要

## 欠損値の確認

In [None]:
import pandas as pd
from io import StringIO

csv = '''A,B,C,D,E
1,2,3,4,5
6,7,8,9,
10,11,12,13,14
15,16,17,,
18,,19,,
'''
df = pd.read_csv(StringIO(csv))

df

In [None]:
df.isnull().sum()

## 欠損値への対処法

### 除去する

最も単純な方法だが、やりすぎるとデータが不足したり、必要な情報まで失われる可能性がある。

- 欠損値を含むサンプル(行)を削除

In [None]:
df.dropna()

- 欠損値を含む特徴(列)を削除

In [None]:
df.dropna(axis=1)

- 全ての特徴が欠損している行を削除

In [None]:
df2 = pd.DataFrame([[None] * 5], columns=list(df.columns.values))
df.append(df2, ignore_index=True)

In [None]:
df.dropna(how='all')

- 任意の数以上の特徴がある行を残して削除

In [None]:
df.dropna(thresh=3)

- 特定の特徴に欠損がある行を削除

In [None]:
df.dropna(subset=['B'])

### 補完する

訓練データを補完してモデルを学習した場合は、学習していないデータから予測する場合にも、訓練データの補完に用いたのと同じパラメータで補完しなければならない。

- 平均値(mean)で補完する

In [None]:
from sklearn.preprocessing import Imputer

imr = Imputer(missing_values='NaN', strategy='mean', axis=0).fit(df)
imr.transform(df.values)

- 中央値(median)で補完する

In [None]:
import numpy as np
choice = np.random.choice

row, col = 6, 3
np.random.seed(0)

values = np.random.normal(size=row * col)
values[choice(values.size, row)] = np.NaN
values = values.reshape((row, col))
values

In [None]:
Imputer(missing_values='NaN', strategy='median', axis=0).fit_transform(values)

- 最頻値(mode)で補完する

In [None]:
row, col = 3, 5

values = choice(np.arange(3).astype(np.float32), row * col)
values[choice(values.size, row)] = np.NaN
values = values.reshape((row, col))
values

In [None]:
Imputer(missing_values='NaN', strategy='most_frequent', axis=1).fit_transform(values)