# 欠測値の処理

## ライブラリーのインポート

In [15]:
import numpy as np
import pandas as pd
from io import StringIO
from sklearn.impute import SimpleImputer


## データセットの生成

In [3]:
csv_data = '''
breakfast_cost,lunch_cost,dinner_cost,daily_steps
450.0,780.0,1200.0,8500.0
500.0,,950.0,7200.0
550.0,980.0,1080.0,9100.0
520.0,820.0,,6800.0
'''

## データセットの確認

In [4]:
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,breakfast_cost,lunch_cost,dinner_cost,daily_steps
0,450.0,780.0,1200.0,8500.0
1,500.0,,950.0,7200.0
2,550.0,980.0,1080.0,9100.0
3,520.0,820.0,,6800.0


In [5]:
# 各特徴量の欠測値をカウント
df.isnull().sum()

breakfast_cost    0
lunch_cost        1
dinner_cost       1
daily_steps       0
dtype: int64

## 欠測値の削除

In [6]:
#欠損値を含む行を削除
df.dropna()

Unnamed: 0,breakfast_cost,lunch_cost,dinner_cost,daily_steps
0,450.0,780.0,1200.0,8500.0
2,550.0,980.0,1080.0,9100.0


In [10]:
#欠損値を含む列を削除
df.dropna(axis=1)

Unnamed: 0,breakfast_cost,daily_steps
0,450.0,8500.0
1,500.0,7200.0
2,550.0,9100.0
3,520.0,6800.0


In [8]:
#全ての列がNaNである行だけを削除
df.dropna(how='all')

Unnamed: 0,breakfast_cost,lunch_cost,dinner_cost,daily_steps
0,450.0,780.0,1200.0,8500.0
1,500.0,,950.0,7200.0
2,550.0,980.0,1080.0,9100.0
3,520.0,820.0,,6800.0


In [12]:
#非NaN値が4つ未満の行を削除
df.dropna(thresh=4)

Unnamed: 0,breakfast_cost,lunch_cost,dinner_cost,daily_steps
0,450.0,780.0,1200.0,8500.0
2,550.0,980.0,1080.0,9100.0


In [14]:
#特定の列にNanが含まれている行だけを削除
df.dropna(subset='lunch_cost')

Unnamed: 0,breakfast_cost,lunch_cost,dinner_cost,daily_steps
0,450.0,780.0,1200.0,8500.0
2,550.0,980.0,1080.0,9100.0
3,520.0,820.0,,6800.0


## 欠損値の補完

In [22]:
#欠損値補完のインスタンスを生成(平均値補完)
imputer = SimpleImputer(missing_values=np.nan, strategy='mean') #strategy:'median','most_frequent'
#データを結合
imputer.fit(df.values)
#補完を実行
imputer_data = imputer.transform(df.values)
imputer_data

array([[ 450.        ,  780.        , 1200.        , 8500.        ],
       [ 500.        ,  860.        ,  950.        , 7200.        ],
       [ 550.        ,  980.        , 1080.        , 9100.        ],
       [ 520.        ,  820.        , 1076.66666667, 6800.        ]])

In [23]:
#filnaメソッド
df.fillna(df.mean())

Unnamed: 0,breakfast_cost,lunch_cost,dinner_cost,daily_steps
0,450.0,780.0,1200.0,8500.0
1,500.0,860.0,950.0,7200.0
2,550.0,980.0,1080.0,9100.0
3,520.0,820.0,1076.666667,6800.0
