### 欠損値とは
例えばNaNなどの無効値  
これらが入ると演算結果に意図しないものが含まれてしまう可能性がある  

In [1]:
import pandas
import numpy

In [2]:
data = pandas.read_csv("201705health_include_nan.csv",encoding="utf-8")
data

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-05-01,1439.0,4500.0
1,2017-05-02,8120.0,2420.0
2,2017-05-03,,
3,2017-05-04,2329.0,1500.0
4,2017-05-05,,
5,2017-05-06,3233.0,1800.0
6,2017-05-07,9593.0,2200.0
7,2017-05-08,9213.0,1800.0
8,2017-05-09,5593.0,2500.0


In [4]:
# dropnaを用いれば、NaNを含む行を削除することが出来る
nan_drop_data = data.dropna()
nan_drop_data

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-05-01,1439.0,4500.0
1,2017-05-02,8120.0,2420.0
3,2017-05-04,2329.0,1500.0
5,2017-05-06,3233.0,1800.0
6,2017-05-07,9593.0,2200.0
7,2017-05-08,9213.0,1800.0
8,2017-05-09,5593.0,2500.0


In [5]:
# fillnaを用いれば、NaNを指定した値で埋めて補完できる
fill_0_data = data.fillna(0)
fill_0_data

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-05-01,1439.0,4500.0
1,2017-05-02,8120.0,2420.0
2,2017-05-03,0.0,0.0
3,2017-05-04,2329.0,1500.0
4,2017-05-05,0.0,0.0
5,2017-05-06,3233.0,1800.0
6,2017-05-07,9593.0,2200.0
7,2017-05-08,9213.0,1800.0
8,2017-05-09,5593.0,2500.0


In [6]:
# fillnaはmethod="ffill"を用いれば、1つ前のデータで補完できる
fill_front_data = data.fillna(method="ffill")
fill_front_data

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-05-01,1439.0,4500.0
1,2017-05-02,8120.0,2420.0
2,2017-05-03,8120.0,2420.0
3,2017-05-04,2329.0,1500.0
4,2017-05-05,2329.0,1500.0
5,2017-05-06,3233.0,1800.0
6,2017-05-07,9593.0,2200.0
7,2017-05-08,9213.0,1800.0
8,2017-05-09,5593.0,2500.0


In [7]:
# 平均値で埋める方法もある
fill_mean_data = data.fillna(data.mean())
fill_mean_data

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-05-01,1439.0,4500.0
1,2017-05-02,8120.0,2420.0
2,2017-05-03,5645.714286,2388.571429
3,2017-05-04,2329.0,1500.0
4,2017-05-05,5645.714286,2388.571429
5,2017-05-06,3233.0,1800.0
6,2017-05-07,9593.0,2200.0
7,2017-05-08,9213.0,1800.0
8,2017-05-09,5593.0,2500.0


In [8]:
# 中央値で埋める
fill_median_data = data.fillna(data.median())
fill_median_data

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-05-01,1439.0,4500.0
1,2017-05-02,8120.0,2420.0
2,2017-05-03,5593.0,2200.0
3,2017-05-04,2329.0,1500.0
4,2017-05-05,5593.0,2200.0
5,2017-05-06,3233.0,1800.0
6,2017-05-07,9593.0,2200.0
7,2017-05-08,9213.0,1800.0
8,2017-05-09,5593.0,2500.0


In [13]:
# 最頻値で埋める
# 最頻値は扱いが少しめんどくさく、各列それぞれの最頻値で補うという方法を用いる
data.mode().iloc[0,:]

日付        2017-05-01
歩数            1439.0
摂取カロリー        1800.0
Name: 0, dtype: object

`data.mode().iloc[0,:]`とすることで、各行それぞれの最頻値を求める事が出来る  
被りがない場合は、最初に与えられたデータを返す  
fillnaは各列それぞれに何を埋めるか指定できるので、最頻値の場合はこれを渡す

In [14]:
fill_mode_data = data.fillna(data.mode().iloc[0,:])
fill_mode_data

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-05-01,1439.0,4500.0
1,2017-05-02,8120.0,2420.0
2,2017-05-03,1439.0,1800.0
3,2017-05-04,2329.0,1500.0
4,2017-05-05,1439.0,1800.0
5,2017-05-06,3233.0,1800.0
6,2017-05-07,9593.0,2200.0
7,2017-05-08,9213.0,1800.0
8,2017-05-09,5593.0,2500.0
