# PART4 欠損値を確認してみよう

## おまじない

In [1]:
import pandas as pd
import numpy as np
%matplotlib inline
from matplotlib import pyplot as plt

## データの読み込み
- train.csvを読み込みましょう
- 読み込んだものは変数trainに代入しましょう

In [2]:
train = pd.read_csv("bento/train.csv")

## trainの先頭行を確認しましょう

In [3]:
train.head()

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
1,2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
3,2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
4,2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


## 各値が欠損値か否かを出力しましょう
- 欠損とは何らかの理由で、データの値が入っていない状態のことをいいます
- データ分析において欠損がある場合の対応はとても重要となります
- 欠損の有無を確認する為にはisnull関数を使います
- 欠損値の時、Trueと表示されます

In [4]:
train.isnull()

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,False,False,False,False,False,True,True,True,True,False,False,False
1,False,False,False,False,False,True,True,True,True,False,False,False
2,False,False,False,False,False,True,True,True,True,False,False,False
3,False,False,False,False,False,True,True,True,True,False,False,False
4,False,False,False,False,False,True,True,True,True,False,False,False
5,False,False,False,False,False,True,True,True,True,False,False,False
6,False,False,False,False,False,True,True,True,True,False,False,False
7,False,False,False,False,False,True,True,True,True,False,False,False
8,False,False,False,False,False,True,True,True,True,False,False,False
9,False,False,False,False,False,True,True,True,True,False,False,False


## 各列（カラム）にTrueが１つ以上あるかないかを確かめてみましょう
- isnull関数のあとにany関数を付け加えます。付け加える時はドット(.)で繋ぎます
- 1つ以上欠損値を含んでいる場合、Trueと表示されます
train.isnull().any()

## 具体的に各列（カラム）に欠損値が幾つあるか数えてみましょう
- isnull関数のあとにsum関数を付け加えます

In [6]:
train.isnull().sum()

datetime           0
y                  0
week               0
soldout            0
name               0
kcal              41
remarks          186
event            193
payday           197
weather            0
precipitation      0
temperature        0
dtype: int64

## もう一度trainの先頭行を出力し、kcalに注目してみましょう

In [7]:
train.head()

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
1,2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
3,2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
4,2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


## 欠損値の処理をしましょう
- 欠損値の処理は別のなんらかの値を代入（補間といいます）するか、欠損値を含む行を削除するかで対応します
- ここではまず、欠損値を0で補間してみましょう
- fillna関数を使います

In [8]:
train.fillna(0)

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2013-11-18,90,月,0,厚切りイカフライ,0.0,0,0,0.0,快晴,--,19.8
1,2013-11-19,101,火,1,手作りヒレカツ,0.0,0,0,0.0,快晴,--,17.0
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,0.0,0,0,0.0,快晴,--,15.5
3,2013-11-21,120,木,1,若鶏ピリ辛焼,0.0,0,0,0.0,快晴,--,15.2
4,2013-11-22,130,金,1,ビッグメンチカツ,0.0,0,0,0.0,快晴,--,16.1
5,2013-11-25,135,月,1,鶏の唐揚,0.0,0,0,0.0,曇,--,14.6
6,2013-11-26,145,火,0,豚のスタミナ炒め,0.0,0,0,0.0,快晴,--,17.9
7,2013-11-27,140,水,1,ボローニャ風カツ,0.0,0,0,0.0,晴れ,--,14.7
8,2013-11-28,151,木,0,ハンバーグ,0.0,0,0,0.0,薄曇,--,17.7
9,2013-11-29,116,金,0,タルタルinソーセージカツ,0.0,0,0,0.0,快晴,--,12.1


## 今度は欠損値を削除してみましょう
- dropna関数を使います
- ある列に欠損値があった場合のみ、その行を削除したい場合はオプションとしてsubset=[ ]を使います

In [9]:
train.dropna()

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature


In [10]:
train.dropna(subset=["kcal"])

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
28,2014-1-7,131,火,0,カレー入りソーセージカツ,404.0,,,,快晴,--,7.3
29,2014-1-8,128,水,0,豚肉の生姜焼,462.0,,,,曇,--,9.8
30,2014-1-9,129,木,1,鶏チリソース,435.0,,,,曇,--,10.9
31,2014-1-10,87,金,0,手作りロースカツ,440.0,,,1.0,快晴,--,5.1
32,2014-1-14,129,火,1,鶏の照り焼きマスタード,376.0,,,,晴れ,--,5.8
33,2014-1-15,134,水,0,さんま辛味焼,450.0,,,,曇,--,2.9
34,2014-1-16,107,木,0,カレイ唐揚げ野菜あんかけ,415.0,,,,快晴,--,7.0
35,2014-1-17,85,金,1,回鍋肉,430.0,,ママの会,,快晴,--,7.8
36,2014-1-20,126,月,1,ジューシーメンチカツ,375.0,,,,晴れ,--,6.5
37,2014-1-21,129,火,1,サバ焼味噌掛け,447.0,,,,快晴,--,10.4


## precipitationには本当に欠損値がないか確認してみましょう
- 行の中の値がそれぞれ幾つあるかを確認したい場合は、value_counts関数を使います

In [11]:
train["precipitation"].value_counts()

--     169
0       23
0.5      9
1.5      2
6        1
6.5      1
1        1
2.5      1
Name: precipitation, dtype: int64