In [1]:
import pandas as pd
import numpy as np

In [2]:
def basic_check(df):
    '''
    読み込んだデータフレームの
    ・行と列の長さ
    ・各カラムの欠損値の数
    ・各カラムのデータの型
    ・データフレームのレコード先頭から5行、末尾から5行
    を確認する
    '''
    print('行と列の長さ\n{}'.format(df.shape))
    print('-'*50)
    print('各カラムの欠損値の数\n{}'.format(df.isnull().sum()))
    print('-'*50)
    print(df.info())
    display(df.head(), df.tail())

In [3]:
#最大表示行数の指定
pd.set_option('display.max_rows', 300)

In [4]:
df = pd.read_csv('train.csv')
basic_check(df)

行と列の長さ
(207, 12)
--------------------------------------------------
各カラムの欠損値の数
datetime           0
y                  0
week               0
soldout            0
name               0
kcal              41
remarks          186
event            193
payday           197
weather            0
precipitation      0
temperature        0
dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 207 entries, 0 to 206
Data columns (total 12 columns):
datetime         207 non-null object
y                207 non-null int64
week             207 non-null object
soldout          207 non-null int64
name             207 non-null object
kcal             166 non-null float64
remarks          21 non-null object
event            14 non-null object
payday           10 non-null float64
weather          207 non-null object
precipitation    207 non-null object
temperature      207 non-null float64
dtypes: float64(3), int64(2), object(7)
memory usage: 19.5

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
1,2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
3,2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
4,2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
202,2014-9-24,59,水,1,白身魚のマスタード焼き,408.0,,,,曇,0,24.8
203,2014-9-25,50,木,0,牛カルビ焼き肉,394.0,,,,曇,0,25.4
204,2014-9-26,45,金,0,ランチビュッフェ,,スペシャルメニュー（800円）,キャリアアップ支援セミナー,,晴れ,--,27.1
205,2014-9-29,56,月,1,豚肉と玉子の炒め,404.0,,,,快晴,--,26.6
206,2014-9-30,40,火,0,鶏肉とカシューナッツ炒め,398.0,,,,快晴,--,28.1


# 特定カラムの欠損値を別カラムの要素で補完する

In [5]:
'''eventカラムの欠損値をremarksの要素で補完'''
df.loc[df['event'].isnull(), 'event'] =df.loc[df['event'].isnull(), 'remarks']
basic_check(df)

行と列の長さ
(207, 12)
--------------------------------------------------
各カラムの欠損値の数
datetime           0
y                  0
week               0
soldout            0
name               0
kcal              41
remarks          186
event            177
payday           197
weather            0
precipitation      0
temperature        0
dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 207 entries, 0 to 206
Data columns (total 12 columns):
datetime         207 non-null object
y                207 non-null int64
week             207 non-null object
soldout          207 non-null int64
name             207 non-null object
kcal             166 non-null float64
remarks          21 non-null object
event            30 non-null object
payday           10 non-null float64
weather          207 non-null object
precipitation    207 non-null object
temperature      207 non-null float64
dtypes: float64(3), int64(2), object(7)
memory usage: 19.5

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
1,2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
3,2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
4,2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
202,2014-9-24,59,水,1,白身魚のマスタード焼き,408.0,,,,曇,0,24.8
203,2014-9-25,50,木,0,牛カルビ焼き肉,394.0,,,,曇,0,25.4
204,2014-9-26,45,金,0,ランチビュッフェ,,スペシャルメニュー（800円）,キャリアアップ支援セミナー,,晴れ,--,27.1
205,2014-9-29,56,月,1,豚肉と玉子の炒め,404.0,,,,快晴,--,26.6
206,2014-9-30,40,火,0,鶏肉とカシューナッツ炒め,398.0,,,,快晴,--,28.1
