In [1]:
import pandas as pd
import numpy as np

In [2]:
def basic_check(df):
    '''
    読み込んだデータフレームの
    ・行と列の長さ
    ・各カラムの欠損値の数
    ・各カラムのデータの型
    ・データフレームのレコード先頭から5行、末尾から5行
    を確認する
    '''
    print('行と列の長さ\n{}'.format(df.shape))
    print('-'*50)
    print('各カラムの欠損値の数\n{}'.format(df.isnull().sum()))
    print('-'*50)
    print(df.info())
    display(df.head(), df.tail())

In [3]:
df = pd.read_csv('train.csv')
basic_check(df)

行と列の長さ
(207, 12)
--------------------------------------------------
各カラムの欠損値の数
datetime           0
y                  0
week               0
soldout            0
name               0
kcal              41
remarks          186
event            193
payday           197
weather            0
precipitation      0
temperature        0
dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 207 entries, 0 to 206
Data columns (total 12 columns):
datetime         207 non-null object
y                207 non-null int64
week             207 non-null object
soldout          207 non-null int64
name             207 non-null object
kcal             166 non-null float64
remarks          21 non-null object
event            14 non-null object
payday           10 non-null float64
weather          207 non-null object
precipitation    207 non-null object
temperature      207 non-null float64
dtypes: float64(3), int64(2), object(7)
memory usage: 19.5

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
1,2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
3,2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
4,2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
202,2014-9-24,59,水,1,白身魚のマスタード焼き,408.0,,,,曇,0,24.8
203,2014-9-25,50,木,0,牛カルビ焼き肉,394.0,,,,曇,0,25.4
204,2014-9-26,45,金,0,ランチビュッフェ,,スペシャルメニュー（800円）,キャリアアップ支援セミナー,,晴れ,--,27.1
205,2014-9-29,56,月,1,豚肉と玉子の炒め,404.0,,,,快晴,--,26.6
206,2014-9-30,40,火,0,鶏肉とカシューナッツ炒め,398.0,,,,快晴,--,28.1


# 指定文字列どちらかが含まれていればフラグを立てる

In [4]:
'''「カツ」or「肉」どちらかが含まれていればフラグを付ける'''
df['カツ_肉_flag'] = df['name'].map(lambda x: 1 if ('カツ' in x) or ('肉' in x) else 0)
display(df.head(20), df.tail(20))

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature,カツ_肉_flag
0,2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8,0
1,2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0,1
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5,0
3,2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2,0
4,2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1,1
5,2013-11-25,135,月,1,鶏の唐揚,,,,,曇,--,14.6,0
6,2013-11-26,145,火,0,豚のスタミナ炒め,,,,,快晴,--,17.9,0
7,2013-11-27,140,水,1,ボローニャ風カツ,,,,,晴れ,--,14.7,1
8,2013-11-28,151,木,0,ハンバーグ,,,,,薄曇,--,17.7,0
9,2013-11-29,116,金,0,タルタルinソーセージカツ,,,,,快晴,--,12.1,1


Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature,カツ_肉_flag
187,2014-9-1,65,月,1,ビーフシチュー,380.0,,,,曇,--,23.4,0
188,2014-9-2,68,火,1,名古屋味噌カツ,440.0,手作りの味,,,晴れ,--,29.1,1
189,2014-9-3,53,水,0,親子煮,408.0,,,,曇,--,26.7,0
190,2014-9-4,54,木,1,チキンステーキ・きのこソース,405.0,,,,曇,0,26.5,0
191,2014-9-5,43,金,0,メンチカツ,380.0,,,,晴れ,--,30.2,1
192,2014-9-8,68,月,1,鶏肉の山賊焼き,385.0,,,,曇,--,23.1,1
193,2014-9-9,63,火,0,ハンバーグデミソース,460.0,,,,晴れ,--,26.8,0
194,2014-9-10,54,水,0,ぶりレモンペッパー焼き,450.0,,,1.0,曇,0,25.0,0
195,2014-9-11,53,木,0,手作りチキンカツ,385.0,,,,曇,--,21.9,1
196,2014-9-12,115,金,0,ポークカレー,,お楽しみメニュー,,,晴れ,--,27.3,0


In [5]:
df['カツ_肉_flag'].value_counts()

0    148
1     59
Name: カツ_肉_flag, dtype: int64