# pandas 学習

既存のデータを利用してpandasを学習するQiitaの記事より
あとjupyterの練習もかねて

## 使うもの

[データ分析で頻出のPandas基本操作 - Qiita](https://qiita.com/ysdyt/items/9ccca82fc5b504e7913a)

使用データ
[コンペティション詳細／SIGNATE／データ _ SIGNATE - Data Science Competition](https://signate.jp/competitions/24/data)

### 基本操作

In [101]:
import numpy as np
import pandas as pd

In [102]:
df = pd.read_csv('C:\\Users\\user\\Downloads\\train.csv')

In [103]:
df.head(5)

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
1,2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
3,2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
4,2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


In [104]:
print('dataframeの行数・列数の確認==>\n', df.shape)
print('\nindexの確認==>\n', df.index)
print('\ncolumnの確認==>\n', df.columns)
print('\ndataframeの各列のデータ型を確認==>\n', df.dtypes)

dataframeの行数・列数の確認==>
 (207, 12)

indexの確認==>
 RangeIndex(start=0, stop=207, step=1)

columnの確認==>
 Index(['datetime', 'y', 'week', 'soldout', 'name', 'kcal', 'remarks', 'event',
       'payday', 'weather', 'precipitation', 'temperature'],
      dtype='object')

dataframeの各列のデータ型を確認==>
 datetime          object
y                  int64
week              object
soldout            int64
name              object
kcal             float64
remarks           object
event             object
payday           float64
weather           object
precipitation     object
temperature      float64
dtype: object


In [105]:
# 任意の列だけ取り出したい場合
df[['name', 'kcal']].head()

Unnamed: 0,name,kcal
0,厚切りイカフライ,
1,手作りヒレカツ,
2,白身魚唐揚げ野菜あん,
3,若鶏ピリ辛焼,
4,ビッグメンチカツ,


In [106]:
# index指定
df.loc[100]

datetime         2014-4-22
y                       78
week                     火
soldout                  1
name                 マーボ豆腐
kcal                   382
remarks                NaN
event                  NaN
payday                 NaN
weather                  曇
precipitation           --
temperature           18.8
Name: 100, dtype: object

In [107]:
# 1,2,4 行目と 0~1 列目を取得
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,datetime,week
1,2013-11-19,火
2,2013-11-20,水
4,2013-11-22,金


In [108]:
# 条件指定もできる
df[df['kcal'] > 450]

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
29,2014-1-8,128,水,0,豚肉の生姜焼,462.0,,,,曇,--,9.8
45,2014-1-31,92,金,1,メダイ照り焼,460.0,,,,快晴,--,14.1
193,2014-9-9,63,火,0,ハンバーグデミソース,460.0,,,,晴れ,--,26.8


In [109]:
# queryメソッドを使うと、複数条件の指定で、特定カラムだけ出力もできる
df[['name', 'kcal']].query('name.str.contains("豚肉")')

Unnamed: 0,name,kcal
29,豚肉の生姜焼,462.0
116,豚肉と茄子のピリ辛炒め,406.0
165,豚肉のマスタード焼き,432.0
169,豚肉の生姜焼き,380.0
185,豚肉の胡麻シャブ,396.0
205,豚肉と玉子の炒め,404.0


In [110]:
# 上の絞り込み
df[['name', 'kcal']].query('kcal > 450 and name.str.contains("豚肉")')

Unnamed: 0,name,kcal
29,豚肉の生姜焼,462.0


#### クエリ指定 query()

[pandas.DataFrameの行を条件で抽出するquery _ note.nkmk.me](https://note.nkmk.me/python-pandas-query/)

----


In [111]:
# 列のデータ確認
df['remarks'].unique()

array([nan, '鶏のレモンペッパー焼（50食）、カレー（42食）', '酢豚（28食）、カレー（85食）', 'お楽しみメニュー',
       '料理長のこだわりメニュー', '手作りの味', 'スペシャルメニュー（800円）'], dtype=object)

In [112]:
# datatime列内で重複確認
print(len(df), len(df['datetime'].unique()))

207 207


In [113]:
# 行方向で重複行を削除
df.drop_duplicates()
print(df.shape)

(207, 12)


In [114]:
# 要約統計量の表示
df.describe()

Unnamed: 0,y,soldout,kcal,payday,temperature
count,207.0,207.0,166.0,10.0,207.0
mean,86.623188,0.449275,404.409639,1.0,19.252174
std,32.882448,0.498626,29.884641,0.0,8.611365
min,29.0,0.0,315.0,1.0,1.2
25%,57.0,0.0,386.0,1.0,11.55
50%,78.0,0.0,408.5,1.0,19.8
75%,113.0,1.0,426.0,1.0,26.1
max,171.0,1.0,462.0,1.0,34.6


----

### データの整形

In [115]:
# datetime列をindexにする
df.set_index('datetime', inplace=True)
df.head()

Unnamed: 0_level_0,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


In [117]:
df.index

Index(['2013-11-18', '2013-11-19', '2013-11-20', '2013-11-21', '2013-11-22',
       '2013-11-25', '2013-11-26', '2013-11-27', '2013-11-28', '2013-11-29',
       ...
       '2014-9-16', '2014-9-17', '2014-9-18', '2014-9-19', '2014-9-22',
       '2014-9-24', '2014-9-25', '2014-9-26', '2014-9-29', '2014-9-30'],
      dtype='object', name='datetime', length=207)

In [119]:
# カラム名を変更する (y を sales に変換)
df.rename(columns={'y': 'sales'}, inplace=True)
df.head()

Unnamed: 0_level_0,sales,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


In [124]:
# 'sales'列を降順で並び変え
df.sort_values(by="sales", ascending=True).head()

Unnamed: 0_level_0,sales,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2014-9-22,29,月,0,筑前煮,395.0,,,,晴れ,--,25.2
2014-8-1,38,金,0,豚肉の生姜焼き,380.0,,,,薄曇,--,32.7
2014-8-29,39,金,0,チキンの辛味噌焼き,398.0,,,,曇,0,25.1
2014-9-30,40,火,0,鶏肉とカシューナッツ炒め,398.0,,,,快晴,--,28.1
2014-8-12,40,火,1,厚切ハムカツ,400.0,,,,雨,0,29.4


In [130]:
# sort_values は複数の列に対しても実行できる
df.sort_values(['sales', 'temperature'], ascending=False)[5:10]

Unnamed: 0_level_0,sales,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2013-12-3,153,火,1,厚揚げ豚生姜炒め,,,,,快晴,--,13.9
2013-11-28,151,木,0,ハンバーグ,,,,,薄曇,--,17.7
2013-12-2,151,月,1,マーボ豆腐,,,,,快晴,--,13.8
2013-12-4,151,水,1,クリームチーズ入りメンチ,,,,,晴れ,--,13.5
2013-12-19,151,木,0,ポーク味噌焼き,,,,,雨,0.5,6.8


In [132]:
# indexのデータ型を確認する
df.index

Index(['2013-11-18', '2013-11-19', '2013-11-20', '2013-11-21', '2013-11-22',
       '2013-11-25', '2013-11-26', '2013-11-27', '2013-11-28', '2013-11-29',
       ...
       '2014-9-16', '2014-9-17', '2014-9-18', '2014-9-19', '2014-9-22',
       '2014-9-24', '2014-9-25', '2014-9-26', '2014-9-29', '2014-9-30'],
      dtype='object', name='datetime', length=207)

In [137]:
# indexのtype変更 object -> datetime64[ns]
df.index = pd.to_datetime(df.index, format='%Y-%m-%d')
df.index

DatetimeIndex(['2013-11-18', '2013-11-19', '2013-11-20', '2013-11-21',
               '2013-11-22', '2013-11-25', '2013-11-26', '2013-11-27',
               '2013-11-28', '2013-11-29',
               ...
               '2014-09-16', '2014-09-17', '2014-09-18', '2014-09-19',
               '2014-09-22', '2014-09-24', '2014-09-25', '2014-09-26',
               '2014-09-29', '2014-09-30'],
              dtype='datetime64[ns]', name='datetime', length=207, freq=None)

#### date文字列はdate型にしておく

Tableauは文字列のままでも自動で日付として取り込んでくれるが、MBでは明示しておく必要がある

これはPythonにおいても同じであり、object型のままだと正しくソートされなかったり、集計できないので困ることになる。

In [139]:
df.sort_index().head()

Unnamed: 0_level_0,sales,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


In [140]:
# resample()で 日付をもとに集計
df.resample('M').mean() # 月単位の平均値

Unnamed: 0_level_0,sales,soldout,kcal,payday,temperature
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2013-11-30,124.6,0.5,,,16.06
2013-12-31,139.722222,0.444444,,1.0,10.844444
2014-01-31,115.222222,0.611111,427.555556,1.0,8.716667
2014-02-28,107.842105,0.526316,420.947368,1.0,7.815789
2014-03-31,89.35,0.45,382.157895,1.0,12.505
2014-04-30,85.761905,0.47619,360.0,1.0,18.17619
2014-05-31,74.2,0.55,419.111111,1.0,22.505
2014-06-30,67.285714,0.333333,423.315789,1.0,25.409524
2014-07-31,61.363636,0.454545,397.2,1.0,29.35
2014-08-31,61.166667,0.333333,403.1875,1.0,30.227778
