# 読み込み

In [1]:
# ライブラリ
import numpy as np
import pandas as pd

In [2]:
# データ
df_customer         = pd.read_csv('../data/customer.csv', encoding='utf-8')
df_holiday_mst      = pd.read_csv('../data/holiday_mst.csv', encoding='utf-8')
df_hotel            = pd.read_csv('../data/hotel.csv', encoding='utf-8')
df_month_mst        = pd.read_csv('../data/month_mst.csv', encoding='utf-8')
df_production_missn = pd.read_csv('../data/production_missing_num.csv', encoding='utf-8')
df_production       = pd.read_csv('../data/production.csv', encoding='utf-8')
df_reserve          = pd.read_csv('../data/reserve.csv', encoding='utf-8')

# 抽出

## カラム列指定による抽出
- loc関数：名前  
- iloc関数：indexg番号  
- ix関数：どちらでも抽出できるが非推奨

In [3]:
df_reserve.head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100


In [4]:
# ①配列でカラム名を指定
df_reserve[['reserve_id', 'hotel_id']].head()

Unnamed: 0,reserve_id,hotel_id
0,r1,h_75
1,r2,h_219
2,r3,h_179
3,r4,h_214
4,r5,h_16


In [5]:
# ②loc関数
df_reserve.loc[:,['reserve_id', 'hotel_id']].head()

Unnamed: 0,reserve_id,hotel_id
0,r1,h_75
1,r2,h_219
2,r3,h_179
3,r4,h_214
4,r5,h_16


In [6]:
# ③不要なカラムを削除して抽出
# axis=0：行
# axis=1：列
df_reserve.drop(['reserve_id'], axis=1, inplace=False).head()

Unnamed: 0,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100


## 条件を指定して抽出する

In [7]:
# ①DFの配列内に同じDFをネストする
df_reserve[(df_reserve['checkout_date']>='2016-10-13') & (df_reserve['checkout_date']<='2016-10-14')].head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
284,r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
513,r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14,2,28800
1065,r1066,h_205,c_261,2016-09-14 02:57:59,2016-10-11,10:00:00,2016-10-14,4,85200
1480,r1481,h_116,c_364,2016-09-17 17:45:39,2016-10-11,11:30:00,2016-10-13,4,107200
1546,r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13,2,153600


In [8]:
# ②loc関数
df_reserve.loc[(df_reserve['checkout_date']>='2016-10-13') & (df_reserve['checkout_date']<='2016-10-14')].head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
284,r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
513,r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14,2,28800
1065,r1066,h_205,c_261,2016-09-14 02:57:59,2016-10-11,10:00:00,2016-10-14,4,85200
1480,r1481,h_116,c_364,2016-09-17 17:45:39,2016-10-11,11:30:00,2016-10-13,4,107200
1546,r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13,2,153600


In [9]:
# ③query関数
val = 2
df_reserve.query('"2016-10-13" <= checkout_date <= "2016-10-14" & people_num == @val').head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
513,r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14,2,28800
1546,r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13,2,153600
1709,r1710,h_59,c_422,2016-09-19 04:17:25,2016-10-10,12:00:00,2016-10-13,2,148800
2203,r2204,h_82,c_549,2016-09-27 01:47:57,2016-10-10,12:00:00,2016-10-13,2,76200
3605,r3606,h_147,c_900,2016-09-28 19:13:15,2016-10-10,12:00:00,2016-10-13,2,80400


## データ値に基づかないサンプリング

In [10]:
# ①sample関数
# 抽出したい割合を指定
df_reserve.sample(frac=0.5)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
3078,r3079,h_300,c_773,2018-04-27 17:46:44,2018-04-30,12:00:00,2018-05-01,3,48900
3284,r3285,h_137,c_825,2017-07-25 20:24:45,2017-08-06,10:30:00,2017-08-09,4,74400
1789,r1790,h_132,c_443,2017-05-18 23:27:23,2017-06-09,09:00:00,2017-06-11,2,81600
1157,r1158,h_131,c_282,2016-03-20 19:42:01,2016-04-11,11:00:00,2016-04-14,4,166800
3485,r3486,h_212,c_867,2017-08-13 12:43:38,2017-08-22,11:00:00,2017-08-24,1,24600
132,r133,h_242,c_27,2016-06-15 04:53:54,2016-07-07,10:00:00,2016-07-09,1,16600
2932,r2933,h_167,c_741,2016-04-11 13:57:06,2016-04-22,11:00:00,2016-04-23,3,83700
2156,r2157,h_42,c_536,2016-05-15 11:55:24,2016-06-06,12:30:00,2016-06-09,3,101700
580,r581,h_146,c_140,2016-05-23 23:41:57,2016-06-13,12:00:00,2016-06-16,2,255600
2361,r2362,h_249,c_593,2017-06-02 07:09:51,2017-06-10,11:30:00,2017-06-12,2,194800


In [11]:
# ①sample関数
# 抽出したい行数を指定
df_reserve.sample(n=2015)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
3110,r3111,h_259,c_785,2016-06-25 10:47:30,2016-07-05,09:00:00,2016-07-08,3,525600
1230,r1231,h_192,c_300,2018-06-25 08:22:58,2018-07-04,12:30:00,2018-07-07,2,90000
474,r475,h_242,c_108,2018-11-07 22:19:18,2018-11-19,10:00:00,2018-11-20,1,8300
1740,r1741,h_67,c_428,2016-02-03 04:32:52,2016-02-07,10:30:00,2016-02-08,2,63600
560,r561,h_174,c_132,2016-10-19 05:00:17,2016-10-31,09:30:00,2016-11-03,3,198000
2923,r2924,h_224,c_738,2016-05-23 01:06:11,2016-05-23,09:00:00,2016-05-25,4,32000
1567,r1568,h_228,c_382,2017-02-01 12:12:01,2017-02-12,11:30:00,2017-02-14,3,46200
1634,r1635,h_260,c_401,2017-06-15 15:55:48,2017-07-08,09:30:00,2017-07-09,1,41000
3753,r3754,h_54,c_935,2016-03-20 07:05:35,2016-03-29,12:30:00,2016-04-01,4,153600
2958,r2959,h_254,c_747,2018-07-06 08:05:27,2018-07-29,12:30:00,2018-07-30,1,5000


## 集約IDに基づかないサンプリング

In [12]:
# ①query関数
target = pd.Series(df_reserve['customer_id'].unique()).sample(frac=0.5)

df_reserve.query('customer_id in @target')

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27,3,68400
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17,4,320400
10,r11,h_183,c_2,2016-11-19 12:49:10,2016-12-08,11:00:00,2016-12-11,1,29700
11,r12,h_268,c_2,2017-05-24 10:06:21,2017-06-20,09:00:00,2017-06-21,4,81600
12,r13,h_223,c_2,2017-10-19 03:03:30,2017-10-21,09:30:00,2017-10-23,1,137000
13,r14,h_133,c_2,2018-02-18 05:12:58,2018-03-12,10:00:00,2018-03-15,2,75600
14,r15,h_92,c_2,2018-04-19 11:25:00,2018-05-04,12:30:00,2018-05-05,2,68800
15,r16,h_135,c_2,2018-07-06 04:18:28,2018-07-08,10:00:00,2018-07-09,4,46400
16,r17,h_115,c_3,2016-05-10 12:20:32,2016-05-17,10:00:00,2016-05-19,2,164000
17,r18,h_132,c_3,2016-10-22 02:18:48,2016-11-12,12:00:00,2016-11-13,1,20400


# 集約

In [13]:
df_reserve.groupby('hotel_id').describe().reset_index()

Unnamed: 0_level_0,hotel_id,people_num,people_num,people_num,people_num,people_num,people_num,people_num,people_num,total_price,total_price,total_price,total_price,total_price,total_price,total_price,total_price
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
0,h_1,10.0,2.600000,1.264911,1.0,1.25,3.0,3.75,4.0,10.0,112230.000000,56449.526127,26100.0,78300.0,104400.0,156600.0,208800.0
1,h_10,3.0,2.666667,1.527525,1.0,2.00,3.0,3.50,4.0,3.0,42933.333333,28736.968061,11200.0,30800.0,50400.0,58800.0,67200.0
2,h_100,20.0,2.700000,1.080935,1.0,2.00,3.0,4.00,4.0,20.0,27600.000000,17883.835689,4800.0,9600.0,28800.0,39600.0,57600.0
3,h_101,17.0,2.411765,1.227743,1.0,1.00,3.0,3.00,4.0,17.0,75764.705882,49014.703676,14000.0,42000.0,56000.0,112000.0,168000.0
4,h_102,13.0,2.769231,1.012739,1.0,2.00,3.0,3.00,4.0,13.0,32769.230769,18912.755159,12000.0,18000.0,24000.0,48000.0,72000.0
5,h_103,10.0,2.900000,1.100505,1.0,2.00,3.0,4.00,4.0,10.0,93960.000000,59547.090609,32400.0,52650.0,64800.0,121500.0,194400.0
6,h_104,11.0,2.000000,0.894427,1.0,1.00,2.0,3.00,3.0,11.0,176472.727273,108114.689945,42200.0,105500.0,126600.0,253200.0,379800.0
7,h_105,15.0,2.466667,1.187234,1.0,1.50,2.0,3.50,4.0,15.0,48753.333333,20402.866279,20600.0,30900.0,41200.0,61800.0,82400.0
8,h_106,9.0,3.000000,1.000000,1.0,3.00,3.0,4.00,4.0,9.0,101133.333333,56719.925952,44400.0,66600.0,88800.0,133200.0,199800.0
9,h_107,11.0,3.000000,1.000000,1.0,2.50,3.0,4.00,4.0,11.0,107672.727273,53234.821140,37600.0,75200.0,112800.0,131600.0,225600.0


## データ数・種類数の算出

In [14]:
# ①size関数
rcv_cnt_tb = df_reserve.groupby('hotel_id').size().reset_index()
rcv_cnt_tb.columns = ['hotel_id', 'rsv_cnt']

cus_cnt_tb = df_reserve.groupby('hotel_id')['customer_id'].nunique().reset_index()
cus_cnt_tb.rename(columns={'customer_id':'cus_cnt'}, inplace=True)

In [15]:
# ②agg関数
# 辞書型でキーにカラム名、値に集約関数名
# 集約IDがindexになっているので振りなおす
result = df_reserve.groupby('hotel_id')\
                   .agg({'reserve_id':'count','customer_id':'nunique'})\
                   .reset_index()

# カラム名をすべて指定
result.columns = ['hotel_id', 'rsv_cnt', 'cus_cnt']

In [16]:
result.head()

Unnamed: 0,hotel_id,rsv_cnt,cus_cnt
0,h_1,10,10
1,h_10,3,3
2,h_100,20,19
3,h_101,17,17
4,h_102,13,13


## 合計値の算出 

In [17]:
# ①sum関数
result = df_reserve.groupby(['hotel_id', 'people_num'])['total_price']\
                   .sum().reset_index()
    
# カラム名を指定して変更する
result.rename(columns={'total_price':'price_sum'}, inplace=True)

result.head()

Unnamed: 0,hotel_id,people_num,price_sum
0,h_1,1,156600
1,h_1,2,156600
2,h_1,3,391500
3,h_1,4,417600
4,h_10,1,11200


## 極値・代表値の算出

In [18]:
# lambdaを2つ使えない
result = df_reserve.groupby('hotel_id').agg({'total_price':['var','std','min','median',lambda x:np.percentile(x,q=80),'max']}).reset_index()

result.columns = ['hotel_id', 'price_var','price_std','price_min', 'price_midian', 'price_80per', 'price_max']

result.fillna(value={'price_var':0, 'price_std':0},inplace=True)

result.head()

Unnamed: 0,hotel_id,price_var,price_std,price_min,price_midian,price_80per,price_max
0,h_1,3186549000.0,56449.526127,26100,104400,156600,208800
1,h_10,825813300.0,28736.968061,11200,50400,60480,67200
2,h_100,319831600.0,17883.835689,4800,28800,43200,57600
3,h_101,2402441000.0,49014.703676,14000,56000,123200,168000
4,h_102,357692300.0,18912.755159,12000,24000,51600,72000


## 最頻値
複数ある場合は以下のように出力される  
0  
1  
2  
・  
・  

In [19]:
df_reserve['total_price'].round(-3).mode()

0    10000
1    20000
2    40000
dtype: int64

## rank関数  
Q.顧客ごとに予約日時の順位を古い順につけましょう。同じ予約日時の場合は、データ行の読み込み順に小さな順位をつけましょう。

In [20]:
# reserve_datetimeの型：文字列→timestamp
df_reserve['reserve_datetime'] = pd.to_datetime(df_reserve['reserve_datetime'],\
                                                format='%Y-%m-%d %H:%M:%S')

In [21]:
# 特徴量としてDataFrameに追加
df_reserve['log_no'] = df_reserve.groupby('customer_id')['reserve_datetime']\
                                 .rank(ascending=True, method='first')

In [22]:
df_reserve[['customer_id', 'log_no']]

Unnamed: 0,customer_id,log_no
0,c_1,1.0
1,c_1,2.0
2,c_1,3.0
3,c_1,4.0
4,c_1,5.0
5,c_1,6.0
6,c_1,7.0
7,c_1,8.0
8,c_2,1.0
9,c_2,2.0


## rank関数(2)
Q.ホテルごとの予約数にランキングをつける。予約数が同じ場合は、取りうる最小順位を付与する。

In [23]:
#  予約回数を計算する
rsv_cnt_tb = df_reserve.groupby('hotel_id').size().reset_index()
rsv_cnt_tb.columns = ['hotel_id', 'rsv_cnt']

# 予約回数をもとに順位を計算する
rsv_cnt_tb['rsv_cnt_rank'] = rsv_cnt_tb['rsv_cnt'].rank(ascending=False, method='min')

rsv_cnt_tb.sort_values('rsv_cnt_rank')

Unnamed: 0,hotel_id,rsv_cnt,rsv_cnt_rank
158,h_241,27,1.0
50,h_144,25,2.0
231,h_37,24,3.0
48,h_142,24,3.0
281,h_82,23,5.0
87,h_178,23,5.0
129,h_215,22,7.0
117,h_204,22,7.0
228,h_34,22,7.0
58,h_151,21,10.0


# 結合

## マスターテーブルの結合
Q. 予約テーブルとホテルテーブルを結合し、
宿泊人数が1人のビジネスホテルの予約レコードのみを取り出せ

In [24]:
# 結合前にデータを抽出し、処理を軽くする
pd.merge(df_reserve.query('people_num == 1'),
         df_hotel.query('is_business == True'),
         on='hotel_id',how='inner')

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no,base_price,big_area_name,small_area_name,hotel_latitude,hotel_longitude,is_business
0,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500,7.0,34500,C,C-1,38.237294,140.696131,True
1,r997,h_256,c_244,2016-10-15 22:47:40,2016-10-31,10:30:00,2016-11-02,1,69000,3.0,34500,C,C-1,38.237294,140.696131,True
2,r2602,h_256,c_650,2016-05-10 00:42:56,2016-05-12,11:00:00,2016-05-14,1,69000,1.0,34500,C,C-1,38.237294,140.696131,True
3,r3738,h_256,c_930,2017-04-12 09:53:00,2017-05-08,11:30:00,2017-05-09,1,34500,4.0,34500,C,C-1,38.237294,140.696131,True
4,r11,h_183,c_2,2016-11-19 12:49:10,2016-12-08,11:00:00,2016-12-11,1,29700,3.0,9900,G,G-4,33.595248,130.633567,True
5,r49,h_183,c_8,2017-01-25 00:25:04,2017-02-14,12:30:00,2017-02-17,1,29700,4.0,9900,G,G-4,33.595248,130.633567,True
6,r1336,h_183,c_326,2017-12-16 15:30:46,2018-01-08,09:30:00,2018-01-09,1,9900,7.0,9900,G,G-4,33.595248,130.633567,True
7,r1910,h_183,c_472,2016-10-18 10:19:33,2016-11-14,09:30:00,2016-11-17,1,29700,3.0,9900,G,G-4,33.595248,130.633567,True
8,r2656,h_183,c_669,2016-03-15 03:16:38,2016-04-13,10:30:00,2016-04-16,1,29700,1.0,9900,G,G-4,33.595248,130.633567,True
9,r2714,h_183,c_683,2016-06-29 12:37:09,2016-07-13,12:30:00,2016-07-16,1,29700,1.0,9900,G,G-4,33.595248,130.633567,True


## 条件別に結合するマスターテーブルを切り替え
Q. ホテルテーブルのすべてのホテルに対して、レコメンド候補のホテルを紐付けたデータを作成しましょう。レコメンド候補のホテルは、同じ小地域（small_area_nameが等しい）のホテルが20件以上ある場合は、同じ小地域のホテルをレコメンド候補とします。同じ小地域のホテルが20件に満たない場合は、同じ大地域（big_area_nameが等しい）のホテルをレコメンド候補とします。

In [25]:
# small_area_nameごとにホテル数をカウント
small_area_mst = df_hotel.groupby(['big_area_name','small_area_name'])\
                         .size().reset_index()
small_area_mst.columns =['big_area_name','small_area_name','hotel_cnt']

small_area_mst.head()

Unnamed: 0,big_area_name,small_area_name,hotel_cnt
0,A,A-1,35
1,A,A-3,30
2,B,B-1,15
3,B,B-2,18
4,B,B-3,19


In [26]:
# hotel_cnt
# 20件以上：small_area_name
# 20件未満：big_area_name
small_area_mst['join_area_id'] = \
np.where(small_area_mst['hotel_cnt'] -1 >= 20,
         small_area_mst['small_area_name'],
         small_area_mst['big_area_name'])

small_area_mst.drop(['hotel_cnt','big_area_name'],axis=1,inplace=True)

small_area_mst.head()

Unnamed: 0,small_area_name,join_area_id
0,A-1,A-1
1,A-3,A-3
2,B-1,B
3,B-2,B
4,B-3,B


In [27]:
# レコメンド元になるホテルにsmall_area_mstを結合することで,
# join_area_idを設定する
base_hotel_mst = pd.merge(df_hotel,small_area_mst,on='small_area_name')\
                   .loc[:,['hotel_id','join_area_id']]

base_hotel_mst.head()

Unnamed: 0,hotel_id,join_area_id
0,h_1,D
1,h_79,D
2,h_125,D
3,h_127,D
4,h_129,D


In [28]:
# ガベージコレクション(必要のないメモリの解放)のためのライブラリ
import gc

del small_area_mst
gc.collect()

119

In [29]:
# レコメンド候補マスタ
recommend_hotel_mst = pd.concat([
    # join_area_id を big_area_name としたレコメンド候補
    df_hotel[['small_area_name','hotel_id']]\
        .rename(columns={'small_area_name':'join_area_id'}),
    
    df_hotel[['big_area_name','hotel_id']]\
        .rename(columns={'big_area_name':'join_area_id'})
    
])

recommend_hotel_mst.rename(columns={'hotel_id':'rec_hotel_id'},inplace=True)

recommend_hotel_mst.head()

Unnamed: 0,join_area_id,rec_hotel_id
0,D-2,h_1
1,A-1,h_2
2,E-4,h_3
3,C-3,h_4
4,G-3,h_5


In [30]:
# base_hotel_mst と recommend_hotel_mst を結合し、
# レコメンド候補情報を付与
# query関数によってレコメンド候補から自分を除く
pd.merge(base_hotel_mst, recommend_hotel_mst,on='join_area_id')\
  .loc[:,['hotel_id','rec_hotel_id']]\
  .query('hotel_id != rec_hotel_id')

Unnamed: 0,hotel_id,rec_hotel_id
1,h_1,h_14
2,h_1,h_22
3,h_1,h_27
4,h_1,h_40
5,h_1,h_45
6,h_1,h_77
7,h_1,h_79
8,h_1,h_85
9,h_1,h_91
10,h_1,h_103


## 過去データの結合

### n件前のデータ取得
予約テーブルのすべての行に、同じ顧客の2回前の予約金額の情報を付与しましょう。2回前の予約がない場合は、値なしとしましょう。

In [31]:
#customer_idごとにreserve_datetimeで並び替える
result = df_reserve.groupby('customer_id')\
                   .apply(lambda x:x.sort_values(by='reserve_datetime', axis=0))\
                   .reset_index(drop=True)

result.head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,1.0
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,2.0
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,3.0
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400,4.0
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100,5.0


In [32]:
# customer_idごとに2つ前のtotal_priceをbefore_priceとして保存
result['before_price'] = \
  pd.Series(result['total_price'].shift(periods=2))

# 欠損値を0で置換し'int64'型に変換
result['before_price'] = result['before_price'].fillna(0).astype('int64')


result.head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no,before_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,1.0,0
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,2.0,0
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,3.0,97200
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400,4.0,20600
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100,5.0,33600


### 過去n件の合計値
予約テーブルのすべての行に、自身の行から2件前までの3回の合計予約金額の情報を付与しましょう。過去の予約が3回未満の場合は、値なしとしましょう。

In [33]:
df_reserve['price_sum'] = \
pd.Series(df_reserve.groupby('customer_id')\
                    .apply(lambda x:x.sort_values(by='reserve_datetime'))\
                    .loc[:,'total_price']\
                    .rolling(center=False,window=3,min_periods=3).sum()\
                    .reset_index(drop=True)
         )

df_reserve.head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no,price_sum
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,1.0,
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,2.0,
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,3.0,151400.0
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400,4.0,248600.0
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100,5.0,296100.0


### 過去n件の平均値
予約テーブルのすべての行に、自身の行を含めないで1件前から3件前までの3回の平均予約金額の情報を付与しましょう。過去の予約が3回未満の場合は、満たない回数内で平均予約金額を計算しましょう。予約が1回もない場合は、値なしとしましょう。

In [34]:
df_reserve['price_avg'] = \
pd.Series(df_reserve.groupby('customer_id')\
          .apply(lambda x:x.sort_values(by='reserve_datetime'))
          .loc[:,'total_price']\
          .rolling(center=False,window=3,min_periods=1).mean()
          .reset_index(drop=True)
         )

df_reserve['price_avg'] = df_reserve.groupby('customer_id')['price_avg'].shift(periods=1)

df_reserve.head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no,price_sum,price_avg
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,1.0,,
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,2.0,,97200.0
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,3.0,151400.0,58900.0
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400,4.0,248600.0,50466.666667
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100,5.0,296100.0,82866.666667


### 過去n日間の合計値
予約テーブルのすべてのデータ行に対して、自身の行を含めないで同じ顧客の過去90日間の合計予約金額の情報を付与しましょう。予約が1回もない場合は0とします。

In [35]:
import pandas.tseries.offsets as offsets
import operator

df_reserve['reserve_datetime'] = \
pd.to_datetime(df_reserve['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')

sum_table = \
pd.merge(df_reserve[['reserve_id','customer_id','reserve_datetime']],
         df_reserve[['customer_id','reserve_datetime','total_price']]\
         .rename(columns={'reserve_datetime':'reserve_datetime_before'}),
         on='customer_id'
         )

sum_table = \
sum_table[operator.and_(
  sum_table['reserve_datetime'] > sum_table['reserve_datetime_before'],
  sum_table['reserve_datetime'] + offsets.Day(-90) <= sum_table['reserve_datetime_before']
)].groupby('reserve_id')['total_price'].sum().reset_index()

sum_table.columns = ['reserve_id','total_price_sum']

pd.merge(df_reserve,sum_table,on='reserve_id',how='left').fillna(0)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no,price_sum,price_avg,total_price_sum
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,1.0,0.0,0.000000,0.0
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,2.0,0.0,97200.000000,0.0
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,3.0,151400.0,58900.000000,20600.0
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400,4.0,248600.0,50466.666667,0.0
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100,5.0,296100.0,82866.666667,0.0
5,r6,h_241,c_1,2017-11-27 18:47:05,2017-12-04,12:00:00,2017-12-06,3,36000,6.0,298500.0,98700.000000,68100.0
6,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500,7.0,207600.0,99500.000000,36000.0
7,r8,h_241,c_1,2018-05-26 08:42:51,2018-06-08,10:00:00,2018-06-09,1,6000,8.0,145500.0,69200.000000,0.0
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27,3,68400,1.0,219900.0,0.000000,0.0
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17,4,320400,2.0,152400.0,73300.000000,0.0


## 全結合
顧客ごとに2017年1月～2017年3月の月間合計利用料金を計算しましょう。利用がない月は、0としましょう。日付はチェックイン日付を利用します。

In [36]:
import datetime
# 日付計算用ライブラリ
from dateutil.relativedelta import relativedelta

# 年月マスタの生成
month_mst = pd.DataFrame({
    'year_month':\
    # relativedelta で 2017-01-01 を x月間進める、xは0,1,2を代入
    # 2017-01-01, 2017-02-01, 2017-03-01 のリストを生成
    [(datetime.date(2017,1,1) + relativedelta(months=x)).strftime('%Y-%m')
      for x in range(0,3)]
})

# cross join のためにすべて同じ値の結合キーを準備
df_customer['join_key'] = 0
month_mst['join_key'] = 0

# df_customer と month_mst を準備した結合キーで内部結合し、全結合を実現
customer_mst = \
pd.merge(
    df_customer[['customer_id','join_key']],month_mst,on='join_key'
)

# 年月の結合キーを予約テーブルで準備
df_reserve['year_month'] = \
df_reserve['checkin_date'].apply(lambda x:pd.to_datetime(x,format='%Y-%m-%d').strftime("%Y-%m"))

# 予約レコードと結合し、合計利用金額を計算
summary_result = \
pd.merge(
    customer_mst,
    df_reserve[['customer_id','year_month','total_price']],
    on=['customer_id','year_month'],
    how='left'
).groupby(['customer_id','year_month'])['total_price'].sum().reset_index()

# 予約レコードがなかった場合の合計金額を値なしから0に変換
summary_result.fillna(0, inplace=True)

summary_result

Unnamed: 0,customer_id,year_month,total_price
0,c_1,2017-01,0.0
1,c_1,2017-02,0.0
2,c_1,2017-03,194400.0
3,c_10,2017-01,0.0
4,c_10,2017-02,0.0
5,c_10,2017-03,0.0
6,c_100,2017-01,0.0
7,c_100,2017-02,18000.0
8,c_100,2017-03,0.0
9,c_1000,2017-01,0.0


# 検証

## 交差検証
製造レコードのデータを用いて、予測モデル構築のためのデータ分割を行います。データの20％をホールドアウト検証用のテストデータとして確保し、残りのデータで交差数4の交差検証を行いましょう

In [37]:
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold

train_x, test_x, train_y, test_y = \
    train_test_split(df_production.drop('fault_flg',axis=1),
                     df_production['fault_flg'],
                     test_size=0.2)

train_x.reset_index(inplace=True, drop=True)
test_x.reset_index(inplace=True, drop=True)
train_y.reset_index(inplace=True, drop=True)
test_y.reset_index(inplace=True, drop=True)

# 訓練データの予測対象データの行番号リストを生成する
row_no_list = list(range(len(train_y)))
print('データ数：',len(row_no_list))

# 交差検証用にデータを分割する
k_fold = KFold(n_splits=4, shuffle=True)

# 交差数分繰り返し処理(並列処理も可能な部分)
for train_cv_no, valid_cv_no, in k_fold.split(row_no_list):
    
    # 交差検証における学習データを抽出
    train_cv = train_x.iloc[train_cv_no,:]
    print(train_cv)
    
    # 交差検証における検証データを抽出
    test_cv = train_x.iloc[valid_cv_no,:]
    print(test_cv)
    
    # 機械学習モデルの学習・検証

データ数： 800
    type      length  thickness
0      D  178.108250   8.314476
1      D  182.252364  33.314305
2      B  201.200663  11.382859
3      E  258.690602  12.875048
5      A  215.373615  25.014031
6      B  116.560759   0.371585
7      C  281.703461   9.063087
9      E  123.940388   1.018462
11     C  237.925581  13.372580
12     C  202.010973  35.211647
13     E  110.243125  19.164371
14     C  201.112964  37.075186
15     D  118.991066  12.816692
16     A  184.153130  19.530491
17     B  251.869329  10.381542
18     D  106.320301   4.393135
20     D   99.087633   3.445524
21     B  135.839423  23.635717
23     B  289.433864  52.838921
24     D  161.578603  31.050071
28     A  206.412039   5.000382
29     C  276.386631  29.899611
30     C  284.238825  16.782799
31     C  296.106190   9.702763
32     E  139.847363   2.219987
33     A  152.034933  28.567297
36     A  220.102489  14.768595
38     E  125.724709   8.491794
39     D  123.128851  12.268990
40     D  150.161487  22.03902

[600 rows x 3 columns]
    type      length  thickness
0      D  178.108250   8.314476
1      D  182.252364  33.314305
3      E  258.690602  12.875048
5      A  215.373615  25.014031
9      E  123.940388   1.018462
13     E  110.243125  19.164371
14     C  201.112964  37.075186
15     D  118.991066  12.816692
16     A  184.153130  19.530491
17     B  251.869329  10.381542
18     D  106.320301   4.393135
38     E  125.724709   8.491794
39     D  123.128851  12.268990
43     E  202.499888  12.930346
46     A  116.259632  18.229245
48     A  220.319299  26.535156
50     D  213.516900   0.405075
55     C  379.206517  24.390006
56     E  132.686974  25.042697
58     C  210.066408  37.695979
60     C  389.359693  39.328749
67     D   86.319269  16.906715
80     C  320.399548   5.250586
88     A  101.335062  12.458923
90     C  350.504816  22.834786
99     C  358.604996  25.700388
104    B  108.038854  15.539570
106    B  172.477456  33.779951
110    B  262.003823   9.144970
114    C  338.504

## 時系列データにおけるモデル検証用のデータ分割
月ごとのレコードデータを対象に、学習データと検証データを時間軸に対して1ヵ月ごとスライドしながら生成しましょう。学習期間は24ヵ月、検証期間は12ヵ月、スライドする期間は12ヵ月とします。

In [38]:
# 最初の学習データの開始行番号を指定
train_window_start = 0

# 最初の学習データの終了行番号を指定
train_window_end = 7

# horizonに、検証データのデータ数を指定
horizon = 2

# skipにスライドするデータを指定
skip = 2

# データ期間の月数を指定
month_num = 24

# 年月マスタの生成
df_monthly_index = pd.DataFrame({
    'year_month':\
    # relativedelta で 2017-01-01 を x月間進める
    [(datetime.date(2016,1,1) + relativedelta(months=x)).strftime('%Y-%m')
      for x in range(0,month_num)]
})

# 年月に基づいてデータを並び替える
df_monthly_index.sort_values(by='year_month')

while True:
    # 検証データの終了行番号を計算
    test_window_end = train_window_end + horizon
    
    # 行番号を指定して、元データから学習データを取得
    train = df_monthly_index[train_window_start:train_window_end]
    
    # 行番号を指定して、元データから検証データを取得
    test = df_monthly_index[train_window_end:test_window_end]
    
    
    if len(test) < horizon:
        break
    print('train：',train)
    print('test', test)
    
    # 検証データの終了番号が元データの行数以上になっているか判定
    if test_window_end >= len(df_monthly_index):
        # 全データを対象にした場合終了
        break
    
    # データをスライドさせる
    # ①学習期間を一定にするパターン
    train_window_start += skip
    train_window_end += skip
    # ②学習期間を増やしていくパターン
    #train_window_end += skip

train：   year_month
0    2016-01
1    2016-02
2    2016-03
3    2016-04
4    2016-05
5    2016-06
6    2016-07
test   year_month
7    2016-08
8    2016-09
train：   year_month
2    2016-03
3    2016-04
4    2016-05
5    2016-06
6    2016-07
7    2016-08
8    2016-09
test    year_month
9     2016-10
10    2016-11
train：    year_month
4     2016-05
5     2016-06
6     2016-07
7     2016-08
8     2016-09
9     2016-10
10    2016-11
test    year_month
11    2016-12
12    2017-01
train：    year_month
6     2016-07
7     2016-08
8     2016-09
9     2016-10
10    2016-11
11    2016-12
12    2017-01
test    year_month
13    2017-02
14    2017-03
train：    year_month
8     2016-09
9     2016-10
10    2016-11
11    2016-12
12    2017-01
13    2017-02
14    2017-03
test    year_month
15    2017-04
16    2017-05
train：    year_month
10    2016-11
11    2016-12
12    2017-01
13    2017-02
14    2017-03
15    2017-04
16    2017-05
test    year_month
17    2017-06
18    2017-07
train：    year_month
12

# 生成

## オーバーサンプリング
障害が起きていない（fault_flgがFalse）レコードが927件、障害が起きている（fault_flgがTrue）レコードが73件あります。障害が起きているレコードをSMOTEを用いてオーバーサンプリングを行い、障害が起きていないレコードの件数に近づけましょう。なお、SMOTEのkパラメータは5とします。

In [51]:
from imblearn.over_sampling import SMOTE

# SMOTE関数の設定
# ratioは不均衡データにおける少ない例のデータを多い方のデータの何割まで増やすか設定
#（autoの場合は同じ数まで増やす、0.5と設定すると5割までデータを増やす）
# k_neighborsはsmoteのkパラメータ
# random_stateは乱数のseed（乱数の生成パターンの元）
sm = SMOTE(ratio='auto',k_neighbors=5,random_state=1)

# オーバーサンプリングの実行
balance_data, balance_target = \
    sm.fit_sample(df_production[['length','thickness']],
                  df_production['fault_flg'])

# 均衡データに調整されているかを確認
pd.Series(balance_target).value_counts()

True     948
False    948
dtype: int64

# 展開

## 横持ち変換
予約テーブルから、顧客／宿泊人数ごとに予約数をカウントし、行を顧客ID、列を宿泊人数、値を予約数の行列（表）に変換しましょう

In [52]:
# pivot_table関数で、横持変換と集約処理を同時実行
# aggfuncに予約数をカウントする関数を指定
pd.pivot_table(df_reserve,index='customer_id',columns='people_num',
               values='reserve_id',aggfunc=lambda x:len(x),
               fill_value=0)

people_num,1,2,3,4
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
c_1,2,2,2,2
c_10,0,2,2,2
c_100,2,1,2,0
c_1000,1,0,0,1
c_101,2,1,1,1
c_102,0,1,0,0
c_103,3,1,2,2
c_104,0,0,1,1
c_105,0,1,1,0
c_106,2,1,2,0


## スーパーマトリックスへの変換

In [67]:
# スーパーマトリックスのライブラリを読み込み
from scipy.sparse import csc_matrix

# 顧客ID/宿泊人数別の予約数の表を作成
cnt_tb = \
    df_reserve\
    .groupby(['customer_id','people_num'])['reserve_id'].size()\
    .reset_index()
cnt_tb.columns = ['customer_id','people_num','rsv_cnt']

# sparseMatrixの行/列に該当する列の値をカテゴリ型に変換
customer_id = pd.Categorical(cnt_tb['customer_id'])
people_num = pd.Categorical(cnt_tb['people_num'])

csc_matrix((cnt_tb['rsv_cnt'],(customer_id.codes,people_num.codes)),
            shape=(len(customer_id.categories),len(people_num.categories)))

<888x4 sparse matrix of type '<class 'numpy.int64'>'
	with 2366 stored elements in Compressed Sparse Column format>

In [71]:
csc_matrix

scipy.sparse.csc.csc_matrix