# 抽出
1. データ列を指定して抽出
2. 条件指定によるデータ行の抽出
3. データ値に基づかないサンプリング
4. 集約IDに基づくサンプリング

In [1]:
import sys
import pandas as pd
sys.path.append("../src")
from data_loader import load_hotel_reserve

In [2]:
customer_tb, hotel_tb, reserve_tb = load_hotel_reserve()

## データ列指定による抽出
列番号による指定はアンチパターンなのでできる限り避ける

In [3]:
# reserve_tbの配列に文字配列を指定することで、指定した列名の列を抽出
reserve_tb[['reserve_id', 'hotel_id', 'customer_id',
            'reserve_datetime', 'checkin_date', 'checkin_time',
            'checkout_date']]

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23
...,...,...,...,...,...,...,...
4025,r4026,h_129,c_999,2017-06-27 23:00:02,2017-07-10,09:30:00,2017-07-11
4026,r4027,h_97,c_999,2017-09-29 05:24:57,2017-10-09,10:30:00,2017-10-10
4027,r4028,h_27,c_999,2018-03-14 05:01:45,2018-04-02,11:30:00,2018-04-04
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13


In [4]:
# loc関数の2次元配列の2次元目に抽出したい列名の配列を指定することで、列を抽出
reserve_tb.loc[:, ['reserve_id', 'hotel_id', 'customer_id',
                   'reserve_datetime', 'checkin_date',
                   'checkin_time', 'checkout_date']]

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23
...,...,...,...,...,...,...,...
4025,r4026,h_129,c_999,2017-06-27 23:00:02,2017-07-10,09:30:00,2017-07-11
4026,r4027,h_97,c_999,2017-09-29 05:24:57,2017-10-09,10:30:00,2017-10-10
4027,r4028,h_27,c_999,2018-03-14 05:01:45,2018-04-02,11:30:00,2018-04-04
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13


In [5]:
# drop関数によって、不要な列を削除
# axisを1にすることによって、列の削除を指定
# inplaceをTrueに指定することによって、reserve_tbの書き換えを指定
reserve_tb.drop(['people_num', 'total_price'], axis=1, inplace=True)

## 条件指定による抽出
checkin_dateが2016-10-12から2016-10-13までのデータ行を抽出  
`query`関数を利用するとシンプルな記述で複雑な条件を指定できる

In [6]:
reserve_tb.query('"2016-10-13" <= checkout_date <= "2016-10-14"')

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
284,r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14
513,r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14
1065,r1066,h_205,c_261,2016-09-14 02:57:59,2016-10-11,10:00:00,2016-10-14
1480,r1481,h_116,c_364,2016-09-17 17:45:39,2016-10-11,11:30:00,2016-10-13
1546,r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13
1709,r1710,h_59,c_422,2016-09-19 04:17:25,2016-10-10,12:00:00,2016-10-13
1932,r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13
2058,r2059,h_9,c_517,2016-09-19 15:32:35,2016-10-11,12:30:00,2016-10-13
2115,r2116,h_77,c_527,2016-10-05 00:44:09,2016-10-11,09:00:00,2016-10-13
2170,r2171,h_177,c_540,2016-09-28 01:21:26,2016-10-11,10:00:00,2016-10-13


## データ値に基づかないサンプリング
抽出したデータが多すぎて扱いづらい場合、サンプリングによってデータ数を減らす

In [7]:
# 50%をランダムサンプリング
reserve_tb.sample(frac=0.5)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
3870,r3871,h_295,c_962,2017-03-23 15:56:50,2017-04-21,09:30:00,2017-04-24
2313,r2314,h_252,c_578,2016-06-28 10:02:29,2016-07-26,12:00:00,2016-07-29
79,r80,h_16,c_13,2017-08-18 14:39:39,2017-09-07,11:30:00,2017-09-10
1081,r1082,h_165,c_265,2017-06-25 06:19:46,2017-07-06,09:30:00,2017-07-07
1934,r1935,h_294,c_478,2016-10-23 22:40:21,2016-10-29,12:30:00,2016-11-01
...,...,...,...,...,...,...,...
2685,r2686,h_3,c_676,2016-04-11 04:56:01,2016-04-21,10:00:00,2016-04-24
3745,r3746,h_254,c_933,2016-06-29 10:42:43,2016-07-08,10:30:00,2016-07-11
1291,r1292,h_154,c_315,2016-08-08 14:39:53,2016-08-08,10:00:00,2016-08-11
3925,r3926,h_288,c_976,2017-06-03 02:24:09,2017-06-12,11:30:00,2017-06-14


## 集計IDに基づくサンプリング
顧客単位のランダムサンプリングによって、予約テーブルから約50%の行を抽出する。

In [8]:
# reserve_tb['customer_id'].unique()は、重複を排除したcustomer_idを返す
# sample関数を利用するためにpandas.Series(pandasのリストオブジェクト)に変換
# sample関数によって、顧客IDをサンプリング
target = pd.Series(reserve_tb['customer_id'].unique()).sample(frac=0.5)

# isin関数によって、customer_idがサンプリングした顧客IDのいずれかに一致した行を抽出
reserve_tb[reserve_tb['customer_id'].isin(target)]

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
16,r17,h_115,c_3,2016-05-10 12:20:32,2016-05-17,10:00:00,2016-05-19
17,r18,h_132,c_3,2016-10-22 02:18:48,2016-11-12,12:00:00,2016-11-13
18,r19,h_23,c_3,2017-01-11 22:54:09,2017-02-08,10:00:00,2017-02-10
19,r20,h_292,c_3,2017-02-23 07:10:30,2017-03-03,11:00:00,2017-03-04
20,r21,h_153,c_3,2017-04-06 18:12:10,2017-04-16,09:00:00,2017-04-19
...,...,...,...,...,...,...,...
4017,r4018,h_204,c_996,2017-08-20 17:56:37,2017-09-06,12:30:00,2017-09-07
4018,r4019,h_224,c_996,2017-12-10 19:39:53,2017-12-20,11:30:00,2017-12-23
4019,r4020,h_243,c_996,2018-04-22 20:41:29,2018-05-21,12:00:00,2018-05-22
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13
