In [2]:
import pandas as pd

In [3]:
# データの読み込み
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')

# 第２章　抽出

### データ列指定による抽出
まずは，分析に必要ないデータを排除し，必要な列のみに絞りこみます，
これによって１行あたりのデータ数を減らし，データ分析が行いやすくなります．

#### Q:reserve_tbには以下のカラムが入っています．reserve_tbのカラムから'people_num', 'total_price'を削除しましょう．

'reserve_id', 'hotel_id', 'customer_id', 'reserve_datetime',
'checkin_date', 'checkin_time', 'checkout_date', 'people_num',
'total_price'

In [5]:
#答えは以下の３パターン
reserve_tb[['reserve_id', 'hotel_id', 'customer_id'
            , 'reserve_datetime', 'checkin_date', 'checkin_time'
            , 'checkout_date']]

# loc関数の二次元配列の2次元目に抽出したい列名の配列を指定することで，列を抽出
reserve_tb.loc[:, ['reserve_id', 'hotel_id', 'customer_id'
            , 'reserve_datetime', 'checkin_date', 'checkin_time'
            , 'checkout_date']]

# drop関数によって，不要な列を削除
# axisを１にすることによって，列の削除を指定
# inplaceをTrueに指定することによって，reserve_tbの書き換えを指定
reserve_tb.drop(['people_num', 'total_price'], axis=1, inplace=True)

### 条件指定による抽出
条件指定によって，データを絞り込みます．


#### Q:対象のデータセットは，ホテルの予約レコードです．予約テーブルから，checkin_dateが2016-10-12から2016-10-13までのデータ行を抽出しましょう．
query関数を使ったらやりやすいです．

In [6]:
reserve_tb.query('"2016-10-13" <= checkout_date <= "2016-10-13"')

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
1480,r1481,h_116,c_364,2016-09-17 17:45:39,2016-10-11,11:30:00,2016-10-13
1546,r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13
1709,r1710,h_59,c_422,2016-09-19 04:17:25,2016-10-10,12:00:00,2016-10-13
1932,r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13
2058,r2059,h_9,c_517,2016-09-19 15:32:35,2016-10-11,12:30:00,2016-10-13
2115,r2116,h_77,c_527,2016-10-05 00:44:09,2016-10-11,09:00:00,2016-10-13
2170,r2171,h_177,c_540,2016-09-28 01:21:26,2016-10-11,10:00:00,2016-10-13
2203,r2204,h_82,c_549,2016-09-27 01:47:57,2016-10-10,12:00:00,2016-10-13
2290,r2291,h_230,c_574,2016-10-09 04:34:14,2016-10-12,12:00:00,2016-10-13
3136,r3137,h_218,c_792,2016-09-20 02:15:43,2016-10-10,10:30:00,2016-10-13


### データサンプリング
データ分析をする際に，抽出したデータ数が多すぎて扱いに困る場合があります．このような時に，サンプリングによってデータ数を減らすのが有効です．

ホテルの予約レコードから，無作為に約50％の行を抽出するコードは以下です．

In [3]:
reserve_tb.sample(frac=0.5)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
3678,r3679,h_192,c_916,2016-04-15 13:54:59,2016-04-24,12:00:00,2016-04-27,3,135000
994,r995,h_77,c_244,2016-06-27 17:54:16,2016-07-08,09:00:00,2016-07-09,4,176800
1891,r1892,h_175,c_467,2016-11-27 07:56:24,2016-12-12,10:00:00,2016-12-14,1,38000
655,r656,h_132,c_157,2017-11-13 09:28:45,2017-11-24,09:00:00,2017-11-26,1,40800
1853,r1854,h_108,c_458,2017-03-02 14:54:13,2017-03-07,11:00:00,2017-03-10,4,103200
...,...,...,...,...,...,...,...,...,...
3154,r3155,h_242,c_795,2016-07-29 18:56:38,2016-08-05,10:00:00,2016-08-06,4,33200
1989,r1990,h_272,c_501,2016-01-22 08:30:44,2016-02-06,10:00:00,2016-02-09,1,85200
2402,r2403,h_47,c_602,2017-08-05 14:35:19,2017-08-15,10:00:00,2017-08-16,4,46400
1917,r1918,h_12,c_474,2016-09-13 06:05:22,2016-09-19,09:00:00,2016-09-22,4,80400


## 集約に基づくサンプリング
サンプリングにおいて，公平なサンプリングをすることは最も重要です．しかし，上記のサンプリングでは，顧客に偏りが生じてしまう可能性があります．例えば，このホテル予約レコードにおいて，顧客全員が予約数２件だったとします．その時50%のサンプリングをすると，25%の顧客は２件とも削除され，また25％の顧客は２件とも抽出されます．
公平にサンプリングするために，予約テーブルの顧客IDに対してランダムサンプリングを行い，サンプリングした顧客IDの予約レコードのみを抽出する方法をとります．

#### Q:対象のホテル予約レコードで，顧客単位のランダムサンプリングによって，予約テーブルから約50％の行を抽出しましょう．

以下の関数を使います．
- .unique()  
重複したcustomer_idを返す
- pd.Series()  
sample関数を利用するために変換
- .sample()  
顧客IDをサンプリング
- .isin()
引数で渡したリスト内の値のいずれかと一致する列値のみ抽出できる


In [8]:
# reserve_tb['customer_id'].unique()は，重複を排除したcustomoer_idを返す
# sample関数を利用するためにpandas.Series(pandasのリストオブジェクト)に変換
# sample関数によって，顧客IDをサンプリング
target = pd.Series(reserve_tb['customer_id'].unique()).sample(frac=0.5)

# isin関数によって，customer_idがサンプリングした顧客IDのいずれかに一致した行を抽出
reserve_tb[reserve_tb['customer_id'].isin(target)]

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17
10,r11,h_183,c_2,2016-11-19 12:49:10,2016-12-08,11:00:00,2016-12-11
11,r12,h_268,c_2,2017-05-24 10:06:21,2017-06-20,09:00:00,2017-06-21
12,r13,h_223,c_2,2017-10-19 03:03:30,2017-10-21,09:30:00,2017-10-23
...,...,...,...,...,...,...,...
4019,r4020,h_243,c_996,2018-04-22 20:41:29,2018-05-21,12:00:00,2018-05-22
4020,r4021,h_159,c_997,2016-01-08 20:30:10,2016-01-09,12:00:00,2016-01-11
4021,r4022,h_172,c_997,2016-05-13 09:08:55,2016-06-06,09:30:00,2016-06-08
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13
