## Pythonによるデータの読み込み
 - Pandasを使ってcsvファイルを読みこむ(DataFrame)
 - 参考URL:https://dividable.net/programming/python-pandas/

In [49]:
#pandasとnumpyをimportする
import numpy as np
import pandas as pd

In [50]:
#Pandasのread_csvを利用して、customer.csvファイルをDataFrameとして読み込み
#encodingで読み込みファイルの文字コードを設定

reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
reserve_tb.head(10)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100
5,r6,h_241,c_1,2017-11-27 18:47:05,2017-12-04,12:00:00,2017-12-06,3,36000
6,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500
7,r8,h_241,c_1,2018-05-26 08:42:51,2018-06-08,10:00:00,2018-06-09,1,6000
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27,3,68400
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17,4,320400


## Pythonによる列の抽出
 - iloc関数の2次配列の1次元目に:を指定することで列を抽出
 - iloc関数の2次配列の2次元目に抽出したい行番号の配列を指定することで列を抽出
 - 0:6は[0,1,2,3,4,5]と同様のイメージ

In [51]:
#カラム指定をせずに抽出する場合はiloc関数が楽
reserve_test0 = reserve_tb.iloc[:, 0:6]

#前10列を取得したいときに使う
reserve_test0.head(10)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00
5,r6,h_241,c_1,2017-11-27 18:47:05,2017-12-04,12:00:00
6,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00
7,r8,h_241,c_1,2018-05-26 08:42:51,2018-06-08,10:00:00
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00


In [52]:
reserve_test = reserve_tb[['reserve_id','hotel_id', 'customer_id','reserve_datetime', 'checkin_date', 'checkin_time', 'checkout_date']]

#前10列を取得したいときに使う
reserve_test.head(10)

#後ろ10列を取得したいときに使う
reserve_test.tail(10)

#統計量をざっくりだす時に使う
reserve_test.describe()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
count,4030,4030,4030,4030,4030,4030,4030
unique,4030,300,888,4030,924,8,917
top,r2052,h_241,c_621,2017-06-12 08:36:02,2016-07-14,09:30:00,2016-05-09
freq,1,27,8,1,16,548,15


## drop関数を使って不要な列を削除
 - axisを1にすることによって、列の削除を指定
 - inplaceをTrueに指定することによって、reserve_tbの書き換えを指定

In [53]:
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
reserve_tb.drop(['people_num', 'total_price'], axis=1, inplace= True)

## 条件抽出の方法について
 - DataFrameを用いた条件式で抽出する方法もあるが、可読性が悪いのでおすすめしない
 - query関数を利用するとわかりやすい！

In [54]:
#DataFrameを使った方法
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
reserve_tb_test = reserve_tb[(reserve_tb['checkout_date'] >= '2016-10-13') & (reserve_tb['checkout_date'] <= '2016-10-14')]
reserve_tb_test.head(10)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
284,r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
513,r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14,2,28800
1065,r1066,h_205,c_261,2016-09-14 02:57:59,2016-10-11,10:00:00,2016-10-14,4,85200
1480,r1481,h_116,c_364,2016-09-17 17:45:39,2016-10-11,11:30:00,2016-10-13,4,107200
1546,r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13,2,153600
1709,r1710,h_59,c_422,2016-09-19 04:17:25,2016-10-10,12:00:00,2016-10-13,2,148800
1932,r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13,4,77200
2058,r2059,h_9,c_517,2016-09-19 15:32:35,2016-10-11,12:30:00,2016-10-13,3,188400
2115,r2116,h_77,c_527,2016-10-05 00:44:09,2016-10-11,09:00:00,2016-10-13,4,353600
2170,r2171,h_177,c_540,2016-09-28 01:21:26,2016-10-11,10:00:00,2016-10-13,4,560800


In [55]:
#loc関数の2次元配列の1次元目条件を指定することで条件に適合した行を抽出
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
reserve_tb_test =reserve_tb.loc[(reserve_tb['checkout_date'] >= '2016-10-13')&(reserve_tb['checkout_date'] <= '2016-10-14'), :] 
reserve_tb_test.head(10)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
284,r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
513,r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14,2,28800
1065,r1066,h_205,c_261,2016-09-14 02:57:59,2016-10-11,10:00:00,2016-10-14,4,85200
1480,r1481,h_116,c_364,2016-09-17 17:45:39,2016-10-11,11:30:00,2016-10-13,4,107200
1546,r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13,2,153600
1709,r1710,h_59,c_422,2016-09-19 04:17:25,2016-10-10,12:00:00,2016-10-13,2,148800
1932,r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13,4,77200
2058,r2059,h_9,c_517,2016-09-19 15:32:35,2016-10-11,12:30:00,2016-10-13,3,188400
2115,r2116,h_77,c_527,2016-10-05 00:44:09,2016-10-11,09:00:00,2016-10-13,4,353600
2170,r2171,h_177,c_540,2016-09-28 01:21:26,2016-10-11,10:00:00,2016-10-13,4,560800


In [56]:
#query関数を用いた抽出(ベストソリューション)
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
reserve_tb_test =reserve_tb.query('"2016-10-13" <= checkout_date <= "2016-10-14"')
reserve_tb_test.head(10)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
284,r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
513,r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14,2,28800
1065,r1066,h_205,c_261,2016-09-14 02:57:59,2016-10-11,10:00:00,2016-10-14,4,85200
1480,r1481,h_116,c_364,2016-09-17 17:45:39,2016-10-11,11:30:00,2016-10-13,4,107200
1546,r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13,2,153600
1709,r1710,h_59,c_422,2016-09-19 04:17:25,2016-10-10,12:00:00,2016-10-13,2,148800
1932,r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13,4,77200
2058,r2059,h_9,c_517,2016-09-19 15:32:35,2016-10-11,12:30:00,2016-10-13,3,188400
2115,r2116,h_77,c_527,2016-10-05 00:44:09,2016-10-11,09:00:00,2016-10-13,4,353600
2170,r2171,h_177,c_540,2016-09-28 01:21:26,2016-10-11,10:00:00,2016-10-13,4,560800


## query関数の補足
 - 一致、不一致は「==」, 「!=」
 - SQLのように「in」も使える。 ex) df.query('state in ["NY", "TX"]')
 - andで条件を繋げる時は「&」
 - orで条件を繋げる時は「|」

In [57]:
#query関数を用いた抽出(ベストソリューション)

reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
reserve_tb_test =reserve_tb.query('"2016-10-13" <= checkout_date <= "2016-10-14" & checkin_date == "2016-10-12"')
reserve_tb_test.head(10)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
284,r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
1932,r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13,4,77200
2290,r2291,h_230,c_574,2016-10-09 04:34:14,2016-10-12,12:00:00,2016-10-13,1,17400
2523,r2524,h_203,c_631,2016-09-14 10:45:15,2016-10-12,10:30:00,2016-10-14,3,167400


## 顧客IDのサンプリングを行ってから対象データのサンプリングを行う
 - reserve_tb['customer_id'].unique()は重複を排除したcustomer_idを返す
 - sample関数を利用するためにpandas.Series(pandasのリストオブジェクト)に変換
 - sample関数によって顧客IDをサンプリング
 - isin関数によってcustomer_idがサンプリングした顧客のいずれかに一致した行を抽出

In [58]:
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
target = pd.Series(reserve_tb['customer_id'].unique()).sample(frac=0.5)

#isin関数によってcustomer_idがサンプリングした顧客のいずれかに一致した行を抽出
reserve_tb_samp=reserve_tb[reserve_tb['customer_id'].isin(target)]
reserve_tb_samp.head(10)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100
5,r6,h_241,c_1,2017-11-27 18:47:05,2017-12-04,12:00:00,2017-12-06,3,36000
6,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500
7,r8,h_241,c_1,2018-05-26 08:42:51,2018-06-08,10:00:00,2018-06-09,1,6000
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27,3,68400
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17,4,320400


## Pythonによる集約処理
 - DataFrameからgroupby関数を呼び出し、引数に集約単位を設定し、集約関数を呼び出す
 - データ数を算出する集約関数は「size関数」
 - ユニークカウントを行う集約関数は「nunique関数」
 - 同じ集約単位に対する複数の処理を行う場合には「agg関数」

In [59]:
#group by関数でreserve_idを集約単位に指定し、size関数でデータをカウント
#group by関数の集約処理によって行番号が飛び飛びになっているので、
#reset_index関数によって集約単位に指定したhotel_idを集約した状態から列名に戻し、新たな行名を現在の行番号に直す
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
rsv_cnt_tb = reserve_tb.groupby('hotel_id').size().reset_index()

#集約関数の列名を設定
rsv_cnt_tb.columns = ['hotel_id', 'rsv_cnt']

#groupbyでhotel_idを集約単位に指定し、
#customer_idの値をnunique関数することで顧客数をカウント
cus_cnt_tb = reserve_tb.groupby('hotel_id')['customer_id'].nunique().reset_index()

#集約結果の列名を設定
cus_cnt_tb.columns = ['hotel_id', 'cus_cnt']

#merge関数を用いて、hotel_idを結合キーとして結合
result0 = pd.merge(rsv_cnt_tb, cus_cnt_tb, on = 'hotel_id')
result0.head(10)

Unnamed: 0,hotel_id,rsv_cnt,cus_cnt
0,h_1,10,10
1,h_10,3,3
2,h_100,20,19
3,h_101,17,17
4,h_102,13,13
5,h_103,10,10
6,h_104,11,11
7,h_105,15,15
8,h_106,9,9
9,h_107,11,11


## agg関数を使おう
 - agg関数を用いた方が集約がまとまりやすい
 - 引数にdictionaryオブジェクトを指定することで、集約処理をまとめて指定できる
 - dictionaryオブジェクトはkeyに対象の列名、valueに集約関数を設定します

In [60]:
#ベストプラクティス(agg関数を使う)

#agg関数を利用して、集約処理をまとめて指定
#reserve_idを対象にcount関数を適用
#customer_idを対象にnunique関数を適用

result = reserve_tb.groupby('hotel_id').agg({'reserve_id': 'count', 'customer_id': 'nunique'})

#reset_index関数によって、列番号を振り直す(inplace=Trueなので、直接resultを更新)
result.reset_index(inplace=True)
result.columns = ['hotel_id', 'rsv_cnt', 'cus_cnt']
result.head(10)

Unnamed: 0,hotel_id,rsv_cnt,cus_cnt
0,h_1,10,10
1,h_10,3,3
2,h_100,20,19
3,h_101,17,17
4,h_102,13,13
5,h_103,10,10
6,h_104,11,11
7,h_105,15,15
8,h_106,9,9
9,h_107,11,11


## 合計の算出方法
 - 集約単位をhotel_idとpeople_numの組み合わせを指定
 - 集約したデータからtotal_priceを取り出し、sum関数に適用することで売上合計金額を算出
 - 集約処理が一つの場合はagg関数を使わない方が簡潔に書ける。
 - 書き換える列が多い場合は直接DataFrameのcolumnsを書き換える方がわかりやすいですが、書き換える列が少ない場合はrenameの方が良い

In [61]:
result = reserve_tb.groupby(['hotel_id', 'people_num'])['total_price'].sum().reset_index()

#売上合計金額の列名がtotal_priceになっているので、price_numに変更
result.rename(columns={'total_price': 'price_sum'}, inplace=True)

result.head(10)

Unnamed: 0,hotel_id,people_num,price_sum
0,h_1,1,156600
1,h_1,2,156600
2,h_1,3,391500
3,h_1,4,417600
4,h_10,1,11200
5,h_10,3,50400
6,h_10,4,67200
7,h_100,1,19200
8,h_100,2,105600
9,h_100,3,158400


## 極値、代表値の算出
- 代表値(最大値、最小値、平均値、中央値、20パーセンタイル値)
- total_priceを対象にmax/min/mean/median関数を適用
- pythonのラムダ式をagg関数の集約処理に指定
- ラムダ式にはnumpy.percentileを指定しパーセンタイル値を算出(パーセントは20を指定)
- ラムダ式とはlambda x:を記述した後にxを処理する関数を書く記述式のことを言う

In [62]:
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
result = reserve_tb.groupby('hotel_id')\
.agg({'total_price':['max', 'min', 'mean', 'median', lambda x: np.percentile(x, q=20)]})\
.reset_index()

result.columns = ['hotel_id','price_max', 'price_min', 'price_mean', 'price_median', 'price_20per' ]
result.head(10)

Unnamed: 0,hotel_id,price_max,price_min,price_mean,price_median,price_20per
0,h_1,208800,26100,112230.0,104400,73080
1,h_10,67200,11200,42933.333333,50400,26880
2,h_100,57600,4800,27600.0,28800,9600
3,h_101,168000,14000,75764.705882,56000,30800
4,h_102,72000,12000,32769.230769,24000,18000
5,h_103,194400,32400,93960.0,64800,48600
6,h_104,379800,42200,176472.727273,126600,84400
7,h_105,82400,20600,48753.333333,41200,30900
8,h_106,199800,44400,101133.333333,88800,57720
9,h_107,225600,37600,107672.727273,112800,75200


## ばらつき具合の算出
- 代表値(分散値・標準偏差)
- 計算式に母数の部分で(データ数-1)の処理が入るので、データ数が1の時は分散・標準偏差は0とする
- Pythonでは分散値はvar関数、標準偏差はstd関数で計算できます。
- 不正な値(na)に関してはfilla関数で0に変換する

In [63]:
#total_priceに対して、var関数とstd関数を適用し、分散値と標準偏差値を算出
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
result = reserve_tb.groupby('hotel_id').agg({'total_price':['var', 'std']}).reset_index()
result.columns = ['hotel_id', 'price_var', 'price_std']

#データ数が1件だった時は分散値と標準偏差値がnaになっているので、0に置き換え
result.fillna(0, inplace = True)
result.head()

Unnamed: 0,hotel_id,price_var,price_std
0,h_1,3186549000.0,56449.526127
1,h_10,825813300.0,28736.968061
2,h_100,319831600.0,17883.835689
3,h_101,2402441000.0,49014.703676
4,h_102,357692300.0,18912.755159


## 最頻値の算出
- 代表値(最頻値)
- 複数存在する場合は複数プロット
- round関数はround(-1)で10の位を丸める。なので-3の場合は千の位を丸める

In [64]:
#round関数で四捨五入した後に、mode関数で最頻値を算出
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
reserve_tb['total_price'].round(-3).mode()

0    10000
1    20000
2    40000
dtype: int64

## 順位の算出
- Window関数を使う
- last:同値順位2-5位の中から最後に読み込まれたものから小さな順位を選択
- random:同値順位2-5位の中から各データがランダムで順位を選択
- average:同値順位2-5位の平均となる3.5位を選択
- dense_rank：同値順位2-5位の最小順位2位を選択し、次の順位を3位とする

In [65]:
# 時系列に番号を付与する

#　rank関数で並び変えるために、データ型を文字列からtimestamp型に変換
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
reserve_tb['reserve_datetime'] =pd.to_datetime(reserve_tb['reserve_datetime'], format='%Y-%m-%d %H:%M:%S') 

#log_noを新たな列として追加
#集約単位の指定はgroup_byを利用
#顧客ごとにまとめたreserve_datetimeを生成し、rank関数によって順位を生成
#ascendingをTrueにすることで昇順に設定(Falseだと降順に設定)
reserve_tb['log_no'] = reserve_tb.groupby('customer_id')['reserve_datetime'].rank(ascending = True, method ='first')
reserve_tb.head(10)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,1.0
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,2.0
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,3.0
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400,4.0
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100,5.0
5,r6,h_241,c_1,2017-11-27 18:47:05,2017-12-04,12:00:00,2017-12-06,3,36000,6.0
6,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500,7.0
7,r8,h_241,c_1,2018-05-26 08:42:51,2018-06-08,10:00:00,2018-06-09,1,6000,8.0
8,r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27,3,68400,1.0
9,r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17,4,320400,2.0


## ランクの付け方
- ホテルの予約レコードについてホテルごとの予約数で順位づけ
- 同じ予約数の場合は、同予約数の全ホテルに最小順位をつける

In [66]:
#予約回数を計算
reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
rsv_cnt_tb = reserve_tb.groupby('hotel_id').size().reset_index()
rsv_cnt_tb.columns = ['hotel_id', 'rsv_cnt']

#予約回数をもとに順位を計算
#ascendingをFalseにすることで降順に指定
#methodをminに指定し、同じ値の場合は取りうる最小順位に指定
rsv_cnt_tb['rsv_cnt_rank']=rsv_cnt_tb['rsv_cnt'].rank(ascending=False, method='min')

#必要のないrsv_cntの列を削除
rsv_cnt_tb.drop('rsv_cnt', axis=1, inplace=True)

#ランキング
rsv_cnt_tb.head(10)

Unnamed: 0,hotel_id,rsv_cnt_rank
0,h_1,235.0
1,h_10,300.0
2,h_100,12.0
3,h_101,43.0
4,h_102,139.0
5,h_103,235.0
6,h_104,202.0
7,h_105,88.0
8,h_106,260.0
9,h_107,202.0


## マスターテーブルとの結合
- SQLで言う所のinnerjoinやouterjoinをpythonでやってみよう
- 基本的にはmerge関数と呼ばれる関数を使うが、中間データが膨れやすかったり、処理が遅かったりする

In [67]:
#reserve_tbとhotel_tbをhotel_idが等しいもの同士で内部結合
#people_numが1かつis_businessがTrueのデータのみ抽出

reserve_tb = pd.read_csv('data/reserve.csv', encoding='UTF-8')
hotel_tb = pd.read_csv('data/hotel.csv', encoding='UTF-8')
pd.merge(reserve_tb, hotel_tb, on='hotel_id', how='inner').query('people_num == 1 & is_business')

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,base_price,big_area_name,small_area_name,hotel_latitude,hotel_longitude,is_business
14,r310,h_219,c_73,2017-03-30 01:52:36,2017-04-18,11:00:00,2017-04-21,1,30900,10300,B,B-3,35.644729,139.693389,True
18,r1433,h_219,c_348,2017-04-08 03:19:47,2017-04-25,10:00:00,2017-04-28,1,30900,10300,B,B-3,35.644729,139.693389,True
21,r2992,h_219,c_756,2016-02-17 14:02:23,2016-03-01,12:00:00,2016-03-03,1,20600,10300,B,B-3,35.644729,139.693389,True
24,r3522,h_219,c_875,2016-09-09 07:10:21,2016-09-20,10:00:00,2016-09-21,1,10300,10300,B,B-3,35.644729,139.693389,True
101,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500,34500,C,C-1,38.237294,140.696131,True
103,r997,h_256,c_244,2016-10-15 22:47:40,2016-10-31,10:30:00,2016-11-02,1,69000,34500,C,C-1,38.237294,140.696131,True
108,r2602,h_256,c_650,2016-05-10 00:42:56,2016-05-12,11:00:00,2016-05-14,1,69000,34500,C,C-1,38.237294,140.696131,True
111,r3738,h_256,c_930,2017-04-12 09:53:00,2017-05-08,11:30:00,2017-05-09,1,34500,34500,C,C-1,38.237294,140.696131,True
138,r11,h_183,c_2,2016-11-19 12:49:10,2016-12-08,11:00:00,2016-12-11,1,29700,9900,G,G-4,33.595248,130.633567,True
139,r49,h_183,c_8,2017-01-25 00:25:04,2017-02-14,12:30:00,2017-02-17,1,29700,9900,G,G-4,33.595248,130.633567,True


In [68]:
#良い回答
pd.merge(reserve_tb.query('people_num == 1'),hotel_tb.query('is_business'),on ='hotel_id', how ='inner')

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,base_price,big_area_name,small_area_name,hotel_latitude,hotel_longitude,is_business
0,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500,34500,C,C-1,38.237294,140.696131,True
1,r997,h_256,c_244,2016-10-15 22:47:40,2016-10-31,10:30:00,2016-11-02,1,69000,34500,C,C-1,38.237294,140.696131,True
2,r2602,h_256,c_650,2016-05-10 00:42:56,2016-05-12,11:00:00,2016-05-14,1,69000,34500,C,C-1,38.237294,140.696131,True
3,r3738,h_256,c_930,2017-04-12 09:53:00,2017-05-08,11:30:00,2017-05-09,1,34500,34500,C,C-1,38.237294,140.696131,True
4,r11,h_183,c_2,2016-11-19 12:49:10,2016-12-08,11:00:00,2016-12-11,1,29700,9900,G,G-4,33.595248,130.633567,True
5,r49,h_183,c_8,2017-01-25 00:25:04,2017-02-14,12:30:00,2017-02-17,1,29700,9900,G,G-4,33.595248,130.633567,True
6,r1336,h_183,c_326,2017-12-16 15:30:46,2018-01-08,09:30:00,2018-01-09,1,9900,9900,G,G-4,33.595248,130.633567,True
7,r1910,h_183,c_472,2016-10-18 10:19:33,2016-11-14,09:30:00,2016-11-17,1,29700,9900,G,G-4,33.595248,130.633567,True
8,r2656,h_183,c_669,2016-03-15 03:16:38,2016-04-13,10:30:00,2016-04-16,1,29700,9900,G,G-4,33.595248,130.633567,True
9,r2714,h_183,c_683,2016-06-29 12:37:09,2016-07-13,12:30:00,2016-07-16,1,29700,9900,G,G-4,33.595248,130.633567,True
