# 003_aggregation01

In [1]:
library(dplyr)
source('preprocess/load_data/data_loader.R')
load_hotel_reserve()

# 下記から本書掲載
reserve_tb %>%

  # group_by関数によって、集約単位をhotel_idに指定
  group_by(hotel_id) %>%

  # summarise関数を使って集約処理を指定
  # n関数を使って、予約数をカウント
  # n_distinct関数にcustomer_idを指定して、customer_idのユニークカウント
  summarise(rsv_cnt=n(),
            cus_cnt=n_distinct(customer_id))



Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union



hotel_id,rsv_cnt,cus_cnt
h_1,10,10
h_10,3,3
h_100,20,19
h_101,17,17
h_102,13,13
h_103,10,10
h_104,11,11
h_105,15,15
h_106,9,9
h_107,11,11


# 003_aggregation02

In [2]:
library(dplyr)
source('preprocess/load_data/data_loader.R')
load_hotel_reserve()

# 下記から本書掲載
reserve_tb %>%

  # group_byにhotel_idとpeople_numの組み合わせを指定
  group_by(hotel_id, people_num) %>%

  # sum関数をtotal_priceに適用して、売上合計金額を算出
  summarise(price_sum=sum(total_price))


hotel_id,people_num,price_sum
h_1,1,156600
h_1,2,156600
h_1,3,391500
h_1,4,417600
h_10,1,11200
h_10,3,50400
h_10,4,67200
h_100,1,19200
h_100,2,105600
h_100,3,158400


# 003_aggregation03

In [3]:
library(dplyr)
source('preprocess/load_data/data_loader.R')
load_hotel_reserve()

# 下記から本書掲載
reserve_tb %>%
  group_by(hotel_id) %>%

  # quantile関数にtotal_priceと対象の値を指定して20パーセントタイル値を算出
  summarise(price_max=max(total_price),
            price_min=min(total_price),
            price_avg=mean(total_price),
            price_median=median(total_price),
            price_20per=quantile(total_price, 0.2))


hotel_id,price_max,price_min,price_avg,price_median,price_20per
h_1,208800,26100,112230.00,104400,73080
h_10,67200,11200,42933.33,50400,26880
h_100,57600,4800,27600.00,28800,9600
h_101,168000,14000,75764.71,56000,30800
h_102,72000,12000,32769.23,24000,18000
h_103,194400,32400,93960.00,64800,48600
h_104,379800,42200,176472.73,126600,84400
h_105,82400,20600,48753.33,41200,30900
h_106,199800,44400,101133.33,88800,57720
h_107,225600,37600,107672.73,112800,75200


# 003_aggregation04

In [4]:
library(dplyr)
source('preprocess/load_data/data_loader.R')
load_hotel_reserve()

# 下記から本書掲載
reserve_tb %>%
  group_by(hotel_id) %>%

  # var関数にtotal_priceを指定し、分散値を算出
  # sd関数にtotal_priceを指定し、標準偏差値を算出
  # データ数が1件だったときにNAとなるので、
  # coalesce関数を利用して、NAの場合に0に置換
  summarise(price_var=coalesce(var(total_price), 0),
            price_std=coalesce(sd(total_price), 0))


hotel_id,price_var,price_std
h_1,3186549000,56449.53
h_10,825813333,28736.97
h_100,319831579,17883.84
h_101,2402441176,49014.70
h_102,357692308,18912.76
h_103,3545856000,59547.09
h_104,11688786182,108114.69
h_105,416276952,20402.87
h_106,3217150000,56719.93
h_107,2833946182,53234.82


# 003_aggregation05

In [5]:
library(dplyr)
source('preprocess/load_data/data_loader.R')
load_hotel_reserve()

# 下記から本書掲載
# round関数で、total_priceを1000単位で四捨五入
# table関数で、算出した金額別の予約数を算出
# (ベクトルの属性情報(names)が算出した金額、ベクトルの値が予約数)
# which.max関数によって、予約数が最大のベクトル要素を取得
# names関数によって、予約数が最大のベクトル要素の属性情報(names)を取得
names(which.max(table(round(reserve_tb$total_price, -3))))


# 003_aggregation06_a

In [6]:
library(dplyr)
source('preprocess/load_data/data_loader.R')
load_hotel_reserve()

# 下記から本書掲載
# row_number関数で並び替えるために、データ型を文字列からPOSIXct型に変換
# （「第10章 日時型で解説」）
reserve_tb$reserve_datetime <-
  as.POSIXct(reserve_tb$reserve_datetime, format='%Y-%m-%d %H:%M:%S')

reserve_tb %>%

  # 集約単位の指定はgroup_by関数を利用
  group_by(customer_id) %>%

  # mutate関数によって、新たな列log_noを追加
  # row_number関数によって、予約日時を基準とした順位を計算
  mutate(log_no=row_number(reserve_datetime))


reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,log_no
r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,1
r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,2
r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,3
r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400,4
r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100,5
r6,h_241,c_1,2017-11-27 18:47:05,2017-12-04,12:00:00,2017-12-06,3,36000,6
r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500,7
r8,h_241,c_1,2018-05-26 08:42:51,2018-06-08,10:00:00,2018-06-09,1,6000,8
r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27,3,68400,1
r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17,4,320400,2


# 003_aggregation06_b

In [7]:
library(dplyr)
source('preprocess/load_data/data_loader.R')
load_hotel_reserve()

# 下記から本書掲載
reserve_tb %>%

  # ホテルごとの予約回数の計算のために、hotel_idを集約単位に指定
  group_by(hotel_id) %>%

  # データの件数を計算し、ホテルごとの予約回数を計算
  summarise(rsv_cnt=n()) %>%

  # 予約回数をもとに順位を計算、desc関数を利用することで降順に変更
  # transmute関数によって、rsv_cnt_rankを生成し、
  # 必要なhotel_idとrsv_cnt_rankのみ抽出
  transmute(hotel_id, rsv_cnt_rank=min_rank(desc(rsv_cnt)))


hotel_id,rsv_cnt_rank
h_1,235
h_10,300
h_100,12
h_101,43
h_102,139
h_103,235
h_104,202
h_105,88
h_106,260
h_107,202
