# 1. Introduction

Saya adalah seorang data scientist di Marketplace ‘DQLab Travel’ yang ditempatkan pada divisi Hotel. Untuk memberikan pengalaman yang baik kepada pelanggan DQLab Travel dalam mencari hotel yang tepat, manager DQLab Travel memberikan sebuah challenge untuk mengembangkan Search Engine guna mencari hotel yang relevan dengan harga terbaik.

In [1]:
#import library
import pandas as pd
import numpy as np

#read dataset
data_hotel_df = pd.read_excel('data_hotel.xlsx')
review_hotel_df = pd.read_excel('review_hotel.xlsx')

# 2. Cleaning Tabel data_hotel

In [2]:
#menampilkan dataset data_hotel
data_hotel_df.head()

Unnamed: 0,hotel_id,hotel_name,hotel_description,hotel_province,hotel_city,hotel_address,price_per_night
0,h0001,Midtown Residence Marvell City Surabaya,,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667
1,h0002,favehotel Graha Agung Surabaya,Sebuah Hotel Mewah di Surabaya Persembahan dar...,Jawa Timur,Surabaya,Jl. Mayjen Yono Soewoyo Pakuwon Indah Square A...,442860.0
2,h0003,The Sun Hotel Sidoarjo,Hotel Bintang 3 Pertama dan Satu-satunya di Si...,Jawa Timur,Surabaya,"Jl. Pahlawan No.1,Sidokumpul, Sidoarjo, Suraba...",305000.0
3,h0004,Grand Surabaya Hotel,Penginapan Yang Tenang Dan Nyaman Di Surabaya.,Jawa Timur,Surabaya,"Jl. Pemuda 19-21, Surabaya, Indonesia",324999.333333
4,h0005,The WIN Hotel Surabaya,WIN Hotel adalah hotel smart bintang 3 yang me...,Jawa Timur,Surabaya,"Jl. Embong Tanjung 46 - 48 Surabaya, Jawa Timu...",310947.25


Data pada fitur price_per_night merupakan data tipe float, dimana dalam kasus riil tidak ada harga dengan bilangan desimal. Untuk sementara akan dibiarkan begitu saja terlebih dahulu untuk keperluan analisis nantinya.

In [3]:
#cek info data_hotel
print(data_hotel_df.info())

#cek banyak null
print(data_hotel_df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1199 entries, 0 to 1198
Data columns (total 7 columns):
hotel_id             1199 non-null object
hotel_name           1199 non-null object
hotel_description    1098 non-null object
hotel_province       1199 non-null object
hotel_city           1199 non-null object
hotel_address        1199 non-null object
price_per_night      1193 non-null float64
dtypes: float64(1), object(6)
memory usage: 65.6+ KB
None
hotel_id               0
hotel_name             0
hotel_description    101
hotel_province         0
hotel_city             0
hotel_address          0
price_per_night        6
dtype: int64


In [4]:
#analisis column dengan data null
data_hotel_df.loc[data_hotel_df['price_per_night'].isnull()]

Unnamed: 0,hotel_id,hotel_name,hotel_description,hotel_province,hotel_city,hotel_address,price_per_night
123,h0124,OYO 886 Omahku Asri Syariah,,Jawa Timur,Malang,Jl. Danau Matana F3 A5,
124,h0125,OYO 3712 Hotel Palem Sari,,Jawa Timur,Malang,"Jalan Raya Punten 02, Kecamatan. Bumiaji",
383,h0384,OYO 1185 Bukit Toedjoeh Residence Syariah,,Sumatra Utara,Medan,"Jl. Bukit Barisan I No.7, Glugur Darat II, Kec...",
389,h0390,OYO 597 Joyce Guest House,,Sumatra Utara,Medan,Jalan Bunga Wijaya Kusuma no 62 padang bulan s...,
392,h0393,OYO 1274 Prime Inn,,Sumatra Utara,Medan,"Jl. Waru No.65, Sekip, Medan Petisah, Kota Med...",
436,h0437,OYO 711 Salam Residence Syariah,,Sumatra Utara,Medan,"Jl. Ringroad No.92, Sei Sikambing B, Medan Sun...",


Pada fitur hotel_description dan price_per_night terdapat data null. Selanjutnya:
* data dengan price_per_night bernilai null akan dibuang, dan
* data hotel_description yang bernilai null akan diubah menjadi tanda strip yang berarti tidak ada deskripsi hotel

In [5]:
#mengupdate data dengan membuang data null pada price_per_night
data_hotel_df = data_hotel_df.loc[data_hotel_df['price_per_night'].notnull()]

#mengupdate data dengan mengganti data NaN pada hotel_description
data_hotel_df['hotel_description'] = data_hotel_df['hotel_description'].fillna('-')

#replace '\n' pada hotel_description
data_hotel_df['hotel_description'] = data_hotel_df['hotel_description'].str.replace('\n \n', '')
data_hotel_df['hotel_description'] = data_hotel_df['hotel_description'].str.replace('\n', ' ')

data_hotel_df.head()

Unnamed: 0,hotel_id,hotel_name,hotel_description,hotel_province,hotel_city,hotel_address,price_per_night
0,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667
1,h0002,favehotel Graha Agung Surabaya,Sebuah Hotel Mewah di Surabaya Persembahan dar...,Jawa Timur,Surabaya,Jl. Mayjen Yono Soewoyo Pakuwon Indah Square A...,442860.0
2,h0003,The Sun Hotel Sidoarjo,Hotel Bintang 3 Pertama dan Satu-satunya di Si...,Jawa Timur,Surabaya,"Jl. Pahlawan No.1,Sidokumpul, Sidoarjo, Suraba...",305000.0
3,h0004,Grand Surabaya Hotel,Penginapan Yang Tenang Dan Nyaman Di Surabaya.,Jawa Timur,Surabaya,"Jl. Pemuda 19-21, Surabaya, Indonesia",324999.333333
4,h0005,The WIN Hotel Surabaya,WIN Hotel adalah hotel smart bintang 3 yang me...,Jawa Timur,Surabaya,"Jl. Embong Tanjung 46 - 48 Surabaya, Jawa Timu...",310947.25


Tabel data_hotel sudah bersih dan fitur price_per_night tetap dengan data float.

# 3. Analisis Tabel review_hotel

In [6]:
#menampilkan dataset review_hotel
review_hotel_df.head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review
0,b0001,19-04-2020,h0014,Zest Hotel Jemursari Surabaya,1,2,1,8.4,Short stay
1,b0002,06-04-2020,h0014,Zest Hotel Jemursari Surabaya,1,1,1,10.0,Hotelnya nyaman
2,b0003,24-03-2020,h0014,Zest Hotel Jemursari Surabaya,2,2,1,9.2,Cukup baik untuk transit
3,b0004,23-03-2020,h0014,Zest Hotel Jemursari Surabaya,1,2,0,9.2,Nyaman
4,b0005,14-03-2020,h0014,Zest Hotel Jemursari Surabaya,2,2,1,6.8,Not good


In [7]:
#cek info review_hotel
print(review_hotel_df.info())

#cek banyak null
print(review_hotel_df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4306 entries, 0 to 4305
Data columns (total 9 columns):
booking_id       4306 non-null object
booking_date     4306 non-null object
hotel_id         3833 non-null object
hotel_name       4306 non-null object
stay_duration    4306 non-null int64
adults           4306 non-null int64
children         4306 non-null int64
rating           4306 non-null float64
review           4306 non-null object
dtypes: float64(1), int64(3), object(5)
memory usage: 302.8+ KB
None
booking_id         0
booking_date       0
hotel_id         473
hotel_name         0
stay_duration      0
adults             0
children           0
rating             0
review             0
dtype: int64


## Feature Engineering pada Tabel review_hotel

Tahap ini, kita akan mengembangkan fitur untuk mendapatkan tipe kamar (room_type) berdasarkan data adults dan children dari setiap bookingan.

In [8]:
#cek berapa banyak adults dan children
print(review_hotel_df['adults'].unique())
print(review_hotel_df['children'].unique())

[2 1 4]
[1 0 2]


Dari nilai unik diatas, kita mendapatkan bahwa:
* Terdapat bookingan dengan orang dewasa (adults) sebanyak 1, 2 dan 4
* Terdapat bookingan dengan anak-anak (children) sebanyak 0, 1 dan 2

Selanjutnya, kita akan membuat kombinasi dari pasangan angka-angka (adults dan children) untuk melihat data bookingan.

In [9]:
#menampilkan data dengan 1 orang dewasa tanpa anak-anak
review_hotel_df.loc[(review_hotel_df['adults'] == 1) & (review_hotel_df['children'] == 0)].head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review
11,b0012,15-04-2020,h0015,The Life Hotel Surabaya,1,1,0,7.2,Hotel yang kurang enak
15,b0016,02-01-2020,h0015,The Life Hotel Surabaya,1,1,0,8.4,Hotel yg di dekat center of surabaya
18,b0019,03-12-2019,h0015,The Life Hotel Surabaya,1,1,0,8.4,Hotel simple dan strategis
24,b0025,29-04-2020,h0016,Best Western Papilio Hotel,1,1,0,10.0,Hotel yg menyenangkan
26,b0027,04-04-2020,h0016,Best Western Papilio Hotel,1,1,0,10.0,Selayaknya rmh sendiri


In [10]:
#menampilkan data dengan 1 orang dewasa dengan 1 anak
review_hotel_df.loc[(review_hotel_df['adults'] == 1) & (review_hotel_df['children'] == 1)].head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review
1,b0002,06-04-2020,h0014,Zest Hotel Jemursari Surabaya,1,1,1,10.0,Hotelnya nyaman
9,b0010,01-03-2020,h0014,Zest Hotel Jemursari Surabaya,1,1,1,7.2,Nyaman
13,b0014,19-01-2020,h0015,The Life Hotel Surabaya,2,1,1,9.6,Hotel yg bgs
20,b0021,28-05-2020,h0016,Best Western Papilio Hotel,2,1,1,9.6,Hotel yang nyaman dan tenang
21,b0022,22-05-2020,h0016,Best Western Papilio Hotel,1,1,1,10.0,Hotel luas dan menyenangkan


In [11]:
#menampilkan data dengan 1 orang dewasa dengan 2 anak
review_hotel_df.loc[(review_hotel_df['adults'] == 1) & (review_hotel_df['children'] == 2)].head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review


In [12]:
#menampilkan data dengan 2 orang dewasa tanpa anak-anak
review_hotel_df.loc[(review_hotel_df['adults'] == 2) & (review_hotel_df['children'] == 0)].head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review
3,b0004,23-03-2020,h0014,Zest Hotel Jemursari Surabaya,1,2,0,9.2,Nyaman
5,b0006,09-03-2020,h0014,Zest Hotel Jemursari Surabaya,1,2,0,10.0,Hotel yg nyaman
8,b0009,05-03-2020,h0014,Zest Hotel Jemursari Surabaya,1,2,0,8.4,Hotel yg menyenangkan
10,b0011,23-04-2020,h0015,The Life Hotel Surabaya,1,2,0,3.6,Kurang baik dalam pelayanan
12,b0013,25-02-2020,h0015,The Life Hotel Surabaya,2,2,0,10.0,Recommended


In [13]:
#menampilkan data dengan 2 orang dewasa dengan 1 anak
review_hotel_df.loc[(review_hotel_df['adults'] == 2) & (review_hotel_df['children'] == 1)].head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review
0,b0001,19-04-2020,h0014,Zest Hotel Jemursari Surabaya,1,2,1,8.4,Short stay
2,b0003,24-03-2020,h0014,Zest Hotel Jemursari Surabaya,2,2,1,9.2,Cukup baik untuk transit
4,b0005,14-03-2020,h0014,Zest Hotel Jemursari Surabaya,2,2,1,6.8,Not good
6,b0007,08-03-2020,h0014,Zest Hotel Jemursari Surabaya,1,2,1,7.6,Liburan
7,b0008,06-03-2020,h0014,Zest Hotel Jemursari Surabaya,2,2,1,7.2,Nyaman dan murah


In [14]:
#menampilkan data dengan 2 orang dewasa dengan 2 anak
review_hotel_df.loc[(review_hotel_df['adults'] == 2) & (review_hotel_df['children'] == 2)].head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review
1195,b1196,01-08-2019,h0451,Residence T63,1,2,2,4.8,Belum siap untuk digunakan
1203,b1204,13-04-2020,h0452,Hotel Horison Ciledug Jakarta,1,2,2,8.0,Harga cukup bersahabat
1220,b1221,01-12-2019,h0454,Arthama Hotel Jakarta,1,2,2,10.0,Hotel yang keren
1231,b1232,28-12-2019,h0456,Park 5 Simatupang,1,2,2,9.6,Hotel yg direkomemdasikan.
1241,b1242,02-01-2020,h0455,Juno Hotel Jakarta,1,2,2,6.0,Hotel bagus tp kurang ramah


In [15]:
#menampilkan data dengan 4 orang dewasa tanpa anak-anak
review_hotel_df.loc[(review_hotel_df['adults'] == 4) & (review_hotel_df['children'] == 0)].head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review
1412,b1413,09-12-2019,h0472,Aston Pluit Hotel & Residence,3,4,0,10.0,Hotel nya okay
1453,b1454,09-03-2020,h0481,favehotel PGC Cililitan,3,4,0,8.0,Hotel yang menyenangkan
1781,b1782,07-10-2019,h0512,Hotel 88 Mangga Besar 62 Lokasari,1,4,0,8.0,Hotelx biasa aja...
1819,b1820,29-02-2020,h0515,POP! Hotel Kemang Jakarta,1,4,0,8.4,Great location
1834,b1835,25-01-2020,h0516,Lumire Hotel,2,4,0,9.6,Sip


In [16]:
#menampilkan data dengan 4 orang dewasa dengan 1 anak
review_hotel_df.loc[(review_hotel_df['adults'] == 4) & (review_hotel_df['children'] == 1)].head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review


In [17]:
#menampilkan data dengan 4 orang dewasa dengan 1 anak
review_hotel_df.loc[(review_hotel_df['adults'] == 4) & (review_hotel_df['children'] == 2)].head()

Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review


Dari data diatas, kita mendapatkan beberapa kondisi jumlah orang pada setiap bookingan. Selanjutnya, kita bisa mendefinisikan tipe kamar berdasarkan kondisi jumlah orang.

Tipe Kamar:
* 1 adult 0 children: Standard Room
* 1 adult 1 children: Family Room
* 2 adult 0 children: Double Room
* 2 adult 1 children: Family Room
* 2 adult 2 children: Family Room
* 4 adult 0 children:  Executive Suite

In [18]:
#menamakan room_type berdasarkan banyak adults & children
review_hotel_df['room_type'] = 'Other'
review_hotel_df['room_type'].loc[(review_hotel_df['adults'] == 1) & (review_hotel_df['children'] == 0)] = 'Standard Room'
review_hotel_df['room_type'].loc[(review_hotel_df['adults'] == 2) & (review_hotel_df['children'] == 0)] = 'Double Room'
review_hotel_df['room_type'].loc[((review_hotel_df['adults'] == 1) | (review_hotel_df['adults'] == 2)) & (review_hotel_df['children'] >= 1)] = 'Family Room'
review_hotel_df['room_type'].loc[(review_hotel_df['adults'] == 4) & (review_hotel_df['children'] == 0)] = 'Executive Suite'

review_hotel_df.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)


Unnamed: 0,booking_id,booking_date,hotel_id,hotel_name,stay_duration,adults,children,rating,review,room_type
0,b0001,19-04-2020,h0014,Zest Hotel Jemursari Surabaya,1,2,1,8.4,Short stay,Family Room
1,b0002,06-04-2020,h0014,Zest Hotel Jemursari Surabaya,1,1,1,10.0,Hotelnya nyaman,Family Room
2,b0003,24-03-2020,h0014,Zest Hotel Jemursari Surabaya,2,2,1,9.2,Cukup baik untuk transit,Family Room
3,b0004,23-03-2020,h0014,Zest Hotel Jemursari Surabaya,1,2,0,9.2,Nyaman,Double Room
4,b0005,14-03-2020,h0014,Zest Hotel Jemursari Surabaya,2,2,1,6.8,Not good,Family Room


Sekarang tabel review_hotel sudah memiliki fitur room_type.

Sebagai contoh, ada user yang booking tipe kamar Family Room di Zest Hotel Jemursari Surabaya untuk 1 malam pada 06-04-2020 dengan penghuni 1 orang dewasa dan 1 anak. User tersebut memberikan review: Hotelnya nyaman dengan rating 10.0.

# 4. Analisis Tabel data_review

In [19]:
#merge tabel data_hotel dan review_hotel
data_review_df = pd.merge(data_hotel_df, review_hotel_df, on=['hotel_id', 'hotel_name'], how='inner')

data_review_df.head()

Unnamed: 0,hotel_id,hotel_name,hotel_description,hotel_province,hotel_city,hotel_address,price_per_night,booking_id,booking_date,stay_duration,adults,children,rating,review,room_type
0,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0400,02-03-2020,1,2,0,9.6,Nyamaan kamarnyaa,Double Room
1,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0401,10-02-2020,2,2,1,8.4,Hotel yang strategis,Family Room
2,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0402,19-08-2019,1,1,0,10.0,Hotel menyenangkan,Standard Room
3,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0403,02-01-2019,1,2,0,8.0,Malam tahun baru,Double Room
4,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0404,25-09-2018,2,1,1,10.0,Hotel menyenangkan,Family Room


In [20]:
#cek info dataset
print(data_review_df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3833 entries, 0 to 3832
Data columns (total 15 columns):
hotel_id             3833 non-null object
hotel_name           3833 non-null object
hotel_description    3833 non-null object
hotel_province       3833 non-null object
hotel_city           3833 non-null object
hotel_address        3833 non-null object
price_per_night      3833 non-null float64
booking_id           3833 non-null object
booking_date         3833 non-null object
stay_duration        3833 non-null int64
adults               3833 non-null int64
children             3833 non-null int64
rating               3833 non-null float64
review               3833 non-null object
room_type            3833 non-null object
dtypes: float64(2), int64(3), object(10)
memory usage: 479.1+ KB
None


## Feature Engineering pada Tabel data_review

Tahap ini, kita akan mengembangkan fitur untuk mendapatkan harga per kamar (price_per_room) dari setiap room_type berdasarkan harga per malam (price_per_night).

In [21]:
#memberikan price_per_room untuk tiap room_type
def price_per_room(df):
    if df['room_type'] == 'Standard Room':
        return df['price_per_night'] * 1
    if df['room_type'] == 'Double Room':
        return df['price_per_night'] * 2
    if df['room_type'] == 'Family Room':
        return df['price_per_night'] * 4
    if df['room_type'] == 'Executive Suite':
        return df['price_per_night'] * 8
    return df['price_per_night']

data_review_df['price_per_room'] = data_review_df.apply(lambda df: price_per_room(df), axis=1)
data_review_df.head()

Unnamed: 0,hotel_id,hotel_name,hotel_description,hotel_province,hotel_city,hotel_address,price_per_night,booking_id,booking_date,stay_duration,adults,children,rating,review,room_type,price_per_room
0,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0400,02-03-2020,1,2,0,9.6,Nyamaan kamarnyaa,Double Room,1055733.0
1,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0401,10-02-2020,2,2,1,8.4,Hotel yang strategis,Family Room,2111467.0
2,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0402,19-08-2019,1,1,0,10.0,Hotel menyenangkan,Standard Room,527866.7
3,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0403,02-01-2019,1,2,0,8.0,Malam tahun baru,Double Room,1055733.0
4,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,527866.666667,b0404,25-09-2018,2,1,1,10.0,Hotel menyenangkan,Family Room,2111467.0


Kita sudah mendapatkan data tabel data_review yang lengkap, tetapi tabel tersebut harus difilter lagi dengan menyisakan fitur-fitur yang lebih berguna untuk user. 

### Apakah nilai review berguna untuk model yang akan dibuat?

Kita tidak akan mempertimbangkan/mengembangkan fitur berdasarkan data review, karena data review sudah diwakilkan oleh nilai dari rating. Dengan kata lain, arti dari setiap review sudah direpresentasikan oleh nilai dari ratingnya.

Selanjutnya:
1. Kita membuang fitur-fitur yang sudah tidak digunakan yakni: **'price_per_night', 'booking_id', 'booking_date', 'stay_duration', 'adults', 'children' dan 'review'**.
2. Kita melakukan grouping terhadap **'room_type', 'price_per_room' dan 'rating'** berdasarkan suatu hotel, dimana: Fitur dari kumpulan data 'room_type' diubah menjadi 'service_provided'; Fitur 'price_per_room' diubah menjadi 'price_per_night' dengan menganggap bahwa harga per tipe kamar adalah harga per malam dari tipe kamar tersebut dimana nilainya akan dibulatkan tanpa angka desimal; dan Fitur dari kumpulan data 'rating' akan diambil nilai rata-ratanya sehingga menjadi 'overall_avg_rating'.

In [31]:
data_hotel_new = data_review_df.copy()

#membuang data 'price_per_night', 'booking_id','booking_date','stay_duration','adults','children','review'
data_hotel_new = data_hotel_new.drop(['price_per_night', 'booking_id', 'booking_date', 'stay_duration', 'adults', 'children', 'review'], axis = 1)

#grouping data dan rename beberapa feature
data_hotel_new = data_hotel_new.groupby(['hotel_id', 'hotel_name', 'hotel_description', 'hotel_province', 'hotel_city', 'hotel_address']).agg({'room_type': lambda x: list(pd.unique(x)), 'price_per_room': lambda x: list(pd.unique(x.astype(np.int64))), 'rating': 'mean'}).rename(columns={'room_type': 'service_provided', 'price_per_room': 'price_per_night', 'rating': 'overall_avg_rating'}).reset_index()

data_hotel_new.head()

Unnamed: 0,hotel_id,hotel_name,hotel_description,hotel_province,hotel_city,hotel_address,service_provided,price_per_night,overall_avg_rating
0,h0001,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123,"[Double Room, Family Room, Standard Room]","[1055733, 2111466, 527866]",9.2
1,h0002,favehotel Graha Agung Surabaya,Sebuah Hotel Mewah di Surabaya Persembahan dar...,Jawa Timur,Surabaya,Jl. Mayjen Yono Soewoyo Pakuwon Indah Square A...,"[Standard Room, Double Room, Family Room]","[442860, 885720, 1771440]",8.32
2,h0003,The Sun Hotel Sidoarjo,Hotel Bintang 3 Pertama dan Satu-satunya di Si...,Jawa Timur,Surabaya,"Jl. Pahlawan No.1,Sidokumpul, Sidoarjo, Suraba...","[Standard Room, Family Room, Double Room]","[305000, 1220000, 610000]",8.76
3,h0004,Grand Surabaya Hotel,Penginapan Yang Tenang Dan Nyaman Di Surabaya.,Jawa Timur,Surabaya,"Jl. Pemuda 19-21, Surabaya, Indonesia","[Family Room, Standard Room, Double Room]","[1299997, 324999, 649998]",8.52
4,h0005,The WIN Hotel Surabaya,WIN Hotel adalah hotel smart bintang 3 yang me...,Jawa Timur,Surabaya,"Jl. Embong Tanjung 46 - 48 Surabaya, Jawa Timu...","[Standard Room, Family Room, Double Room]","[310947, 1243789, 621894]",8.04


Setelah melakukan data cleaning, analisis hingga mengembangan fitur, sekarang kita sudah memiliki data tabel yang bersih dan fix dengan fitur-fitur: **'hotel_id', 'hotel_name', 'hotel_description', 'hotel_province', 'hotel_city', 'hotel_address', 'service_provided', 'price_per_night' dan 'overall_avg_rating'**. Dengan demikian tabel tersebut siap untuk diolah selanjutnya dalam building recommendation system.

Sebagai contoh, baris ke-4 dari tabel diatas adalah Grand Surabaya Hotel yang beralamat di Jl. Pemuda 19-21, Surabaya, Jawa Timur dengan berturut-turut menyediakan tipe kamar: Family Room (Rp. 1.299.997), Standard Room (Rp. 324.999) dan Double Room (Rp. 649.998) serta rata-rata rating adalah 8.52.

# 5. Building Recommendation System

## Simple Recommender

Tahap ini adalah membuat simple recommender system berdasarkan user preference, dimana user dapat mencari hotel berdasarkan tipe kamar, provinsi dan kota dari suatu hotel.

In [23]:
hotel_fix_df = data_hotel_new.copy()

#build simple recommender system
def hotel_userprefer_recommender(ask_service, ask_province, ask_city, df=hotel_fix_df, top=15):
    
    # ask service
    if ask_service.lower() == 'all':
        df = df
    else:
        def filter_service(x):
            if ask_service.lower() in str(x).lower():
                return True
            else:
                return False
        df = df.loc[df['service_provided'].apply(lambda x: filter_service(x))]
        
        # for sorting price_per_night based service_provided
        indexes = df['service_provided'].str.index(ask_service)
        df1 = pd.DataFrame(df['price_per_night'].tolist())
        df = (df.assign(price_value = df1.lookup(df1.index , indexes)))
        
    # ask province
    df = df.loc[df['hotel_province'] ==  ask_province]
    
    # ask city
    df = df.loc[df['hotel_city'] ==  ask_city]
    
    # sorting
    df = df.sort_values(['price_value','overall_avg_rating'], ascending=[True,False]).drop(columns='price_value')
    
    df = df[:top]
    return df

In [24]:
hotel_userprefer_recommender(ask_service = 'Family Room', ask_province = 'Jawa Timur', ask_city = 'Surabaya')

Unnamed: 0,hotel_id,hotel_name,hotel_description,hotel_province,hotel_city,hotel_address,service_provided,price_per_night,overall_avg_rating
14,h0015,The Life Hotel Surabaya,"Akomodasi yang Ideal untuk Pebisnis, Wisatawan...",Jawa Timur,Surabaya,"Jl. Kusuma Bangsa No.41, Surabaya, Indonesia","[Double Room, Standard Room, Family Room]","[302992, 151496, 605984]",7.96
21,h0027,ibis budget Surabaya Diponegoro,-,Jawa Timur,Surabaya,Jalan Raya Diponegoro no 183,"[Double Room, Standard Room, Family Room]","[412464, 206232, 824928]",8.08
23,h0031,Hotel 88 Embong Malang,Memberikan Harga yang Murah dan Suasana Nyaman,Jawa Timur,Surabaya,"Jl. Embong Malang No.84, Surabaya","[Family Room, Standard Room, Double Room]","[924133, 231033, 462066]",8.16
27,h0040,Hotel 88 Kedungsari ( Kedungdoro ),Penginapan Yang Tenang Dan Nyaman di Tegalsari.,Jawa Timur,Surabaya,"Jl. Kedungsari No. 76 - 78, Tegalsari, Surabay...","[Family Room, Double Room, Standard Room]","[947333, 473666, 236833]",7.76
11,h0012,News Front One Hotel Surabaya,Rasakan keramahan kota Surabaya di News Hotel ...,Jawa Timur,Surabaya,"Jl. Pondok Maspion Blok S No. 1, Pepelegi, War...","[Family Room, Standard Room]","[956473, 239118]",7.48
22,h0030,Front One Inn Sidoarjo,Penginapan Yang Tenang Dan Nyaman di Sidoarjo.,Jawa Timur,Surabaya,"Jl. Trunojoyo No. 41, Sidoarjo, Jawa Timur, In...","[Standard Room, Family Room, Double Room]","[250000, 1000000, 500000]",8.76
18,h0021,Great Diponegoro Hotel Surabaya,"Hotel yang cocok Untuk Wisatawan Bisnis, Kelua...",Jawa Timur,Surabaya,"Jl. Diponegoro No.215, Darmo, Surabaya","[Double Room, Standard Room, Family Room]","[503254, 251627, 1006508]",8.4
13,h0014,Zest Hotel Jemursari Surabaya,Persembahan kembali dari Swiss-BelHotel Grup h...,Jawa Timur,Surabaya,"Jl. Raya Prapen 266, Surabaya","[Family Room, Double Room]","[1090596, 545298]",8.4
5,h0006,POP! Hotel Stasiun Kota Surabaya,Sebuah Hotel Modern yang Terjangkau di Jawa Timur,Jawa Timur,Surabaya,"Jl. Waspada No.58, Surabaya, Jawa Timur, Indon...","[Family Room, Double Room, Standard Room]","[1105333, 552666, 276333]",7.52
6,h0007,Evora Hotel Surabaya,Ketika bisnis dan kenyamanan sinergi di satu t...,Jawa Timur,Surabaya,"Jl. Menur 18 - 20, Surabaya, Indonesia","[Family Room, Standard Room, Double Room]","[1132000, 283000, 566000]",9.04


Berdasarkan sistem diatas, kita melihat bahwa untuk pencarian suatu hotel dengan tipe kamar 'Family Room' di Surabaya - Jawa Timur, sistem ini merekomendasikan hotel-hotel sesuai pencarian. Sistem ini menampilkan daftar 15 hotel teratas dengan urutan dari harga terendah dan rating tertinggi dari tipe kamar yang dicari.

### Evaluasi Sistem Rekomendasi

Berdasarkan hasil rekomendasi tersebut, sistem ini bisa dikatakan bekerja dengan baik. Hal ini memudahkan user ketika ingin berkunjung ke Surabaya dan mencari suatu hotel dengan tipe kamar 'Family Room', sistem ini memberikan rekomendasi hotel-hotel teratas di Surabaya dengan urutan dimulai dari harga terendah dan rating tertinggi dari tipe kamar 'Family Room'.

## Content Based Recommender

Tahap ini adalah membuat content recommender system, dimana system akan merekomendasikan kepada user untuk melihat hotel-hotel lain yang berhubungan dengan suatu hotel yang dicarinya.

In [25]:
#buat dataset baru berdasarkan beberapa feature
feature_df = hotel_fix_df.copy()
feature_df = feature_df[['hotel_name','hotel_description','hotel_province','hotel_city','hotel_address']]
feature_df.head()

Unnamed: 0,hotel_name,hotel_description,hotel_province,hotel_city,hotel_address
0,Midtown Residence Marvell City Surabaya,-,Jawa Timur,Surabaya,Jalan Ngagel Raya No 123
1,favehotel Graha Agung Surabaya,Sebuah Hotel Mewah di Surabaya Persembahan dar...,Jawa Timur,Surabaya,Jl. Mayjen Yono Soewoyo Pakuwon Indah Square A...
2,The Sun Hotel Sidoarjo,Hotel Bintang 3 Pertama dan Satu-satunya di Si...,Jawa Timur,Surabaya,"Jl. Pahlawan No.1,Sidokumpul, Sidoarjo, Suraba..."
3,Grand Surabaya Hotel,Penginapan Yang Tenang Dan Nyaman Di Surabaya.,Jawa Timur,Surabaya,"Jl. Pemuda 19-21, Surabaya, Indonesia"
4,The WIN Hotel Surabaya,WIN Hotel adalah hotel smart bintang 3 yang me...,Jawa Timur,Surabaya,"Jl. Embong Tanjung 46 - 48 Surabaya, Jawa Timu..."


In [26]:
#membuat metadata soup (menggabungkan semua feature menjadi 1 bagian kalimat)
def soup_feature(x):
    return ''.join(x['hotel_description']) + ' ' + ''.join(x['hotel_province']) + ' ' + ''.join(x['hotel_city']) + ' ' + ''.join(x['hotel_address'])

feature_df['soup'] = feature_df.apply(soup_feature, axis=1)

In [27]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# pip install stop-words
from stop_words import get_stop_words

stop_words_idn = get_stop_words('indonesian') #stop word indonesia

#definisikan CountVectorizer dan mengubah soup tadi menjadi bentuk vector
count = CountVectorizer(stop_words=stop_words_idn)
count_matrix = count.fit_transform(feature_df['soup'])

#menggunakan cosine_similarity antara count_matrix 
cosine_sim = cosine_similarity(count_matrix, count_matrix)
cosine_sim

array([[1.        , 0.40089186, 0.48536267, ..., 0.07715167, 0.14824986,
        0.10253789],
       [0.40089186, 1.        , 0.48181206, ..., 0.08247861, 0.17829649,
        0.10961761],
       [0.48536267, 0.48181206, 1.        , ..., 0.12838815, 0.22614413,
        0.20855189],
       ...,
       [0.07715167, 0.08247861, 0.12838815, ..., 1.        , 0.41175811,
        0.53794595],
       [0.14824986, 0.17829649, 0.22614413, ..., 0.41175811, 1.        ,
        0.60804912],
       [0.10253789, 0.10961761, 0.20855189, ..., 0.53794595, 0.60804912,
        1.        ]])

In [28]:
#buat variabel indicies sebagai set indexing utama
indices = pd.Series(feature_df.index, index=feature_df['hotel_name']).drop_duplicates()

def hotel_content_recommender(hotel_name):
    #mendapatkan index dari hotel_name yang disebutkan
    idx = indices[hotel_name]

    #menjadikan list dari array similarity cosine sim 
    sim_scores = list(enumerate(cosine_sim[idx]))

    #mengurutkan hotel dari similarity tertinggi ke terendah
    sim_scores = sorted(sim_scores,key=lambda x: x[1],reverse=True)

    #mengambil index dan dibuat 10 baris rekomendasi terbaik (item ke-2 sampai ke-11)
    sim_scores = sim_scores[1:11]

    #mendapatkan index dari nama-nama hotel yang muncul di sim_scores
    hotel_indices = [i[0] for i in sim_scores]

    #return berdasarkan index dari hotel_indices
    return hotel_fix_df.iloc[hotel_indices]

In [29]:
hotel_content_recommender('Evora Hotel Surabaya')

Unnamed: 0,hotel_id,hotel_name,hotel_description,hotel_province,hotel_city,hotel_address,service_provided,price_per_night,overall_avg_rating
24,h0032,Yello Hotel Jemursari,Sebuah hotel yang nyaman dan strategis di Sura...,Jawa Timur,Surabaya,"Jl. Raya Jemursari 176, Surabaya, Jawa Timur, ...","[Double Room, Standard Room, Family Room]","[1026000, 513000, 2052000]",9.28
11,h0012,News Front One Hotel Surabaya,Rasakan keramahan kota Surabaya di News Hotel ...,Jawa Timur,Surabaya,"Jl. Pondok Maspion Blok S No. 1, Pepelegi, War...","[Family Room, Standard Room]","[956473, 239118]",7.48
19,h0022,Quest Hotel Darmo - Surabaya by ASTON,"Sebuah Hotel yang Nyaman, Lengkap, dan Terjang...",Jawa Timur,Surabaya,"Jl. Ronggolawe No. 27-29, Surabaya, Jawa Timur...","[Family Room, Double Room, Standard Room]","[1440868, 720434, 360217]",8.6
28,h0041,MaxOneHotels at Tidar Surabaya,Pengalaman kenyamanan maksimum dalam kesederha...,Jawa Timur,Surabaya,"Jl. Tidar No. 5, Surabaya, Indonesia","[Standard Room, Family Room, Double Room]","[400231, 1600924, 800462]",8.48
13,h0014,Zest Hotel Jemursari Surabaya,Persembahan kembali dari Swiss-BelHotel Grup h...,Jawa Timur,Surabaya,"Jl. Raya Prapen 266, Surabaya","[Family Room, Double Room]","[1090596, 545298]",8.4
3,h0004,Grand Surabaya Hotel,Penginapan Yang Tenang Dan Nyaman Di Surabaya.,Jawa Timur,Surabaya,"Jl. Pemuda 19-21, Surabaya, Indonesia","[Family Room, Standard Room, Double Room]","[1299997, 324999, 649998]",8.52
20,h0025,"Continent My Tower Hotel, Surabaya - Rungkut",Penginapan Yang Tenang Dan Nyaman di Surabaya.,Jawa Timur,Surabaya,"Jl. Rungkut Industri Raya No. 4, Surabaya, Jaw...","[Family Room, Standard Room]","[1193213, 298303]",7.6
26,h0038,Swiss-Belinn Tunjungan Surabaya,"Akomodasi bintang 3, yang nyaman dan tenang di...",Jawa Timur,Surabaya,"Jl. Tunjungan No.101, Surabaya, Indonesia","[Double Room, Family Room, Standard Room]","[1496666, 2993333, 748333]",8.32
7,h0008,MaxOneHotels at Dharmahusada,Pengalaman kenyamanan maksimum dalam kesederha...,Jawa Timur,Surabaya,"Jl. Dharmahusada No. 189, Gubeng, Surabaya, Ja...","[Family Room, Double Room, Standard Room]","[1853314, 926657, 463328]",8.4
8,h0009,Zoom Dharmahusada Hotel,"Akomodasi modern, nyaman, dan tenang di Surabaya",Jawa Timur,Surabaya,"Jl. Raya Dharmahusada No. 188, Surabaya, Indon...","[Family Room, Standard Room]","[1238160, 309540]",8.16


Berdasarkan sistem diatas, kita melihat bahwa untuk pencarian 'Evora Hotel Surabaya', sistem ini dapat mengidentifikasinya sebagai hotel yang tenang dan nyaman di Surabaya - Jawa Timur, dan kemudian merekomendasikan hotel-hotel lainnya yang tenang dan nyaman di Surabaya - Jawa Timur sebagai rekomendasi utamanya.

### Evaluasi Sistem Rekomendasi

Berdasarkan hasil rekomendasi tersebut, sistem ini bisa dikatakan bekerja dengan baik, karena untuk pencarian 'Evora Hotel Surabaya' memberikan rekomendasi hotel-hotel yang sekota dengan hotel tersebut. Hal ini memudahkan user ketika ingin berkunjung ke Surabaya dan mencari suatu hotel yang terletak di kota tersebut, sistem ini memberikan rekomendasi hotel-hotel yang memiliki kemiripan deskripsi dan terletak di Surabaya, bukan di kota lainnya.

## Bagaimana cara meningkatkan sistem rekomendasi?

Sistem diatas menggunakan metadata yang sugestif, yakni: hotel_description, hotel_province, hotel_city dan hotel_address. Penggunaan semua fitur itu sudah mendukung sistem rekomendasi yang canggih. Untuk membangun sistem rekomendasi yang lebih canggih, kita perlu mempertimbangkan fitur lainnya. Tetapi, saat ini kita tidak mempunyai fitur-fitur lain yang cukup untuk membangun sistem rekomendasi yang lebih canggih.

Tetapi juga, tidak ada salahnya kita mencoba membangun model sistem rekomendasi selain dari kedua model diatas, seperti Collaborative Filtering.

# Referensi
* [Building Recommender System using Python](https://academy.dqlab.id/main/package/project/212)
* [Building Recommender System using Similarity Function in Python](https://academy.dqlab.id/main/package/project/214)
* [Recommendation System Dengan Python : Content Based Filtering (Part 2)](https://medium.com/data-folks-indonesia/recommendation-system-dengan-python-content-based-filtering-part-2-222a8c365add)
* [Movies Recommender System](https://www.kaggle.com/rounakbanik/movie-recommender-systems)
* [Movie Recommendation System & Rating Predictor](https://www.kaggle.com/shohagmia/movie-recommendation-system-rating-predictor)
* [Getting Started with a Movie Recommendation System](https://www.kaggle.com/ibtesama/getting-started-with-a-movie-recommendation-system#Content-Based-Filtering)
* [How to build a Simple Recommender System in Python](https://towardsdatascience.com/how-to-build-a-simple-recommender-system-in-python-375093c3fb7d)
* [Recommendation Systems — Models and Evaluation](https://towardsdatascience.com/recommendation-systems-models-and-evaluation-84944a84fb8e)

Created by Ahmad Rizal Samsi.