# Investigate Hotel Business using Data Visualization

**Table of Content:**

- Introduction
- Load Dataset
- Data Exploration
- Data Cleansing
- Data Visualization

## Introduction


**Background**

Analisis kinerja bisnis merupakan proses penting yang perlu dilakukan oleh perusahaan untuk mengetahui kondisi dan kinerja perusahaan saat ini. Analisis ini dapat membantu perusahaan untuk mengidentifikasi permasalahan, kelemahan, dan kekuatan yang dimilikinya. Dalam bisnis perhotelan, pemahaman perilaku pelanggan merupakan hal yang penting. Dengan memahami perilaku pelanggan, perusahaan dapat mengetahui faktor-faktor yang mempengaruhi keputusan pelanggan dalam melakukan pemesanan hotel. Selain itu, perusahaan juga dapat mengidentifikasi produk atau layanan apa yang kurang diminati oleh pelanggan. Hal ini dilakukan untuk menyesuaikan strategi bisnis yang tepat guna sehingga perusahaan dapat meningkatkan pengalaman pelanggan dan dapat mencapai tujuan bisnis jangka panjang" diubah menjadi "Dengan memahami permasalahan, kelemahan, dan kekuatan yang dimiliki serta perilaku pelanggan, perusahaan dapat menyesuaikan strategi bisnisnya agar dapat meningkatkan pengalaman pelanggan dan mencapai tujuan bisnis jangka panjang.

**Business Questions**

Jenis hotel apa yang paling sering dikunjungi oleh pelanggan?
Apakah durasi menginap mempengaruhi tingkat pembatalan pemesanan hotel?
Apakah jarak waktu antara pemesanan hotel dan hari kedatangan tamu mempengaruhi tingkat pembatalan pemesanan hotel?

**Objective**

Membuat visualisasi berbasis data sebagai insight bagi bisnis hotel

## Load Dataset

In [1]:
import pandas as pd 
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv('hotel_bookings_data.csv')

In [3]:
df.sample(5)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_weekdays_nights,adults,...,booking_changes,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status
41583,City Hotel,0,6,2017,October,34,18,0,3,1,...,0,No Deposit,14.0,,0,Personal,67.0,0,0,Check-Out
88445,City Hotel,0,164,2018,July,19,2,1,3,2,...,1,No Deposit,8.0,,0,Personal,99.45,0,0,Check-Out
19970,Resort Hotel,0,13,2018,March,2,7,1,3,2,...,0,No Deposit,115.0,,0,Personal,33.3,0,0,Check-Out
110266,City Hotel,0,26,2019,June,16,22,2,1,3,...,0,No Deposit,9.0,,0,Personal,214.0,0,2,Check-Out
51141,City Hotel,1,121,2018,July,20,14,1,1,2,...,0,Non Refund,1.0,,0,Personal,96.0,0,0,Canceled


## Data Exploration

Melakukan investigasi awal terhadap data untuk memahami karakteristik dan informasi yang terkandung didalamnya.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 29 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119390 non-null  object 
 1   is_canceled                     119390 non-null  int64  
 2   lead_time                       119390 non-null  int64  
 3   arrival_date_year               119390 non-null  int64  
 4   arrival_date_month              119390 non-null  object 
 5   arrival_date_week_number        119390 non-null  int64  
 6   arrival_date_day_of_month       119390 non-null  int64  
 7   stays_in_weekend_nights         119390 non-null  int64  
 8   stays_in_weekdays_nights        119390 non-null  int64  
 9   adults                          119390 non-null  int64  
 10  children                        119386 non-null  float64
 11  babies                          119390 non-null  int64  
 12  meal            

**Key Takeaways :**

- Dataset memeiliki **119390** records dan **29** fitur
- Tipe data : **object, float64, int64**
- Terdapat **33261 data duplikat**

In [5]:
# cek valaue dari setiap fitur
for col in df.columns:
    print("{} have {} unique values: {}".format(col, df[col].nunique(), df[col].dtypes))
    if df[col].dtypes == 'int64' or df[col].dtypes == 'float64' or df[col].dtypes == 'object':
        print("{} values: {}".format(col,df[col].unique()))
        print('-' * 100)

hotel have 2 unique values: object
hotel values: ['Resort Hotel' 'City Hotel']
----------------------------------------------------------------------------------------------------
is_canceled have 2 unique values: int64
is_canceled values: [0 1]
----------------------------------------------------------------------------------------------------
lead_time have 479 unique values: int64
lead_time values: [342 737   7  13  14   0   9  85  75  23  35  68  18  37  12  72 127  78
  48  60  77  99 118  95  96  69  45  40  15  36  43  70  16 107  47 113
  90  50  93  76   3   1  10   5  17  51  71  63  62 101   2  81 368 364
 324  79  21 109 102   4  98  92  26  73 115  86  52  29  30  33  32   8
 100  44  80  97  64  39  34  27  82  94 110 111  84  66 104  28 258 112
  65  67  55  88  54 292  83 105 280 394  24 103 366 249  22  91  11 108
 106  31  87  41 304 117  59  53  58 116  42 321  38  56  49 317   6  57
  19  25 315 123  46  89  61 312 299 130  74 298 119  20 286 136 129 124
 327 131 46

**Key Takeaways:**

- Terdapat value **'Undefined'** pada fitur meal, market_segment, distribution_channel. Akan dilakukan analisis lebih lanjut apakah valaue tersebut perlu di handling atau tidak
- Fitur **company** dan **agent** memiliki value float, kemungkinan merujuk pada id atau **value yang telah di encoding**
- Fitur yang menunjukkan jumlah tamu yaitu adults, children, dan babies akan dilakukan analisis lebih lanjut untuk mengatahui apakah terdapat data yang anomali

## Checking Null Values

In [6]:
# cek missing value
((df.isna().sum())/len(df)*100).round(2).sort_values(ascending=False)

company                           94.31
agent                             13.69
city                               0.41
hotel                              0.00
distribution_channel               0.00
total_of_special_requests          0.00
required_car_parking_spaces        0.00
adr                                0.00
customer_type                      0.00
days_in_waiting_list               0.00
deposit_type                       0.00
booking_changes                    0.00
previous_bookings_not_canceled     0.00
previous_cancellations             0.00
is_repeated_guest                  0.00
market_segment                     0.00
is_canceled                        0.00
meal                               0.00
babies                             0.00
children                           0.00
adults                             0.00
stays_in_weekdays_nights           0.00
stays_in_weekend_nights            0.00
arrival_date_day_of_month          0.00
arrival_date_week_number           0.00


**Key Takeaways :**

- Terdapat **missing/null value** pada fitur `company`,`city`,`children`,`agent` 
- Akan dilakukan imputasi nilai pada missing value