# DATA PREPROCESSING

In [80]:
import pandas as pd
import numpy as np

In [97]:
hotel_df = pd.read_csv('hotel_bookings_data.csv')

In [98]:
hotel_df.sample(5)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_weekdays_nights,adults,...,booking_changes,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status
109541,City Hotel,0,14,2019,June,15,12,0,1,2,...,0,No Deposit,9.0,,0,Personal,224.0,0,0,Check-Out
56372,City Hotel,1,30,2018,November,37,4,2,0,2,...,0,No Deposit,9.0,,0,Personal,110.97,0,0,Canceled
37365,Resort Hotel,0,11,2019,August,24,11,2,2,2,...,0,No Deposit,241.0,,0,Personal,124.0,0,1,Check-Out
102057,City Hotel,0,35,2018,January,48,22,0,1,2,...,0,No Deposit,9.0,,0,Personal,79.2,0,1,Check-Out
82525,City Hotel,0,97,2017,February,53,29,0,3,1,...,0,No Deposit,83.0,,0,Personal,62.0,0,1,Check-Out


## Data Exploration

In [99]:
# Mengecek jumlah baris dan kolom
hotel_df.shape

(119390, 29)

In [100]:
# Mengecek info dataset
hotel_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 29 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119390 non-null  object 
 1   is_canceled                     119390 non-null  int64  
 2   lead_time                       119390 non-null  int64  
 3   arrival_date_year               119390 non-null  int64  
 4   arrival_date_month              119390 non-null  object 
 5   arrival_date_week_number        119390 non-null  int64  
 6   arrival_date_day_of_month       119390 non-null  int64  
 7   stays_in_weekend_nights         119390 non-null  int64  
 8   stays_in_weekdays_nights        119390 non-null  int64  
 9   adults                          119390 non-null  int64  
 10  children                        119386 non-null  float64
 11  babies                          119390 non-null  int64  
 12  meal            

Terdapat total 29 kolom pada dataset yang digunakan. Berikut adalah daftar kolom beserta keterangannya:

1. `hotel`: Nama hotel.
2. `is_canceled`: Apakah pemesanan dibatalkan (1) atau tidak (0).
3. `lead_time`: Jarak hari antara tanggal pemesanan hingga tanggal kedatangan tamu/pemesan.
4. `arrival_date_year`: Tahun kedatangan tamu/pemesan.
5. `arrival_date_month`: Bulan kedatangan tamu/pemesan.
6. `arrival_date_week_number`: Minggu ke-n (dalam satu tahun) dari kedatangan tamu/pemesan.
7. `arrival_date_day_of_month`: Hari ke-n (dalam satu bulan) dari kedatangan tamu/pemesan.
8. `stays_in_weekend_nights`: Jumlah malam weekends (Sabtu atau Minggu) tamu/pemesan menginap atau pesan di hotel.
9. `stays_in_weekdays_nights` Jumlah malam weekdays (Senin hingga Jumat) tamu/pemesan menginap atau pesan di hotel.
10. `adults'`: Jumlah tamu dewasa.
11. `children`: Jumlah tamu anak-anak.
12. `babies`: Jumlah tamu bayi.
13. `meal`: Fasilitas makan yang dipilih.
14. `city`: Kota asal tamu/pemesan.
15. `market_segment`: Segmen tamu/pemesan. Istilah "TA" berarti "Travel Agent" dan "TO" berarti "Tour Operators".
16. `distribution_channel`: Kanal distribusi pemesanan. Istilah "TA" berarti "Travel Agent" dan "TO" berarti "Tour Operators".
17. `is_repeated_guest`: Apakah tamu/pemesan adalah pelanggan berulang (1) atau bukan (0).
18. `previous_cancellations`: Jumlah pemesanan sebelumnya yang dibatalkan oleh tamu/pemesan sebelum pemesanan saat ini.
19. `previous_bookings_not_canceled`: Jumlah pemesanan sebelumnya yang tidak dibatalkan oleh tamu/pemesan sebelum pemesanan saat ini.
20. `booking_changes`: Jumlah perubahan yang dilakukan pada pemesanan dari saat pemesanan hingga saat check-in atau pembatalan.
21. `deposit_type`: "No Deposit" – tanpa deposit; "Non Refund" – deposit senilai total biaya menginap; "Refundable" – deposit dengan nilai di bawah total biaya menginap.
22. `agent`: ID agen perjalanan yang melakukan pemesanan.
23. `company`: ID perusahaan/entitas yang melakukan pemesanan atau bertanggung jawab atas pembayaran pemesanan.
24. `days_in_waiting_list`: Jumlah hari pemesanan berada dalam daftar tunggu sebelum dikonfirmasi kepada tamu/pemesan.
25. `customer_type`: Kategori tamu/pemesan.
26. `adr`: Tarif Harian Rata-rata (dihitung dengan membagi jumlah semua transaksi akomodasi dengan total jumlah malam menginap).
27. `required_car_parking_spaces`: Jumlah tempat parkir mobil yang diperlukan oleh tamu/pemesan.
28. `total_of_special_requests`: Jumlah permintaan khusus yang dibuat oleh tamu/pemesan (misalnya, tempat tidur twin atau lantai tinggi).
29. `reservation_status`: Status pemesanan.

Selain meninjau nama-nama kolom, penting untuk memeriksa tipe data yang digunakan untuk masing-masing kolom. Terdapat beberapa tipe data yang perlu diperhatikan karena kurang sesuai dengan representasi sebenarnya.

- `children`: Karena jumlah anak selalu berupa bilangan bulat, tipe data float tidak relevan. Oleh karena itu, kolom ini perlu diubah menjadi tipe data integer.

- `agent` dan `company`: Meskipun kedua kolom ini berisi angka, mereka hanya berfungsi sebagai ID dan tidak akan dioperasikan secara matematis. Oleh karena itu, lebih tepat untuk mengubah tipe data menjadi string. Hal ini akan mempermudah analisis statistik dan memastikan bahwa data ini tidak dianggap sebagai data numerik.

- `is_canceled` dan `is_repeated_guest`: Kedua kolom ini memuat nilai biner, yang dapat diartikan sebagai True atau False. Mengubahnya menjadi tipe data boolean akan membuat analisis statistik lebih mudah dipahami dan memastikan bahwa data ini tidak dianggap sebagai data numerik.

Dengan melakukan penyesuaian (yang akan dilakukan setelah penanganan duplikat dan missing value), tipe data akan lebih konsisten dengan sifat sebenarnya dari data yang direpresentasikan oleh kolom tersebut, memungkinkan analisis yang lebih tepat dan informatif.

## Duplicated Values Handling

In [101]:
# Mengecek jumlah baris data duplikat
print('Jumlah baris duplikat sebelum pengapusan: ' + str(hotel_df.duplicated().sum()))

Jumlah baris duplikat sebelum pengapusan: 33261


In [102]:
# Menghapus baris data duplikat
hotel_df.drop_duplicates(inplace= True)

In [103]:
# Mengecek hasil penghapusan baris data duplikat
print('Jumlah duplikat setelah penghapusan duplikat: ' + str(hotel_df.duplicated().sum()))
print('Jumlah baris setelah penghapusan duplikat: ' + str(hotel_df.shape[0]))

Jumlah duplikat setelah penghapusan duplikat: 0
Jumlah baris setelah penghapusan duplikat: 86129


## Missing Values Handling

In [104]:
# Mengecek kolom yang memiliki null valuespada dataset
hotel_df.isnull().sum()

hotel                                 0
is_canceled                           0
lead_time                             0
arrival_date_year                     0
arrival_date_month                    0
arrival_date_week_number              0
arrival_date_day_of_month             0
stays_in_weekend_nights               0
stays_in_weekdays_nights              0
adults                                0
children                              4
babies                                0
meal                                  0
city                                450
market_segment                        0
distribution_channel                  0
is_repeated_guest                     0
previous_cancellations                0
previous_bookings_not_canceled        0
booking_changes                       0
deposit_type                          0
agent                             11941
company                           81019
days_in_waiting_list                  0
customer_type                         0


In [105]:
# Mengecek persentase null value terhadap total baris data
null_column = ['children', 'city', 'agent', 'company']

for col in null_column:
    null_percentage = (hotel_df[col].isnull().sum()) / (hotel_df.shape[0]) * 100
    print('Presentase null pada kolom {} : {}'.format(col, null_percentage))

Presentase null pada kolom children : 0.004644196495953744
Presentase null pada kolom city : 0.5224721057947962
Presentase null pada kolom agent : 13.864087589545914
Presentase null pada kolom company : 94.0670389764191


Dapat diamati bahwa terdapat 4 kolom dengan null value. Persentase null value pada `children` dan `city` tergolong rendah, yakni di bawah 1%. Oleh karena itu, saya memutuskan untuk menghapus baris-baris dengan null value pada kedua kolom tersebut. Namun, kolom `agent` memiliki persentase null value yang cukup tinggi, mencapai 13%. Sedangkan, persentase null value pada kolom `company` sangat tinggi, yaitu mencapai 94%. Oleh karena itu, diperlukan analisis lebih lanjut untuk menentukan langkah yang tepat dalam penanganannya.

### `children` & `city` null values handling

In [106]:
# Menghapus null value pada kolom 'children' dan 'city'
hotel_df.dropna(subset= ['children', 'city'], inplace= True)

### `agent` & `company` null values handling

Sebelum menentukan tindakan yang tepat untuk menangani null value pada kolom `agent` dan `company`, mari kita lakukan analisa terlebih dahulu. 

Kedua kolom ini berisi data entitas bisnis yang melakukan pemesanan mewakili tamu. Akan tetapi dalam praktiknya, sangat umum pemesan melakukan pemesanan sebagai individu dan bukan entitas bisnis. Pemesanan semacam ini mungkin terkait dengan orang perorangan yang melakukan pemesanan untuk diri mereka sendiri, mewakili anggota keluarga, atau bahkan dalam konteks grup.

Untuk memverifikasi hal ini, kita dapat melakukan pemeriksaan terhadap kolom `customer_type` untuk memberikan wawasan tentang kategori tamu.

In [107]:
# Grouping kategori tamu/pemesan
hotel_df.groupby('customer_type')['customer_type'].value_counts()

customer_type
Bussiness      535
Contract      3125
Family       10780
Personal     71235
Name: count, dtype: int64

Berdasarkan analisis terhadap kolom `customer_type`, terdapat empat nilai unik yang mewakili berbagai jenis tamu/pemesan. Tampak jelas bahwa kategori "Personal" merupakan yang paling umum, menunjukkan bahwa sebagian besar pemesanan dilakukan oleh individu. Sebaliknya, kategori "Business" mencatatkan jumlah pemesanan yang paling sedikit. Ini menandakan bahwa bisnis atau entitas korporat mungkin tidak terlibat secara signifikan dalam pemesanan di dataset ini. Dalam kasus ini, pemesanan atas nama individu mungkin lebih umum, dan karenanya, ID untuk agen atau perusahaan tidak selalu tercatat.

Berdasarkan hal tersebut di atas, saya memutuskan untuk menambahkan angka 1234 pada kolom `agent` dan `company` untuk mewakili pemesanan yang tidak dilakukan melalui agen atau perusahaan. Pemilihan angka tersebut didasarkan pada nilai ID yang hanya terdiri dari 1 hingga 3 digit angka, sehingga dengan menggunakan 4 digit angka bisa menjadi pembeda dari nilai ID lain.

In [109]:
# Mengisi null value pada kolom 'agent' dan 'company'
hotel_df[['agent', 'company']] = hotel_df[['agent', 'company']].fillna(1234)

In [110]:
# Mengecek hasil setelah missing values handling
hotel_df.isnull().sum()

hotel                             0
is_canceled                       0
lead_time                         0
arrival_date_year                 0
arrival_date_month                0
arrival_date_week_number          0
arrival_date_day_of_month         0
stays_in_weekend_nights           0
stays_in_weekdays_nights          0
adults                            0
children                          0
babies                            0
meal                              0
city                              0
market_segment                    0
distribution_channel              0
is_repeated_guest                 0
previous_cancellations            0
previous_bookings_not_canceled    0
booking_changes                   0
deposit_type                      0
agent                             0
company                           0
days_in_waiting_list              0
customer_type                     0
adr                               0
required_car_parking_spaces       0
total_of_special_requests   

## Penyesuaian Tipe Data

Dalam kasus project ini, saya melakukan proses penyesuaian tipe data setelah menangani duplikat dan missing value karena untuk terjadi error ketika akan mengubah tipe data kolom yang memiliki null value.

### `children`: numeric to proper numeric

In [111]:
# Mengubah tipe data kolom 'children' dari float ke integer
hotel_df['children'] = hotel_df['children'].astype(int)

### `agent`, `company`: numeric to string

In [112]:
# Mengubah tipe data kolom 'agent' dan 'company' dari float ke string
hotel_df[['agent', 'company']] = hotel_df[['agent', 'company']].astype(str)

# Menghilangkan nilai desimal dari string
hotel_df['agent'] = hotel_df['agent'].str.rstrip('.0')
hotel_df['company'] = hotel_df['company'].str.rstrip('.0')

### `is_canceled`, `is_repeated_guest`: integer to boolean

In [115]:
# Mengubah tipe data kolom 'is_canceled' dan 'is_repeated_guest' dari integer ke boolean
hotel_df[['is_canceled', 'is_repeated_guest']] = hotel_df[['is_canceled', 'is_repeated_guest']].astype(bool)

In [116]:
hotel_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85675 entries, 0 to 119389
Data columns (total 29 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   hotel                           85675 non-null  object 
 1   is_canceled                     85675 non-null  bool   
 2   lead_time                       85675 non-null  int64  
 3   arrival_date_year               85675 non-null  int64  
 4   arrival_date_month              85675 non-null  object 
 5   arrival_date_week_number        85675 non-null  int64  
 6   arrival_date_day_of_month       85675 non-null  int64  
 7   stays_in_weekend_nights         85675 non-null  int64  
 8   stays_in_weekdays_nights        85675 non-null  int64  
 9   adults                          85675 non-null  int64  
 10  children                        85675 non-null  int32  
 11  babies                          85675 non-null  int64  
 12  meal                            8567

## Memastikan konsistensi data kategorikal

Pada proses ini, saya akan melakukan perubahan nilai pada kolom-kolom kategorikal menjadi lowercase. Hal ini bertujuan agar tidak ada nilai yang berbeda yang memiliki arti sama karena perbedaan penggunaan upper/lowercase.

In [117]:
# Membuat list berisi kolom-kolom kategorikal
cat_columns = hotel_df.select_dtypes(include=['object']).columns.tolist()
cat_columns

['hotel',
 'arrival_date_month',
 'meal',
 'city',
 'market_segment',
 'distribution_channel',
 'deposit_type',
 'agent',
 'company',
 'customer_type',
 'reservation_status']

In [118]:
# Mengubah semua nilai pada kolom kategorikal menjadi lowercase
for col in cat_columns:
    hotel_df[col] = hotel_df[col].str.lower()

In [119]:
hotel_df_clean = hotel_df.copy()