In [1]:
#library import
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

In [2]:
#import dataset
dfbooking = pd.read_csv('hotel_bookings_data.csv')
dfbooking.head(5)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_weekdays_nights,adults,...,booking_changes,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status
0,Resort Hotel,0,342,2017,September,27,1,0,0,2,...,3,No Deposit,,,0,Personal,0.0,0,0,Check-Out
1,Resort Hotel,0,737,2017,September,27,1,0,0,2,...,4,No Deposit,,,0,Personal,0.0,0,0,Check-Out
2,Resort Hotel,0,7,2017,September,27,1,0,1,1,...,0,No Deposit,,,0,Personal,75.0,0,0,Check-Out
3,Resort Hotel,0,13,2017,September,27,1,0,1,1,...,0,No Deposit,304.0,,0,Personal,75.0,0,0,Check-Out
4,Resort Hotel,0,14,2017,September,27,1,0,2,2,...,0,No Deposit,240.0,,0,Personal,98.0,0,1,Check-Out


In [3]:
dfbooking.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 29 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119390 non-null  object 
 1   is_canceled                     119390 non-null  int64  
 2   lead_time                       119390 non-null  int64  
 3   arrival_date_year               119390 non-null  int64  
 4   arrival_date_month              119390 non-null  object 
 5   arrival_date_week_number        119390 non-null  int64  
 6   arrival_date_day_of_month       119390 non-null  int64  
 7   stays_in_weekend_nights         119390 non-null  int64  
 8   stays_in_weekdays_nights        119390 non-null  int64  
 9   adults                          119390 non-null  int64  
 10  children                        119386 non-null  float64
 11  babies                          119390 non-null  int64  
 12  meal            

In [4]:
#melihat jumlah keseluruhan data berdasarkan baris
print(dfbooking.shape[0])

119390


###1.handling missing value

In [5]:
#cek kolom mana saja mengandung missing values
print(dfbooking.isnull().any())

hotel                             False
is_canceled                       False
lead_time                         False
arrival_date_year                 False
arrival_date_month                False
arrival_date_week_number          False
arrival_date_day_of_month         False
stays_in_weekend_nights           False
stays_in_weekdays_nights          False
adults                            False
children                           True
babies                            False
meal                              False
city                               True
market_segment                    False
distribution_channel              False
is_repeated_guest                 False
previous_cancellations            False
previous_bookings_not_canceled    False
booking_changes                   False
deposit_type                      False
agent                              True
company                            True
days_in_waiting_list              False
customer_type                     False


In [6]:
#cek jumlah missing data pada setiap kolom
print(dfbooking.isnull().sum())

hotel                                  0
is_canceled                            0
lead_time                              0
arrival_date_year                      0
arrival_date_month                     0
arrival_date_week_number               0
arrival_date_day_of_month              0
stays_in_weekend_nights                0
stays_in_weekdays_nights               0
adults                                 0
children                               4
babies                                 0
meal                                   0
city                                 488
market_segment                         0
distribution_channel                   0
is_repeated_guest                      0
previous_cancellations                 0
previous_bookings_not_canceled         0
booking_changes                        0
deposit_type                           0
agent                              16340
company                           112593
days_in_waiting_list                   0
customer_type   

diketahui kolom data yang bersifat TRUE adalah kolom-kolom yang memiliki missing data : 
berikut kolom-kolomnya
- CHILDREN 4
- CITY 488
- AGENT 16340
- COMPANY 112593

In [7]:
#menampilkan kolom-kolom yang terdeteksi missing value
selected_cols = ['children','city','agent','company']
dfbooking_selected = dfbooking.loc[:, selected_cols]

dfbooking_selected.head()

Unnamed: 0,children,city,agent,company
0,0.0,Kota Denpasar,,
1,0.0,Kota Denpasar,,
2,0.0,Kabupaten Bangka,,
3,0.0,Kabupaten Bangka,304.0,
4,0.0,Kabupaten Bangka,240.0,


dapat kita simpulkan bahwa missing value untuk setiap kolom bisa kita asumsikan :
- pada missing values di kolom CITY asumsikan pengunjung yang tidak mencantumkan kota mereka /"unknown"

- pada missing values di kolom CHILDREN kita asumsikan bahwa pengunjung tersebut tidak membawa anak-anak / "0.0"

- pada missing values AGENT dan COMPANY kita asumsikan bahwa pengunjung tersebut tidak membooking tiket hotel lewat agent ataupun company /"0.0"

In [8]:
#handling missing values 
dfbooking['children']=dfbooking['children'].fillna(0.0)
dfbooking['agent']=dfbooking['agent'].fillna(0.0)
dfbooking['company']=dfbooking['company'].fillna(0.0)
dfbooking['city']=dfbooking['city'].fillna('unknown')

In [9]:
#mengecek missing value pada dataset
print(dfbooking.isnull().sum())

hotel                             0
is_canceled                       0
lead_time                         0
arrival_date_year                 0
arrival_date_month                0
arrival_date_week_number          0
arrival_date_day_of_month         0
stays_in_weekend_nights           0
stays_in_weekdays_nights          0
adults                            0
children                          0
babies                            0
meal                              0
city                              0
market_segment                    0
distribution_channel              0
is_repeated_guest                 0
previous_cancellations            0
previous_bookings_not_canceled    0
booking_changes                   0
deposit_type                      0
agent                             0
company                           0
days_in_waiting_list              0
customer_type                     0
adr                               0
required_car_parking_spaces       0
total_of_special_requests   

###2.handling invalid values

In [10]:
#menampilkan values bertipe object
kolom_objek = ['hotel', 'meal', 'city', 'market_segment','deposit_type', 'customer_type', 'reservation_status']

for kolom in kolom_objek:
    nilai_unik = dfbooking[kolom].unique()
    print(f"Nilai unik pada kolom '{kolom}':")
    print(nilai_unik)
    print()

Nilai unik pada kolom 'hotel':
['Resort Hotel' 'City Hotel']

Nilai unik pada kolom 'meal':
['Breakfast' 'Full Board' 'Dinner' 'No Meal' 'Undefined']

Nilai unik pada kolom 'city':
['Kota Denpasar' 'Kabupaten Bangka' 'Kabupaten Sleman' 'Kota Batu'
 'Kota Malang' 'Kota Yogyakarta' 'unknown' 'Kabupaten Tangerang'
 'Kota Semarang' 'Kota Serang' 'Kota Tangerang' 'Kota Bogor'
 'Kabupaten Bandung' 'Kabupaten Magelang' 'Kabupaten Sumedang'
 'Kota Jakarta Timur' 'Kabupaten Purwakarta' 'Kabupaten Kepulauan Seribu'
 'Kabupaten Belitung' 'Kota Jakarta Pusat' 'Kota Jakarta Selatan'
 'Kota Surabaya' 'Kota Jakarta Utara' 'Kota Gorontalo' 'Kota Jambi'
 'Kota Jakarta Barat' 'Kota Bengkulu' 'Kabupaten Bandung Barat'
 'Kabupaten Bekasi' 'Kabupaten Bogor' 'Kabupaten Ciamis'
 'Kabupaten Cianjur' 'Kabupaten Cirebon' 'Kota Cimahi'
 'Kabupaten Indramayu' 'Kabupaten Karawang' 'Kabupaten Kuningan'
 'Kabupaten Majalengka' 'Kabupaten Serang' 'Kota Pangkal Pinang'
 'Kabupaten Subang' 'Kabupaten Sukabumi' 'Kabupat

terdapat 2 kolom yang memiliki arti values yang tidak sesuai yaitu 
- kolom MEAL = 'Undefined'
- kolom MARKET_SEGMENT = 'Undefined'


dapat disimpulkan untuk kolom MEAL values "Undefined" dapat kita ubah menjadi "Nomeal" dikarenakan nilai "undifined" mengindikasikan bahwa tidak ada pilihan makanan yang dipilih atau tidak ada permintaan makanan khusus.

untuk kolom MARKET_SEGMENT values "undefined" dirubah menjadi "OTHER" dengan alasan suatu segmen yang tidak spesifik atau tidak terdefinisi dengan jelas. 

In [17]:
#merubah values undfined pada kolom MEAL
dfbooking["meal"] = dfbooking["meal"].replace("Undefined", "No Meal")


In [24]:
#merubah values undifined pada kolom MARKET_SEGMENT
dfbooking["market_segment"] = dfbooking["market_segment"].replace("Undefined", "Other")

In [25]:
#Menampilkan values object
kolom_object = ['hotel', 'meal', 'city', 'market_segment','deposit_type', 'customer_type', 'reservation_status']

for kolom in kolom_object:
    nilai_unik = dfbooking[kolom].unique()
    print(f"Nilai unik pada kolom '{kolom}':")
    print(nilai_unik)
    print()

Nilai unik pada kolom 'hotel':
['Resort Hotel' 'City Hotel']

Nilai unik pada kolom 'meal':
['Breakfast' 'Full Board' 'Dinner' 'No Meal']

Nilai unik pada kolom 'city':
['Kota Denpasar' 'Kabupaten Bangka' 'Kabupaten Sleman' 'Kota Batu'
 'Kota Malang' 'Kota Yogyakarta' 'unknown' 'Kabupaten Tangerang'
 'Kota Semarang' 'Kota Serang' 'Kota Tangerang' 'Kota Bogor'
 'Kabupaten Bandung' 'Kabupaten Magelang' 'Kabupaten Sumedang'
 'Kota Jakarta Timur' 'Kabupaten Purwakarta' 'Kabupaten Kepulauan Seribu'
 'Kabupaten Belitung' 'Kota Jakarta Pusat' 'Kota Jakarta Selatan'
 'Kota Surabaya' 'Kota Jakarta Utara' 'Kota Gorontalo' 'Kota Jambi'
 'Kota Jakarta Barat' 'Kota Bengkulu' 'Kabupaten Bandung Barat'
 'Kabupaten Bekasi' 'Kabupaten Bogor' 'Kabupaten Ciamis'
 'Kabupaten Cianjur' 'Kabupaten Cirebon' 'Kota Cimahi'
 'Kabupaten Indramayu' 'Kabupaten Karawang' 'Kabupaten Kuningan'
 'Kabupaten Majalengka' 'Kabupaten Serang' 'Kota Pangkal Pinang'
 'Kabupaten Subang' 'Kabupaten Sukabumi' 'Kabupaten Garut'
 '

###3.handling Unnecesarry data

In [26]:
dfbooking['Total Customer'] = dfbooking['adults'] + dfbooking['children'] + dfbooking['babies']
dfbooking = dfbooking.drop(dfbooking[dfbooking['Total Customer'] == 0].index)

###4.handling type data


In [30]:
dfbooking['children'] = dfbooking['children'].astype('int64')
dfbooking['agent'] = dfbooking['agent'].astype('int64')
dfbooking['company'] = dfbooking['company'].astype('int64')