### Preyecto Hotel Booking - Análisis y Predicción

- Predicción de cancelaciones de reservas
- Análisis de tendencias temporales
- Segmentación de clientes
- Análisis de precios y tarifas
- Evaluación de la satisfacción del cliente
- Predicción de demanda



Fuente: https://www.kaggle.com/datasets/mojtaba142/hotel-booking

In [2]:
import pandas as pd
import matplotlib.pyplot as plt

In [3]:
# Configuraraciones
pd.set_option('display.max_columns', None)

In [4]:
# Se carga el Dataset
hotel_booking = pd.read_csv('../data/hotel_booking.csv')

#### Nombre y definición de variables

- **hotel**: El nombre del hotel.
- **is_canceled**: Indica si la reserva fue cancelada (1) o no (0).
- **lead_time**: El número de días que pasaron desde la fecha de reserva hasta la fecha de llegada.
- **arrival_date_year**: El año de llegada.
- **arrival_date_month**: El mes de llegada.
- **arrival_date_week_number**: El número de semana del año en que llegaron los huéspedes.
- **arrival_date_day_of_month**: El día del mes de llegada.
- **stays_in_weekend_nights**: El número de noches que el cliente se quedó durante los fines de semana.
- **stays_in_week_nights**: El número de noches que el cliente se quedó durante la semana.
- **adults**: El número de adultos en la reserva.
- **children**: El número de niños en la reserva.
- **babies**: El número de bebés en la reserva.
- **meal**: El tipo de comida reservada.
- **country**: El país de origen del cliente.
- **market_segment**: El segmento de mercado al que pertenece la reserva.
- **distribution_channel**: El canal de distribución utilizado para realizar la reserva.
- **is_repeated_guest**: Indica si el cliente es un huésped repetido (1) o no (0).
- **previous_cancellations**: El número de reservas canceladas por el cliente previamente.
- **previous_bookings_not_canceled**: El número de reservas previas que no fueron canceladas por el cliente.
- **reserved_room_type**: El tipo de habitación reservada.
- **assigned_room_type**: El tipo de habitación asignada al cliente.
- **booking_changes**: El número de cambios realizados en la reserva desde su creación hasta el check-in o cancelación.
- **deposit_type**: El tipo de depósito realizado para la reserva.
- **agent**: El ID del agente que realizó la reserva.
- **company**: El ID de la compañía que realizó la reserva.
- **days_in_waiting_list**: El número de días que la reserva estuvo en la lista de espera antes de ser confirmada.
- **customer_type**: El tipo de cliente (por ejemplo, contractual, grupo, transitorios, etc.).
- **adr**: Tasa diaria promedio, indica el precio medio de una habitación por noche.
- **required_car_parking_spaces**: El número de plazas de aparcamiento requeridas por el cliente.
- **total_of_special_requests**: El número total de peticiones especiales realizadas por el cliente.
- **reservation_status**: El estado de la reserva (por ejemplo, Confirmado, Cancelado, etc.).
- **reservation_status_date**: La fecha en que se actualizó el estado de la reserva.
- **credit_card?**: Indica si se utilizó una tarjeta de crédito para realizar la reserva.

In [5]:
hotel_booking.shape

(119390, 36)

In [7]:
# variables del dataset
lista_variables = hotel_booking.columns.tolist()
print(lista_variables)  

['hotel', 'is_canceled', 'lead_time', 'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number', 'arrival_date_day_of_month', 'stays_in_weekend_nights', 'stays_in_week_nights', 'adults', 'children', 'babies', 'meal', 'country', 'market_segment', 'distribution_channel', 'is_repeated_guest', 'previous_cancellations', 'previous_bookings_not_canceled', 'reserved_room_type', 'assigned_room_type', 'booking_changes', 'deposit_type', 'agent', 'company', 'days_in_waiting_list', 'customer_type', 'adr', 'required_car_parking_spaces', 'total_of_special_requests', 'reservation_status', 'reservation_status_date', 'name', 'email', 'phone-number', 'credit_card']


In [8]:
hotel_booking.sample(3)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,children,babies,meal,country,market_segment,distribution_channel,is_repeated_guest,previous_cancellations,previous_bookings_not_canceled,reserved_room_type,assigned_room_type,booking_changes,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date,name,email,phone-number,credit_card
29363,Resort Hotel,0,6,2016,October,44,26,0,1,2,0.0,0,BB,PRT,Offline TA/TO,TA/TO,0,0,0,A,A,0,No Deposit,177.0,,0,Transient,46.0,0,2,Check-Out,2016-10-27,Madeline Ramos,MadelineRamos@verizon.com,733-776-9081,************7082
115340,City Hotel,0,4,2017,July,27,3,1,1,1,0.0,0,SC,ESP,Online TA,TA/TO,0,0,0,A,A,0,No Deposit,9.0,,0,Transient,129.0,0,1,Check-Out,2017-07-05,Taylor Jones,Taylor.Jones@verizon.com,723-717-8363,************9642
82305,City Hotel,0,58,2015,December,52,23,0,4,1,0.0,0,HB,DEU,Offline TA/TO,TA/TO,0,0,0,A,A,1,No Deposit,16.0,,0,Transient,56.6,1,0,Check-Out,2015-12-27,Christopher Espinoza,Christopher.Espinoza@comcast.net,137-657-6664,************1926


In [9]:
# se eliminan las columnas innecesarias para el analisis
hotel_booking = hotel_booking.drop(columns=['phone-number','email'])

In [11]:
# se modifican los valores a enteros
columas = ['children', 'agent']

for column in columas:
    hotel_booking[column] = hotel_booking[column].astype(str).str.replace('.0', '', regex=False)

In [12]:
hotel_booking.sample(3)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,children,babies,meal,country,market_segment,distribution_channel,is_repeated_guest,previous_cancellations,previous_bookings_not_canceled,reserved_room_type,assigned_room_type,booking_changes,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date,name,credit_card
94758,City Hotel,0,52,2016,August,32,2,2,5,2,0,0,BB,HRV,Online TA,TA/TO,0,0,0,A,A,0,No Deposit,9,,0,Transient,135.9,0,1,Check-Out,2016-08-09,Anthony Townsend,************6510
72311,City Hotel,1,465,2017,July,30,26,0,3,1,0,0,BB,PRT,Offline TA/TO,TA/TO,0,0,0,A,A,1,No Deposit,229,,0,Transient-Party,91.33,0,0,Canceled,2017-07-19,Ashley Johnson,************6480
114151,City Hotel,0,218,2017,June,24,15,0,3,3,0,0,BB,GBR,Online TA,TA/TO,0,0,0,D,D,1,No Deposit,9,,0,Transient,180.5,0,2,Check-Out,2017-06-18,Jeffrey Stewart,************3729


#### Exploracion de variables


In [34]:
# Se visualiza la variable hotel
hotel = hotel_booking['hotel'].unique()
print(hotel)

['Resort Hotel' 'City Hotel']


In [35]:
# Se visualiza la variable is_canceled
cancelado = hotel_booking['is_canceled'].unique()
print(cancelado)

[0 1]


In [36]:
# Se visualiza la variable arrival_date_year
year = hotel_booking['arrival_date_year'].unique()
print(year)

[2015 2016 2017]


In [37]:
# Se visualiza la variable
adults = hotel_booking['adults'].unique()
print(adults)

[ 2  1  3  4 40 26 50 27 55  0 20  6  5 10]


In [38]:
# Se visualiza la variable children
children = hotel_booking['children'].unique()
print(children)

['0' '1' '2' '10' '3' 'nan']


In [39]:
# Se visualiza la variable babies
babies = hotel_booking['babies'].unique()
print(babies)

[ 0  1  2 10  9]


In [30]:
# Se visualiza la variable country
country = hotel_booking['country'].unique()
print(country)

['PRT' 'GBR' 'USA' 'ESP' 'IRL' 'FRA' nan 'ROU' 'NOR' 'OMN' 'ARG' 'POL'
 'DEU' 'BEL' 'CHE' 'CN' 'GRC' 'ITA' 'NLD' 'DNK' 'RUS' 'SWE' 'AUS' 'EST'
 'CZE' 'BRA' 'FIN' 'MOZ' 'BWA' 'LUX' 'SVN' 'ALB' 'IND' 'CHN' 'MEX' 'MAR'
 'UKR' 'SMR' 'LVA' 'PRI' 'SRB' 'CHL' 'AUT' 'BLR' 'LTU' 'TUR' 'ZAF' 'AGO'
 'ISR' 'CYM' 'ZMB' 'CPV' 'ZWE' 'DZA' 'KOR' 'CRI' 'HUN' 'ARE' 'TUN' 'JAM'
 'HRV' 'HKG' 'IRN' 'GEO' 'AND' 'GIB' 'URY' 'JEY' 'CAF' 'CYP' 'COL' 'GGY'
 'KWT' 'NGA' 'MDV' 'VEN' 'SVK' 'FJI' 'KAZ' 'PAK' 'IDN' 'LBN' 'PHL' 'SEN'
 'SYC' 'AZE' 'BHR' 'NZL' 'THA' 'DOM' 'MKD' 'MYS' 'ARM' 'JPN' 'LKA' 'CUB'
 'CMR' 'BIH' 'MUS' 'COM' 'SUR' 'UGA' 'BGR' 'CIV' 'JOR' 'SYR' 'SGP' 'BDI'
 'SAU' 'VNM' 'PLW' 'QAT' 'EGY' 'PER' 'MLT' 'MWI' 'ECU' 'MDG' 'ISL' 'UZB'
 'NPL' 'BHS' 'MAC' 'TGO' 'TWN' 'DJI' 'STP' 'KNA' 'ETH' 'IRQ' 'HND' 'RWA'
 'KHM' 'MCO' 'BGD' 'IMN' 'TJK' 'NIC' 'BEN' 'VGB' 'TZA' 'GAB' 'GHA' 'TMP'
 'GLP' 'KEN' 'LIE' 'GNB' 'MNE' 'UMI' 'MYT' 'FRO' 'MMR' 'PAN' 'BFA' 'LBY'
 'MLI' 'NAM' 'BOL' 'PRY' 'BRB' 'ABW' 'AIA' 'SLV' 'DMA'

In [29]:
# Se visualiza la variable market_segment
market_segment = hotel_booking['market_segment'].unique()
print(market_segment)

['Direct' 'Corporate' 'Online TA' 'Offline TA/TO' 'Complementary' 'Groups'
 'Undefined' 'Aviation']


In [28]:
# Se visualiza la variable distribution_channel
distribution_channel = hotel_booking['distribution_channel'].unique()
print(distribution_channel)

['Direct' 'Corporate' 'TA/TO' 'Undefined' 'GDS']


In [27]:
# Se visualiza la variable agent
agent = hotel_booking['agent'].unique()
print(agent)

['nan' '304' '240' '303' '15' '241' '8' '250' '115' '5' '175' '134' '156'
 '243' '242' '3' '105' '40' '147' '306' '184' '96' '2' '127' '95' '146'
 '9' '177' '6' '143' '244' '149' '167' '300' '171' '305' '67' '196' '152'
 '142' '261' '104' '36' '26' '29' '258' '110' '71' '181' '88' '251' '275'
 '69' '248' '208' '256' '314' '126' '281' '273' '253' '185' '330' '334'
 '328' '326' '321' '324' '313' '38' '155' '68' '335' '308' '332' '94'
 '348' '310' '339' '375' '66' '327' '387' '298' '91' '245' '385' '257'
 '393' '168' '405' '249' '315' '75' '128' '307' '11' '436' '1' '201' '183'
 '223' '368' '336' '291' '464' '411' '481' '10' '154' '468' '410' '390'
 '440' '495' '492' '493' '434' '57' '531' '420' '483' '526' '472' '429'
 '16' '446' '34' '78' '139' '252' '270' '47' '114' '301' '193' '182' '135'
 '350' '195' '352' '355' '159' '363' '384' '360' '331' '367' '64' '406'
 '163' '414' '333' '427' '431' '430' '426' '438' '433' '418' '441' '282'
 '432' '72' '450' '180' '454' '455' '59' '451' '254' '

In [26]:
# Se visualiza la variable customer_type
customer_type = hotel_booking['customer_type'].unique()
print(customer_type)

['Transient' 'Contract' 'Transient-Party' 'Group']


In [25]:
# Se visualiza la variable reservation_status
reservation_status = hotel_booking['reservation_status'].unique()
print(reservation_status)

['Check-Out' 'Canceled' 'No-Show']
