## Set de datos Hotel Booking: Demanda de reservas de hotel.

Este set de datos contiene 119.390 observaciones (filas) de dos hoteles uno ubicado en la ciudad y otro hotel resort. Cada observación representa una reserva de hotel realizada. Las reservas consideradas son las realizadas entre el 1 de julio de 2015 y el 31 de agosto de 2017,  esto incluye las reservas que se realizaron y también las que se cancelaron. Además, cuenta con 36 columnas (variables), de las cuales 16 son del tipo int, 16 object y 4 float, a continuación se presenta el nombre y descripción de cada columna:  
- **hotel:** Uno de los hoteles es un resort y el otro es un hotel de ciudad.
- **is_canceled:** Valor que indica si la reserva fue cancelada (1) o no (0).  
- **lead_time:** Número de días transcurridos entre la fecha de entrada de la reserva en el PMS y la fecha de llegada.  
- **arrival_date_year:** Año de la fecha de llegada.
- **arrival_date_month:** Mes de la fecha de llegada con 12 categorías: “Enero” a “Diciembre”.
- **arrival_date_week_number:** Número de semana de la fecha de llegada.  
- **arrival_date_day_of_month:** Día del mes de la fecha de llegada.
- **stays_in_weekend_nights:** Número de noches de fin de semana (sábado o domingo) que el huésped se alojó o reservó para alojarse en el hotel.
- **stays_in_week_nights:** Número de noches de semana (lunes a viernes) que el huésped se alojó.
- **adults:** Número de adultos.  
- **children:** Número de niños.  
- **babies:** Número de bebés.  
- **meal:** BB – Bed & Breakfast.  
- **country:** País de origen.  
- **market_segment:** Designación del segmento de mercado. En categorías:
    - “TA” significa “Agentes de Viajes”
    - “TO” significa “Operadores Turísticos”.  
- **distribution_channel:** Canal de distribución de reservas:
    - “TA” significa “Agentes de Viajes”.  
    - “TO” significa “Operadores Turísticos”.  
- **is_repeated_guest:** Valor que indica si el nombre de la reserva era de un huésped que repitió (1) o no (0).
- **previous_cancellations:** Número de reservas anteriores que fueron canceladas por el cliente antes de la reserva actual.
- **previous_bookings_not_canceled:** Número de reservas anteriores que no fueron canceladas por el cliente antes de la reserva actual.
- **reserved_room_type:** Código del tipo de habitación reservada. El código se presenta en lugar de la designación por razones de anonimato.
- **assigned_room_type:** Código del tipo de habitación asignada a la reserva. A veces, el tipo de habitación asignada difiere del tipo de habitación reservada debido a razones operativas del hotel (por ejemplo, overbooking) o por solicitud del cliente. Código en lugar de designación por razones de anonimato.
- **booking_changes:** Número de cambios/modificaciones realizadas a la reserva.
- **deposit_type:** tipo de desposito:
    - No Deposit (no se realizó ningún depósito)
    - Non Refund (se realizó un depósito por el valor del costo total de la estadía)
    - Reembolsable (se realizó un depósito por un valor inferior al costo total de la estadía)
- **agent:** ID de la agencia de viajes que realizó la reserva.
- **company:** ID de la empresa/entidad que realizó la reserva o responsable de pagar la reserva. Se presenta el ID en lugar de la designación por razones de anonimato.
- **days_in_waiting_list:** Número de días que la reserva estuvo en la lista de espera antes de ser confirmada al cliente.
- **customer_type:** Group (cuando la reserva está asociada a un grupo); Transient (cuando la reserva no es parte de un grupo o contrato, y no está asociada a otra reserva transitoria); Transient-party(cuando la reserva es transitoria, pero está asociada al menos a otra reserva transitoria).
- **adr:** Tarifa diaria promedio (calculada dividiendo la suma de todas las transacciones de alojamiento por el número total de noches de estancia).
- **required_car_parking_spaces:** Número de plazas de aparcamiento solicitadas por el cliente.
- **total_of_special_requests:** Número de solicitudes especiales realizadas por el cliente (p. ej., dos camas individuales o piso alto).
- **reservation_status:** Estado de la reserva:
    - Check-Out (el cliente se ha registrado pero ya se ha ido)
    - No-Show (el cliente no se ha registrado y no ha informado al hotel del motivo).
- **reservation_status_date:** Fecha en la que se estableció el último estado. Esta variable se puede utilizar junto con ReservationStatus para saber cuándo se canceló la reserva o cuándo el cliente se retiró del hotel.
- **name:** Nombre del huésped (no real).
- **email:** Correo electrónico (no real).
- **phone-number:** Número de teléfono (no real).

No todas las variables serán utilizadas, sin embargo, se crearán nuevas para obtener un mejor análisis de los datos.

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
#warnings.filterwarnings('ignore')

## Análisis previo

Iniciamos cargando el set de datos y luegose realiza lo siguiente:  
- Verificar los valores de las 5 primeras y últimas filas.
- Contabilizar las filas y columnas.
- Identificar el nombre de las columnas.
- Identificar el tipo de datos de cada columna (int, float, object, etc).
- Contabilizar valores nulos por columna. 

In [5]:
df = pd.read_csv('C:/Users/valef/Desktop/DIPLOMADO UDD/python/hotel_booking.csv')
df.head() #5 primeras filas

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,...,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date,name,email,phone-number,credit_card
0,Resort Hotel,0,342,2015,July,27,1,0,0,2,...,Transient,0.0,0,0,Check-Out,2015-07-01,Ernest Barnes,Ernest.Barnes31@outlook.com,669-792-1661,************4322
1,Resort Hotel,0,737,2015,July,27,1,0,0,2,...,Transient,0.0,0,0,Check-Out,2015-07-01,Andrea Baker,Andrea_Baker94@aol.com,858-637-6955,************9157
2,Resort Hotel,0,7,2015,July,27,1,0,1,1,...,Transient,75.0,0,0,Check-Out,2015-07-02,Rebecca Parker,Rebecca_Parker@comcast.net,652-885-2745,************3734
3,Resort Hotel,0,13,2015,July,27,1,0,1,1,...,Transient,75.0,0,0,Check-Out,2015-07-02,Laura Murray,Laura_M@gmail.com,364-656-8427,************5677
4,Resort Hotel,0,14,2015,July,27,1,0,2,2,...,Transient,98.0,0,1,Check-Out,2015-07-03,Linda Hines,LHines@verizon.com,713-226-5883,************5498


In [17]:
df.tail()#5 últimas filas

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,...,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date,name,email,phone-number,credit_card
119385,City Hotel,0,23,2017,August,35,30,2,5,2,...,Transient,96.14,0,0,Check-Out,2017-09-06,Claudia Johnson,Claudia.J@yahoo.com,403-092-5582,************8647
119386,City Hotel,0,102,2017,August,35,31,2,5,3,...,Transient,225.43,0,2,Check-Out,2017-09-07,Wesley Aguilar,WAguilar@xfinity.com,238-763-0612,************4333
119387,City Hotel,0,34,2017,August,35,31,2,5,2,...,Transient,157.71,0,4,Check-Out,2017-09-07,Mary Morales,Mary_Morales@hotmail.com,395-518-4100,************1821
119388,City Hotel,0,109,2017,August,35,31,2,5,2,...,Transient,104.4,0,0,Check-Out,2017-09-07,Caroline Conley MD,MD_Caroline@comcast.net,531-528-1017,************7860
119389,City Hotel,0,205,2017,August,35,29,2,7,2,...,Transient,151.2,0,2,Check-Out,2017-09-07,Ariana Michael,Ariana_M@xfinity.com,422-804-6403,************4482


In [19]:
df.shape # 36 columnas y 119.390 filas

(119390, 36)

In [21]:
df.columns #nombre de las columnas

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_date_year',
       'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'adults', 'children', 'babies', 'meal',
       'country', 'market_segment', 'distribution_channel',
       'is_repeated_guest', 'previous_cancellations',
       'previous_bookings_not_canceled', 'reserved_room_type',
       'assigned_room_type', 'booking_changes', 'deposit_type', 'agent',
       'company', 'days_in_waiting_list', 'customer_type', 'adr',
       'required_car_parking_spaces', 'total_of_special_requests',
       'reservation_status', 'reservation_status_date', 'name', 'email',
       'phone-number', 'credit_card'],
      dtype='object')

In [23]:
df.info() #16 enteros, 16 object y 4 float

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 36 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119390 non-null  object 
 1   is_canceled                     119390 non-null  int64  
 2   lead_time                       119390 non-null  int64  
 3   arrival_date_year               119390 non-null  int64  
 4   arrival_date_month              119390 non-null  object 
 5   arrival_date_week_number        119390 non-null  int64  
 6   arrival_date_day_of_month       119390 non-null  int64  
 7   stays_in_weekend_nights         119390 non-null  int64  
 8   stays_in_week_nights            119390 non-null  int64  
 9   adults                          119390 non-null  int64  
 10  children                        119386 non-null  float64
 11  babies                          119390 non-null  int64  
 12  meal            

In [7]:
print(df.isnull().sum())

hotel                                  0
is_canceled                            0
lead_time                              0
arrival_date_year                      0
arrival_date_month                     0
arrival_date_week_number               0
arrival_date_day_of_month              0
stays_in_weekend_nights                0
stays_in_week_nights                   0
adults                                 0
children                               4
babies                                 0
meal                                   0
country                              488
market_segment                         0
distribution_channel                   0
is_repeated_guest                      0
previous_cancellations                 0
previous_bookings_not_canceled         0
reserved_room_type                     0
assigned_room_type                     0
booking_changes                        0
deposit_type                           0
agent                              16340
company         

## Datos Nulos.

Existen 4 columnas que presentan datos nulos o vacios:  
- **children:** 4 filas
- **country:** 488 filas
- **agent:** 16.340 filas
- **company:** 112.593 filas

En el caso de agent y company no realizaremos ninguna acción ya que no son relevantes para nuestro análisis. Sin embargo, en el caso de "children" y "country" eliminaremos las filas que contengan valores nulos, esta decisión de debe a que solamente estaremos eliminando 492 filas, equivalentes al 0.41% de las filas, siendo considerado esta cifra marginal respecto del total.

In [10]:
df_cleaned = df.dropna(subset=['children', 'country']) #eliminación de datos nulos de las variables "children" y "country"

In [12]:
print(df_cleaned.isnull().sum())

hotel                                  0
is_canceled                            0
lead_time                              0
arrival_date_year                      0
arrival_date_month                     0
arrival_date_week_number               0
arrival_date_day_of_month              0
stays_in_weekend_nights                0
stays_in_week_nights                   0
adults                                 0
children                               0
babies                                 0
meal                                   0
country                                0
market_segment                         0
distribution_channel                   0
is_repeated_guest                      0
previous_cancellations                 0
previous_bookings_not_canceled         0
reserved_room_type                     0
assigned_room_type                     0
booking_changes                        0
deposit_type                           0
agent                              16004
company         

In [14]:
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 118898 entries, 0 to 119389
Data columns (total 36 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           118898 non-null  object 
 1   is_canceled                     118898 non-null  int64  
 2   lead_time                       118898 non-null  int64  
 3   arrival_date_year               118898 non-null  int64  
 4   arrival_date_month              118898 non-null  object 
 5   arrival_date_week_number        118898 non-null  int64  
 6   arrival_date_day_of_month       118898 non-null  int64  
 7   stays_in_weekend_nights         118898 non-null  int64  
 8   stays_in_week_nights            118898 non-null  int64  
 9   adults                          118898 non-null  int64  
 10  children                        118898 non-null  float64
 11  babies                          118898 non-null  int64  
 12  meal                 

## Algunas cifras

In [34]:
df_cleaned.describe(include = 'object') #variables tipo object

Unnamed: 0,hotel,arrival_date_month,meal,country,market_segment,distribution_channel,reserved_room_type,assigned_room_type,deposit_type,customer_type,reservation_status,reservation_status_date,name,email,phone-number,credit_card
count,118898,118898,118898,118898,118898,118898,118898,118898,118898,118898,118898,118898,118898,118898,118898,118898
unique,2,12,5,177,7,5,10,12,3,4,3,926,81234,115425,118898,9000
top,City Hotel,August,BB,PRT,Online TA,TA/TO,A,A,No Deposit,Transient,Check-Out,2015-10-21,Robert Smith,Michael.C@gmail.com,669-792-1661,************3627
freq,79302,13852,91863,48586,56402,97730,85601,73863,104163,89174,74745,1461,48,6,1,28


In [32]:
df_cleaned.describe() #variables tipo int

Unnamed: 0,is_canceled,lead_time,arrival_date_year,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,children,babies,is_repeated_guest,previous_cancellations,previous_bookings_not_canceled,booking_changes,agent,company,days_in_waiting_list,adr,required_car_parking_spaces,total_of_special_requests
count,118898.0,118898.0,118898.0,118898.0,118898.0,118898.0,118898.0,118898.0,118898.0,118898.0,118898.0,118898.0,118898.0,118898.0,102894.0,6623.0,118898.0,118898.0,118898.0,118898.0
mean,0.371352,104.311435,2016.157656,27.166555,15.80088,0.928897,2.502145,1.858391,0.104207,0.007948,0.032011,0.087142,0.131634,0.221181,86.545532,189.624792,2.330754,102.003243,0.061885,0.571683
std,0.483168,106.903309,0.707459,13.589971,8.780324,0.996216,1.900168,0.578576,0.399172,0.09738,0.176029,0.845869,1.484672,0.652785,110.714259,132.124298,17.630452,50.485862,0.244172,0.792678
min,0.0,0.0,2015.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,6.0,0.0,-6.38,0.0,0.0
25%,0.0,18.0,2016.0,16.0,8.0,0.0,1.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,9.0,62.0,0.0,70.0,0.0,0.0
50%,0.0,69.0,2016.0,28.0,16.0,1.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,14.0,179.0,0.0,95.0,0.0,0.0
75%,1.0,161.0,2017.0,38.0,23.0,2.0,3.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,229.0,270.0,0.0,126.0,0.0,1.0
max,1.0,737.0,2017.0,53.0,31.0,16.0,41.0,55.0,10.0,10.0,1.0,26.0,72.0,21.0,535.0,543.0,391.0,5400.0,8.0,5.0


**Con df.describe() podemos ver algunas estadisticas por cada columna o variable:**  

- Todas las columnas tienen 118.898 observaciones, exceptuando 'agent' y 'company'
- El hotel con más reservas es el hotel de la ciudad con 79.302 observaciones
- El mes con más reservas es Agosto (sin embargo puede deberse a que es el unico mes que está considerado en 3 periodos, esto por el periodo en que se obtuvieron los datos)

**Algunas apreciaciones:**  
- Si bien hay una variable con fecha esta corresponde al último estatus, que puede ser la fecha del check out o de la cancelación. Tambien exiten 3 variables con las que se puede obtener la fecha de check in ('arrival_date_year', 'arrival_date_month''arrival_date_day_of_month').
- La variable 'babies' y 'children' apuntan a saber si los huespedes asisten con niños al hotel.

**Algunas acciones que podrían ser de interés serian:**  
- Crear una variable con la fecha de check in.
- Crear una variable que cuente la cantidad de niños por reservas ('babies' + 'children').
- Transformar las variables object en categorias para verificar las frecuencias por cada categoria

**Posibles análisis:**
- Comparar la tasa de cancelación en cada hotel. ¿Qué hotel tiene mayor cancelación?
- Comparar las reservas entre el hotel de la ciudad y el hotel resort.
  - ¿Qué hotel tiene más reservas?
  - ¿Existe relación entre el tipo de hotel y la presencia de huespedes niños?
  - ¿Qué mes tiene mayor cantidad de reservas? 
- ¿Cuál es el país de origen de los huespedes?
- ¿Cuantos días en promedio se alojan los huespedes?
- ¿Cómo se comporta el valor promedio por noche en mayor de cada hotel?