# Hotel Facilito

## ¿Quién va a cancelar?

*Hotel Facilito* se está preparando para las vacaciones de verano, sin embargo, les preocupa que muchos de sus clientes cancelan de ultima hora, dejándoles con habitaciones vacías – sucede que algunos clientes simplemente no se presentan y, a pesar de que a veces se cobra una cuota de reservación, la gran mayoría de las ganancias se obtiene cuando los huéspedes pagan el resto al ocupar la habitación.

Usando sus datos, les gustaría que les ayudaras a identificar a aquellos clientes que tienen más posibilidad de cancelar ya que les gustaría darles seguimiento para que si en caso de que requieran cancelar, se haga con la mayor antelación posible.

![](./header.png)

## Datos

*Hoteles Facilito* tiene dos sucursales, uno ubicado en la capital del estado, "City Hotel" y otro en una comunidad cercana a la costa, "Resort Hotel".

Cada línea representa una reservación con los siguientes atributos:

  - `hotel`: Hotel en el que se hizo la reserva.
  - `is_canceled`: Indica si la reserva fue cancelada o no.
  - `lead_time`: Número de días que transcurrieron entre la fecha de ingreso de la reserva en el PMS y la fecha de llegada.
  - `arrival_date_year`: Año de la fecha de llegada.
  - `arrival_date_month`: Mes de la fecha de llegada con 12 categorías: "Enero" a "Diciembre".
  - `arrival_date_week_number`: Número de semana de la fecha de llegada.
  - `arrival_date_day_of_month`: Día del mes de la fecha de llegada.
  - `stays_in_weekend_nights`: Número de noches de fin de semana (sábado o domingo) que el huésped se quedó o reservó para quedarse en el hotel.
  - `stays_in_week_nights`: Número de noches de semana (lunes a viernes) que el huésped se quedó o reservó para quedarse en el hotel.
  - `adults`: Número de adultos.
  - `children`: Número de niños.
  - `babies`: Número de bebés.
  - `meal`: Tipo de comida reservada. Valor categórico.
  - `country`: País de origen. Las categorías se representan según ISO 3155–3:2013.
  - `market_segment`: Designación del segmento de mercado.
  - `distribution_channel`: Canal de distribución de la reserva.
  - `is_repeated_guest`: Valor que indica si el nombre de la reserva era de un huésped recurrente (1) o no (0).
  - `previous_cancellations`: Número de reservas anteriores que fueron canceladas por el cliente antes de la reserva actual.
  - `previous_bookings_not_canceled`: Número de reservas anteriores que no fueron canceladas por el cliente antes de la reserva actual.
  - `reserved_room_type`: Código del tipo de habitación reservada. El código se presenta en lugar de la designación por razones de anonimato.
  - `assigned_room_type`: Código del tipo de habitación asignada a la reserva. A veces, el tipo de habitación asignada difiere del tipo de habitación reservada debido a razones operativas del hotel (por ejemplo, sobreventa) o por solicitud del cliente. El código se presenta en lugar de la designación por razones de anonimato.
  - `booking_changes`: Número de cambios/modificaciones realizados a la reserva desde el momento en que se ingresó en el PMS hasta el momento del check-in o la cancelación.
  - `deposit_type`: Indicación de si el cliente hizo un depósito para garantizar la reserva.
  - `agent`: ID de la agencia de viajes que realizó la reserva.
  - `company`: ID de la empresa/entidad que realizó la reserva o es responsable de pagar la reserva.
  - `days_in_waiting_list`: Número de días que la reserva estuvo en lista de espera antes de ser confirmada al cliente.
  - `customer_type`: Tipo de reserva.
  - `adr`: Tarifa diaria promedio.
  - `required_car_parking_spaces`: Número de espacios de estacionamiento requeridos por el cliente.
  - `total_of_special_requests`: Número de solicitudes especiales realizadas por el cliente (por ejemplo, cama doble o piso alto).
  - `reservation_status`: Último estado de la reserva.
  - `reservation_status_date`: Fecha en que se estableció el último estado.
  - `name`: Nombre del cliente.
  - `email`: Correo electrónico del cliente.
  - `phone`: Teléfono del cliente.
  - `credit_card`: Últimos cuatro dígitos de la tarjeta de crédito del cliente.


Nos interesa hallar a TODAS las personas que potencialmente pueden cancelar, y la verdad es que a nuestros clientes no les molesta mucho si les llamamos para confirmar su reserva.

## Ejercicio

In [21]:
import pandas as pd

In [22]:
df = pd.read_csv("hotel_bookings_training.csv")

In [23]:
from sklearn.model_selection import train_test_split

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119190 entries, 0 to 119189
Data columns (total 36 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119190 non-null  object 
 1   is_canceled                     119190 non-null  int64  
 2   lead_time                       119190 non-null  int64  
 3   arrival_date_year               119190 non-null  int64  
 4   arrival_date_month              119190 non-null  object 
 5   arrival_date_week_number        119190 non-null  int64  
 6   arrival_date_day_of_month       119190 non-null  int64  
 7   stays_in_weekend_nights         119190 non-null  int64  
 8   stays_in_week_nights            119190 non-null  int64  
 9   adults                          119190 non-null  int64  
 10  children                        119186 non-null  float64
 11  babies                          119190 non-null  int64  
 12  meal            

Quito las columnas 'name', 'email', 'phone', 'credit_card' para evitar inconvenientes con datos personales de los clientes.
Estos tipos de datos no tienen tanto poder predictivo, no son tan valiosos para un modelo de ML.

In [25]:
hotel_bookings = df.drop(['name', 'email', 'phone-number', 'credit_card'], axis=1)

In [26]:
hotel_bookings

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,...,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date
0,City Hotel,0,21,2015,September,36,1,0,4,2,...,No Deposit,9.0,,0,Transient,105.0,0,0,Check-Out,2015-09-05
1,City Hotel,0,20,2016,September,38,12,1,0,1,...,No Deposit,9.0,,0,Transient,89.0,0,2,Check-Out,2016-09-13
2,City Hotel,0,2,2016,March,13,24,0,2,2,...,No Deposit,9.0,,0,Transient,134.0,0,1,Check-Out,2016-03-26
3,Resort Hotel,1,6,2016,April,17,21,0,1,2,...,No Deposit,,,0,Transient,73.0,0,0,Canceled,2016-04-18
4,Resort Hotel,0,40,2015,August,34,20,2,3,2,...,No Deposit,250.0,,0,Transient,176.8,1,1,Check-Out,2015-08-25
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
119185,Resort Hotel,0,1,2016,June,26,21,0,1,1,...,No Deposit,104.0,,0,Transient,79.0,0,0,Check-Out,2016-06-22
119186,Resort Hotel,0,17,2016,October,45,30,1,0,2,...,No Deposit,,346.0,0,Transient-Party,66.0,1,0,Check-Out,2016-10-31
119187,City Hotel,0,1,2017,April,17,27,0,1,2,...,No Deposit,9.0,,0,Transient,160.0,0,0,Check-Out,2017-04-28
119188,Resort Hotel,0,10,2017,June,25,24,2,1,3,...,No Deposit,,,0,Transient,185.0,1,0,Check-Out,2017-06-27


## EDA

In [27]:
!pip install ydata_profiling



In [28]:
from ydata_profiling import ProfileReport

In [29]:
profile = ProfileReport(hotel_bookings, title="Pandas Profiling Report") # Va a crear un archivo HTML

In [20]:
df.profile_report(correlations={"auto": {"calculate": False}})

Output hidden; open in https://colab.research.google.com to view.

## Data leakage (Fuga de Datos)

La variable `reservation_status` indica el estado de la reservación, esta es en realidad un reflejo de `is_canceled`, si la dejamos dentro de las variables de entrada estamos filtrando información al modelo. Este nos dará un resultado excelente, pero en realidad no nos servirá de nada en la vida real. Debemos sacarla del dataset junto con otras varaibles asociadas:

In [30]:
# Avoid data leakage (Evitar fuga de datos)
hotel_bookings = hotel_bookings.drop(['reservation_status', 'reservation_status_date'], axis=1) # axis=1 le indica a nuestra funcion drop que queremos operar en el eje de las columnas, porque por default si no lo especificamos opera en el eje de las filas

In [31]:
is_canceled = hotel_bookings['is_canceled'].copy()
hotel_data = hotel_bookings.drop(['is_canceled'], axis=1)

## Split dataset (Dividir el DataSet)

In [32]:
# Calculate test and validation set size:
original_count = len(hotel_bookings)
training_size = 0.60 # Voy a utilizar el 60% de mis registros para entrenamiento: 71514 registros
test_size = (1 - training_size) / 2 # El restante lo voy a dividir entre validacion y prueba: 23838 registros


training_count = int(original_count * training_size)
test_count = int(original_count * test_size)
validation_count = original_count - training_count - test_count

print(training_count, test_count, validation_count, original_count)

71514 23838 23838 119190


In [33]:
from sklearn.model_selection import train_test_split

train_x, rest_x, train_y, rest_y = train_test_split(hotel_data, is_canceled, train_size=training_count, random_state=42)

In [34]:
test_x, validate_x, test_y, validate_y = train_test_split(rest_x, rest_y, train_size=test_count, random_state=42)

In [35]:
print(len(train_x), len(test_x), len(validate_x)) # Divido los datos entre estos tres sets

71514 23838 23838


## Variables a codificar - One-hot encoding

 Pasamos estas variables categoricas(en texto) a una variable numerica
 - hotel, meal, distribution_channel, reserved_room_type, assigned_room_type, customer_type, deposit_type

In [36]:
from sklearn.preprocessing import OneHotEncoder

In [37]:
one_hot_encoder = OneHotEncoder(sparse_output=False, handle_unknown="ignore")

In [38]:
one_hot_encoder.fit(train_x[['hotel']])
one_hot_encoder.transform(train_x[['hotel']])

array([[1., 0.],
       [1., 0.],
       [0., 1.],
       ...,
       [0., 1.],
       [0., 1.],
       [1., 0.]])

## Variables a binarizar

 Convertimos estas variables continuas a binaria
 - total_of_special_requests, required_car_parking_spaces, booking_changes, previous_bookings_not_canceled, previous_cancellations

In [39]:
from sklearn.preprocessing import Binarizer

In [40]:
binarizer = Binarizer()

In [41]:
cop = train_x.copy()
binarizer.fit(cop[['total_of_special_requests']])
cop[['binarizado']] = binarizer.transform(cop[['total_of_special_requests']])

## Variables a escalar

 - adr

In [42]:
from sklearn.preprocessing import MaxAbsScaler
scaler = MaxAbsScaler()

In [43]:
df = train_x.copy()
scaler.fit(df[['adr']])
df['adr_scaled'] = scaler.transform(train_x[['adr']])

df[['adr', 'adr_scaled']].sample(10)

Unnamed: 0,adr,adr_scaled
100010,60.0,0.011111
65642,112.67,0.020865
13321,88.0,0.016296
46419,48.0,0.008889
18401,39.0,0.007222
106833,75.0,0.013889
90179,62.0,0.011481
27799,140.0,0.025926
12058,58.5,0.010833
20651,80.0,0.014815


## Variables a dejar como tal

 - stays_in_weekend_nights, stays_in_week_nights


 > El tratamiento de estas depende del modelo a usar

## Armando un pipeline de transformación

In [54]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import FeatureUnion, Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import RobustScaler

In [55]:
one_hot_encoding = ColumnTransformer([
    (
        'one_hot_encode',
        OneHotEncoder(sparse_output=False, handle_unknown="ignore"),
        [
            "hotel",
            "meal",
            "distribution_channel",
            "reserved_room_type",
            "assigned_room_type",
            "customer_type"
        ]
    )
])

In [56]:
binarizer = ColumnTransformer([
    (
        'binarizer',
        Binarizer(),
        [
            "total_of_special_requests",
            "required_car_parking_spaces",
            "booking_changes",
            "previous_bookings_not_canceled",
            "previous_cancellations",
        ]
    )
])


one_hot_binarized = Pipeline([
    ("binarizer", binarizer),
    ("one_hot_encoder", OneHotEncoder(sparse_output=False, handle_unknown="ignore")),
])

In [57]:
pipeline = Pipeline([
    ("scaling", ColumnTransformer([
        ("scaler", RobustScaler(), ["adr"])
    ])),
    ("classifier", RandomForestClassifier())
])

In [58]:
passthrough = ColumnTransformer([
    (
        "passthrough",
        "passthrough",
        [
            "stays_in_week_nights",
            "stays_in_weekend_nights",
        ]
    )
])

In [63]:
union_de_features = FeatureUnion(
    [
        ("categorical", one_hot_encoding),
        ("categorical_binarized", one_hot_binarized),
        # Aplica RobustScaler solo a la columna 'adr' dentro del pipeline:
        ("scaled", Pipeline([
            ("select_adr", ColumnTransformer([("selector", "passthrough", ["adr"])])),
            ("scaler", RobustScaler()),
        ])),
        ("pass", passthrough),
    ]
)

In [64]:
feature_engineering_pipeline = Pipeline(
    [
        (
            "features",
            union_de_features,
        )
    ]
)

In [65]:
# feature_engineering_pipeline

In [66]:
feature_engineering_pipeline.fit(train_x)

In [67]:
transformed_x = feature_engineering_pipeline.transform(train_x)

In [68]:
train_x.shape, transformed_x.shape

((71514, 29), (71514, 50))

In [69]:
transformed_x

array([[ 1.        ,  0.        ,  1.        , ...,  0.        ,
         3.        ,  0.        ],
       [ 1.        ,  0.        ,  0.        , ..., -0.48526557,
         4.        ,  0.        ],
       [ 0.        ,  1.        ,  0.        , ...,  0.89994706,
         2.        ,  2.        ],
       ...,
       [ 0.        ,  1.        ,  0.        , ...,  1.51755779,
         4.        ,  0.        ],
       [ 0.        ,  1.        ,  1.        , ..., -1.09405329,
         1.        ,  0.        ],
       [ 1.        ,  0.        ,  1.        , ...,  0.19763543,
         1.        ,  1.        ]])

## Model training

In [70]:
# Get a fresh copy of the pipeline
from sklearn.base import clone

feature_transformer = clone(feature_engineering_pipeline)

features_train_x = feature_transformer.fit_transform(train_x)
features_validate_x = feature_transformer.transform(validate_x)

In [71]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100)

model.fit(features_train_x, train_y)

## Model validation

In [72]:
from sklearn.metrics import accuracy_score, recall_score

pred_y = model.predict(features_validate_x)

In [73]:
print(accuracy_score(validate_y, pred_y))
print(recall_score(validate_y, pred_y))

0.8124842688144979
0.7173987450085567


## Construcción del pipeline final

In [74]:
final_inference_pipeline = Pipeline([
    ("feature_engineering", clone(feature_engineering_pipeline)),
    ("model", RandomForestClassifier(n_estimators=100))
])

In [75]:
final_inference_pipeline

In [76]:
final_inference_pipeline.fit(train_x, train_y)

In [77]:
test_pred_y = final_inference_pipeline.predict(test_x)

In [78]:
print(accuracy_score(test_pred_y, test_y))
print(recall_score(test_pred_y, test_y))

0.8094638811980871
0.7550726377716412
