<a href="https://colab.research.google.com/github/AngelTroncoso/Hotel_Facilito/blob/main/hotel_Facilito.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hotel Facilito

## ¿Quién va a cancelar?

*Hotel Facilito* se está preparando para las vacaciones de verano, sin embargo, les preocupa que muchos de sus clientes cancelan de ultima hora, dejándoles con habitaciones vacías – sucede que algunos clientes simplemente no se presentan y, a pesar de que a veces se cobra una cuota de reservación, la gran mayoría de las ganancias se obtiene cuando los huéspedes pagan el resto al ocupar la habitación.

Usando sus datos, les gustaría que les ayudaras a identificar a aquellos clientes que tienen más posibilidad de cancelar ya que les gustaría darles seguimiento para que si en caso de que requieran cancelar, se haga con la mayor antelación posible.

![](./header.png)

## Datos

*Hoteles Facilito* tiene dos sucursales, uno ubicado en la capital del estado, "City Hotel" y otro en una comunidad cercana a la costa, "Resort Hotel".

Los datos que te ha enviado están en formato CSV, en donde cada línea representa una reservación con los siguientes atributos:

  - `hotel`: Hotel en el que se hizo la reserva.
  - `is_canceled`: Indica si la reserva fue cancelada o no.
  - `lead_time`: Número de días que transcurrieron entre la fecha de ingreso de la reserva en el PMS y la fecha de llegada.
  - `arrival_date_year`: Año de la fecha de llegada.
  - `arrival_date_month`: Mes de la fecha de llegada con 12 categorías: "Enero" a "Diciembre".
  - `arrival_date_week_number`: Número de semana de la fecha de llegada.
  - `arrival_date_day_of_month`: Día del mes de la fecha de llegada.
  - `stays_in_weekend_nights`: Número de noches de fin de semana (sábado o domingo) que el huésped se quedó o reservó para quedarse en el hotel.
  - `stays_in_week_nights`: Número de noches de semana (lunes a viernes) que el huésped se quedó o reservó para quedarse en el hotel.
  - `adults`: Número de adultos.
  - `children`: Número de niños.
  - `babies`: Número de bebés.
  - `meal`: Tipo de comida reservada. Valor categórico.
  - `country`: País de origen. Las categorías se representan según ISO 3155–3:2013.
  - `market_segment`: Designación del segmento de mercado.
  - `distribution_channel`: Canal de distribución de la reserva.
  - `is_repeated_guest`: Valor que indica si el nombre de la reserva era de un huésped recurrente (1) o no (0).
  - `previous_cancellations`: Número de reservas anteriores que fueron canceladas por el cliente antes de la reserva actual.
  - `previous_bookings_not_canceled`: Número de reservas anteriores que no fueron canceladas por el cliente antes de la reserva actual.
  - `reserved_room_type`: Código del tipo de habitación reservada. El código se presenta en lugar de la designación por razones de anonimato.
  - `assigned_room_type`: Código del tipo de habitación asignada a la reserva. A veces, el tipo de habitación asignada difiere del tipo de habitación reservada debido a razones operativas del hotel (por ejemplo, sobreventa) o por solicitud del cliente. El código se presenta en lugar de la designación por razones de anonimato.
  - `booking_changes`: Número de cambios/modificaciones realizados a la reserva desde el momento en que se ingresó en el PMS hasta el momento del check-in o la cancelación.
  - `deposit_type`: Indicación de si el cliente hizo un depósito para garantizar la reserva.
  - `agent`: ID de la agencia de viajes que realizó la reserva.
  - `company`: ID de la empresa/entidad que realizó la reserva o es responsable de pagar la reserva.
  - `days_in_waiting_list`: Número de días que la reserva estuvo en lista de espera antes de ser confirmada al cliente.
  - `customer_type`: Tipo de reserva.
  - `adr`: Tarifa diaria promedio.
  - `required_car_parking_spaces`: Número de espacios de estacionamiento requeridos por el cliente.
  - `total_of_special_requests`: Número de solicitudes especiales realizadas por el cliente (por ejemplo, cama doble o piso alto).
  - `reservation_status`: Último estado de la reserva.
  - `reservation_status_date`: Fecha en que se estableció el último estado.
  - `name`: Nombre del cliente.
  - `email`: Correo electrónico del cliente.
  - `phone`: Teléfono del cliente.
  - `credit_card`: Últimos cuatro dígitos de la tarjeta de crédito del cliente.

Los datos que te ha enviado la compañía están en el archivo `hotel_bookings_training.csv`.

> En realidad los datos provienen de [este dataset de Kaggle](https://www.kaggle.com/datasets/mojtaba142/hotel-booking), y puedes consultar más sobre el origen de los datos [en esta publicación](https://www.sciencedirect.com/science/article/pii/S2352340918315191)

## ¿Qué métricas podemos medir?

¿Accuracy? pero, y ¿si nos interesa otra cosa?

Nos interesa hallar a TODAS las personas que potencialmente pueden cancelar, y la verdad es que a nuestros clientes no les molesta mucho si les llamamos para confirmar su reserva.

## Ejercicio

In [1]:
import pandas as pd

In [2]:
url = 'https://raw.githubusercontent.com/fferegrino/cf-ml/refs/heads/main/hotel-facilito/hotel_bookings_training.csv'#crudo
hotel_bookings = pd.read_csv(url)

In [3]:
from sklearn.model_selection import train_test_split

In [4]:
hotel_bookings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119190 entries, 0 to 119189
Data columns (total 36 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119190 non-null  object 
 1   is_canceled                     119190 non-null  int64  
 2   lead_time                       119190 non-null  int64  
 3   arrival_date_year               119190 non-null  int64  
 4   arrival_date_month              119190 non-null  object 
 5   arrival_date_week_number        119190 non-null  int64  
 6   arrival_date_day_of_month       119190 non-null  int64  
 7   stays_in_weekend_nights         119190 non-null  int64  
 8   stays_in_week_nights            119190 non-null  int64  
 9   adults                          119190 non-null  int64  
 10  children                        119186 non-null  float64
 11  babies                          119190 non-null  int64  
 12  meal            

### Sobre los datos personales...

Nos deshacemos de los datos personales – que además carecen de utilidad por ser únicos:

In [5]:
# Remove personal information of customers
hotel_bookings = hotel_bookings.drop(['name', 'email', 'phone-number', 'credit_card'], axis=1)

In [8]:
hotel_bookings.sample(10)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,...,deposit_type,agent,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date
74708,City Hotel,1,468,2017,July,30,29,2,1,2,...,No Deposit,229.0,,0,Transient-Party,112.67,0,0,Canceled,2017-07-04
21928,City Hotel,0,96,2017,May,18,3,0,3,2,...,No Deposit,9.0,,0,Transient,108.0,0,1,Check-Out,2017-05-06
88581,Resort Hotel,0,67,2017,February,5,3,0,1,2,...,No Deposit,240.0,,0,Transient-Party,52.0,0,3,Check-Out,2017-02-04
74017,City Hotel,1,207,2015,September,40,29,0,2,2,...,No Deposit,20.0,,0,Transient,48.0,0,0,Canceled,2015-07-23
84375,City Hotel,1,6,2015,September,37,10,0,1,2,...,No Deposit,,,0,Transient,111.6,0,0,Canceled,2015-09-09
113841,City Hotel,0,175,2017,August,32,8,0,3,2,...,No Deposit,9.0,,0,Transient,148.5,0,0,Check-Out,2017-08-11
431,Resort Hotel,1,159,2017,July,27,2,2,2,2,...,No Deposit,410.0,,0,Transient,70.2,0,0,Canceled,2017-01-24
19118,City Hotel,0,17,2016,March,12,17,0,2,2,...,No Deposit,174.0,,0,Transient-Party,80.0,0,1,Check-Out,2016-03-19
42288,City Hotel,1,59,2016,April,17,22,2,2,2,...,No Deposit,9.0,,0,Transient,112.2,0,0,Canceled,2016-02-24
95721,City Hotel,1,99,2016,February,8,19,0,1,2,...,No Deposit,,67.0,0,Transient-Party,80.0,0,0,Canceled,2015-12-22


## EDA

In [10]:
!pip install ydata_profiling

Collecting ydata_profiling
  Downloading ydata_profiling-4.16.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting visions<0.8.2,>=0.7.5 (from visions[type_image_path]<0.8.2,>=0.7.5->ydata_profiling)
  Downloading visions-0.8.1-py3-none-any.whl.metadata (11 kB)
Collecting htmlmin==0.1.12 (from ydata_profiling)
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting phik<0.13,>=0.11.1 (from ydata_profiling)
  Downloading phik-0.12.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.6 kB)
Collecting multimethod<2,>=1.4 (from ydata_profiling)
  Downloading multimethod-1.12-py3-none-any.whl.metadata (9.6 kB)
Collecting imagehash==4.3.1 (from ydata_profiling)
  Downloading ImageHash-4.3.1-py2.py3-none-any.whl.metadata (8.0 kB)
Collecting dacite>=1.8 (from ydata_profiling)
  Downloading dacite-1.9.2-py3-none-any.whl.metadata (17 kB)
Collecting puremagic (from visions<0.8.2,>=0.7.5->visions[type_image_path]<0.8.2,>=0.7.5->

In [11]:
from ydata_profiling import ProfileReport

In [12]:
profile = ProfileReport(hotel_bookings, title="Pandas Profiling Report")

In [13]:
 profile.to_file("bookings_profile.html")
## file:///Users/antonio.feregrino/hub/cf-ml/hotel-facilito/bookings_profile.html

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]


  0%|          | 0/32 [00:00<?, ?it/s][A
  3%|▎         | 1/32 [00:01<00:45,  1.47s/it][A
 16%|█▌        | 5/32 [00:02<00:11,  2.40it/s][A
 34%|███▍      | 11/32 [00:02<00:03,  5.42it/s][A
 41%|████      | 13/32 [00:03<00:03,  5.30it/s][A
 44%|████▍     | 14/32 [00:03<00:03,  4.72it/s][A
 47%|████▋     | 15/32 [00:03<00:03,  4.73it/s][A
 50%|█████     | 16/32 [00:04<00:03,  4.30it/s][A
 62%|██████▎   | 20/32 [00:04<00:02,  5.17it/s][A
 72%|███████▏  | 23/32 [00:05<00:02,  4.22it/s][A
 84%|████████▍ | 27/32 [00:06<00:00,  5.24it/s][A
100%|██████████| 32/32 [00:07<00:00,  4.22it/s]


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### Custom plots ...

## Data leakage

La variable `reservation_status` indica el estado de la reservación, esta es en realidad un reflejo de `is_canceled`, si la dejamos dentro de las variables de entrada estamos filtrando información al modelo. Este nos dará un resultado excelente, pero en realidad no nos servirá de nada en la vida real. Debemos sacarla del dataset junto con otras varaibles asociadas:

In [14]:
# Avoid data leakage
hotel_bookings = hotel_bookings.drop(['reservation_status', 'reservation_status_date'], axis=1)

## Separa la variable a predecir


In [15]:
is_canceled = hotel_bookings['is_canceled'].copy()
hotel_data = hotel_bookings.drop(['is_canceled'], axis=1)

## Split dataset

In [16]:
# Calculate test and validation set size:
original_count = len(hotel_bookings)
training_size = 0.60 # 60% of records
test_size = (1 - training_size) / 2


training_count = int(original_count * training_size)
test_count = int(original_count * test_size)
validation_count = original_count - training_count - test_count

print(training_count, test_count, validation_count, original_count)

71514 23838 23838 119190


In [17]:
from sklearn.model_selection import train_test_split

train_x, rest_x, train_y, rest_y = train_test_split(hotel_data, is_canceled, train_size=training_count)
test_x, validate_x, test_y, validate_y = train_test_split(rest_x, rest_y, train_size=test_count)

print(len(train_x), len(test_x), len(validate_x))

71514 23838 23838


## Variables a codificar - One-hot encoding

 - hotel, meal, distribution_channel, reserved_room_type, assigned_room_type, customer_type, deposit_type

In [18]:
from sklearn.preprocessing import OneHotEncoder

In [19]:
one_hot_encoder = OneHotEncoder(sparse_output=False, handle_unknown="ignore")

In [20]:
one_hot_encoder.fit(train_x[['hotel']])
one_hot_encoder.transform(train_x[['hotel']])

array([[0., 1.],
       [0., 1.],
       [0., 1.],
       ...,
       [0., 1.],
       [1., 0.],
       [0., 1.]])

## Variables a binarizar

 - total_of_special_requests, required_car_parking_spaces, booking_changes, previous_bookings_not_canceled, previous_cancellations

In [21]:
from sklearn.preprocessing import Binarizer

In [22]:
binarizer = Binarizer()

In [23]:
_ = train_x.copy()
binarizer.fit(_[['total_of_special_requests']])
_['has_made_special_requests'] = binarizer.transform(train_x[['total_of_special_requests']])

_[['total_of_special_requests', 'has_made_special_requests']].sample(10)

Unnamed: 0,total_of_special_requests,has_made_special_requests
95658,0,0
27833,0,0
13400,0,0
77182,1,1
71020,1,1
34145,2,1
81041,2,1
102160,1,1
117131,1,1
83305,0,0


## Variables a escalar

 - adr

In [None]:
from sklearn.preprocessing import RobustScaler

In [None]:
scaler = RobustScaler()

In [None]:
_ = train_x.copy()
scaler.fit(_[['adr']])
_['adr_scaled'] = scaler.transform(train_x[['adr']])

_[['adr', 'adr_scaled']].sample(10)

Unnamed: 0,adr,adr_scaled
77403,136.0,0.72807
17884,128.0,0.587719
10509,62.8,-0.55614
40555,111.92,0.305614
56880,177.5,1.45614
25399,288.03,3.395263
118718,34.0,-1.061404
86244,52.0,-0.745614
63141,75.0,-0.342105
33587,88.4,-0.107018


## Variables a dejar como tal

 - stays_in_weekend_nights, stays_in_week_nights


 > El tratamiento de estas depende del modelo a usar

## Armando un pipeline de transformación

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import FeatureUnion, Pipeline

In [None]:
one_hot_encoding = ColumnTransformer([
    (
        'one_hot_encode',
        OneHotEncoder(sparse_output=False, handle_unknown="ignore"),
        [
            "hotel",
            "meal",
            "distribution_channel",
            "reserved_room_type",
            "assigned_room_type",
            "customer_type"
        ]
    )
])

In [None]:
binarizer = ColumnTransformer([
    (
        'binarizer',
        Binarizer(),
        [
            "total_of_special_requests",
            "required_car_parking_spaces",
            "booking_changes",
            "previous_bookings_not_canceled",
            "previous_cancellations",
        ]
    )
])

one_hot_binarized = Pipeline([
    ("binarizer", binarizer),
    ("one_hot_encoder", OneHotEncoder(sparse_output=False, handle_unknown="ignore")),
])

In [None]:
scaler = ColumnTransformer([
    ("scaler", RobustScaler(), ["adr"])
])

In [None]:
passthrough = ColumnTransformer([
    (
        "passthrough",
        "passthrough",
        [
            "stays_in_week_nights",
            "stays_in_weekend_nights",
        ]
    )
])

In [None]:
feature_engineering_pipeline = pipe = Pipeline(
    [
        (
            "features",
            FeatureUnion(
                [
                    ("categorical", one_hot_encoding),
                    ("categorical_binarized", one_hot_binarized),
                    ("scaled", scaler),
                    ("pass", passthrough),
                ]
            ),
        )
    ]
)

In [None]:
transformed = feature_engineering_pipeline.fit_transform(train_x)
transformed.shape

(71514, 50)

In [None]:
transformed

array([[ 0.        ,  1.        ,  0.        , ..., -0.64035088,
         2.        ,  2.        ],
       [ 0.        ,  1.        ,  0.        , ..., -0.85087719,
         3.        ,  0.        ],
       [ 1.        ,  0.        ,  1.        , ..., -0.57017544,
         1.        ,  1.        ],
       ...,
       [ 1.        ,  0.        ,  1.        , ...,  0.50526316,
         3.        ,  2.        ],
       [ 1.        ,  0.        ,  0.        , ..., -0.69807018,
         2.        ,  2.        ],
       [ 1.        ,  0.        ,  1.        , ...,  0.68350877,
         5.        ,  2.        ]])

## Model training

In [None]:
# Get a fresh copy of the pipeline
from sklearn.base import clone

feature_transformer = clone(feature_engineering_pipeline)

features_train_x = feature_transformer.fit_transform(train_x)
features_validate_x = feature_transformer.transform(validate_x)

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import LinearSVC

model = RandomForestClassifier(n_estimators=100)

model.fit(features_train_x, train_y)

## Model validation

In [None]:
from sklearn.metrics import accuracy_score, recall_score

pred_y = model.predict(features_validate_x)

print(accuracy_score(validate_y, pred_y))
print(recall_score(validate_y, pred_y))

0.8088346337780015
0.7133807512780618


## Construcción del pipeline final

In [None]:
final_inference_pipeline = Pipeline([
    ("feature_engineering", clone(feature_engineering_pipeline)),
    ("model", RandomForestClassifier(n_estimators=100))
])

In [None]:
final_training_dataset = pd.concat([train_x, validate_x])
final_training_response = pd.concat([train_y, validate_y])

In [None]:
final_inference_pipeline.fit(final_training_dataset, final_training_response)

## Model testing


In [None]:
test_pred_y = final_inference_pipeline.predict(test_x)

print(accuracy_score(test_pred_y, test_y))
print(recall_score(test_pred_y, test_y))

## Model persistence

In [None]:
from joblib import dump

dump(final_inference_pipeline, "inference_pipeline.joblib")

## Y entonces... ¿a quién le hablamos?

In [None]:
from joblib import load

ultimate_inference_pipeline = load("inference_pipeline.joblib")

In [None]:
new_customers = pd.read_csv("new_customers.csv")
new_customers.head()

In [None]:
new_customers['will_cancel'] = ultimate_inference_pipeline.predict(new_customers)
new_customers[['proba_check_in', 'proba_cancel']] = ultimate_inference_pipeline.predict_proba(new_customers)

In [None]:
new_customers[['name', 'phone-number', 'will_cancel', 'proba_cancel']].sort_values(by='proba_cancel', ascending=False).head(20)

## De tarea...

 - Entrena un modelo con *data leakage* y ve si es sospechosamente bueno
 - ¿Qué pasa si el cliente no recibió la habitación que solicitó? (`reserved_room_type` vs `assigned_room_type`)
 - No consideramos las fechas en las que iba a quedarse, ¿y si las incluyes en tu modelo?
 - ¿Podemos usar validación cruzada?
 - ¿Qué tal de la búsqueda de hiper parámetros?