# Objetivo del notebook

El objetivo principal de este notebook no es otro que el de dividir el conjunto de datos, y entrenar un modelo de clasificacion que ayude a solucionar el problema propuesto en el README del proyecto.

Para el caso de este notebook, voy a desarrollar un modelo de clasificacion, basado en la clase ***DecissionTreeClassifier***, de Scikit Learn.

# Importar las librerias a utilizar

In [1]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.tree import DecisionTreeClassifier

In [2]:
# Cargo el conjunto de datos normalizado en memoria como un objeto DataFrame
dataset_route = '../data/processed/normalized_hotel_bookings.csv'
bookings_df = pd.read_csv(dataset_route)

# Muestro los 10 primeros registros del dataset
bookings_df.head(10)

Unnamed: 0,lead_time,arrival_date_week_number,arrival_date_day_of_month,arrival_date_month,stays_in_weekend_nights,stays_in_week_nights,adults,children,babies,is_repeated_guest,...,reserved_room_type_H,reserved_room_type_L,deposit_type_No_Deposit,deposit_type_Non_Refund,deposit_type_Refundable,customer_type_Contract,customer_type_Group,customer_type_Transient,customer_type_Transient-Party,is_canceled
0,2.225879,-0.012012,-1.685305,0.144977,-0.931606,-1.317378,0.24478,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,0
1,5.921785,-0.012012,-1.685305,0.144977,-0.931606,-1.317378,0.24478,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,0
2,-0.908624,-0.012012,-1.685305,0.144977,-0.931606,-0.790257,-1.493796,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,0
3,-0.852484,-0.012012,-1.685305,0.144977,-0.931606,-0.790257,-1.493796,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,0
4,-0.843127,-0.012012,-1.685305,0.144977,-0.931606,-0.263136,0.24478,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,0
5,-0.843127,-0.012012,-1.685305,0.144977,-0.931606,-0.263136,0.24478,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,0
6,-0.974121,-0.012012,-1.685305,0.144977,-0.931606,-0.263136,0.24478,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,0
7,-0.889911,-0.012012,-1.685305,0.144977,-0.931606,-0.263136,0.24478,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,0
8,-0.1788,-0.012012,-1.685305,0.144977,-0.931606,0.263985,0.24478,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,1
9,-0.272367,-0.012012,-1.685305,0.144977,-0.931606,0.263985,0.24478,-0.260873,-0.081641,-0.180343,...,-0.071183,-0.007095,0.375755,-0.373396,-0.036889,-0.188059,-0.069558,0.576466,-0.516283,1


# Division del conjunto de datos

In [3]:
X = bookings_df.drop(columns = ['is_canceled'])
y = bookings_df['is_canceled']

X = np.array(X)
y = np.array(y).reshape(-1,1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=42)

In [4]:
X_train.shape

(95364, 52)

In [5]:
X_test.shape

(23842, 52)

In [6]:
y_train.shape

(95364, 1)

In [7]:
y_test.shape

(23842, 1)

# Desarrollo del modelo clasificador

In [8]:
# Instancio un objeto de la clase DecisionTreeClassifier
model = DecisionTreeClassifier()

# Defino una lista de valores para la profundidad del arbol
parameters = {
    "max_depth": list(range(1, 25)),
    "min_samples_leaf": [0.25, 0.5, 0.75, 1]
}

# Instancio un objeto GridSearchCV 
grid_cv = GridSearchCV(model, parameters, n_jobs = -1)

# Entreno el arbol de decision, optimizando la profundidad del mismo mediante un entrenamiento con la clase GridSearGridSearchCV
grid_cv.fit(X_train, y_train)

In [9]:
# Muestro la configuracion del mejor modelo entrenado
best_model_params = grid_cv.best_params_
best_model = grid_cv.best_estimator_

print("La configuracion para el mejor modelo entrenado por GridSearchCV es la siguiente:", best_model_params)

La configuracion para el mejor modelo entrenado por GridSearchCV es la siguiente: {'max_depth': 16, 'min_samples_leaf': 1}


In [10]:
# Muestro el coeficiente de R2 del mejor modelo entrenado para el conjunto de prueba
best_model.score(X_test, y_test)

0.8273634762184381

In [11]:
# Obtengo las predicciones del modelo para el conjunto de prueba
y_pred = best_model.predict(X_test)

# Represento el rendimiento del modelo en una matriz de confusion
conf_matrix = confusion_matrix(y_test, y_pred)
print(conf_matrix)

class_report = classification_report(y_test, y_pred)
print(class_report)

[[13320  1527]
 [ 2589  6406]]
              precision    recall  f1-score   support

           0       0.84      0.90      0.87     14847
           1       0.81      0.71      0.76      8995

    accuracy                           0.83     23842
   macro avg       0.82      0.80      0.81     23842
weighted avg       0.83      0.83      0.82     23842



El Arbol de Decision entrenado ha generado una F1-Score de media de 0.83, lo cual es bastante generoso para la sencillez del modelo.

Podemos ver como, en la reporte de clasificacion, vemos un recall bastante inferior al predecir si una reserva va a ser finalmente cancelada, en comparacion con el obtenido para la clase 0 de la etiqueta. Esto puede deberse a la diferencia en el numero de ejemplos del conjunto de prueba entre ambas clases, lo que hace que el coeficiente del recall se magnifique.

## Inferencias con ejemplos del conjunto de prueba

In [12]:
best_model.classes_

array([0, 1], dtype=int64)

In [13]:
# Si nos fijamos en los requerimientos del proyecto, nos damos cuenta de que el cliente ha solicitado conocer el porcentaje de probabilidad con el que una reserva dada
# podria, potencialmente, ser cancelada.
# Para ello, ejecuto el metodo .predict_proba() del mejor modelo entrenado, y muestro una salida para los 10 primeros ejemplos del conjunto de prueba.

output_examples = X_test[:10]

for index, example in enumerate(output_examples):
    
    proba_pred = best_model.predict_proba(example.reshape(1, -1))
    print('El modelo ha predicho que la reserva n{} tiene una probabilidad del {} % de ser cancelada.'.format(index, round(proba_pred[0][1] * 100), 2))

El modelo ha predicho que la reserva n0 tiene una probabilidad del 0 % de ser cancelada.
El modelo ha predicho que la reserva n1 tiene una probabilidad del 0 % de ser cancelada.
El modelo ha predicho que la reserva n2 tiene una probabilidad del 100 % de ser cancelada.
El modelo ha predicho que la reserva n3 tiene una probabilidad del 37 % de ser cancelada.
El modelo ha predicho que la reserva n4 tiene una probabilidad del 100 % de ser cancelada.
El modelo ha predicho que la reserva n5 tiene una probabilidad del 73 % de ser cancelada.
El modelo ha predicho que la reserva n6 tiene una probabilidad del 2 % de ser cancelada.
El modelo ha predicho que la reserva n7 tiene una probabilidad del 5 % de ser cancelada.
El modelo ha predicho que la reserva n8 tiene una probabilidad del 100 % de ser cancelada.
El modelo ha predicho que la reserva n9 tiene una probabilidad del 17 % de ser cancelada.


# Guardo el modelo entrenado

In [14]:
import joblib
import os

trained_model__route = "../model/"

if not os.path.exists(trained_model__route):
    os.mkdir(trained_model__route)
    
joblib.dump(best_model, os.path.join(trained_model__route, "model.joblib"))
print("Modelo guardado!")

Modelo guardado!
