# [2-BENCHMARK] - Phase de sélection des modèles

## Import des modules
> cf. [pyproject.toml](pyproject.toml) pour connaître les librairies à installer

In [None]:
import os
import io
import json
import boto3
import joblib
import numpy as np
import pandas as pd
from dotenv import load_dotenv
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_validate, cross_val_score
from sklearn.metrics import classification_report, roc_auc_score, confusion_matrix
from sklearn.compose import make_column_selector as selector
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

## Récupération des données dans le stockage objet AWS S3

In [None]:
# Configutations S3 access and data
load_dotenv()
aws_access_key_id = os.getenv('aws_access_key_id')
aws_secret_access_key = os.getenv('aws_secret_access_key')

In [None]:
# Specific bucket data
bucket_name = "hotel-resa-prediction"
prefix = "datasets/"
filename = "processed_hotel_bookings.csv"

In [None]:
# S3 connection
s3 = boto3.client(
    service_name = "s3",
    region_name = "eu-west-3",
    aws_access_key_id = aws_access_key_id,
    aws_secret_access_key = aws_secret_access_key,
)

In [None]:
# get datas 
result = s3.list_objects(Bucket=bucket_name)
for obj in result.get('Contents'):
    if (obj["Key"].startswith(prefix)) and (obj["Key"].endswith(filename)):
        data = s3.get_object(Bucket=bucket_name, Key=obj.get('Key'))
        contents = data['Body'].read().decode("utf-8")
        data = pd.read_csv(io.StringIO(contents), low_memory=False)

In [None]:
data.head().T

## Découpe des données en train et test

**Info :** Nous allons séparer les données en variable à expliquer (target) y et en variable expliquer (features).

In [None]:
X = data.drop("is_canceled",  axis=1)
y = data["is_canceled"]
print("Features : ", X.shape)
print("Target : ", y.shape) # s'assurer de n'avoir qu'une colonne ici

**Info** : Pour l'apprentissage, nous avons besoin de séparer en deux partie, un jeu d'entraînement et un jeu de test. Nous faisons le choix de découper en 70/30 soit 70 en jeu d'entraînement et 30 en jeu de test. Ici, nous faisons le choix de ne par garder de dépendance temporelle c'est la raison pour laquelle on a mélanger le jeux de données avec la méthode shuffle.

> **IMPORTANT** --> stratify a été crutial pour bien balancer car à la première itération on avait des résultats qui faisait moins bien que le hasard.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.3, 
    shuffle=True, 
    stratify=y # IMPORTANT pour bien balancer les prédictions première itération --> courbe ROC mauvais 
)
print("Features train : ", X_train.shape)
print("Target train : ", y_train.shape)
print("Features test : ", X_test.shape)
print("Target test : ", y_test.shape)

**Info** : Pour bien valider la distribution de la variable à expliquer en fonction des features, je vérifie quand même les éléments X et y pour être sur.

In [None]:
# Pour voir la distribution dans y_train --> Valider le stratify
print("Distribution y_train:")
print(y_train.value_counts())
print("\nPourcentages y_train:")
print(y_train.value_counts(normalize=True) * 100)

# Pour voir la distribution dans y_test --> Valider  le stratify
print("\nDistribution y_test:")
print(y_test.value_counts())
print("\nPourcentages y_test:")
print(y_test.value_counts(normalize=True) * 100)

# Pour voir la distribution dans le dataset complet --> Valider  le stratify
print("\nDistribution dataset complet:")
print(y.value_counts())
print("\nPourcentages dataset complet:")
print(y.value_counts(normalize=True) * 100)

## Préparation des pipelines de classifications

### Etape préprocesseur
> on utilise le OneHotEncoder pour les variables catégoriels et le StandardScaler (centré-réduit) pour les variables numériques

In [None]:
categorical_data = selector(dtype_include=object)
numerical_data = selector(dtype_exclude=object)

In [None]:
n_categorical = categorical_data(X)
n_numerical = numerical_data(X)

In [None]:
print(f"Categorial : {len(n_categorical)}")
print(f"Numerical : {len(n_numerical)}")

In [None]:
numeric_preprocessor = StandardScaler()
categoric_preprocessor = OneHotEncoder(
    handle_unknown='ignore'
)

In [None]:
preprocessor = ColumnTransformer(
    [
        ("numerical", numeric_preprocessor, n_numerical),
        ("Categorical", categoric_preprocessor, n_categorical)
    ],
    remainder = "passthrough",
)
preprocessor

### Définition des modèles à benchmarker
Un premier modèle linéaire ensuite un modèle d'arbre et un modèle de random forest. l'idée est d'ajouter ce modèle au pipeline sans configuration pour faire une première sélection pour afiner plus tards.

In [None]:
model_linear = LogisticRegression() 

In [None]:
model_tree = DecisionTreeClassifier() 

In [None]:
model_ensemble = RandomForestClassifier() 

### Définition des pipelines complets

In [None]:
linear_pipeline = make_pipeline(
    preprocessor,
    model_linear
)
linear_pipeline

In [None]:
tree_pipeline = make_pipeline(
    preprocessor,
    model_tree
)
tree_pipeline

In [None]:
ensemble_pipeline = make_pipeline(
    preprocessor,
    model_ensemble
)
ensemble_pipeline

## Benchmark par validation croisée

### Lancer les validations croisées

In [None]:
cv_linear = cross_validate(
    linear_pipeline,
    X_train,
    y_train,
    cv=10,
    error_score='raise',
    scoring='accuracy',
    n_jobs=-1
)
cv_linear = pd.DataFrame(cv_linear)

In [None]:
cv_tree = cross_validate(
    tree_pipeline,
    X_train,
    y_train,
    cv=10,
    error_score='raise',
    scoring='accuracy',
    n_jobs=-1
)
cv_tree = pd.DataFrame(cv_tree)

In [None]:
cv_ensemble = cross_validate(
    ensemble_pipeline,
    X_train,
    y_train,
    cv=10,
    error_score='raise',
    scoring='accuracy',
    n_jobs=-1
)
cv_ensemble = pd.DataFrame(cv_ensemble)

### Récupération des métriques et visualisation des résultats

In [None]:
linear_scores = -cv_linear["test_score"] * 100
tree_scores = -cv_tree["test_score"] * 100
ensemble_scores = -cv_ensemble["test_score"] * 100

In [None]:
indices = np.arange(len(cv_linear)) 

In [None]:
plt.scatter(
    indices,
    -linear_scores,
    color="#944E63",
    label="Logistic Regression model"
)

plt.scatter(
    indices,
    -tree_scores,
    color="#B47B84",
    label="Decision Tree model"
)

plt.scatter(
    indices,
    -ensemble_scores,
    color="#0C2D57",
    label="Random Forest model"
)

plt.ylim((0,100))
plt.legend()
plt.xlabel("Folds")
plt.ylabel("Scores")
_ = plt.title("Comparer les 3 modèles")

In [None]:
model_scores = {
    "Logistic Regression": -linear_scores.mean(),
    "Decision Tree Model": -tree_scores.mean(),
    "Random Forest": -ensemble_scores.mean()
}

In [None]:
highest_score = max(model_scores.values())

In [None]:
best_models = [model for model, score in model_scores.items() if score == highest_score] 

In [None]:
if len(best_models) == 1:
    print(f"Le modèle avec le plus haut accuracy score ({highest_score:.2f}%) est: {best_models[0]}")
else:
    print(f"Le modèle avec le plus haut accuracy score ({highest_score:.2f}%) sont:")
    for model in best_models:
        print(f"\t- {model}")

**Conclusions** : à première vue, on peut dire que le modèle le plus performant sur les 10 folds est le Random Forest. avec un accuracy à 88%. 

### Validation finale
> L'accuracy n'est pas forcément la seule manière de vérifier la performance du modèle en classification binaire, nous allons confirmer ceci avec le score ROC-AUC pour bien valider le modèle.

**Info** : Lancer l'entrainement pour avoir le score

In [None]:
linear_pipeline.fit(X_train, y_train)
tree_pipeline.fit(X_train, y_train)
ensemble_pipeline.fit(X_train, y_train)

In [None]:
print("Resultat pour la régression logistique : ")
y_pred = linear_pipeline.predict(X_test)
print(classification_report(y_test, y_pred, digits=3))
print("ROC-AUC:", roc_auc_score(y_test, linear_pipeline.predict_proba(X_test)[:,1]))

In [None]:
print("Resultat pour l'arbre de décision : ")
y_pred = tree_pipeline.predict(X_test)
print(classification_report(y_test, y_pred, digits=3))
print("ROC-AUC:", roc_auc_score(y_test, tree_pipeline.predict_proba(X_test)[:,1]))

In [None]:
print("Resultat pour le random forest : ")
y_pred = ensemble_pipeline.predict(X_test)
print(classification_report(y_test, y_pred, digits=3))
print("ROC-AUC:", roc_auc_score(y_test, ensemble_pipeline.predict_proba(X_test)[:,1]))

les résultats montrent bien que le meilleur modèle ici est bien le random forest. Il est donc temps d'affiner les hyperparamètres de ce modèle pour essayer d'optimiser et de le rendre explicable.

## Exporter le modèle sur le cloud

In [None]:
prefix = "models/"
filename_model = "hotel_bookings_churn_model.pkl"

In [None]:
try:
    os.makedirs(prefix, exist_ok=True)
    joblib.dump(ensemble_pipeline, prefix + filename_model)
    print(f"Modèle optimal enregistré avec succès ({best_models[0]}) sous le nom {filename_model}.")
except Exception as e:
    print(f"Erreur lors du téléversement du modèle : {e}")

In [None]:
s3.upload_file(prefix + filename_model, bucket_name, prefix + filename_model) 

In [None]:
 os.chdir(prefix)
os.remove(filename_model)
print("models : ")
print("- - - " * 3)
if len(os.listdir()) > 1:
        for file in os.listdir():
            print(file)
else: 
    print("Vous retrouverez le modèle sur AWS S3 !")
os.chdir("../")

-- END --