# Étape 2 – Suivi des expérimentations avec MLflow

Dans ce second notebook, nous allons suivre nos expérimentations de modélisation grâce à MLflow, un outil open source qui permet de :
- Tracer les paramètres, métriques et modèles testés
- Comparer facilement les performances des différentes approches
- Retrouver les meilleures versions d’un modèle sans avoir à tout relancer

**Objectif**

Enregistrer et visualiser les expérimentations de notre modèle de classification à l’aide de MLflow, en logguant les :
- Hyperparamètres du modèle (n_estimators, max_depth, etc.),
- Métriques de performance (accuracy ici),
- Modèles entraînés eux-mêmes.

Nous allons utiliser l’interface web de MLflow pour consulter les résultats de nos runs.


### 1. Chargement des bibliothèques

Importer toutes les librairies nécessaires pour le modèle et pour MLflow.

In [1]:
# Import des librairies
import mlflow
import mlflow.sklearn
import pandas as pd

from mlflow.models.signature import infer_signature
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score 
from sklearn.impute import SimpleImputer

### 2. Chargement des données préparées

Charger le fichier CSV nettoyé à l’étape précédente.

In [2]:
# 1. Chargement des données
df = pd.read_csv('../data/output/train_clean_sample.csv', low_memory=False)

### 3. Encodage one-hot

Pour finaliser le nettoyage des données, il est nécessaire de convertir les colonnes catégorielles (au format `object`) en variables numériques.

Nous utilisons ici un encodage **one-hot**, qui transforme chaque modalité en une colonne binaire (0 ou 1).  
Cette étape est indispensable pour pouvoir entraîner les modèles de machine learning qui ne prennent pas en charge les chaînes de caractères.

In [3]:
object_cols = df.select_dtypes(include='object').columns
print(f"Colonnes catégorielles à encoder : {list(object_cols)}")

if len(object_cols) > 0:
    df = pd.get_dummies(df, columns=object_cols, drop_first=True)

Colonnes catégorielles à encoder : ['NAME_CONTRACT_TYPE_x', 'CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'NAME_TYPE_SUITE_x', 'NAME_INCOME_TYPE', 'NAME_EDUCATION_TYPE', 'NAME_FAMILY_STATUS', 'NAME_HOUSING_TYPE', 'OCCUPATION_TYPE', 'WEEKDAY_APPR_PROCESS_START_x', 'ORGANIZATION_TYPE', 'FONDKAPREMONT_MODE', 'HOUSETYPE_MODE', 'WALLSMATERIAL_MODE', 'EMERGENCYSTATE_MODE', 'CREDIT_ACTIVE', 'CREDIT_CURRENCY', 'CREDIT_TYPE', 'NAME_CONTRACT_TYPE_y', 'WEEKDAY_APPR_PROCESS_START_y', 'FLAG_LAST_APPL_PER_CONTRACT', 'NAME_CASH_LOAN_PURPOSE', 'NAME_CONTRACT_STATUS', 'NAME_PAYMENT_TYPE', 'CODE_REJECT_REASON', 'NAME_TYPE_SUITE_y', 'NAME_CLIENT_TYPE', 'NAME_GOODS_CATEGORY', 'NAME_PORTFOLIO', 'NAME_PRODUCT_TYPE', 'CHANNEL_TYPE', 'NAME_SELLER_INDUSTRY', 'NAME_YIELD_GROUP', 'PRODUCT_COMBINATION']


### 4. Séparation des variables X / y

Séparer les variables explicatives (X) et la variable cible (y).

In [None]:
X = df.drop(columns=['TARGET'])
y = df['TARGET']

imputer = SimpleImputer(strategy='mean')
X = pd.DataFrame(imputer.fit_transform(X), columns=X.columns)

### 5. Split train / test

Diviser le jeu de données en un ensemble d’entraînement et un ensemble de test avec stratification.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, stratify=y, test_size=0.2, random_state=42
)

### 6. Initialisation de MLflow

Définir l’URI de tracking local et créer un nouvel experiment name. 

Ajouter des tags (projet, auteur, étape) pour une meilleure traçabilité.

In [None]:
# Tracking avec MLflow
mlflow.set_tracking_uri("file:../mlruns")
mlflow.set_experiment("random_forest_test")
mlflow.set_tags({
    "project": "OpenClassrooms Projet 6",
    "stage": "experiment_1",
    "author": "David Worsley-Tonks"
})

### 7. Définition des hyperparamètres
Définir les valeurs de n_estimators, max_depth, random_state dans un dictionnaire params.

In [None]:
params = {
    "n_estimators": 100,
    "max_depth": 5
}

### 8. Training & tracking du modèle avec MLflow

- Démarrer un mlflow.start_run()
- Entraîner un RandomForestClassifier
- Prédire sur X_test
- Calculer la métrique (accuracy)
- Logger les paramètres et la métrique
- Logger le modèle

In [None]:
if mlflow.active_run():
    mlflow.end_run()

with mlflow.start_run():
    model = RandomForestClassifier(**params, random_state=42)
    model.fit(X_train, y_train)

    y_pred = model.predict(X_test)
    acc = accuracy_score(y_test, y_pred)

    # Log des hyperparamètres
    for key, value in params.items():
        mlflow.log_param(key, value)

    # Log de la métrique
    mlflow.log_metric("accuracy", acc)

    # Signature et exemple d'entrée pour le modèle
    signature = infer_signature(X_train, y_pred)
    input_example = X_train.iloc[:5]

    mlflow.sklearn.log_model(
        model,
        name="random_forest_model",
        signature=signature,
        input_example=input_example
    )

    print("Experiment ID:", mlflow.active_run().info.experiment_id)
    print("Run ID:", mlflow.active_run().info.run_id)

### 9. Exploration des résultats dans l’interface MLflow

Accéder à l’interface via mlflow ui (lien vers http://localhost:8889) pour visualiser les runs, comparer les modèles et analyser les résultats.

### Conclusion

Résumer ce qui a été tracé (paramètres + score), et ce que permet MLflow pour la suite (répétabilité, comparaison, industrialisation…).