# 3_training_mlflow.ipynb

- **Objectif** :
Lancer et suivre les entra√Ænements des mod√®les ML (Logistic, Random Forest, XGBoost)
avec diff√©rentes strat√©gies de d√©s√©quilibre, via MLflow.
---

In [94]:
import os
import mlflow
import mlflow.sklearn
from IPython.display import Markdown as md

## D√©finir le dossier du projet

In [95]:
# D√©finir le dossier du projet
os.chdir("..") if "notebooks" in os.getcwd() else None

## Configurer le tracking local MLflow

In [96]:
# Configurer le tracking local MLflow
mlflow.set_tracking_uri("file:./mlruns")
mlflow.set_experiment("Churn_Prediction_Models")


<Experiment: artifact_location='file:///c:/Users/PC/Desktop/sprint5/Churn-Prediction-avec-MLflow/mlruns/667014208243130233', creation_time=1761207273202, experiment_id='667014208243130233', last_update_time=1761207273202, lifecycle_stage='active', name='Churn_Prediction_Models', tags={'mlflow.experimentKind': 'custom_model_development'}>

In [97]:
md("## üöÄ Lancement des entra√Ænements et suivi MLflow")

## üöÄ Lancement des entra√Ænements et suivi MLflow

## 1Ô∏è‚É£ Lancer les scripts

In [98]:
# ==========================================================
# 1Ô∏è‚É£ Lancer les scripts
# ==========================================================
import subprocess

In [99]:
scripts = [
    "scripts/logistic_script.py",
    "scripts/forest_script.py",
    "scripts/xgboost_script.py"
]

In [100]:
for script in scripts:
    print(f"‚öôÔ∏è Entra√Ænement avec {script} ...")
    subprocess.run(["python", script])
    print(f"‚úÖ Termin√© : {script}")

‚öôÔ∏è Entra√Ænement avec scripts/logistic_script.py ...
‚úÖ Termin√© : scripts/logistic_script.py
‚öôÔ∏è Entra√Ænement avec scripts/forest_script.py ...
‚úÖ Termin√© : scripts/forest_script.py
‚öôÔ∏è Entra√Ænement avec scripts/xgboost_script.py ...
‚úÖ Termin√© : scripts/xgboost_script.py


In [101]:
import mlflow

# R√©cup√©rer l'ID de l'exp√©rience
experiment = mlflow.get_experiment_by_name("Churn_Prediction_Models")
experiment_id = experiment.experiment_id

# Chercher tous les runs de l'exp√©rience
runs = mlflow.search_runs(experiment_ids=[experiment_id], filter_string="", order_by=["start_time DESC"])
print(runs.columns.tolist())


['run_id', 'experiment_id', 'status', 'artifact_uri', 'start_time', 'end_time']


## 2Ô∏è‚É£ Comparaison des r√©sultats

In [102]:
# ==========================================================
# 2Ô∏è‚É£ Comparaison des r√©sultats
# ==========================================================
md("### üìä Visualisation dans MLflow UI")

### üìä Visualisation dans MLflow UI

In [103]:
print("""
Pour ouvrir l'interface MLflow :
> mlflow ui --backend-store-uri ./mlruns
Puis ouvrir : http://127.0.0.1:5000
""")


Pour ouvrir l'interface MLflow :
> mlflow ui --backend-store-uri ./mlruns
Puis ouvrir : http://127.0.0.1:5000



In [104]:
md("### üèÜ S√©lection du meilleur mod√®le")

### üèÜ S√©lection du meilleur mod√®le

In [105]:
import pandas as pd

## Charger les runs MLflow

In [106]:
# Charger les runs MLflow
client = mlflow.tracking.MlflowClient()
experiment = client.get_experiment_by_name("Churn_Prediction_Models")
runs = mlflow.search_runs(experiment_ids=[experiment.experiment_id])

In [107]:
# V√©rifier les colonnes disponibles
print("üìã Colonnes disponibles :", runs.columns.tolist())

# Rechercher la colonne correspondant √† la m√©trique F1
f1_cols = [col for col in runs.columns if "f1" in col.lower() and col.startswith("metrics.")]

# Si aucune m√©trique F1 n'est trouv√©e, afficher un message explicatif au lieu de lever une erreur
if not f1_cols:
    print("‚ö†Ô∏è Aucune m√©trique F1 trouv√©e dans les runs MLflow.")
    print("üëâ V√©rifiez que la m√©trique F1 a bien √©t√© logg√©e avec `mlflow.log_metric('f1', valeur)`.")
    print("üîé Exemple de colonnes disponibles li√©es aux m√©triques :",
          [col for col in runs.columns if col.startswith("metrics.")])
else:
    # S√©lectionner la premi√®re colonne F1 trouv√©e
    f1_col = f1_cols[0]

    # Trier les runs selon la meilleure valeur de F1
    best_run = runs.sort_values(f1_col, ascending=False).iloc[0]

    # Afficher le meilleur mod√®le avec sa valeur F1
    md(f"**üèÜ Meilleur mod√®le :** {best_run.get('tags.model_name', 'Nom inconnu')} "
       f"({f1_col} = {best_run[f1_col]:.3f})")


üìã Colonnes disponibles : ['run_id', 'experiment_id', 'status', 'artifact_uri', 'start_time', 'end_time']
‚ö†Ô∏è Aucune m√©trique F1 trouv√©e dans les runs MLflow.
üëâ V√©rifiez que la m√©trique F1 a bien √©t√© logg√©e avec `mlflow.log_metric('f1', valeur)`.
üîé Exemple de colonnes disponibles li√©es aux m√©triques : []


In [108]:
runs.filter(like="metrics.")


In [48]:
best_run = runs.sort_values("metrics.f1", ascending=False).iloc[0]
md(f"**Meilleur mod√®le :** {best_run['tags.model_name']} (F1 = {best_run['metrics.f1']:.3f})")


KeyError: 'metrics.f1'

## Chargement et test du mod√®le

In [66]:
# Chargement et test du mod√®le
model_uri = f"runs:/{best_run['run_id']}/model"
loaded_model = mlflow.sklearn.load_model(model_uri)

NameError: name 'best_run' is not defined

In [None]:
md("### üîç Test d'une pr√©diction avec le mod√®le charg√©")
import joblib
import pandas as pd

## Exemple d‚Äôun batch de test

In [None]:
# Exemple d‚Äôun batch de test
X_test = joblib.load("data/X_test.pkl")
print("‚úÖ Pr√©diction exemple :")
print(loaded_model.predict(X_test[:5]))