# 3_training_mlflow.ipynb

- **Objectif** :
Lancer et suivre les entra√Ænements des mod√®les ML (Logistic, Random Forest, XGBoost)
avec diff√©rentes strat√©gies de d√©s√©quilibre, via MLflow.
---

In [14]:
import os
import mlflow
import mlflow.sklearn
from IPython.display import Markdown as md

## D√©finir le dossier du projet

In [15]:
# D√©finir le dossier du projet
os.chdir("..") if "notebooks" in os.getcwd() else None

## Configurer le tracking local MLflow

In [16]:
# Configurer le tracking local MLflow
mlflow.set_tracking_uri("file:./mlruns")
mlflow.set_experiment("Churn_Prediction_Models")


<Experiment: artifact_location='file:///c:/Users/PC/Desktop/sprint5/Churn-Prediction-avec-MLflow/mlruns/667014208243130233', creation_time=1761207273202, experiment_id='667014208243130233', last_update_time=1761207273202, lifecycle_stage='active', name='Churn_Prediction_Models', tags={'mlflow.experimentKind': 'custom_model_development'}>

In [17]:
md("## üöÄ Lancement des entra√Ænements et suivi MLflow")

## üöÄ Lancement des entra√Ænements et suivi MLflow

## 1Ô∏è‚É£ Lancer les scripts

In [18]:
# ==========================================================
# 1Ô∏è‚É£ Lancer les scripts
# ==========================================================
import subprocess

In [19]:
scripts = [
    "src/models/logistic.py",
    "src/models/forest.py",
    "src/models/xgboost.py"
]

In [20]:
for script in scripts:
    print(f"‚öôÔ∏è Entra√Ænement avec {script} ...")
    subprocess.run(["python", script])
    print(f"‚úÖ Termin√© : {script}")

‚öôÔ∏è Entra√Ænement avec src/models/logistic.py ...
‚úÖ Termin√© : src/models/logistic.py
‚öôÔ∏è Entra√Ænement avec src/models/forest.py ...
‚úÖ Termin√© : src/models/forest.py
‚öôÔ∏è Entra√Ænement avec src/models/xgboost.py ...
‚úÖ Termin√© : src/models/xgboost.py


In [21]:
import mlflow

# R√©cup√©rer l'ID de l'exp√©rience
experiment = mlflow.get_experiment_by_name("Churn_Prediction_Models")
experiment_id = experiment.experiment_id

# Chercher tous les runs de l'exp√©rience
runs = mlflow.search_runs(experiment_ids=[experiment_id], filter_string="", order_by=["start_time DESC"])
print(runs.columns.tolist())


['run_id', 'experiment_id', 'status', 'artifact_uri', 'start_time', 'end_time', 'metrics.accuracy', 'metrics.f1', 'params.note', 'tags.mlflow.runName', 'tags.mlflow.source.git.commit', 'tags.mlflow.source.type', 'tags.mlflow.user', 'tags.mlflow.source.name', 'tags.model_name', 'tags.imbalance_strategy']


## 2Ô∏è‚É£ Comparaison des r√©sultats

In [22]:
# ==========================================================
# 2Ô∏è‚É£ Comparaison des r√©sultats
# ==========================================================
md("### üìä Visualisation dans MLflow UI")

### üìä Visualisation dans MLflow UI

In [23]:
print("""
Pour ouvrir l'interface MLflow :
> mlflow ui --backend-store-uri ./mlruns
Puis ouvrir : http://127.0.0.1:5000
""")


Pour ouvrir l'interface MLflow :
> mlflow ui --backend-store-uri ./mlruns
Puis ouvrir : http://127.0.0.1:5000



In [24]:
md("### üèÜ S√©lection du meilleur mod√®le")

### üèÜ S√©lection du meilleur mod√®le

In [25]:
import pandas as pd

## Charger les runs MLflow

In [27]:
runs_info = client.search_runs(experiment_ids=[experiment.experiment_id])
print(f"‚úÖ {len(runs_info)} runs trouv√©s")

# Cr√©er le DataFrame
runs_data = []
for run in runs_info:
    run_dict = {
        'run_id': run.info.run_id,
        'tags.model_name': run.data.tags.get('model_name', 'Unknown'),
        'tags.imbalance_strategy': run.data.tags.get('imbalance_strategy', 'Unknown'),
        'metrics.f1_score': run.data.metrics.get('f1_score', 0),
        'metrics.accuracy': run.data.metrics.get('accuracy', 0)
    }
    runs_data.append(run_dict)
runs = pd.DataFrame(runs_data)

# V√©rifier les colonnes disponibles
print("üìã Colonnes disponibles :", runs.columns.tolist())


NameError: name 'client' is not defined

In [None]:
# V√©rifier les colonnes disponibles
print("üìã Colonnes disponibles :", runs.columns.tolist())

# Rechercher la colonne correspondant √† la m√©trique F1
f1_cols = [col for col in runs.columns if "f1_score" in col.lower() and col.startswith("metrics.")]

# Si aucune m√©trique F1 n'est trouv√©e, afficher un message explicatif au lieu de lever une erreur
if not f1_cols:
    print("‚ö†Ô∏è Aucune m√©trique F1 trouv√©e dans les runs MLflow.")
    print("üëâ V√©rifiez que la m√©trique F1 a bien √©t√© logg√©e avec `mlflow.log_metric('f1', valeur)`.")
    print("üîé Exemple de colonnes disponibles li√©es aux m√©triques :",
          [col for col in runs.columns if col.startswith("metrics.")])
else:
    # S√©lectionner la premi√®re colonne F1 trouv√©e
    f1_col = f1_cols[0]

    # Trier les runs selon la meilleure valeur de F1
    best_run = runs.sort_values(f1_col, ascending=False).iloc[0]

    # Afficher le meilleur mod√®le avec sa valeur F1
    md(f"**üèÜ Meilleur mod√®le :** {best_run.get('tags.model_name', 'Nom inconnu')} "
       f"({f1_col} = {best_run[f1_col]:.3f})")


üìã Colonnes disponibles : ['run_id', 'experiment_id', 'status', 'artifact_uri', 'start_time', 'end_time', 'metrics.accuracy', 'metrics.f1', 'params.note', 'tags.mlflow.user', 'tags.mlflow.runName', 'tags.mlflow.source.name', 'tags.mlflow.source.type', 'tags.mlflow.source.git.commit', 'tags.model_name', 'tags.imbalance_strategy']


In [None]:
runs.filter(like="metrics.")


Unnamed: 0,metrics.accuracy,metrics.f1
0,,
1,0.5,0.5


In [None]:
best_run = runs.sort_values("metrics.f1_score", ascending=False).iloc[0]
md(f"**Meilleur mod√®le :** {best_run['tags.model_name']} (F1 = {best_run['metrics.f1']:.3f})")


**Meilleur mod√®le :** DummyModel (F1 = 0.500)

## Chargement et test du mod√®le

In [None]:
# Chargement et test du mod√®le
model_uri = f"runs:/{best_run['run_id']}/model"
try:
    loaded_model = mlflow.sklearn.load_model(model_uri)
    print("Mod√®le charg√©")
except Exception as e:
    print(f"Erreur chargement mod√®le: {e}")
    loaded_model = None


In [None]:
md("### üîç Test d'une pr√©diction avec le mod√®le charg√©")
import joblib
import pandas as pd

## Exemple d‚Äôun batch de test

In [None]:
# Exemple d‚Äôun batch de test
X_test = joblib.load("data/X_test.pkl")
print("‚úÖ Pr√©diction exemple :")
print(loaded_model.predict(X_test[:5]))

‚úÖ Pr√©diction exemple :
[0 0 0 0 0]
