# 4_model_analysis.ipynb

- **Objectif** :
Analyser les mod√®les enregistr√©s dans MLflow,
comparer leurs performances et visualiser les m√©triques cl√©s.
---


In [None]:
import mlflow
import mlflow.sklearn
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, roc_curve, auc
from joblib import load


# 1Ô∏è‚É£ R√©cup√©ration des runs MLflow


In [None]:
mlflow.set_tracking_uri("file:./mlruns")
experiment_name = "Churn_Prediction_Models"
client = mlflow.tracking.MlflowClient()
experiment = client.get_experiment_by_name(experiment_name)

In [None]:
if experiment is None:
    raise ValueError(f"‚ö†Ô∏è Aucun experiment MLflow trouv√© avec le nom : {experiment_name}")

In [None]:
runs = mlflow.search_runs(experiment_ids=[experiment.experiment_id])
print(f"‚úÖ {len(runs)} runs trouv√©s pour l'exp√©rience '{experiment_name}'")

# 2Ô∏è‚É£ Synth√®se des performances

In [None]:
# ==========================================================
# 2Ô∏è‚É£ Synth√®se des performances
# ==========================================================
metrics_summary = runs[["tags.model_name", "tags.imbalance_strategy",
                        "metrics.f1_score", "metrics.accuracy", "run_id"]].sort_values("metrics.f1_score", ascending=False)
metrics_summary.columns = ["Model", "Strategy", "F1_score", "Accuracy", "Run_ID"]

In [None]:
display(metrics_summary.head(10))

# 3Ô∏è‚É£ Visualisation compar√©e (F1 & Accuracy)

In [None]:
# ==========================================================
# 3Ô∏è‚É£ Visualisation compar√©e (F1 & Accuracy)
# ==========================================================
plt.figure(figsize=(8,5))
sns.barplot(data=metrics_summary, x="Model", y="F1_score", hue="Strategy")
plt.title("üìä Comparaison du F1-score par mod√®le et strat√©gie")
plt.ylabel("F1-score")
plt.legend(title="Strat√©gie")
plt.show()

In [None]:
plt.figure(figsize=(8,5))
sns.barplot(data=metrics_summary, x="Model", y="Accuracy", hue="Strategy")
plt.title("üìà Comparaison de l‚ÄôAccuracy par mod√®le et strat√©gie")
plt.ylabel("Accuracy")
plt.legend(title="Strat√©gie")
plt.show()

# 4Ô∏è‚É£ S√©lection du meilleur mod√®le

In [None]:
# ==========================================================
# 4Ô∏è‚É£ S√©lection du meilleur mod√®le
# ==========================================================
best_run = metrics_summary.iloc[0]
print(f"üèÜ Meilleur mod√®le : {best_run['Model']} ({best_run['Strategy']})")
print(f"F1 = {best_run['F1_score']:.3f} | Accuracy = {best_run['Accuracy']:.3f}")

## Charger le mod√®le depuis MLflow

In [None]:
# Charger le mod√®le depuis MLflow
model_uri = f"runs:/{best_run['Run_ID']}/model"
best_model = mlflow.sklearn.load_model(model_uri)

## Charger les donn√©es test

In [None]:
# Charger les donn√©es test
X_test = load("data/X_test.pkl")
y_test = load("data/y_test.pkl")

# 5Ô∏è‚É£ Visualisations de performance du meilleur mod√®le

In [None]:
# ==========================================================
# 5Ô∏è‚É£ Visualisations de performance du meilleur mod√®le
# ==========================================================
y_pred = best_model.predict(X_test)
y_proba = best_model.predict_proba(X_test)[:,1]

## Matrice de confusion

In [None]:
# Matrice de confusion
cm = confusion_matrix(y_test, y_pred)
ConfusionMatrixDisplay(cm).plot(cmap="Blues")
plt.title(f"Confusion Matrix - {best_run['Model']} ({best_run['Strategy']})")
plt.show()

## Courbe ROC

In [None]:
# Courbe ROC
fpr, tpr, _ = roc_curve(y_test, y_proba)
roc_auc = auc(fpr, tpr)
plt.figure(figsize=(6,6))
plt.plot(fpr, tpr, label=f"AUC = {roc_auc:.3f}")
plt.plot([0,1], [0,1], linestyle="--", color="gray")
plt.title(f"ROC Curve - {best_run['Model']} ({best_run['Strategy']})")
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.legend()
plt.show()

# 6Ô∏è‚É£ Export de la synth√®se

In [None]:
# ==========================================================
# 6Ô∏è‚É£ Export de la synth√®se
# ==========================================================
metrics_summary.to_csv("reports/model_comparison_results.csv", index=False)
print("üíæ R√©sultats sauvegard√©s dans reports/model_comparison_results.csv")

# 7Ô∏è‚É£ Rapport rapide

In [None]:
# ==========================================================
# 7Ô∏è‚É£ Rapport rapide
# ==========================================================
import markdown
summary_text = f"""
# üßæ Rapport de comparaison des mod√®les

**Exp√©rience MLflow :** {experiment_name}

**Nombre de runs :** {len(runs)}

**Meilleur mod√®le :** {best_run['Model']} ({best_run['Strategy']})
- F1-score : {best_run['F1_score']:.3f}
- Accuracy : {best_run['Accuracy']:.3f}

Les figures ci-dessus montrent la comparaison entre les trois mod√®les et les diff√©rentes strat√©gies d'√©quilibrage.
Le meilleur compromis entre pr√©cision et rappel est obtenu avec **{best_run['Model']}** en mode **{best_run['Strategy']}**.
"""

In [None]:
with open("reports/model_comparison.md", "w", encoding="utf-8") as f:
    f.write(summary_text)

In [None]:
print("üìò Rapport enregistr√© : reports/model_comparison.md")