# Du Chaos √† MLflow : Un Parcours Guid√©

## Objectif du Workshop

Vous venez d'exp√©rimenter le **notebook chaotique** (`01_messy_notebook.ipynb`). Vous avez probablement remarqu√© :

- "Attends, c'√©tait lequel le meilleur mod√®le d√©j√†?"
- M√©triques √©parpill√©es dans les cellules, difficiles √† comparer
- Aucun moyen de reproduire exactement les r√©sultats
- Tracking manuel dans des tableaux markdown (que vous avez oubli√© de mettre √† jour)

**Dans ce notebook, nous allons corriger tout √ßa avec MLflow.**

---

## Comment fonctionne ce notebook

Nous allons progressivement augmenter la difficult√© :

| Partie | Style | Vous allez... |
|--------|-------|---------------|
| **Partie 1** | Enti√®rement guid√© | Ex√©cuter le code, observer, apprendre les concepts |
| **Partie 2** | R√©v√©lation progressive | Deviner ce qui est n√©cessaire, puis voir la solution |
| **Partie 3** | Compl√©ter les blancs | Compl√©ter le code vous-m√™me |

**R√©f√©rence** : Voir `02_mlflow_organized.ipynb` pour la solution compl√®te.

**Cheatsheet** : Voir `../docs/mlflow_cheatsheet.md` pour une r√©f√©rence rapide.

---

## Pr√©requis

Avant de commencer, assurez-vous que :
1. Le serveur MLflow est en cours d'ex√©cution : `docker-compose up -d` (depuis la racine du projet)
2. V√©rifiez que http://localhost:5000 est accessible

> ‚ö†Ô∏è **Utilisateurs Mac** : Le port 5000 est utilis√© par AirPlay Receiver sur macOS Monterey+.
> Si vous avez une erreur de connexion, modifiez `MLFLOW_PORT=5050` dans votre fichier `.env`
> et utilisez `http://localhost:5050` partout o√π vous voyez `localhost:5000`.

## Setup : Charger les donn√©es du notebook chaotique

D'abord, reproduisons la m√™me pr√©paration de donn√©es que dans le notebook chaotique.

In [None]:
# Imports standards (identiques au notebook chaotique)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import warnings
warnings.filterwarnings('ignore')

print("Imports termin√©s!")

Imports termin√©s!


In [None]:
# Charger et pr√©parer les donn√©es (identique au notebook chaotique)
df = pd.read_csv('../data/customer_data.csv')

# Feature engineering
df['recency_frequency_ratio'] = df['recency_days'] / (df['frequency'] + 1)
df['monetary_per_order'] = df['monetary_value'] / (df['total_orders'] + 1)
df['order_frequency'] = df['total_orders'] / (df['days_since_signup'] + 1)
df['support_per_order'] = df['support_tickets'] / (df['total_orders'] + 1)
df['r_score'] = pd.qcut(df['recency_days'], q=5, labels=[5, 4, 3, 2, 1]).astype(int)
df['f_score'] = pd.qcut(df['frequency'].rank(method='first'), q=5, labels=[1, 2, 3, 4, 5]).astype(int)
df['m_score'] = pd.qcut(df['monetary_value'].rank(method='first'), q=5, labels=[1, 2, 3, 4, 5]).astype(int)
df['rfm_score'] = df['r_score'] + df['f_score'] + df['m_score']

# D√©finir les features
FEATURE_COLS = [
    'recency_days', 'frequency', 'monetary_value', 'avg_order_value',
    'days_since_signup', 'total_orders', 'support_tickets', 'age',
    'recency_frequency_ratio', 'monetary_per_order', 'order_frequency',
    'support_per_order', 'rfm_score'
]

X = df[FEATURE_COLS]
y = df['churned']

# S√©paration train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Donn√©es pr√™tes : {len(X_train)} train, {len(X_test)} test √©chantillons")
print(f"Features : {len(FEATURE_COLS)}")

Donn√©es pr√™tes : 4000 train, 1000 test √©chantillons
Features : 13


---

# PARTIE 1 : Enti√®rement Guid√©

## 1.1 Qu'est-ce que MLflow ?

MLflow est une plateforme open-source pour g√©rer le **cycle de vie complet du ML**. Elle a 4 composants principaux :

### 1. **Tracking** (notre focus principal aujourd'hui)
Enregistrer et requ√™ter les exp√©riences : param√®tres, m√©triques, artefacts et versions du code.
- *"Quels hyperparam√®tres j'ai utilis√© pour mon meilleur mod√®le ?"*
- *"Comparer l'accuracy sur 50 runs"*

### 2. **Models**
Packager les mod√®les ML dans un format standard pour le d√©ploiement sur diverses plateformes (Docker, Kubernetes, services cloud, etc.).
- *"D√©ployer ce mod√®le sklearn comme API REST"*
- *"Convertir mon mod√®le pour de l'inf√©rence batch"*

### 3. **Model Registry** (on va l'utiliser aussi)
Store centralis√© de mod√®les avec versioning, transitions d'√©tat (Staging ‚Üí Production), et annotations.
- *"Promouvoir le mod√®le v3 en production"*
- *"Qui a approuv√© cette version du mod√®le ?"*

### 4. **Projects**
Packager le code et les d√©pendances pour des ex√©cutions reproductibles sur n'importe quelle plateforme.
- *"Ex√©cuter cette exp√©rience avec exactement le m√™me environnement"*
- *"Partager mon pipeline avec l'√©quipe"*

---

### MLflow pour les LLMs (Bonus)

MLflow supporte maintenant les **applications LLM/GenAI** :
- **Tracing** : D√©bugger et monitorer les appels LLM, pipelines RAG, et agents multi-√©tapes
- **√âvaluation** : Benchmarker les outputs LLM avec des m√©triques int√©gr√©es
- **D√©ploiement** : Servir les mod√®les LLM avec la m√™me infrastructure de serving

*On ne couvre pas le tracking LLM aujourd'hui, mais sachez que MLflow fonctionne au-del√† du ML traditionnel !*

---

**Aujourd'hui on se concentre sur Tracking et Registry** - les fondations pour la gestion d'exp√©riences.

## 1.2 Se connecter √† MLflow

D'abord, on importe MLflow et on lui indique o√π se trouve notre serveur de tracking.

In [None]:
# NOUVEAU : Importer MLflow
import mlflow
import mlflow.sklearn

print(f"Version MLflow : {mlflow.__version__}")

Version MLflow : 3.9.0


In [None]:
# Se connecter au serveur MLflow (qui tourne dans Docker)
mlflow.set_tracking_uri("http://localhost:5000")

# V√©rifier la connexion
import requests
try:
    response = requests.get("http://localhost:5000/health")
    if response.status_code == 200:
        print("Le serveur MLflow fonctionne !")
    else:
        print(f"Le serveur a r√©pondu avec : {response.status_code}")
except Exception as e:
    print(f"Impossible de se connecter au serveur MLflow : {e}")
    print("Ex√©cutez 'docker-compose up -d' depuis la racine du projet !")

Le serveur MLflow fonctionne !


## 1.3 Cr√©er une Exp√©rience

Une **Exp√©rience** regroupe les runs associ√©s ensemble. Pensez-y comme un dossier de projet.

In [None]:
# Cr√©er ou r√©cup√©rer une exp√©rience
experiment_name = "workshop-churn-learning"
mlflow.set_experiment(experiment_name)

print(f"Utilisation de l'exp√©rience : {experiment_name}")
print(f"Voir sur : http://localhost:5000")

2026/02/20 05:37:11 INFO mlflow.tracking.fluent: Experiment with name 'workshop-churn-learning' does not exist. Creating a new experiment.


Utilisation de l'exp√©rience : workshop-churn-learning
Voir sur : http://localhost:5000


## 1.4 Votre Premier Run MLflow

Un **Run** est une ex√©cution unique de votre code d'entra√Ænement. Dans un run, vous pouvez logger :

- **Parameters** : Les entr√©es (hyperparam√®tres, config)
- **Metrics** : Les sorties (accuracy, loss, F1)
- **Artifacts** : Les fichiers (mod√®les, graphiques, donn√©es)
- **Tags** : Les m√©tadonn√©es (auteur, version)

In [None]:
# Entra√Ænons un mod√®le simple et LOGGONS TOUT

# D√©marrer un run
with mlflow.start_run(run_name="mon-premier-run-mlflow"):
    
    # 1. LOGGER LES PARAM√àTRES (entr√©es de votre mod√®le)
    mlflow.log_param("model_type", "RandomForest")
    mlflow.log_param("n_estimators", 100)
    mlflow.log_param("max_depth", 10)
    
    # 2. Entra√Æner le mod√®le (m√™me code qu'avant)
    model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
    model.fit(X_train, y_train)
    
    # 3. Faire des pr√©dictions
    y_pred = model.predict(X_test)
    
    # 4. LOGGER LES M√âTRIQUES (sorties/r√©sultats)
    accuracy = accuracy_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    
    mlflow.log_metric("accuracy", accuracy)
    mlflow.log_metric("f1", f1)
    
    print(f"Accuracy : {accuracy:.4f}")
    print(f"Score F1 : {f1:.4f}")
    print("\nRun enregistr√© dans MLflow !")
    print("Allez sur http://localhost:5000 pour le voir !")

Accuracy : 0.7810
Score F1 : 0.7763

Run enregistr√© dans MLflow !
Allez sur http://localhost:5000 pour le voir !
üèÉ View run mon-premier-run-mlflow at: http://localhost:5000/#/experiments/1/runs/35588a0a49ad4838b29d7623fc1d8bff
üß™ View experiment at: http://localhost:5000/#/experiments/1


### Allez voir l'UI MLflow !

1. Ouvrez http://localhost:5000
2. Cliquez sur l'exp√©rience "workshop-churn-learning"
3. Cliquez sur "mon-premier-run-mlflow"
4. Voyez vos param√®tres et m√©triques !

**C'est d√©j√† mieux que le notebook chaotique** - vos r√©sultats sont sauvegard√©s et organis√©s !

## 1.5 Logger plusieurs m√©triques √† la fois

Au lieu d'appeler `log_metric` plusieurs fois, vous pouvez logger un dictionnaire.

In [None]:
# Plus efficace : logger plusieurs m√©triques d'un coup
with mlflow.start_run(run_name="exemple-metriques-multiples"):
    
    # Logger les params en dict
    mlflow.log_params({
        "model_type": "RandomForest",
        "n_estimators": 150,
        "max_depth": 12
    })
    
    # Entra√Æner
    model = RandomForestClassifier(n_estimators=150, max_depth=12, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    # Logger les m√©triques en dict
    mlflow.log_metrics({
        "accuracy": accuracy_score(y_test, y_pred),
        "precision": precision_score(y_test, y_pred),
        "recall": recall_score(y_test, y_pred),
        "f1": f1_score(y_test, y_pred)
    })
    
    print("Toutes les m√©triques logg√©es !")

Toutes les m√©triques logg√©es !
üèÉ View run exemple-metriques-multiples at: http://localhost:5000/#/experiments/1/runs/558ad9bfd4624f52b6af5a92fb0f56a7
üß™ View experiment at: http://localhost:5000/#/experiments/1


---

# PARTIE 2 : R√©v√©lation Progressive

Maintenant vous comprenez les bases. Ajoutons plus de fonctionnalit√©s MLflow.

**Format** : Je vous montre un probl√®me, vous r√©fl√©chissez √† ce qui est n√©cessaire, puis je r√©v√®le la solution.

## 2.1 Probl√®me : Sauvegarder le mod√®le

Dans le notebook chaotique, on avait :
```python
# sauvegarder le mod√®le? je sais pas o√π
# import pickle
# with open('model.pkl', 'wb') as f:
#     pickle.dump(best_rf, f)
```

**Question** : Comment peut-on sauvegarder le mod√®le AVEC le run, pour qu'il soit toujours li√© √† ses m√©triques ?

*R√©fl√©chissez-y... puis ex√©cutez la cellule suivante pour voir la solution.*

In [None]:
# SOLUTION : Utiliser mlflow.sklearn.log_model()

with mlflow.start_run(run_name="avec-artefact-modele"):
    
    mlflow.log_params({"n_estimators": 100, "max_depth": 10})
    
    model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    mlflow.log_metrics({
        "accuracy": accuracy_score(y_test, y_pred),
        "f1": f1_score(y_test, y_pred)
    })
    
    # LOGGER LE MOD√àLE - il est maintenant sauvegard√© avec ce run !
    mlflow.sklearn.log_model(model, name="model")
    
    print("Mod√®le sauvegard√© comme artefact !")
    print("V√©rifiez l'onglet 'Artifacts' dans l'UI MLflow")



Mod√®le sauvegard√© comme artefact !
V√©rifiez l'onglet 'Artifacts' dans l'UI MLflow
üèÉ View run avec-artefact-modele at: http://localhost:5000/#/experiments/1/runs/333c8fcf4ea44402a955464f54a44813
üß™ View experiment at: http://localhost:5000/#/experiments/1


## 2.2 Probl√®me : Sauvegarder les graphiques

Dans le notebook chaotique, on cr√©ait des matrices de confusion et des graphiques d'importance des features.
Mais ils s'affichaient juste dans le notebook - pas sauvegard√©s nulle part !

**Question** : Comment peut-on sauvegarder une figure matplotlib comme artefact ?

*R√©fl√©chissez... puis r√©v√©lez.*

In [None]:
# SOLUTION : Utiliser mlflow.log_figure()

with mlflow.start_run(run_name="avec-graphiques"):
    
    model = RandomForestClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    mlflow.log_metrics({"accuracy": accuracy_score(y_test, y_pred)})
    
    # Cr√©er le graphique de matrice de confusion
    cm = confusion_matrix(y_test, y_pred)
    fig, ax = plt.subplots(figsize=(6, 4))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=ax)
    ax.set_xlabel('Pr√©dit')
    ax.set_ylabel('R√©el')
    ax.set_title('Matrice de Confusion')
    
    # LOGGER LA FIGURE - pas de fichier local cr√©√© !
    mlflow.log_figure(fig, "matrice_confusion.png")
    plt.close()
    
    print("Graphique sauvegard√© comme artefact !")

Graphique sauvegard√© comme artefact !
üèÉ View run avec-graphiques at: http://localhost:5000/#/experiments/1/runs/b427ce16f2804ebe91ca2c667794f8a1
üß™ View experiment at: http://localhost:5000/#/experiments/1


## 2.3 Probl√®me : Le probl√®me du Scaler

Pour la R√©gression Logistique, on doit normaliser les features :
```python
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
```

**Probl√®me** : Au moment de l'inf√©rence, on a besoin du M√äME scaler. Si on ne le sauvegarde pas, on ne peut pas faire de pr√©dictions correctes plus tard !

**Question** : Comment sauvegarder le scaler avec le mod√®le ?

*R√©fl√©chissez... puis r√©v√©lez.*

In [None]:
# SOLUTION : Sauvegarder le scaler comme artefact
import joblib
import tempfile
import os

with mlflow.start_run(run_name="logistique-avec-scaler"):
    
    # Normaliser les donn√©es
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # Sauvegarder le scaler comme artefact (avec tempfile pour √©viter les fichiers locaux)
    with tempfile.TemporaryDirectory() as tmpdir:
        scaler_path = os.path.join(tmpdir, "scaler.pkl")
        joblib.dump(scaler, scaler_path)
        mlflow.log_artifact(scaler_path, artifact_path="preprocessing")
    
    # Entra√Æner le mod√®le
    model = LogisticRegression(random_state=42, max_iter=1000)
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)
    
    mlflow.log_metrics({"accuracy": accuracy_score(y_test, y_pred)})
    mlflow.sklearn.log_model(model, name="model")
    
    # Tag pour se rappeler que ce mod√®le n√©cessite un scaling
    mlflow.set_tag("requires_scaling", "true")
    
    print("Mod√®le + scaler sauvegard√©s !")
    print("V√©rifiez les artefacts : preprocessing/scaler.pkl")



Mod√®le + scaler sauvegard√©s !
V√©rifiez les artefacts : preprocessing/scaler.pkl
üèÉ View run logistique-avec-scaler at: http://localhost:5000/#/experiments/1/runs/701ec316385f414caa10b8387fe73807
üß™ View experiment at: http://localhost:5000/#/experiments/1


### üí° Note : En production, pr√©f√©rez sklearn Pipeline

L'approche ci-dessus (sauvegarder scaler.pkl s√©par√©ment) est utile pour comprendre le probl√®me, mais en production il existe une meilleure solution : **sklearn Pipeline**.

```python
from sklearn.pipeline import Pipeline

# Combiner scaler + mod√®le en UN SEUL objet
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LogisticRegression())
])
pipeline.fit(X_train, y)
mlflow.sklearn.log_model(pipeline, name="model")  # UN seul artefact !

# √Ä l'inf√©rence : pipeline.predict(X)  # Le scaling est automatique !
```

**Avantages :** Un seul artefact, impossible d'oublier le scaling, inf√©rence simplifi√©e.

Voir `02_mlflow_organized.ipynb` section 8.1 pour un exemple complet.

## 2.4 Probl√®me : Comparer les runs

Dans le notebook chaotique :
```python
# ok j'abandonne d'essayer de suivre toutes ces exp√©riences
# c'√©tait lequel le meilleur? je crois que c'√©tait celui de grid search?
```

**Question** : Comment trouver programmatiquement le meilleur run ?

*R√©fl√©chissez... puis r√©v√©lez.*

In [None]:
# SOLUTION : Utiliser le Client MLflow pour rechercher les runs
from mlflow.tracking import MlflowClient

client = MlflowClient()
experiment = client.get_experiment_by_name(experiment_name)

# Rechercher les runs, tri√©s par accuracy (d√©croissant)
runs = client.search_runs(
    experiment_ids=[experiment.experiment_id],
    order_by=["metrics.accuracy DESC"],
    max_results=5
)

print("Top 5 des runs par accuracy :")
print("=" * 60)
for run in runs:
    acc = run.data.metrics.get('accuracy', 0)
    f1 = run.data.metrics.get('f1', 0)
    print(f"{run.info.run_name}: accuracy={acc:.4f}, f1={f1:.4f}")

Top 5 des runs par accuracy :
logistique-avec-scaler: accuracy=0.8050, f1=0.0000
exemple-metriques-multiples: accuracy=0.7870, f1=0.7815
avec-artefact-modele: accuracy=0.7810, f1=0.7763
mon-premier-run-mlflow: accuracy=0.7810, f1=0.7763
avec-graphiques: accuracy=0.7770, f1=0.0000


---

# PARTIE 3 : Compl√©ter les blancs

Maintenant c'est √† vous ! Compl√©tez le code dans les cellules suivantes.

**Aide** : R√©f√©rez-vous au cheatsheet dans `../docs/mlflow_cheatsheet.md`

## 3.1 Exercice : Logger un mod√®le Gradient Boosting

Compl√©tez le code pour entra√Æner et logger un mod√®le Gradient Boosting avec :
- Param√®tres : n_estimators, learning_rate, max_depth
- M√©triques : accuracy, precision, recall, f1
- Artefact : le mod√®le entra√Æn√©

In [None]:
# EXERCICE : Compl√©tez ce code

with mlflow.start_run(run_name="exercice-gradient-boosting"):
    
    # TODO : Logger ces param√®tres
    n_estimators = 100
    learning_rate = 0.1
    max_depth = 5
    
    # mlflow.log_params({...})  # <-- Compl√©tez ceci
    
    # Entra√Æner le mod√®le
    model = GradientBoostingClassifier(
        n_estimators=n_estimators,
        learning_rate=learning_rate,
        max_depth=max_depth,
        random_state=42
    )
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    # TODO : Calculer et logger les m√©triques
    # mlflow.log_metrics({...})  # <-- Compl√©tez ceci
    
    # TODO : Logger le mod√®le
    # mlflow.sklearn.log_model(...)  # <-- Compl√©tez ceci
    
    print("Exercice termin√© ! V√©rifiez l'UI MLflow.")

Exercice termin√© ! V√©rifiez l'UI MLflow.
üèÉ View run exercice-gradient-boosting at: http://localhost:5000/#/experiments/1/runs/1bf21726b72c40f7892579d9241849ee
üß™ View experiment at: http://localhost:5000/#/experiments/1


<details>
<summary>Cliquez pour r√©v√©ler la solution</summary>

```python
with mlflow.start_run(run_name="exercice-gradient-boosting"):
    
    n_estimators = 100
    learning_rate = 0.1
    max_depth = 5
    
    mlflow.log_params({
        "n_estimators": n_estimators,
        "learning_rate": learning_rate,
        "max_depth": max_depth
    })
    
    model = GradientBoostingClassifier(
        n_estimators=n_estimators,
        learning_rate=learning_rate,
        max_depth=max_depth,
        random_state=42
    )
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    mlflow.log_metrics({
        "accuracy": accuracy_score(y_test, y_pred),
        "precision": precision_score(y_test, y_pred),
        "recall": recall_score(y_test, y_pred),
        "f1": f1_score(y_test, y_pred)
    })
    
    mlflow.sklearn.log_model(model, name="model")
```

</details>

## 3.2 Exercice : Ajouter des tags et une matrice de confusion

Am√©liorez votre run avec :
- Tags : author (votre nom), model_type
- Un graphique de matrice de confusion comme artefact

In [None]:
# EXERCICE : Compl√©tez ce code

with mlflow.start_run(run_name="exercice-avec-tags-et-graphique"):
    
    # TODO : Ajouter des tags
    # mlflow.set_tag("author", "...")  # <-- Votre nom
    # mlflow.set_tag("model_type", "...")  # <-- Type de mod√®le
    
    model = RandomForestClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    mlflow.log_metric("accuracy", accuracy_score(y_test, y_pred))
    
    # TODO : Cr√©er et logger la matrice de confusion
    # cm = confusion_matrix(y_test, y_pred)
    # fig, ax = plt.subplots(...)
    # sns.heatmap(...)
    # mlflow.log_figure(...)  # <-- Compl√©tez ceci
    # plt.close()
    
    print("Exercice termin√© !")

Exercice termin√© !
üèÉ View run exercice-avec-tags-et-graphique at: http://localhost:5000/#/experiments/1/runs/59f9d2980784421a93261bd7ecac3abe
üß™ View experiment at: http://localhost:5000/#/experiments/1


## 3.3 D√©fi : Trouver et charger le meilleur mod√®le

Utilisez le Client MLflow pour :
1. Trouver le run avec la meilleure accuracy
2. Charger le mod√®le de ce run
3. Faire des pr√©dictions sur de nouvelles donn√©es

In [None]:
# D√âFI : Compl√©tez ce code

from mlflow.tracking import MlflowClient

client = MlflowClient()
experiment = client.get_experiment_by_name(experiment_name)

# TODO : Rechercher le meilleur run par accuracy
# best_runs = client.search_runs(
#     experiment_ids=[...],
#     order_by=[...],
#     max_results=1
# )

# if best_runs:
#     best_run = best_runs[0]
#     print(f"Meilleur run : {best_run.info.run_name}")
#     print(f"Accuracy : {best_run.data.metrics.get('accuracy', 0):.4f}")
    
#     # TODO : Charger le mod√®le
#     # model_uri = f"runs:/{best_run.info.run_id}/model"
#     # loaded_model = mlflow.sklearn.load_model(model_uri)
    
#     # TODO : Faire des pr√©dictions
#     # predictions = loaded_model.predict(X_test[:5])
#     # print(f"Exemples de pr√©dictions : {predictions}")

---

# PARTIE 4 : Serving & Inf√©rence

Vous savez d√©j√† servir des mod√®les avec joblib + FastAPI. Voyons comment MLflow simplifie cela.

## 4.1 Enregistrer un mod√®le

Avant de servir, enregistrons notre meilleur mod√®le dans le Model Registry.

In [None]:
# D'abord, entra√Ænons un mod√®le qu'on veut enregistrer
with mlflow.start_run(run_name="modele-pour-registry") as run:
    
    mlflow.log_params({"n_estimators": 200, "max_depth": 12})
    
    model = RandomForestClassifier(n_estimators=200, max_depth=12, random_state=42)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    mlflow.log_metrics({
        "accuracy": accuracy_score(y_test, y_pred),
        "f1": f1_score(y_test, y_pred)
    })
    
    # Logger le mod√®le
    mlflow.sklearn.log_model(model, name="model")
    
    # Sauvegarder run_id pour l'enregistrement
    run_id = run.info.run_id
    print(f"Mod√®le logg√©. Run ID : {run_id}")



Mod√®le logg√©. Run ID : 3a9c803f082449ad958e9dfd7bdc6da2
üèÉ View run modele-pour-registry at: http://localhost:5000/#/experiments/1/runs/3a9c803f082449ad958e9dfd7bdc6da2
üß™ View experiment at: http://localhost:5000/#/experiments/1


In [None]:
# Enregistrer le mod√®le dans le Model Registry
model_name = "churn-predictor"
model_uri = f"runs:/{run_id}/model"

# Enregistrer !
model_version = mlflow.register_model(model_uri, model_name)

print(f"Mod√®le enregistr√© : {model_name}")
print(f"Version : {model_version.version}")
print(f"\nVoir dans l'UI : http://localhost:5000/#/models/{model_name}")

Successfully registered model 'churn-predictor'.
2026/02/20 05:38:24 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: churn-predictor, version 1


Mod√®le enregistr√© : churn-predictor
Version : 1

Voir dans l'UI : http://localhost:5000/#/models/churn-predictor


Created version '1' of model 'churn-predictor'.


## 4.2 Charger un mod√®le depuis le Registry

Au lieu de `joblib.load('model.pkl')`, vous pouvez charger par nom et version.

In [None]:
# Charger le mod√®le depuis le registry - comparez avec ce que vous connaissez !

# ANCIENNE M√âTHODE (ce que vous connaissez d√©j√†) :
# model = joblib.load('model.pkl')  # O√π est-il ? Quelle version ?

# M√âTHODE MLFLOW :
# Charger la derni√®re version
loaded_model = mlflow.sklearn.load_model(f"models:/{model_name}/latest")

# Ou charger une version sp√©cifique
# loaded_model = mlflow.sklearn.load_model(f"models:/{model_name}/1")

# Faire des pr√©dictions - identique √† avant !
sample_predictions = loaded_model.predict(X_test[:5])
print(f"Exemples de pr√©dictions : {sample_predictions}")
print(f"\nMod√®le charg√© depuis le registry : {model_name}/latest")

Exemples de pr√©dictions : [0 1 0 1 1]

Mod√®le charg√© depuis le registry : churn-predictor/latest


## 4.3 Servir le mod√®le comme API REST

> ‚ö†Ô∏è **Pr√©requis** : Vous devez avoir ex√©cut√© les sections 4.1 et 4.2 pour enregistrer le mod√®le dans le Registry avant de pouvoir le servir.

Vous savez comment servir des mod√®les avec FastAPI :

```python
# ANCIENNE M√âTHODE - FastAPI + joblib
from fastapi import FastAPI
import joblib

app = FastAPI()
model = joblib.load('model.pkl')

@app.post("/predict")
def predict(data: dict):
    X = pd.DataFrame([data])
    return {"prediction": model.predict(X).tolist()}
```

**MLflow fait √ßa en une commande :**

```bash
# Windows (PowerShell)
$env:MLFLOW_TRACKING_URI="http://localhost:5000"; mlflow models serve -m "models:/churn-predictor/latest" -p 5001 --no-conda

# Windows (CMD)
set MLFLOW_TRACKING_URI=http://localhost:5000 && mlflow models serve -m "models:/churn-predictor/latest" -p 5001 --no-conda

# Linux/Mac
MLFLOW_TRACKING_URI=http://localhost:5000 mlflow models serve -m "models:/churn-predictor/latest" -p 5001 --no-conda
```

> üí° **Important** : La variable `MLFLOW_TRACKING_URI` indique √† la CLI o√π trouver le serveur MLflow. Sans elle, la commande ne sait pas o√π chercher le mod√®le !

> ‚ö†Ô∏è **Si vous utilisez `uv` pour g√©rer votre environnement virtuel** et obtenez l'erreur "failed to canonicalize script path", utilisez cette commande √† la place :
> ```bash
> $env:MLFLOW_TRACKING_URI="http://localhost:5000"; uv run python -m mlflow models serve -m "models:/churn-predictor/latest" -p 5001 --no-conda
> ```

C'est tout. Pas besoin de code FastAPI.

In [None]:
# V√©rifier que le mod√®le est enregistr√© avant de le servir
from mlflow.tracking import MlflowClient
import platform

client = MlflowClient()
model_name = "churn-predictor"

try:
    versions = client.search_model_versions(f"name='{model_name}'")
    if versions:
        print(f"‚úÖ Mod√®le '{model_name}' trouv√© avec {len(versions)} version(s)")
        print(f"   Derni√®re version : {versions[0].version}")
        print(f"
Vous pouvez maintenant servir le mod√®le :")
        if platform.system() == "Windows":
            print(f'
   # PowerShell:')
            print(f'   $env:MLFLOW_TRACKING_URI="http://localhost:5000"; mlflow models serve -m "models:/{model_name}/latest" -p 5001 --no-conda')
            print(f'
   # Si erreur "failed to canonicalize script path" (avec uv):')
            print(f'   $env:MLFLOW_TRACKING_URI="http://localhost:5000"; uv run python -m mlflow models serve -m "models:/{model_name}/latest" -p 5001 --no-conda')
        else:
            print(f'
   MLFLOW_TRACKING_URI=http://localhost:5000 mlflow models serve -m "models:/{model_name}/latest" -p 5001 --no-conda')
    else:
        print(f"‚ùå Mod√®le '{model_name}' non trouv√© dans le Registry")
        print("   ‚Üí Ex√©cutez d'abord les sections 4.1 et 4.2 !")
except Exception as e:
    print(f"‚ùå Erreur : {e}")
    print("   ‚Üí Ex√©cutez d'abord les sections 4.1 et 4.2 !")

In [None]:
# Si vous ex√©cutez la commande serve ci-dessus, vous pouvez l'appeler comme ceci :
# (C'est le m√™me pattern que vous connaissez avec FastAPI !)

import requests

# Donn√©es exemple pour la pr√©diction
sample_data = X_test.head(3).to_dict(orient='split')

# D√©commentez quand le serveur tourne :
# response = requests.post(
#     "http://localhost:5001/invocations",
#     json={"dataframe_split": sample_data}
# )
# print(response.json())

print("Pour tester le serving :")
print("1. Ouvrez un terminal")
print("2. Ex√©cutez la commande affich√©e dans la cellule pr√©c√©dente")
print("   (N'oubliez pas MLFLOW_TRACKING_URI !)")
print("3. D√©commentez le code ci-dessus et ex√©cutez cette cellule")

## 4.4 Inf√©rence Batch (Charger depuis le Registry)

Pour des pr√©dictions batch dans un pipeline, chargez et pr√©disez simplement :

In [None]:
# Inf√©rence batch - c'est ce que les orchestrateurs vont faire !

# Charger le mod√®le depuis le registry
model = mlflow.sklearn.load_model(f"models:/{model_name}/latest")

# Charger de nouvelles donn√©es (simuler un batch quotidien)
new_customers = df[FEATURE_COLS].head(100)

# Pr√©dire
predictions = model.predict(new_customers)
probabilities = model.predict_proba(new_customers)[:, 1]

# Cr√©er les r√©sultats
results = pd.DataFrame({
    'customer_id': df['customer_id'].head(100),
    'churn_probability': probabilities,
    'churn_predicted': predictions
})

print(f"Pr√©dictions batch pour {len(results)} clients :")
print(results.head(10))

Pr√©dictions batch pour 100 clients :
   customer_id  churn_probability  churn_predicted
0            1           0.827594                1
1            2           0.197167                0
2            3           0.939545                1
3            4           0.079333                0
4            5           0.814197                1
5            6           0.276842                0
6            7           0.338037                0
7            8           0.159866                0
8            9           0.954640                1
9           10           0.871626                1


## 4.5 Comparaison : Ce que vous connaissez vs MLflow

| T√¢che | Manuel (joblib + FastAPI) | MLflow |
|-------|---------------------------|--------|
| Sauvegarder mod√®le | `joblib.dump(model, 'model_v2.pkl')` | `mlflow.sklearn.log_model(model, name="model")` |
| Charger mod√®le | `joblib.load('model_v2.pkl')` | `mlflow.sklearn.load_model("models:/name/1")` |
| Versioning | Noms de fichiers manuels (`model_v1.pkl`, `model_v2.pkl`) | Versions automatiques (1, 2, 3...) |
| Servir en API | √âcrire du code FastAPI, lancer uvicorn | `mlflow models serve -m models:/name/1` |
| Tracker quel mod√®le | Esp√©rer se souvenir / v√©rifier les dates de fichiers | Registry montre version, m√©triques, qui l'a entra√Æn√© |
| Rollback | Trouver l'ancien fichier, esp√©rer qu'il marche | `mlflow.sklearn.load_model("models:/name/1")` |

**MLflow ne remplace pas vos comp√©tences** - il les enrichit avec le versioning, le tracking et l'automatisation.

---

# R√©sum√©

## Ce que vous avez appris

| Concept | Code |
|---------|------|
| Se connecter √† MLflow | `mlflow.set_tracking_uri("http://localhost:5000")` |
| Cr√©er une exp√©rience | `mlflow.set_experiment("name")` |
| D√©marrer un run | `with mlflow.start_run():` |
| Logger des param√®tres | `mlflow.log_params({"key": value})` |
| Logger des m√©triques | `mlflow.log_metrics({"accuracy": 0.95})` |
| Logger un mod√®le | `mlflow.sklearn.log_model(model, name="model")` |
| Logger une figure | `mlflow.log_figure(fig, "plot.png")` |
| Logger un artefact | `mlflow.log_artifact("file.pkl")` |
| D√©finir des tags | `mlflow.set_tag("author", "me")` |
| Rechercher des runs | `client.search_runs(...)` |
| Enregistrer un mod√®le | `mlflow.register_model(uri, "name")` |
| Charger depuis le registry | `mlflow.sklearn.load_model("models:/name/latest")` |
| Servir un mod√®le | `mlflow models serve -m models:/name/1 -p 5001` |

## Le Pipeline ML Complet

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  D√âVELOPPER  ‚îÇ ‚Üí  ‚îÇ  ENTRA√éNER   ‚îÇ ‚Üí  ‚îÇ  ENREGISTRER ‚îÇ ‚Üí  ‚îÇ    SERVIR    ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ  Notebooks   ‚îÇ    ‚îÇ Orchestrateur‚îÇ    ‚îÇ    Model     ‚îÇ    ‚îÇ  API REST    ‚îÇ
‚îÇ Exp√©riences  ‚îÇ    ‚îÇ  + Tracking  ‚îÇ    ‚îÇ   Registry   ‚îÇ    ‚îÇ   ou Batch   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
    Partie 1-3         Partie 4           Partie 4           Partie 4
```

## Prochaines √©tapes

**Notebook de r√©f√©rence** : Voir `02_mlflow_organized.ipynb` pour la version compl√®te, pr√™te pour la production.

**Orchestrateurs** : Maintenant que vous comprenez MLflow, automatisons ce pipeline !
- **Prefect** : Voir `pipelines/workshop/02_prefect/Prefect_Workshop.py` - entra√Æne ET fait de l'inf√©rence
- **Dagster** : Voir `pipelines/workshop/03_dagster/Dagster_Workshop.py` - approche centr√©e sur les assets
- **Airflow** : Voir `pipelines/workshop/01_airflow/Airflow_Pipeline.py` - standard de l'industrie

Les orchestrateurs vont :
1. Planifier des runs d'entra√Ænement quotidiens
2. Logger tout dans MLflow automatiquement
3. Enregistrer les nouvelles versions de mod√®les
4. Ex√©cuter l'inf√©rence batch et sauvegarder les pr√©dictions

---