# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/14_best_practices/14_exercices.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)
import sys

IN_COLAB = 'google.colab' in sys.modules

if IN_COLAB:
    print('üì¶ Installation des packages...')
    !pip install -q numpy pandas matplotlib seaborn scikit-learn
    !pip install -q mlflow fastapi pydantic uvicorn requests joblib
    print('‚úÖ Installation termin√©e !')
else:
    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Chapitre 14 - Exercices : Best Practices & MLOps

Ce notebook contient des exercices pratiques pour consolider les concepts du Chapitre 14.

**Instructions** :
- Compl√©tez les cellules marqu√©es `# VOTRE CODE ICI`
- Les solutions sont disponibles dans `14_exercices_solutions.ipynb`
- N'h√©sitez pas √† consulter la documentation (MLflow, FastAPI, Pydantic)

**Note** : Certains exercices n√©cessitent l'ex√©cution locale (serveur FastAPI, MLflow UI).

---

## Setup Initial

In [None]:
# Imports n√©cessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import load_diabetes, load_wine
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score

import mlflow
import mlflow.sklearn
from mlflow.tracking import MlflowClient

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel, Field, validator
import uvicorn
import joblib
import requests

import time
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuration
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
np.random.seed(42)

print("‚úì Biblioth√®ques import√©es")

---

## Exercice 1 : MLflow Tracking

**Dataset** : Diabetes (r√©gression)

**Objectif** : Utiliser MLflow pour tracker plusieurs exp√©riences.

### 1.1 Configuration MLflow

In [None]:
# Configurez MLflow
# VOTRE CODE ICI

# TODO: D√©finissez le tracking URI (local)
mlflow.set_tracking_uri("file:./mlruns")

# TODO: Cr√©ez ou d√©finissez une exp√©rience
experiment_name = "diabetes-regression"
mlflow.set_experiment(experiment_name)

print(f"‚úì Exp√©rience MLflow : {experiment_name}")
print(f"Tracking URI : {mlflow.get_tracking_uri()}")

### 1.2 Chargement des Donn√©es

In [None]:
# Chargez le dataset Diabetes
# VOTRE CODE ICI

diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target  # type: ignore

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Train : {X_train.shape}, Test : {X_test.shape}")

### 1.3 Entra√Ænement avec Tracking MLflow

In [None]:
# Entra√Ænez plusieurs mod√®les avec tracking MLflow
# VOTRE CODE ICI

models = {
    'LinearRegression': LinearRegression(),
    'RandomForest_10': RandomForestRegressor(n_estimators=10, random_state=42),
    'RandomForest_50': RandomForestRegressor(n_estimators=50, random_state=42),
    'RandomForest_100': RandomForestRegressor(n_estimators=100, random_state=42)
}

for model_name, model in models.items():
    # TODO: D√©marrez un run MLflow
    with mlflow.start_run(run_name=model_name):
        # TODO: Loggez les param√®tres
        # mlflow.log_param("model_type", model_name)
        # if hasattr(model, 'n_estimators'):
        #     mlflow.log_param("n_estimators", model.n_estimators)
        
        # TODO: Entra√Ænez le mod√®le
        start_time = time.time()
        # model.fit(X_train, y_train)
        training_time = time.time() - start_time
        
        # TODO: Pr√©dictions
        # y_pred_train = model.predict(X_train)
        # y_pred_test = model.predict(X_test)
        
        # TODO: Calculez les m√©triques
        # train_rmse = np.sqrt(mean_squared_error(y_train, y_pred_train))
        # test_rmse = np.sqrt(mean_squared_error(y_test, y_pred_test))
        # train_r2 = r2_score(y_train, y_pred_train)
        # test_r2 = r2_score(y_test, y_pred_test)
        
        # TODO: Loggez les m√©triques
        # mlflow.log_metric("train_rmse", train_rmse)
        # mlflow.log_metric("test_rmse", test_rmse)
        # mlflow.log_metric("train_r2", train_r2)
        # mlflow.log_metric("test_r2", test_r2)
        # mlflow.log_metric("training_time", training_time)
        
        # TODO: Loggez le mod√®le
        # mlflow.sklearn.log_model(model, "model")
        
        print(f"{model_name} | Test RMSE: {test_rmse:.2f} | Test R¬≤: {test_r2:.3f}")

print("\n‚úì Toutes les exp√©riences sont enregistr√©es dans MLflow")
print("Lancez 'mlflow ui' dans le terminal pour visualiser les r√©sultats")

### 1.4 Recherche et Comparaison des Runs

In [None]:
# R√©cup√©rez et comparez les runs
# VOTRE CODE ICI

client = MlflowClient()

# TODO: R√©cup√©rez l'experiment
# experiment = client.get_experiment_by_name(experiment_name)
# runs = client.search_runs(experiment.experiment_id)

# TODO: Cr√©ez un DataFrame avec les r√©sultats
results = []
# for run in runs:
#     results.append({
#         'run_name': run.data.tags.get('mlflow.runName', 'Unknown'),
#         'test_rmse': run.data.metrics.get('test_rmse'),
#         'test_r2': run.data.metrics.get('test_r2'),
#         'training_time': run.data.metrics.get('training_time')
#     })

results_df = pd.DataFrame(results)
results_df = results_df.sort_values('test_rmse')

print("\nComparaison des mod√®les :")
display(results_df)

### 1.5 Chargement d'un Mod√®le depuis MLflow

In [None]:
# Chargez le meilleur mod√®le
# VOTRE CODE ICI

# TODO: R√©cup√©rez le run_id du meilleur mod√®le
# best_run_id = runs[0].info.run_id  # (apr√®s tri par test_rmse)

# TODO: Chargez le mod√®le
# model_uri = f"runs:/{best_run_id}/model"
# loaded_model = mlflow.sklearn.load_model(model_uri)

# TODO: Testez le mod√®le charg√©
# y_pred = loaded_model.predict(X_test)
# rmse = np.sqrt(mean_squared_error(y_test, y_pred))
# print(f"\nMod√®le charg√© depuis MLflow | Test RMSE: {rmse:.2f}")

---

## Exercice 2 : API REST avec FastAPI

**Objectif** : Cr√©er une API pour servir des pr√©dictions.

### 2.1 D√©finition des Sch√©mas Pydantic

In [None]:
# D√©finissez les sch√©mas de validation
# VOTRE CODE ICI

class DiabetesInput(BaseModel):
    """
    Sch√©ma de validation pour les inputs du mod√®le Diabetes.
    10 features : age, sex, bmi, bp, s1, s2, s3, s4, s5, s6
    """
    # TODO: D√©finissez les 10 features avec contraintes
    age: float = Field(..., ge=-3, le=3, description="Age (standardis√©)")
    sex: float = Field(..., ge=-3, le=3, description="Sex (standardis√©)")
    bmi: float = Field(..., ge=-3, le=3, description="Body Mass Index")
    bp: float = Field(..., ge=-3, le=3, description="Blood Pressure")
    s1: float = Field(..., ge=-3, le=3, description="Serum 1")
    s2: float = Field(..., ge=-3, le=3, description="Serum 2")
    s3: float = Field(..., ge=-3, le=3, description="Serum 3")
    s4: float = Field(..., ge=-3, le=3, description="Serum 4")
    s5: float = Field(..., ge=-3, le=3, description="Serum 5")
    s6: float = Field(..., ge=-3, le=3, description="Serum 6")
    
    class Config:
        schema_extra = {
            "example": {
                "age": 0.05, "sex": 0.05, "bmi": 0.06, "bp": 0.02,
                "s1": -0.04, "s2": -0.03, "s3": -0.00, "s4": -0.00,
                "s5": 0.01, "s6": -0.04
            }
        }

class PredictionOutput(BaseModel):
    """Sch√©ma de sortie."""
    prediction: float
    model_name: str
    timestamp: str

print("‚úì Sch√©mas Pydantic d√©finis")

### 2.2 Cr√©ation de l'API FastAPI

In [None]:
# Cr√©ez l'application FastAPI
# VOTRE CODE ICI

# Note : Ce code doit √™tre ex√©cut√© dans un script Python s√©par√© (api.py)
# pour √™tre lanc√© avec uvicorn

# Exemple de structure :
"""
# api.py

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel, Field
import joblib
import numpy as np
from datetime import datetime

# Cr√©ez l'app
app = FastAPI(title="Diabetes Prediction API", version="1.0")

# TODO: Chargez le mod√®le au d√©marrage
model = None  # joblib.load('diabetes_model.pkl')

@app.get("/")
def root():
    return {"message": "Diabetes Prediction API", "version": "1.0"}

@app.get("/health")
def health_check():
    # TODO: V√©rifiez que le mod√®le est charg√©
    return {"status": "healthy", "model_loaded": model is not None}

@app.post("/predict", response_model=PredictionOutput)
def predict(data: DiabetesInput):
    # TODO: Convertissez les donn√©es en array
    # TODO: Faites la pr√©diction
    # TODO: Retournez le r√©sultat
    pass

@app.post("/predict/batch")
def predict_batch(data: list[DiabetesInput]):
    # TODO: Pr√©dictions en batch
    pass
"""

print("Exemple de structure API cr√©√©")
print("\nPour ex√©cuter :")
print("1. Sauvegardez le code ci-dessus dans 'api.py'")
print("2. Sauvegardez un mod√®le : joblib.dump(model, 'diabetes_model.pkl')")
print("3. Lancez : uvicorn api:app --reload")
print("4. Documentation : http://localhost:8000/docs")

### 2.3 Sauvegarde du Mod√®le pour l'API

In [None]:
# Sauvegardez un mod√®le entra√Æn√©
# VOTRE CODE ICI

# TODO: Entra√Ænez un mod√®le
model_api = RandomForestRegressor(n_estimators=50, random_state=42)
model_api.fit(X_train, y_train)

# TODO: Sauvegardez avec joblib
joblib.dump(model_api, 'diabetes_model.pkl')

print("‚úì Mod√®le sauvegard√© dans 'diabetes_model.pkl'")

### 2.4 Test de l'API (apr√®s d√©marrage du serveur)

In [None]:
# Testez l'API avec requests
# VOTRE CODE ICI

# Note : L'API doit √™tre d√©marr√©e (uvicorn api:app)

# TODO: Test health check
# response = requests.get("http://localhost:8000/health")
# print(f"Health Check : {response.json()}")

# TODO: Test pr√©diction
# test_data = {
#     "age": 0.05, "sex": 0.05, "bmi": 0.06, "bp": 0.02,
#     "s1": -0.04, "s2": -0.03, "s3": -0.00, "s4": -0.00,
#     "s5": 0.01, "s6": -0.04
# }
# response = requests.post("http://localhost:8000/predict", json=test_data)
# print(f"\nPr√©diction : {response.json()}")

print("\nPour tester l'API :")
print("1. Assurez-vous que l'API est d√©marr√©e")
print("2. D√©commentez et ex√©cutez le code ci-dessus")

---

## Exercice 3 : Monitoring et M√©triques

**Objectif** : Ajouter du monitoring √† l'API.

### 3.1 Classe de Monitoring

In [None]:
# Impl√©mentez une classe de monitoring
# VOTRE CODE ICI

class APIMonitor:
    def __init__(self):
        # TODO: Initialisez les compteurs
        self.total_requests = 0
        self.total_errors = 0
        self.response_times = []
        self.predictions = []
        self.start_time = time.time()
    
    def log_request(self, response_time, success=True, prediction=None):
        """Enregistre une requ√™te."""
        # TODO: Incr√©mentez les compteurs
        pass
    
    def get_metrics(self):
        """Retourne les m√©triques."""
        # TODO: Calculez les statistiques
        uptime = time.time() - self.start_time
        
        return {
            "total_requests": self.total_requests,
            "total_errors": self.total_errors,
            "error_rate": self.total_errors / max(self.total_requests, 1),
            "avg_response_time": np.mean(self.response_times) if self.response_times else 0,
            "p95_response_time": np.percentile(self.response_times, 95) if self.response_times else 0,
            "uptime_seconds": uptime,
            "requests_per_second": self.total_requests / max(uptime, 1)
        }

# Test
monitor = APIMonitor()
monitor.log_request(0.05, success=True, prediction=150.0)
monitor.log_request(0.03, success=True, prediction=180.0)
monitor.log_request(0.10, success=False)

print("M√©triques :")
print(monitor.get_metrics())

### 3.2 Ajout du Monitoring √† l'API

In [None]:
# Code √† ajouter dans api.py
# VOTRE CODE ICI

"""
# Dans api.py

monitor = APIMonitor()

@app.middleware("http")
async def add_monitoring(request, call_next):
    start_time = time.time()
    response = await call_next(request)
    response_time = time.time() - start_time
    
    # TODO: Loggez la requ√™te
    monitor.log_request(response_time, success=response.status_code < 400)
    
    return response

@app.get("/metrics")
def get_metrics():
    return monitor.get_metrics()
"""

print("Code de monitoring pour l'API")

---

## Exercice 4 : Load Testing

**Objectif** : Tester les performances de l'API sous charge.

### 4.1 Script de Load Testing

In [None]:
# Impl√©mentez un load test simple
# VOTRE CODE ICI

def load_test(url, n_requests=100, n_workers=10):
    """
    Effectue un load test sur l'API.
    Args:
        url: URL de l'endpoint
        n_requests: Nombre total de requ√™tes
        n_workers: Nombre de threads concurrents
    """
    from concurrent.futures import ThreadPoolExecutor
    import time
    
    test_data = {
        "age": 0.05, "sex": 0.05, "bmi": 0.06, "bp": 0.02,
        "s1": -0.04, "s2": -0.03, "s3": -0.00, "s4": -0.00,
        "s5": 0.01, "s6": -0.04
    }
    
    response_times = []
    errors = 0
    
    def send_request():
        # TODO: Envoyez une requ√™te et mesurez le temps
        start = time.time()
        try:
            response = requests.post(url, json=test_data, timeout=5)
            response_time = time.time() - start
            return response_time, response.status_code == 200
        except Exception as e:
            return time.time() - start, False
    
    # TODO: Ex√©cutez les requ√™tes en parall√®le
    start_time = time.time()
    
    with ThreadPoolExecutor(max_workers=n_workers) as executor:
        results = list(executor.map(lambda _: send_request(), range(n_requests)))
    
    total_time = time.time() - start_time
    
    # TODO: Analysez les r√©sultats
    response_times = [r[0] for r in results]
    errors = sum(1 for r in results if not r[1])
    
    print(f"\n=== Load Test Results ===")
    print(f"Total requests: {n_requests}")
    print(f"Concurrent workers: {n_workers}")
    print(f"Total time: {total_time:.2f}s")
    print(f"Requests/sec: {n_requests / total_time:.2f}")
    print(f"\nResponse times:")
    print(f"  Min: {min(response_times)*1000:.2f}ms")
    print(f"  Max: {max(response_times)*1000:.2f}ms")
    print(f"  Mean: {np.mean(response_times)*1000:.2f}ms")
    print(f"  P95: {np.percentile(response_times, 95)*1000:.2f}ms")
    print(f"\nErrors: {errors} ({errors/n_requests*100:.1f}%)")
    
    return response_times, errors

# TODO: Ex√©cutez le load test (apr√®s avoir d√©marr√© l'API)
# response_times, errors = load_test("http://localhost:8000/predict", n_requests=100, n_workers=10)

print("\nPour ex√©cuter le load test :")
print("1. D√©marrez l'API")
print("2. D√©commentez et ex√©cutez la ligne ci-dessus")

---

## Exercice 5 : Model Registry avec MLflow

**Objectif** : G√©rer le cycle de vie des mod√®les (dev ‚Üí staging ‚Üí production).

### 5.1 Enregistrement dans le Model Registry

In [None]:
# Enregistrez un mod√®le dans le Model Registry
# VOTRE CODE ICI

# TODO: Entra√Ænez un mod√®le
model_registry = RandomForestRegressor(n_estimators=100, random_state=42)
model_registry.fit(X_train, y_train)

# TODO: Enregistrez le mod√®le avec MLflow
with mlflow.start_run(run_name="production_candidate"):
    # Loggez les m√©triques
    y_pred = model_registry.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)
    
    mlflow.log_metric("test_rmse", rmse)
    mlflow.log_metric("test_r2", r2)
    
    # TODO: Enregistrez dans le Model Registry
    # mlflow.sklearn.log_model(
    #     model_registry,
    #     "model",
    #     registered_model_name="diabetes_predictor"
    # )
    
    print(f"‚úì Mod√®le enregistr√© | RMSE: {rmse:.2f} | R¬≤: {r2:.3f}")

print("\nV√©rifiez dans MLflow UI : http://localhost:5000")

### 5.2 Transition de Stage

In [None]:
# Promouvez un mod√®le vers staging puis production
# VOTRE CODE ICI

client = MlflowClient()

# TODO: R√©cup√©rez la derni√®re version du mod√®le
# model_name = "diabetes_predictor"
# latest_version = client.get_latest_versions(model_name)[0]

# TODO: Transition vers "Staging"
# client.transition_model_version_stage(
#     name=model_name,
#     version=latest_version.version,
#     stage="Staging"
# )
# print(f"‚úì Mod√®le v{latest_version.version} ‚Üí Staging")

# TODO: Apr√®s validation, transition vers "Production"
# client.transition_model_version_stage(
#     name=model_name,
#     version=latest_version.version,
#     stage="Production"
# )
# print(f"‚úì Mod√®le v{latest_version.version} ‚Üí Production")

print("\nWorkflow Model Registry :")
print("1. Entra√Ænez et enregistrez le mod√®le")
print("2. Testez en staging")
print("3. Promouvez en production si valid√©")

---

## Exercice 6 : Questions de R√©flexion

**Question 1** : Pourquoi est-il important de valider les inputs avec Pydantic dans une API ?

**VOTRE R√âPONSE ICI**

---

**Question 2** : Quelles m√©triques devriez-vous monitorer pour une API de ML en production ?

**VOTRE R√âPONSE ICI**

---

**Question 3** : Quelle est la diff√©rence entre staging et production dans le Model Registry ?

**VOTRE R√âPONSE ICI**

---

**Question 4** : Comment g√©reriez-vous un rollback si le nouveau mod√®le en production performe mal ?

**VOTRE R√âPONSE ICI**

---

## Conclusion

F√©licitations pour avoir compl√©t√© ces exercices !

**Points cl√©s √† retenir** :
- MLflow permet de tracker et comparer facilement les exp√©riences
- FastAPI + Pydantic offrent une validation robuste et une documentation automatique
- Le monitoring est essentiel pour d√©tecter les probl√®mes en production
- Le Model Registry facilite la gestion du cycle de vie des mod√®les
- Le load testing permet d'identifier les goulots d'√©tranglement

**Prochaines √©tapes** :
- Consultez les solutions dans `14_exercices_solutions.ipynb`
- D√©ployez votre API sur un serveur cloud (AWS, GCP, Azure)
- Explorez Docker et Kubernetes pour le d√©ploiement
- Mettez en place du CI/CD (GitHub Actions, GitLab CI)
- F√©licitations, vous avez termin√© le cours de Machine Learning !

---