# PHASE I: R√©gression Lin√©aire Avanc√©e et Analyse des Compromis

## Tache 1.1 - Charger et Pr√©parer

In [1]:
# 1. Import des biblioth√®ques n√©cessaires
import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

#2. Chargement du dataset Diabetes
X, y = load_diabetes(return_X_y=True)

#3. Division en train(80%) et test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#4. Normalisation des donn√©es
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## Tache 1.2 - R√©gression OLS

In [2]:
# 1. Cr√©er et entra√Æner un mod√®le OLS (Ordinary Least Squares)
ols_reg = LinearRegression()
ols_reg.fit(X_train_scaled, y_train)

#2. Pr√©dictions sur le test set
y_pred_ols = ols_reg.predict(X_test_scaled)

#3. Calcul des metriques
rmse_ols = np.sqrt(mean_squared_error(y_test, y_pred_ols))
r2_ols = r2_score(y_test, y_pred_ols)

#4. Affichage des resultats R¬≤ % variance expliqu√©e (0 √† 1, plus haut = mieux)
print(f"OLS: RMSE = {rmse_ols:.2f}, R¬≤ = {r2_ols:.2f}")
print("Coefficients OLS:", ols_reg.coef_)

OLS: RMSE = 54.52, R¬≤ = 0.44
Coefficients OLS: [  1.75375799 -11.51180908  25.60712144  16.82887167 -44.44885564
  24.64095356   7.67697768  13.1387839   35.16119521   2.35136365]


## Tache 1.3 - TH√âORIE

### 1. Biais (Bias)
Le biais est une erreur due aux hypoth√®ses simplificatrices du mod√®le
   - Mod√®le TROP SIMPLE ‚Üí sous-apprentissage (underfitting)
   - Exemple: r√©gression lin√©aire sur donn√©es non-lin√©aires

### 2.  VARIANCE:
La variance est une erreur due a une forte sensibilit√© du mod√®le aux variations dans les donn√©es d'entra√Ænement
   - Mod√®le TROP COMPLEXE ‚Üí sur-apprentissage (overfitting)
   - Exemple: polyn√¥me degr√© 50 sur 100 points

### 3. RELATION:
   Erreur totale = Bias¬≤ + Variance + Bruit irr√©ductible
   
   Trade-off: R√©duire l'un augmente l'autre
   - ‚Üì Bias ‚Üí ‚Üë Complexit√© ‚Üí ‚Üë Variance
   - ‚Üì Variance ‚Üí ‚Üì Complexit√© ‚Üí ‚Üë Bias

### 4. COMMENT LA R√âGULARISATION MODIFIE CE TRADE-OFF:
   
   Sans r√©gularisation (OLS):
   Loss = MSE = Œ£(y - ≈∑)¬≤
   ‚Üí Minimise erreur training ‚Üí Risque overfitting (haute variance)
   
   Avec r√©gularisation:
   Loss = MSE + Œª √ó P√©nalit√©(coefficients)
   
   Ridge (L2): Loss = MSE + Œª √ó Œ£w·µ¢¬≤
   LASSO (L1): Loss = MSE + Œª √ó Œ£|w·µ¢|
   
   EFFET DE Œª (hyperparam√®tre):
   - Œª = 0: Pas de r√©gularisation ‚Üí OLS standard (haute variance possible)
   - Œª petit: L√©g√®re contrainte ‚Üí r√©duit variance un peu
   - Œª grand: Forte contrainte ‚Üí r√©duit variance beaucoup mais ‚Üë bias
   - Œª ‚Üí ‚àû: Tous coefficients ‚Üí 0 ‚Üí mod√®le constant (bias max)

### 5. PR√âVENTION DE L'OVERFITTING:
   
   La r√©gularisation ajoute une CONTRAINTE sur la magnitude des coefficients:
   - Emp√™che les coefficients d'exploser
   - Force le mod√®le √† √™tre plus SIMPLE
   - R√©duit la sensibilit√© au bruit dans les donn√©es
   - Am√©liore la G√âN√âRALISATION sur nouvelles donn√©es
   
   R√©sultat: ‚Üë Bias l√©g√®rement, mais ‚Üì‚Üì Variance significativement
   ‚Üí Erreur test globale diminue (meilleure g√©n√©ralisation)


## Tache 1.4 - Ridge Regression (L2)

In [3]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score

# 1. Entrainement du modele Ridge avec alpha=1.0
ridge_reg = Ridge(alpha=1.0)
ridge_reg.fit(X_train_scaled, y_train)

# 2. Evaluation par validation crois√©e
scores_ridge = cross_val_score(
    ridge_reg, X_train_scaled, y_train,
    scoring='neg_root_mean_squared_error', cv=5
)
rmse_cv_ridge = -scores_ridge.mean()


# 3. Afficher r√©sultats
print(f"Ridge (alpha=1.0): RMSE CV={rmse_cv_ridge:.2f}")
print("Coefficients Ridge:", ridge_reg.coef_)

Ridge (alpha=1.0): RMSE CV=55.92
Coefficients Ridge: [  1.80734179 -11.44818951  25.73269892  16.73429974 -34.67195409
  17.05307485   3.36991411  11.76426044  31.3783838    2.45813922]


## POURQUOI RIDGE R√âDUIT MAIS NE MET PAS √Ä Z√âRO

1. P√âNALIT√â L2 vs L1:
   
   - Ridge (L2): P√©nalit√© = Œª √ó Œ£w·µ¢¬≤
   - LASSO (L1): P√©nalit√© = Œª √ó Œ£|w·µ¢|

---
2. D√âRIV√âE - C'EST LA CL√â:
   
   Ridge: ‚àÇ(w·µ¢¬≤)/‚àÇw·µ¢ = 2w·µ¢
   ‚Üí Gradient proportionnel au coefficient
   ‚Üí Quand w·µ¢ ‚Üí 0, gradient ‚Üí 0 aussi
   ‚Üí R√©duction ASYMPTOTIQUE vers 0 mais jamais 0 exactement
   
   LASSO: ‚àÇ|w·µ¢|/‚àÇw·µ¢ = sign(w·µ¢) = {+1 si w·µ¢>0, -1 si w·µ¢<0}
   ‚Üí Gradient CONSTANT quelle que soit la valeur de w·µ¢
   ‚Üí Pousse directement √† 0 (seuillage dur)
---
3. G√âOM√âTRIE - FORME DES CONTRAINTES:
   
   Ridge: Contrainte = boule (cercle en 2D)
   ‚Üí Bords lisses et courbes
   ‚Üí Solution optimale peut √™tre n'importe o√π sur le bord
   ‚Üí Probabilit√© faible de toucher les axes (w=0)
   
   LASSO: Contrainte = losange (diamant en 2D)
   ‚Üí COINS sur les axes
   ‚Üí Solution optimale tend vers les coins
   ‚Üí Probabilit√© √âLEV√âE que w = 0 exactement
---
4. COMPORTEMENT PRATIQUE:
   
   Ridge avec Œª croissant:
   w = [100, 50, 10] ‚Üí [50, 25, 5] ‚Üí [10, 5, 1] ‚Üí [0.01, 0.005, 0.001]
   ‚Üí JAMAIS exactement 0, mais tr√®s proche
   
   LASSO avec Œª croissant:
   w = [100, 50, 10] ‚Üí [80, 30, 0] ‚Üí [50, 0, 0] ‚Üí [0, 0, 0]
   ‚Üí Met √† 0 progressivement (s√©lection de features)
---
5. AVANTAGE RIDGE:
   - Garde toutes les features (utile si toutes importantes)
   - Stable num√©riquement
   - Solution unique m√™me si p > n
   
   AVANTAGE LASSO:
   - S√©lection automatique de features
   - Mod√®le sparse et interpr√©table
   - R√©duit la dimensionnalit√©


## 1.3 Sparsity et Optimisation des Hyperparam√®tres

## TASK 1.5 - LASSO et Concept de Sparsity


In [7]:
from sklearn.linear_model import Lasso

# 1. Entra√Æner LASSO avec alpha initial
lasso_reg = Lasso(alpha=0.1, max_iter=10000)
lasso_reg.fit(X_train_scaled, y_train)

# 2. Afficher coefficients
print("Coefficients LASSO:", lasso_reg.coef_)
print(f"Nombre de coefficients = 0: {np.sum(lasso_reg.coef_ == 0)}")

Coefficients LASSO: [  1.73045056 -11.31635911  25.82462699  16.64425156 -29.35841191
  13.27584411   0.5479479   10.23616805  29.63282611   2.39347521]
Nombre de coefficients = 0: 0


## Sparsity (Parcimonie)

### D√©finition
La sparsity d√©signe un mod√®le dont **beaucoup de coefficients sont exactement nuls**.

\[
w = (w_1,\dots,w_p), \quad \text{avec } w_j = 0 \text{ pour beaucoup de } j
\]

---

### Int√©r√™t (interpr√©tabilit√©)
- Moins de variables actives
- Mod√®le plus lisible
- Identification claire des features utiles

---

### Pourquoi L1 cr√©e des z√©ros et pas L2 ?

### P√©nalit√©s
- **L1 (LASSO)** :  
\[
\lambda \sum_j |w_j|
\]

- **L2 (Ridge)** :  
\[
\lambda \sum_j w_j^2
\]

---

### Diff√©rentiabilit√©
- **L2** : d√©rivable partout ‚Üí coefficients r√©duits mais jamais nuls
- **L1** : non diff√©rentiable en 0 ‚Üí solution possible exactement en 0

---

### G√©om√©trie
- **L2** : contrainte circulaire ‚Üí contact rarement sur les axes
- **L1** : contrainte en losange ‚Üí coins sur les axes ‚Üí coefficients nuls

---

### Soft Thresholding (LASSO)
\[
\hat w = \text{sign}(z)\max(|z| - \lambda, 0)
\]

- Si \(|z| \le \lambda\) ‚Üí \(w = 0\)

---

## Avantages du LASSO
- S√©lection automatique de variables
- R√©duction de dimension
- Efficace quand \(p > n\)


##  Tache 1.6 - Optimisation avec Cross-Validation

In [8]:
from sklearn.linear_model import RidgeCV, LassoCV

# 1. Ridge Tuning - teste 100 valeurs d'alpha
ridge_cv = RidgeCV(alphas=np.logspace(-3, 2, 100), cv=10)
ridge_cv.fit(X_train_scaled, y_train)
alpha_ridge_optimal = ridge_cv.alpha_

print(f"Alpha optimal pour Ridge: {alpha_ridge_optimal:.4f}")

# 2. LASSO Tuning - teste 100 valeurs d'alpha
lasso_cv = LassoCV(alphas=np.logspace(-3, 0, 100), cv=10, max_iter=10000)
lasso_cv.fit(X_train_scaled, y_train)
alpha_lasso_optimal = lasso_cv.alpha_

print(f"Alpha optimal pour LASSO: {alpha_lasso_optimal:.4f}")

# 3. Mod√®le LASSO final avec alpha optimal
lasso_final = Lasso(alpha=alpha_lasso_optimal, max_iter=10000)
lasso_final.fit(X_train_scaled, y_train)

# 4. Analyse de la Sparsity
print("\nCoefficients LASSO finaux:")
for i, coef in enumerate(lasso_final.coef_):
    status = "‚Üí Z√âRO" if coef == 0 else ""
    print(f"  Feature {i}: {coef:.4f} {status}")

zero_count = np.sum(lasso_final.coef_ == 0)
print(f"\nFeatures √©limin√©es: {zero_count}/{len(lasso_final.coef_)}")

# 5. √âvaluation finale des 3 mod√®les
y_pred_ridge = ridge_cv.predict(X_test_scaled)
y_pred_lasso = lasso_final.predict(X_test_scaled)

rmse_ridge = np.sqrt(mean_squared_error(y_test, y_pred_ridge))
rmse_lasso = np.sqrt(mean_squared_error(y_test, y_pred_lasso))
r2_ridge = r2_score(y_test, y_pred_ridge)
r2_lasso = r2_score(y_test, y_pred_lasso)

# 6. Tableau comparatif
print("\nüìä COMPARAISON FINALE:")
print(f"{'Mod√®le':<10} {'RMSE':>8} {'R¬≤':>8} {'Features':>10}")
print("-" * 40)
print(f"{'OLS':<10} {rmse_ols:>8.2f} {r2_ols:>8.4f} {10:>10}")
print(f"{'Ridge':<10} {rmse_ridge:>8.2f} {r2_ridge:>8.4f} {10:>10}")
print(f"{'LASSO':<10} {rmse_lasso:>8.2f} {r2_lasso:>8.4f} {10-zero_count:>10}")

Alpha optimal pour Ridge: 55.9081
Alpha optimal pour LASSO: 0.1417

Coefficients LASSO finaux:
  Feature 0: 1.6966 
  Feature 1: -11.2072 
  Feature 2: 25.9031 
  Feature 3: 16.5961 
  Feature 4: -27.1653 
  Feature 5: 11.3606 
  Feature 6: -0.0000 ‚Üí Z√âRO
  Feature 7: 10.3508 
  Feature 8: 28.7237 
  Feature 9: 2.3938 

Features √©limin√©es: 1/10

üìä COMPARAISON FINALE:
Mod√®le         RMSE       R¬≤   Features
----------------------------------------
OLS           54.52   0.4389         10
Ridge         53.88   0.4521         10
LASSO         54.23   0.4449          9


### CE QU'ON OBSERVE:

- Ridge garde toutes les features mais r√©duit leurs coefficients
- LASSO √©limine certaines features (coefficients = 0)
- Comparaison des performances (RMSE, R¬≤)

# PHASE II: MLOps - Du Mod√®le √† la Production

## 2.1 Packaging du Mod√®le et Gestion des D√©pendances


In [9]:
import joblib

# 1. Sauvegarder le meilleur mod√®le (LASSO) et le scaler
joblib.dump(scaler, 'scaler.pkl')
joblib.dump(lasso_final, 'lasso_model.pkl')

print("‚úì Scaler sauvegard√©: scaler.pkl")
print("‚úì Mod√®le LASSO sauvegard√©: lasso_model.pkl")

# 2. Fonction de pr√©diction en production
def predict_new_data(raw_data, model_path='lasso_model.pkl', 
                     scaler_path='scaler.pkl'):

    try:
        # Charger les objets sauvegard√©s
        loaded_scaler = joblib.load(scaler_path)
        loaded_model = joblib.load(model_path)
    except FileNotFoundError:
        print("Erreur: Fichiers introuvables")
        return None
    
    # √âtape 1: Transformer avec le M√äME scaler (CRUCIAL!)
    scaled_data = loaded_scaler.transform([raw_data])
    
    # √âtape 2: Pr√©diction
    prediction = loaded_model.predict(scaled_data)[0]
    
    return prediction

# 3. Test de la fonction
example_input = X_test[0]
predicted = predict_new_data(example_input)
actual = y_test[0]

print(f"\n[Test Pr√©diction]")
print(f"  Pr√©dite: {predicted:.2f}")
print(f"  R√©elle: {actual:.2f}")
print(f"  Erreur: {abs(predicted - actual):.2f}")

‚úì Scaler sauvegard√©: scaler.pkl
‚úì Mod√®le LASSO sauvegard√©: lasso_model.pkl

[Test Pr√©diction]
  Pr√©dite: 150.95
  R√©elle: 219.00
  Erreur: 68.05


## Pourquoi sauvegarder le scaler ?

### 1. Coh√©rence des transformations
Un mod√®le apprend **sur des donn√©es transform√©es**, pas sur les donn√©es brutes.  
Si le scaler utilis√© en production n‚Äôest pas **exactement** celui du training, alors les entr√©es du mod√®le ne sont plus dans le m√™me espace.  
M√™me mod√®le, m√™mes features, **mais monde math√©matique diff√©rent** ‚Üí pr√©dictions incoh√©rentes.

---

### 2. Exemple concret
**Training**
- Feature : BMI  
- Moyenne = 25  
- √âcart-type = 5  

Standardisation :
\[
z = \frac{BMI - 25}{5}
\]

**Production**
- Nouvelle donn√©e : BMI = 30  

Avec le bon scaler :
\[
z = \frac{30 - 25}{5} = 1
\]

Sans le scaler sauvegard√© (ex: moyenne=27, std=3 recalcul√©s) :
\[
z = \frac{30 - 27}{3} = 1
\]

M√™me valeur brute, **repr√©sentation diff√©rente**, donc le mod√®le voit **un autre individu**.

---

### 3. Risques
- Pr√©dictions fausses ou instables  
- D√©gradation silencieuse des performances  
- Impossibilit√© de reproduire les r√©sultats  
- Mod√®le inutilisable en production  
- Debug infernal sans cause √©vidente  

En clair : le mod√®le fonctionne, mais raconte n‚Äôimporte quoi.

---

### 4. R√®gle d‚Äôor (MLOps)
**Scaler + mod√®le = un seul artefact.**  
On **fit** le scaler sur le training, on **le sauvegarde**, et on le **r√©utilise tel quel** en production.  
Jamais de refit sur les donn√©es de production. Jamais.


## 2.2 MLflow pour la Gestion du Cycle de Vie

### Tache 2.3 - Tracking avec MLflow

In [10]:
import mlflow

# 1. Configurer l'exp√©rience
mlflow.set_experiment("TP_Advanced_Regression")

def log_model_results(model_name, params, metrics, model_object):
    """
    Log les r√©sultats d'un mod√®le dans MLflow.
    
    Args:
        model_name: Nom du run (ex: "OLS", "Ridge", "LASSO")
        params: Dictionnaire des hyperparam√®tres
        metrics: Dictionnaire des m√©triques (RMSE, R¬≤)
        model_object: Objet mod√®le sklearn
    """
    with mlflow.start_run(run_name=model_name):
        # Log hyperparam√®tres
        mlflow.log_params(params)
        
        # Log m√©triques
        mlflow.log_metrics(metrics)
        
        # Log mod√®le comme artifact
        mlflow.sklearn.log_model(model_object, name="model")
        
        print(f"‚úì Run '{model_name}' enregistr√© dans MLflow")

# 2. Logger OLS
ols_params = {"model_type": "OLS", "regularization": "none"}
ols_metrics = {"test_rmse": rmse_ols, "test_r2": r2_ols}
log_model_results("OLS_Baseline", ols_params, ols_metrics, ols_reg)

# 3. Logger Ridge
ridge_params = {
    "alpha": alpha_ridge_optimal,
    "solver": "auto",
    "penalty": "l2"
}
ridge_metrics = {"test_rmse": rmse_ridge, "test_r2": r2_ridge}
log_model_results("Ridge_Optimal", ridge_params, ridge_metrics, ridge_cv)

# 4. Logger LASSO
lasso_params = {
    "alpha": alpha_lasso_optimal,
    "solver": "coordinate_descent",
    "penalty": "l1"
}
lasso_metrics = {
    "test_rmse": rmse_lasso,
    "test_r2": r2_lasso,
    "num_zero_coefs": zero_count,
    "sparsity_ratio": zero_count / len(lasso_final.coef_)
}
log_model_results("LASSO_Optimal", lasso_params, lasso_metrics, lasso_final)

print("\n‚úì Tous les mod√®les enregistr√©s dans MLflow")
print("Pour visualiser: mlflow ui")
print("Puis ouvrir: http://localhost:5000")

2026/01/03 15:13:32 INFO mlflow.store.db.utils: Creating initial MLflow database tables...
2026/01/03 15:13:32 INFO mlflow.store.db.utils: Updating database tables
2026/01/03 15:13:32 INFO alembic.runtime.migration: Context impl SQLiteImpl.
2026/01/03 15:13:32 INFO alembic.runtime.migration: Will assume non-transactional DDL.
2026/01/03 15:13:33 INFO alembic.runtime.migration: Running upgrade  -> 451aebb31d03, add metric step
2026/01/03 15:13:33 INFO alembic.runtime.migration: Running upgrade 451aebb31d03 -> 90e64c465722, migrate user column to tags
2026/01/03 15:13:33 INFO alembic.runtime.migration: Running upgrade 90e64c465722 -> 181f10493468, allow nulls for metric values
2026/01/03 15:13:33 INFO alembic.runtime.migration: Running upgrade 181f10493468 -> df50e92ffc5e, Add Experiment Tags Table
2026/01/03 15:13:33 INFO alembic.runtime.migration: Running upgrade df50e92ffc5e -> 7ac759974ad8, Update run tags with larger limit
2026/01/03 15:13:33 INFO alembic.runtime.migration: Running 

‚úì Run 'OLS_Baseline' enregistr√© dans MLflow
‚úì Run 'Ridge_Optimal' enregistr√© dans MLflow
‚úì Run 'LASSO_Optimal' enregistr√© dans MLflow

‚úì Tous les mod√®les enregistr√©s dans MLflow
Pour visualiser: mlflow ui
Puis ouvrir: http://localhost:5000


## Explication du Dockerfile

### FROM
- **R√¥le** : D√©finit l‚Äôimage de base sur laquelle le conteneur est construit.  
  Elle fournit l‚ÄôOS minimal, le runtime et les outils de base.
- **Pourquoi `python:3.9-slim` ?**  
  - Python d√©j√† install√©  
  - Image l√©g√®re (moins de surface d‚Äôattaque, build plus rapide)  
  - Suffisant pour ex√©cuter une app Python sans d√©pendances inutiles  

---

### WORKDIR
- **R√¥le** : D√©finit le r√©pertoire de travail √† l‚Äôint√©rieur du conteneur.  
  Toutes les commandes suivantes (`COPY`, `RUN`, `CMD`) s‚Äôex√©cutent depuis ce dossier.  
  √âvite les chemins absolus et le d√©sordre.

---

### COPY
- **R√¥le** : Copie des fichiers du syst√®me h√¥te vers le syst√®me de fichiers du conteneur.
- **Diff√©rence entre `COPY requirements.txt` et `COPY app.py` ?**  
  - `requirements.txt` : utilis√© pour installer les d√©pendances  
  - `app.py` : contient le code applicatif  
  S√©parer les deux permet √† Docker de **mettre en cache l‚Äôinstallation des d√©pendances** si le code change mais pas les libs.

---

### RUN
- **R√¥le** : Ex√©cute une commande **au moment du build** de l‚Äôimage.  
  Typiquement utilis√© pour installer des d√©pendances ou configurer l‚Äôenvironnement.
- **Quand est ex√©cut√©e ?**  
  Une seule fois, lors du `docker build`.  
  Le r√©sultat est fig√© dans l‚Äôimage finale.

---

### EXPOSE
- **R√¥le** : Documente le port sur lequel l‚Äôapplication √©coute √† l‚Äôint√©rieur du conteneur.
- **Est-ce que √ßa ouvre vraiment le port ?**  
  Non.  
  √áa n‚Äôouvre rien du tout.  
  Le port est r√©ellement expos√© uniquement avec `-p` ou `--publish` au `docker run`.

---

### ENV
- **R√¥le** : D√©finit des variables d‚Äôenvironnement disponibles dans le conteneur.  
  Utilis√©es pour la configuration (mode debug, ports, chemins, cl√©s, etc.).  
  √âvite le hard-coding dans le code.

---

### CMD
- **R√¥le** : D√©finit la commande **par d√©faut** ex√©cut√©e au d√©marrage du conteneur.
- **Diff√©rence entre `CMD` et `RUN` ?**  
  - `RUN` ‚Üí ex√©cut√© au build, une seule fois  
  - `CMD` ‚Üí ex√©cut√© au runtime, √† chaque lancement du conteneur  

Sans `CMD`, ton conteneur d√©marre‚Ä¶ et s‚Äôarr√™te imm√©diatement. Classe.


## Synth√®se MLOps: Git + MLflow + Docker

### 1. GIT ‚Äì Version Control
**R√¥le:**
- Gestion des versions du code
- Tra√ßabilit√© des changements
- Collaboration propre et reproductible

**Pour le ML:**
- Versionnement du code d‚Äôentra√Ænement
- Suivi des features, scripts, configs
- Lien clair entre code, donn√©es et mod√®le entra√Æn√©

**CI/CD:**
- `git push` d√©clenche automatiquement les pipelines (tests, training, build, deploy)
- Base de toute automatisation fiable

---

### 2. MLFLOW ‚Äì Lifecycle Management

**4 Composantes:**
- **Tracking** : log des param√®tres, m√©triques, artefacts ‚Üí reproductibilit√©
- **Projects** : standardisation des runs (environnement, entry point)
- **Models** : format unifi√© pour charger/servir les mod√®les
- **Registry** : versioning, staging, production, rollback

**CI/CD:**
- Enregistrement automatique des mod√®les apr√®s training
- Promotion contr√¥l√©e (Staging ‚Üí Production)
- Int√©gration directe dans les pipelines de d√©ploiement

---

### 3. DOCKER ‚Äì Containerisation

**R√¥le:**
- Emballer code + d√©pendances + environnement
- Garantir ‚Äú√ßa marche chez moi = √ßa marche partout‚Äù

**Avantages ML:**
- Environnement identique training / inference
- Isolation des d√©pendances (librairies, CUDA, versions)
- D√©ploiement reproductible

**CI/CD:**
- Build d‚Äôimages automatis√©
- D√©ploiement rapide sur serveur, cloud ou Kubernetes
- Rollback simple par version d‚Äôimage

---

### 4. PIPELINE CI/CD COMPLET

**Workflow typique:**
1. **Data Scientist** : `git push`
2. **CI** :
   - Tests du code
   - Entra√Ænement du mod√®le
   - Logging MLflow (metrics, mod√®le)
   - Build image Docker
3. **CD** :
   - R√©cup√©ration du mod√®le valid√© (Registry)
   - D√©ploiement automatique en production
4. **Monitoring** :
   - Surveillance des donn√©es, performances, d√©rives
   - Alertes et retraining si n√©cessaire

---

### 5. EXEMPLE CONCRET

**Sans MLOps:**
- Mod√®le entra√Æn√© localement
- R√©sultats non reproductibles
- D√©ploiement manuel
- Bugs et d√©rives non d√©tect√©s

**Avec MLOps:**
- Code versionn√© (Git)
- Mod√®le tra√ßable et versionn√© (MLflow)
- D√©ploiement stable et reproductible (Docker)
- Monitoring continu et rollback possible

---

## Monitoring Post-Production

### 1. DATA DRIFT (D√©rive des Donn√©es)

**D√©finition:**
Changement de la distribution des donn√©es d‚Äôentr√©e entre le training et la production.

**Causes:**
- √âvolution du comportement utilisateur
- Changements saisonniers
- Capteurs d√©fectueux
- Nouvelles sources de donn√©es

**D√©tection:**
- **Tests statistiques** : KS-test, Chi-square, PSI
- **M√©triques** : variation de moyenne, variance, histogrammes

**Exemple concret (Diabetes):**
La distribution de la glyc√©mie moyenne augmente fortement apr√®s plusieurs mois ‚Üí le mod√®le re√ßoit des profils jamais vus au training.

**Actions:**
- Alerte
- Analyse des features impact√©es
- Retraining avec donn√©es r√©centes
- Validation avant red√©ploiement

---

### 2. CONCEPT DRIFT (D√©rive du Concept)

**D√©finition:**
La relation entre les features et la cible change, m√™me si les donn√©es semblent similaires.

**Causes:**
- Changements m√©dicaux (nouveaux traitements)
- √âvolution des comportements
- Politiques ou r√®gles m√©tier modifi√©es

**D√©tection:**
- Baisse progressive des performances
- Erreurs syst√©matiques sur certains segments

**M√©triques:**
- Accuracy, F1, AUC, calibration
- Erreur par sous-population

---

### AUTRES M√âTRIQUES IMPORTANTES
- **Latence / Throughput** : temps de r√©ponse et capacit√© du syst√®me
- **Resource Usage** : CPU, RAM, GPU, co√ªts cloud
- **Business Metrics** : impact r√©el (revenu, taux d‚Äôerreur m√©tier, satisfaction)

---

### DASHBOARD ID√âAL
- Performances du mod√®le dans le temps
- Data drift par feature
- Concept drift via m√©triques de sortie
- Latence et ressources syst√®me
- Alertes automatiques et historique des versions
