# Module MLOps - Formation Compl√®te

## Plateforme IA-Solution RDC

---

### üéØ Objectifs du module

√Ä la fin de ce module, vous serez capable de :
- Comprendre le cycle de vie complet d'un mod√®le ML
- Utiliser Git pour versionner code et donn√©es
- Containeriser des mod√®les avec Docker
- Suivre les exp√©rimentations avec MLflow
- D√©ployer des mod√®les via API REST
- Appliquer le MLOps √† des cas concrets en RDC

**Niveau :** Interm√©diaire/Avanc√©  
**Pr√©requis :** Python, Machine Learning, Deep Learning  
**Dur√©e :** 7 semaines

---

## üìö Table des mati√®res

1. [Introduction au MLOps](#chapitre-1)
2. [Cycle de vie d'un mod√®le IA](#chapitre-2)
3. [Outils MLOps](#chapitre-3)
4. [Exemple pratique complet](#chapitre-4)
5. [Applications en RDC](#chapitre-5)
6. [Projet final : API de pr√©diction](#chapitre-6)

---

# Chapitre 1 : Introduction au MLOps <a id="chapitre-1"></a>

## 1.1 Qu'est-ce que le MLOps ?

**MLOps** (Machine Learning Operations) est l'ensemble des pratiques qui permettent de **d√©ployer et maintenir des mod√®les ML en production** de mani√®re fiable, reproductible et √©volutive.

### Analogie simple

Imaginez que vous construisez une maison :
- **Data Science** : Concevoir les plans de la maison (cr√©er le mod√®le)
- **MLOps** : Construire la maison, l'entretenir, la r√©nover (d√©ployer et maintenir)

### Diff√©rences Data Science vs MLOps

| Aspect | Data Science | MLOps |
|--------|--------------|-------|
| **Objectif** | Cr√©er un mod√®le performant | D√©ployer et maintenir en production |
| **Environnement** | Jupyter Notebook, local | Serveurs, cloud, production |
| **Focus** | Pr√©cision, m√©triques | Fiabilit√©, scalabilit√©, monitoring |
| **Outils** | Pandas, Scikit-learn | Docker, Kubernetes, CI/CD |
| **Dur√©e** | Projet ponctuel | Maintenance continue |

## 1.2 Pourquoi le MLOps est important ?

### Probl√®mes sans MLOps

1. **"√áa marche sur mon ordinateur"**
   - Le mod√®le fonctionne en local mais pas en production
   - Diff√©rences d'environnement (versions, d√©pendances)

2. **Mod√®les non reproductibles**
   - Impossible de recr√©er les m√™mes r√©sultats
   - Perte de code ou de donn√©es

3. **D√©gradation des performances**
   - Le mod√®le devient moins pr√©cis avec le temps
   - Pas de monitoring

4. **D√©ploiement lent et risqu√©**
   - Processus manuel et long
   - Risque d'erreurs

### Solutions avec MLOps

1. **Containerisation** (Docker)
   - Environnement identique partout
   - "√áa marche partout"

2. **Versioning** (Git, DVC)
   - Code et donn√©es versionn√©s
   - Reproductibilit√© garantie

3. **Monitoring**
   - Suivi des performances
   - Alertes automatiques

4. **CI/CD**
   - D√©ploiement automatis√©
   - Tests automatiques

## 1.3 Applications en RDC

### üè• **Sant√©**
- D√©ploiement de mod√®les de diagnostic dans plusieurs h√¥pitaux
- Monitoring de la pr√©cision en temps r√©el
- Mise √† jour automatique des mod√®les

### üåæ **Agriculture**
- API de pr√©diction de rendement accessible aux agriculteurs
- Mod√®les adapt√©s √† chaque r√©gion
- Suivi de la qualit√© des pr√©dictions

### ‚ö° **√ânergie**
- Optimisation de la consommation √©lectrique
- Pr√©diction de la demande
- D√©tection d'anomalies

### üí∞ **Finance**
- D√©tection de fraudes en temps r√©el
- Mod√®les mis √† jour quotidiennement
- Haute disponibilit√© (99.9%)

In [None]:
# Installation des biblioth√®ques n√©cessaires
!pip install scikit-learn pandas numpy matplotlib mlflow fastapi uvicorn -q

print("‚úÖ Biblioth√®ques install√©es avec succ√®s !")

In [None]:
# Imports n√©cessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import joblib
import json
from datetime import datetime

# Configuration
np.random.seed(42)

print("‚úÖ Imports termin√©s !")

---

# Chapitre 2 : Cycle de vie d'un mod√®le IA <a id="chapitre-2"></a>

## 2.1 Les √©tapes du cycle de vie

```
1. Collecte de donn√©es
   ‚Üì
2. Pr√©paration des donn√©es
   ‚Üì
3. Entra√Ænement du mod√®le
   ‚Üì
4. √âvaluation
   ‚Üì
5. D√©ploiement
   ‚Üì
6. Monitoring
   ‚Üì
7. R√©entra√Ænement (retour √† l'√©tape 1)
```

## 2.2 √âtape 1 : Collecte de donn√©es

### Bonnes pratiques

1. **Qualit√© > Quantit√©**
   - Donn√©es propres et pertinentes
   - √âviter les biais

2. **Documentation**
   - Source des donn√©es
   - Date de collecte
   - M√©thodologie

3. **Versioning**
   - Utiliser DVC (Data Version Control)
   - Tracer les modifications

## 2.3 √âtape 2 : Pr√©paration des donn√©es

### T√¢ches principales

1. **Nettoyage**
   - G√©rer les valeurs manquantes
   - Supprimer les doublons
   - Corriger les erreurs

2. **Transformation**
   - Normalisation/Standardisation
   - Encodage des variables cat√©gorielles
   - Feature engineering

3. **Split**
   - Train/Validation/Test
   - Stratification si n√©cessaire

## 2.4 √âtape 3 : Entra√Ænement

### Bonnes pratiques

1. **Exp√©rimentation**
   - Tester plusieurs algorithmes
   - Optimiser les hyperparam√®tres
   - Documenter chaque exp√©rience

2. **Tracking**
   - Utiliser MLflow
   - Enregistrer m√©triques et param√®tres
   - Sauvegarder les mod√®les

## 2.5 √âtape 4 : √âvaluation

### M√©triques importantes

- **Classification** : Accuracy, Precision, Recall, F1-Score
- **R√©gression** : MAE, MSE, RMSE, R¬≤
- **M√©tiers** : Co√ªt des erreurs, temps de r√©ponse

## 2.6 √âtape 5 : D√©ploiement

### Options de d√©ploiement

1. **API REST** (FastAPI, Flask)
   - Accessible via HTTP
   - Facile √† int√©grer

2. **Batch** (Airflow, Cron)
   - Pr√©dictions en masse
   - Planifi√©es

3. **Edge** (TensorFlow Lite, ONNX)
   - Sur appareil mobile
   - Hors ligne

## 2.7 √âtape 6 : Monitoring

### M√©triques √† surveiller

1. **Performance du mod√®le**
   - Pr√©cision en production
   - Drift des donn√©es

2. **Performance syst√®me**
   - Temps de r√©ponse
   - Utilisation CPU/RAM
   - Disponibilit√©

3. **M√©tiers**
   - Impact business
   - Satisfaction utilisateurs

In [None]:
# Exemple complet : Cycle de vie d'un mod√®le de pr√©diction de paludisme

# 1. Collecte de donn√©es (synth√©tiques pour l'exemple)
print("üìä √âTAPE 1 : COLLECTE DE DONN√âES")
print("=" * 60)

# Donn√©es : [Temp√©rature, Fatigue (0-10), Maux de t√™te (0-10), Frissons (0/1)]
np.random.seed(42)
n_samples = 1000

# Cas positifs (paludisme)
X_pos = np.random.randn(n_samples // 2, 4) * np.array([1, 1.5, 1.5, 0.3]) + np.array([39.5, 8, 8, 0.8])
y_pos = np.ones(n_samples // 2)

# Cas n√©gatifs (sain)
X_neg = np.random.randn(n_samples // 2, 4) * np.array([0.5, 2, 2, 0.3]) + np.array([37, 3, 3, 0.2])
y_neg = np.zeros(n_samples // 2)

# Combiner
X = np.vstack([X_pos, X_neg])
y = np.hstack([y_pos, y_neg])

# Cr√©er DataFrame
df = pd.DataFrame(X, columns=['Temperature', 'Fatigue', 'Maux_tete', 'Frissons'])
df['Paludisme'] = y

print(f"Donn√©es collect√©es : {len(df)} exemples")
print(f"\nAper√ßu des donn√©es :")
print(df.head())
print(f"\nDistribution des classes :")
print(df['Paludisme'].value_counts())

In [None]:
# 2. Pr√©paration des donn√©es
print("\nüîß √âTAPE 2 : PR√âPARATION DES DONN√âES")
print("=" * 60)

# S√©parer features et target
X = df.drop('Paludisme', axis=1)
y = df['Paludisme']

# Split train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Train set : {len(X_train)} exemples")
print(f"Test set : {len(X_test)} exemples")

# Normalisation
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n‚úÖ Donn√©es normalis√©es")
print(f"Moyenne : {X_train_scaled.mean(axis=0)}")
print(f"√âcart-type : {X_train_scaled.std(axis=0)}")

In [None]:
# 3. Entra√Ænement du mod√®le
print("\nüéì √âTAPE 3 : ENTRA√éNEMENT DU MOD√àLE")
print("=" * 60)

# Cr√©er et entra√Æner le mod√®le
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_scaled, y_train)

print("‚úÖ Mod√®le entra√Æn√© : Random Forest (100 arbres)")

# Importance des features
feature_importance = pd.DataFrame({
    'Feature': X.columns,
    'Importance': model.feature_importances_
}).sort_values('Importance', ascending=False)

print("\nImportance des features :")
print(feature_importance)

In [None]:
# 4. √âvaluation
print("\nüìà √âTAPE 4 : √âVALUATION")
print("=" * 60)

# Pr√©dictions
y_pred_train = model.predict(X_train_scaled)
y_pred_test = model.predict(X_test_scaled)

# M√©triques
train_acc = accuracy_score(y_train, y_pred_train)
test_acc = accuracy_score(y_test, y_pred_test)

print(f"Pr√©cision Train : {train_acc * 100:.2f}%")
print(f"Pr√©cision Test : {test_acc * 100:.2f}%")

print("\nRapport de classification (Test) :")
print(classification_report(y_test, y_pred_test, target_names=['Sain', 'Paludisme']))

# Matrice de confusion
cm = confusion_matrix(y_test, y_pred_test)
print("\nMatrice de confusion :")
print(cm)

In [None]:
# 5. Sauvegarde du mod√®le (pr√©paration au d√©ploiement)
print("\nüíæ √âTAPE 5 : SAUVEGARDE DU MOD√àLE")
print("=" * 60)

# Cr√©er un dossier pour les mod√®les
import os
os.makedirs('models', exist_ok=True)

# Sauvegarder le mod√®le
model_path = 'models/paludisme_model.pkl'
joblib.dump(model, model_path)
print(f"‚úÖ Mod√®le sauvegard√© : {model_path}")

# Sauvegarder le scaler
scaler_path = 'models/scaler.pkl'
joblib.dump(scaler, scaler_path)
print(f"‚úÖ Scaler sauvegard√© : {scaler_path}")

# Sauvegarder les m√©tadonn√©es
metadata = {
    'model_type': 'RandomForestClassifier',
    'n_estimators': 100,
    'features': list(X.columns),
    'train_accuracy': float(train_acc),
    'test_accuracy': float(test_acc),
    'training_date': datetime.now().isoformat(),
    'n_train_samples': len(X_train),
    'n_test_samples': len(X_test)
}

metadata_path = 'models/metadata.json'
with open(metadata_path, 'w') as f:
    json.dump(metadata, f, indent=2)
print(f"‚úÖ M√©tadonn√©es sauvegard√©es : {metadata_path}")

print("\nüì¶ Mod√®le pr√™t pour le d√©ploiement !")

### üéØ Exercice 1 : Cycle de vie complet

Cr√©ez un mod√®le de pr√©diction de rendement agricole :
1. G√©n√©rez des donn√©es synth√©tiques (pluie, engrais, temp√©rature ‚Üí rendement)
2. Pr√©parez les donn√©es
3. Entra√Ænez un mod√®le de r√©gression
4. √âvaluez avec MAE et R¬≤
5. Sauvegardez le mod√®le

In [None]:
# Exercice 1 : √Ä vous de jouer !

# TODO: Cr√©ez votre mod√®le de pr√©diction de rendement



---

# Chapitre 3 : Outils MLOps <a id="chapitre-3"></a>

## 3.1 Git et GitHub

**Git** est un syst√®me de contr√¥le de version qui permet de :
- Suivre les modifications du code
- Collaborer avec d'autres d√©veloppeurs
- Revenir √† des versions ant√©rieures

### Commandes essentielles

```bash
# Initialiser un d√©p√¥t
git init

# Ajouter des fichiers
git add .

# Commit
git commit -m "Message descriptif"

# Pousser vers GitHub
git push origin main

# Cloner un d√©p√¥t
git clone https://github.com/user/repo.git
```

### Structure d'un projet ML

```
projet-ml/
‚îú‚îÄ‚îÄ data/
‚îÇ   ‚îú‚îÄ‚îÄ raw/           # Donn√©es brutes
‚îÇ   ‚îî‚îÄ‚îÄ processed/     # Donn√©es pr√©par√©es
‚îú‚îÄ‚îÄ notebooks/         # Jupyter notebooks
‚îú‚îÄ‚îÄ src/              # Code source
‚îÇ   ‚îú‚îÄ‚îÄ data/         # Scripts de pr√©paration
‚îÇ   ‚îú‚îÄ‚îÄ models/       # D√©finition des mod√®les
‚îÇ   ‚îî‚îÄ‚îÄ api/          # API de d√©ploiement
‚îú‚îÄ‚îÄ models/           # Mod√®les sauvegard√©s
‚îú‚îÄ‚îÄ tests/            # Tests unitaires
‚îú‚îÄ‚îÄ requirements.txt  # D√©pendances
‚îú‚îÄ‚îÄ Dockerfile        # Configuration Docker
‚îî‚îÄ‚îÄ README.md         # Documentation
```

## 3.2 Docker

**Docker** permet de cr√©er des **containers** : des environnements isol√©s et reproductibles.

### Avantages

- ‚úÖ M√™me environnement partout (dev, test, prod)
- ‚úÖ Isolation des d√©pendances
- ‚úÖ D√©ploiement facile
- ‚úÖ Scalabilit√©

### Dockerfile exemple

```dockerfile
# Image de base
FROM python:3.9-slim

# R√©pertoire de travail
WORKDIR /app

# Copier les d√©pendances
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# Copier le code
COPY . .

# Exposer le port
EXPOSE 8000

# Commande de d√©marrage
CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]
```

### Commandes Docker

```bash
# Construire une image
docker build -t mon-modele-ml .

# Lancer un container
docker run -p 8000:8000 mon-modele-ml

# Lister les containers
docker ps

# Arr√™ter un container
docker stop <container_id>
```

## 3.3 MLflow

**MLflow** est une plateforme pour g√©rer le cycle de vie ML :
- Tracking des exp√©rimentations
- Gestion des mod√®les
- D√©ploiement

### Composants

1. **MLflow Tracking** : Enregistrer m√©triques et param√®tres
2. **MLflow Projects** : Packager le code
3. **MLflow Models** : Format standard pour les mod√®les
4. **MLflow Registry** : Gestion centralis√©e des mod√®les

## 3.4 CI/CD

**CI/CD** (Continuous Integration / Continuous Deployment) automatise le processus de d√©ploiement.

### Pipeline CI/CD typique

```
1. Push du code (Git)
   ‚Üì
2. Tests automatiques
   ‚Üì
3. Build de l'image Docker
   ‚Üì
4. D√©ploiement en staging
   ‚Üì
5. Tests d'int√©gration
   ‚Üì
6. D√©ploiement en production
```

### Outils

- **GitHub Actions** : Int√©gr√© √† GitHub
- **GitLab CI** : Int√©gr√© √† GitLab
- **Jenkins** : Open-source, tr√®s flexible
- **CircleCI** : Cloud, facile √† utiliser

In [None]:
# Installation de MLflow
!pip install mlflow -q

import mlflow
import mlflow.sklearn

print(f"MLflow version: {mlflow.__version__}")

In [None]:
# Exemple : Tracking avec MLflow

print("üìä TRACKING AVEC MLFLOW")
print("=" * 60)

# D√©finir l'exp√©rience
mlflow.set_experiment("Paludisme_Detection")

# D√©marrer un run
with mlflow.start_run(run_name="RandomForest_v1"):
    
    # Enregistrer les param√®tres
    mlflow.log_param("model_type", "RandomForestClassifier")
    mlflow.log_param("n_estimators", 100)
    mlflow.log_param("random_state", 42)
    
    # Entra√Æner le mod√®le
    model_rf = RandomForestClassifier(n_estimators=100, random_state=42)
    model_rf.fit(X_train_scaled, y_train)
    
    # Pr√©dictions
    y_pred = model_rf.predict(X_test_scaled)
    
    # Enregistrer les m√©triques
    accuracy = accuracy_score(y_test, y_pred)
    mlflow.log_metric("accuracy", accuracy)
    mlflow.log_metric("n_train_samples", len(X_train))
    mlflow.log_metric("n_test_samples", len(X_test))
    
    # Enregistrer le mod√®le
    mlflow.sklearn.log_model(model_rf, "model")
    
    print(f"‚úÖ Run enregistr√© avec pr√©cision : {accuracy * 100:.2f}%")

print("\nüí° Pour voir l'interface MLflow :")
print("   mlflow ui")
print("   Puis ouvrir : http://localhost:5000")

In [None]:
# Comparer plusieurs mod√®les avec MLflow

print("\nüî¨ COMPARAISON DE MOD√àLES")
print("=" * 60)

models_to_test = [
    ("Logistic Regression", LogisticRegression(random_state=42)),
    ("Random Forest (50)", RandomForestClassifier(n_estimators=50, random_state=42)),
    ("Random Forest (100)", RandomForestClassifier(n_estimators=100, random_state=42)),
    ("Random Forest (200)", RandomForestClassifier(n_estimators=200, random_state=42)),
]

results = []

for name, model in models_to_test:
    with mlflow.start_run(run_name=name):
        # Entra√Æner
        model.fit(X_train_scaled, y_train)
        
        # Pr√©dire
        y_pred = model.predict(X_test_scaled)
        
        # M√©triques
        accuracy = accuracy_score(y_test, y_pred)
        
        # Log
        mlflow.log_param("model_name", name)
        mlflow.log_metric("accuracy", accuracy)
        mlflow.sklearn.log_model(model, "model")
        
        results.append({'Model': name, 'Accuracy': accuracy})
        print(f"{name:<25} Accuracy: {accuracy * 100:.2f}%")

# Afficher le meilleur mod√®le
results_df = pd.DataFrame(results).sort_values('Accuracy', ascending=False)
print("\nüèÜ Meilleur mod√®le :")
print(results_df.iloc[0])

### üéØ Exercice 2 : Tracking avec MLflow

Utilisez MLflow pour comparer 3 mod√®les de r√©gression :
1. Linear Regression
2. Ridge Regression
3. Random Forest Regressor

Enregistrez les m√©triques MAE et R¬≤ pour chaque mod√®le.

In [None]:
# Exercice 2 : √Ä vous de jouer !

# TODO: Comparez 3 mod√®les de r√©gression avec MLflow



---

# Chapitre 4 : Exemple pratique complet <a id="chapitre-4"></a>

## 4.1 Cr√©er une API REST avec FastAPI

**FastAPI** est un framework moderne pour cr√©er des APIs en Python.

### Avantages

- ‚úÖ Tr√®s rapide (performance)
- ‚úÖ Documentation automatique
- ‚úÖ Validation des donn√©es
- ‚úÖ Facile √† utiliser

### Structure d'une API ML

```python
from fastapi import FastAPI
from pydantic import BaseModel
import joblib

# Charger le mod√®le
model = joblib.load('model.pkl')

# Cr√©er l'app
app = FastAPI()

# D√©finir le sch√©ma d'entr√©e
class PredictionInput(BaseModel):
    feature1: float
    feature2: float

# Endpoint de pr√©diction
@app.post("/predict")
def predict(data: PredictionInput):
    # Faire la pr√©diction
    prediction = model.predict([[data.feature1, data.feature2]])
    return {"prediction": int(prediction[0])}
```

In [None]:
# Cr√©er un fichier API pour notre mod√®le de paludisme

api_code = '''
from fastapi import FastAPI
from pydantic import BaseModel
import joblib
import numpy as np

# Charger le mod√®le et le scaler
model = joblib.load('models/paludisme_model.pkl')
scaler = joblib.load('models/scaler.pkl')

# Cr√©er l'application
app = FastAPI(
    title="API de D√©tection du Paludisme",
    description="API pour pr√©dire si un patient a le paludisme",
    version="1.0.0"
)

# Sch√©ma d'entr√©e
class PatientData(BaseModel):
    temperature: float
    fatigue: float  # 0-10
    maux_tete: float  # 0-10
    frissons: float  # 0-1
    
    class Config:
        schema_extra = {
            "example": {
                "temperature": 39.5,
                "fatigue": 8.0,
                "maux_tete": 9.0,
                "frissons": 1.0
            }
        }

# Sch√©ma de sortie
class PredictionResponse(BaseModel):
    prediction: int  # 0 = Sain, 1 = Paludisme
    probability: float
    message: str

# Endpoint racine
@app.get("/")
def root():
    return {
        "message": "API de D√©tection du Paludisme - RDC",
        "version": "1.0.0",
        "endpoints": {
            "/predict": "POST - Faire une pr√©diction",
            "/health": "GET - V√©rifier l'√©tat de l'API",
            "/docs": "GET - Documentation interactive"
        }
    }

# Endpoint de sant√©
@app.get("/health")
def health():
    return {"status": "healthy", "model_loaded": True}

# Endpoint de pr√©diction
@app.post("/predict", response_model=PredictionResponse)
def predict(data: PatientData):
    # Pr√©parer les donn√©es
    features = np.array([[
        data.temperature,
        data.fatigue,
        data.maux_tete,
        data.frissons
    ]])
    
    # Normaliser
    features_scaled = scaler.transform(features)
    
    # Pr√©dire
    prediction = model.predict(features_scaled)[0]
    probability = model.predict_proba(features_scaled)[0][1]
    
    # Message
    if prediction == 1:
        message = f"‚ö†Ô∏è Risque de paludisme √©lev√© ({probability*100:.1f}%). Consultez un m√©decin."
    else:
        message = f"‚úÖ Risque de paludisme faible ({probability*100:.1f}%)."
    
    return {
        "prediction": int(prediction),
        "probability": float(probability),
        "message": message
    }

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)
'''

# Sauvegarder le fichier
with open('main.py', 'w', encoding='utf-8') as f:
    f.write(api_code)

print("‚úÖ Fichier API cr√©√© : main.py")
print("\nüìù Pour lancer l'API :")
print("   uvicorn main:app --reload")
print("\nüìö Documentation interactive :")
print("   http://localhost:8000/docs")

In [None]:
# Cr√©er un Dockerfile

dockerfile_content = '''# Image de base
FROM python:3.9-slim

# M√©tadonn√©es
LABEL maintainer="IA-Solution RDC"
LABEL description="API de d√©tection du paludisme"

# R√©pertoire de travail
WORKDIR /app

# Copier les requirements
COPY requirements.txt .

# Installer les d√©pendances
RUN pip install --no-cache-dir -r requirements.txt

# Copier le code et les mod√®les
COPY main.py .
COPY models/ models/

# Exposer le port
EXPOSE 8000

# Commande de d√©marrage
CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]
'''

with open('Dockerfile', 'w') as f:
    f.write(dockerfile_content)

print("‚úÖ Dockerfile cr√©√©")

# Cr√©er requirements.txt
requirements = '''fastapi==0.104.1
uvicorn[standard]==0.24.0
pydantic==2.5.0
scikit-learn==1.3.2
joblib==1.3.2
numpy==1.24.3
'''

with open('requirements.txt', 'w') as f:
    f.write(requirements)

print("‚úÖ requirements.txt cr√©√©")

print("\nüê≥ Pour construire l'image Docker :")
print("   docker build -t paludisme-api .")
print("\nüöÄ Pour lancer le container :")
print("   docker run -p 8000:8000 paludisme-api")

## 4.2 Tester l'API

### Avec curl

```bash
curl -X POST "http://localhost:8000/predict" \
  -H "Content-Type: application/json" \
  -d '{"temperature": 39.5, "fatigue": 8, "maux_tete": 9, "frissons": 1}'
```

### Avec Python

```python
import requests

data = {
    "temperature": 39.5,
    "fatigue": 8.0,
    "maux_tete": 9.0,
    "frissons": 1.0
}

response = requests.post("http://localhost:8000/predict", json=data)
print(response.json())
```

In [None]:
# Simuler un appel API (si l'API est lanc√©e)

import requests

def test_api(base_url="http://localhost:8000"):
    """Teste l'API de pr√©diction"""
    
    print("üß™ TEST DE L'API")
    print("=" * 60)
    
    # Test 1 : Endpoint racine
    try:
        response = requests.get(f"{base_url}/")
        print("‚úÖ Endpoint racine : OK")
        print(response.json())
    except:
        print("‚ùå API non accessible. Lancez-la avec : uvicorn main:app")
        return
    
    # Test 2 : Health check
    response = requests.get(f"{base_url}/health")
    print("\n‚úÖ Health check : OK")
    print(response.json())
    
    # Test 3 : Pr√©diction (cas positif)
    data_positif = {
        "temperature": 39.5,
        "fatigue": 8.0,
        "maux_tete": 9.0,
        "frissons": 1.0
    }
    
    response = requests.post(f"{base_url}/predict", json=data_positif)
    print("\n‚úÖ Pr√©diction (cas positif) :")
    print(response.json())
    
    # Test 4 : Pr√©diction (cas n√©gatif)
    data_negatif = {
        "temperature": 37.0,
        "fatigue": 2.0,
        "maux_tete": 1.0,
        "frissons": 0.0
    }
    
    response = requests.post(f"{base_url}/predict", json=data_negatif)
    print("\n‚úÖ Pr√©diction (cas n√©gatif) :")
    print(response.json())

# D√©commenter pour tester (si l'API est lanc√©e)
# test_api()

print("\nüí° Pour tester l'API :")
print("1. Lancez l'API : uvicorn main:app --reload")
print("2. D√©commentez et ex√©cutez : test_api()")
print("3. Ou visitez : http://localhost:8000/docs")

### üéØ Exercice 3 : Cr√©er votre API

Cr√©ez une API REST pour votre mod√®le de pr√©diction de rendement agricole :
1. D√©finissez le sch√©ma d'entr√©e (pluie, engrais, temp√©rature)
2. Cr√©ez l'endpoint `/predict`
3. Testez avec diff√©rentes valeurs
4. Cr√©ez un Dockerfile

In [None]:
# Exercice 3 : √Ä vous de jouer !

# TODO: Cr√©ez votre API de pr√©diction de rendement



---

# Chapitre 5 : Applications en RDC <a id="chapitre-5"></a>

## 5.1 Sant√© : Suivi des mod√®les de diagnostic

### Cas d'usage

**Syst√®me de d√©tection du paludisme d√©ploy√© dans 10 h√¥pitaux**

**Architecture :**
```
H√¥pitaux (10) ‚Üí API Centrale ‚Üí Base de donn√©es
                     ‚Üì
              Dashboard Monitoring
```

**M√©triques suivies :**
- Pr√©cision par h√¥pital
- Nombre de pr√©dictions/jour
- Temps de r√©ponse
- Taux de faux positifs/n√©gatifs

**Alertes :**
- Pr√©cision < 90% ‚Üí R√©entra√Ænement
- Temps de r√©ponse > 2s ‚Üí Optimisation
- API down ‚Üí Notification imm√©diate

## 5.2 Agriculture : Pr√©diction de rendement

### Cas d'usage

**Application mobile pour agriculteurs**

**Fonctionnalit√©s :**
- Pr√©diction du rendement (manioc, ma√Øs)
- Recommandations d'engrais
- Alertes m√©t√©o

**Pipeline MLOps :**
1. Collecte de donn√©es (capteurs, satellites)
2. R√©entra√Ænement mensuel
3. A/B testing des nouveaux mod√®les
4. D√©ploiement progressif

## 5.3 √ânergie : Optimisation de la consommation

### Cas d'usage

**Pr√©diction de la demande √©lectrique √† Kinshasa**

**Donn√©es :**
- Historique de consommation
- M√©t√©o
- √âv√©nements (matchs, f√™tes)
- Jour de la semaine

**B√©n√©fices :**
- R√©duction des coupures
- Optimisation de la production
- √âconomies de co√ªts

**MLOps :**
- R√©entra√Ænement quotidien
- Pr√©dictions toutes les heures
- Monitoring en temps r√©el
- Alertes automatiques

In [None]:
# Exemple : Dashboard de monitoring simple

import pandas as pd
from datetime import datetime, timedelta

# Simuler des donn√©es de monitoring
dates = pd.date_range(start='2025-01-01', end='2025-01-30', freq='D')
monitoring_data = pd.DataFrame({
    'date': dates,
    'predictions': np.random.randint(50, 200, len(dates)),
    'accuracy': np.random.uniform(0.85, 0.98, len(dates)),
    'response_time_ms': np.random.uniform(50, 300, len(dates)),
    'errors': np.random.randint(0, 5, len(dates))
})

print("üìä DASHBOARD DE MONITORING")
print("=" * 60)
print(f"\nP√©riode : {dates[0].date()} √† {dates[-1].date()}")
print(f"\nStatistiques :")
print(f"- Total pr√©dictions : {monitoring_data['predictions'].sum()}")
print(f"- Pr√©cision moyenne : {monitoring_data['accuracy'].mean() * 100:.2f}%")
print(f"- Temps de r√©ponse moyen : {monitoring_data['response_time_ms'].mean():.0f} ms")
print(f"- Total erreurs : {monitoring_data['errors'].sum()}")

# Visualiser
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Pr√©dictions par jour
axes[0, 0].plot(monitoring_data['date'], monitoring_data['predictions'], 'b-', linewidth=2)
axes[0, 0].set_title('Pr√©dictions par jour', fontsize=12, fontweight='bold')
axes[0, 0].set_xlabel('Date')
axes[0, 0].set_ylabel('Nombre')
axes[0, 0].grid(True, alpha=0.3)

# Pr√©cision
axes[0, 1].plot(monitoring_data['date'], monitoring_data['accuracy'] * 100, 'g-', linewidth=2)
axes[0, 1].axhline(y=90, color='r', linestyle='--', label='Seuil minimum')
axes[0, 1].set_title('Pr√©cision du mod√®le', fontsize=12, fontweight='bold')
axes[0, 1].set_xlabel('Date')
axes[0, 1].set_ylabel('Pr√©cision (%)')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# Temps de r√©ponse
axes[1, 0].plot(monitoring_data['date'], monitoring_data['response_time_ms'], 'orange', linewidth=2)
axes[1, 0].axhline(y=200, color='r', linestyle='--', label='Seuil maximum')
axes[1, 0].set_title('Temps de r√©ponse', fontsize=12, fontweight='bold')
axes[1, 0].set_xlabel('Date')
axes[1, 0].set_ylabel('Temps (ms)')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Erreurs
axes[1, 1].bar(monitoring_data['date'], monitoring_data['errors'], color='red', alpha=0.6)
axes[1, 1].set_title('Erreurs par jour', fontsize=12, fontweight='bold')
axes[1, 1].set_xlabel('Date')
axes[1, 1].set_ylabel('Nombre')
axes[1, 1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

# Alertes
print("\nüö® ALERTES :")
low_accuracy = monitoring_data[monitoring_data['accuracy'] < 0.90]
if len(low_accuracy) > 0:
    print(f"‚ö†Ô∏è Pr√©cision < 90% d√©tect√©e {len(low_accuracy)} fois")
else:
    print("‚úÖ Aucune alerte de pr√©cision")

slow_response = monitoring_data[monitoring_data['response_time_ms'] > 200]
if len(slow_response) > 0:
    print(f"‚ö†Ô∏è Temps de r√©ponse > 200ms d√©tect√© {len(slow_response)} fois")
else:
    print("‚úÖ Aucune alerte de performance")

### üéØ Exercice 4 : Monitoring

Cr√©ez un syst√®me de monitoring pour votre mod√®le :
1. Simulez des donn√©es de production (30 jours)
2. Calculez les m√©triques cl√©s
3. Cr√©ez des visualisations
4. D√©finissez des seuils d'alerte

In [None]:
# Exercice 4 : √Ä vous de jouer !

# TODO: Cr√©ez votre syst√®me de monitoring



---

# Chapitre 6 : Projet final <a id="chapitre-6"></a>

## üéØ Objectif du projet

Cr√©er un **syst√®me MLOps complet** pour un mod√®le de pr√©diction m√©t√©o en RDC.

## Sp√©cifications

### 1. Mod√®le
- Pr√©dire la pluie du lendemain (classification binaire)
- Features : temp√©rature, humidit√©, pression, vent
- Pr√©cision > 85%

### 2. Versioning
- Code versionn√© avec Git
- Mod√®les track√©s avec MLflow

### 3. API
- FastAPI avec documentation
- Endpoints : `/predict`, `/health`, `/metrics`
- Validation des donn√©es

### 4. Containerisation
- Dockerfile fonctionnel
- Image < 500 MB

### 5. Monitoring
- Dashboard de m√©triques
- Alertes automatiques

## Livrables

1. Code source (GitHub)
2. Mod√®le entra√Æn√©
3. API fonctionnelle
4. Dockerfile
5. Documentation
6. Pr√©sentation (5 min)

In [None]:
# Projet final : Template de d√©marrage

print("üöÄ PROJET FINAL : SYST√àME MLOPS COMPLET")
print("=" * 60)
print("\n√âtapes √† suivre :")
print("\n1Ô∏è‚É£ DONN√âES")
print("   - G√©n√©rer ou collecter des donn√©es m√©t√©o")
print("   - Features : temp√©rature, humidit√©, pression, vent")
print("   - Target : pluie (0/1)")

print("\n2Ô∏è‚É£ MOD√àLE")
print("   - Tester plusieurs algorithmes")
print("   - Optimiser les hyperparam√®tres")
print("   - Tracker avec MLflow")
print("   - Sauvegarder le meilleur mod√®le")

print("\n3Ô∏è‚É£ API")
print("   - Cr√©er main.py avec FastAPI")
print("   - D√©finir les sch√©mas Pydantic")
print("   - Impl√©menter /predict, /health, /metrics")
print("   - Tester localement")

print("\n4Ô∏è‚É£ DOCKER")
print("   - Cr√©er Dockerfile")
print("   - Cr√©er requirements.txt")
print("   - Build l'image")
print("   - Tester le container")

print("\n5Ô∏è‚É£ MONITORING")
print("   - Cr√©er dashboard de m√©triques")
print("   - D√©finir seuils d'alerte")
print("   - Simuler donn√©es de production")
print("   - Visualiser les r√©sultats")

print("\n6Ô∏è‚É£ DOCUMENTATION")
print("   - README.md complet")
print("   - Guide d'installation")
print("   - Exemples d'utilisation")
print("   - Architecture du syst√®me")

print("\n" + "=" * 60)
print("üí° Bon courage pour votre projet !")

### üéØ Exercice 5 : Projet final

R√©alisez le projet complet en suivant les √©tapes ci-dessus.

**Crit√®res d'√©valuation :**
- Qualit√© du code (20%)
- Performance du mod√®le (20%)
- API fonctionnelle (20%)
- Containerisation (15%)
- Monitoring (15%)
- Documentation (10%)

In [None]:
# Exercice 5 : Projet final - √Ä vous de jouer !

# TODO: R√©alisez votre projet MLOps complet



---

## üéì R√©sum√© du module

### Ce que vous avez appris

1. **MLOps**
   - D√©finition et importance
   - Diff√©rence avec Data Science
   - Applications en RDC

2. **Cycle de vie ML**
   - Collecte de donn√©es
   - Pr√©paration
   - Entra√Ænement
   - √âvaluation
   - D√©ploiement
   - Monitoring

3. **Outils**
   - Git/GitHub (versioning)
   - Docker (containerisation)
   - MLflow (tracking)
   - FastAPI (d√©ploiement)

4. **Pratique**
   - Cr√©ation d'API REST
   - Dockerisation
   - Monitoring
   - Projet complet

### Comp√©tences acquises

- ‚úÖ G√©rer le cycle de vie complet d'un mod√®le
- ‚úÖ Versionner code et mod√®les
- ‚úÖ Cr√©er des APIs de pr√©diction
- ‚úÖ Containeriser des applications ML
- ‚úÖ Monitorer des mod√®les en production
- ‚úÖ Appliquer MLOps √† des cas RDC

### Prochaines √©tapes

1. **Approfondir**
   - Kubernetes pour l'orchestration
   - CI/CD avec GitHub Actions
   - A/B testing de mod√®les
   - Feature stores

2. **Pratiquer**
   - D√©ployer sur cloud (AWS, GCP, Azure)
   - Cr√©er des pipelines automatis√©s
   - Monitorer en production r√©elle

3. **Certifications**
   - AWS Certified Machine Learning
   - Google Cloud Professional ML Engineer
   - MLOps Specialization (Coursera)

---

## üìö Ressources suppl√©mentaires

### Documentation
- [MLflow Documentation](https://mlflow.org/docs/latest/index.html)
- [FastAPI Documentation](https://fastapi.tiangolo.com/)
- [Docker Documentation](https://docs.docker.com/)

### Cours en ligne
- MLOps Specialization (DeepLearning.AI)
- Machine Learning Engineering for Production (Coursera)
- Full Stack Deep Learning

### Livres
- "Designing Machine Learning Systems" - Chip Huyen
- "Building Machine Learning Powered Applications" - Emmanuel Ameisen
- "Machine Learning Engineering" - Andriy Burkov

### Communaut√©s
- Reddit r/MLOps
- MLOps Community Slack
- LinkedIn MLOps groups

---

**F√©licitations ! Vous avez termin√© le module MLOps ! üéâ**

*Continuez √† pratiquer et √† d√©ployer vos mod√®les en production !*