# Module MLOps - Formation Complète

## Plateforme IA-Solution RDC

---

### 🎯 Objectifs du module

À la fin de ce module, vous serez capable de :
- Comprendre le cycle de vie complet d'un modèle ML
- Utiliser Git pour versionner code et données
- Containeriser des modèles avec Docker
- Suivre les expérimentations avec MLflow
- Déployer des modèles via API REST
- Appliquer le MLOps à des cas concrets en RDC

**Niveau :** Intermédiaire/Avancé  
**Prérequis :** Python, Machine Learning, Deep Learning  
**Durée :** 7 semaines

---

## 📚 Table des matières

1. [Introduction au MLOps](#chapitre-1)
2. [Cycle de vie d'un modèle IA](#chapitre-2)
3. [Outils MLOps](#chapitre-3)
4. [Exemple pratique complet](#chapitre-4)
5. [Applications en RDC](#chapitre-5)
6. [Projet final : API de prédiction](#chapitre-6)

---

# Chapitre 1 : Introduction au MLOps <a id="chapitre-1"></a>

## 1.1 Qu'est-ce que le MLOps ?

**MLOps** (Machine Learning Operations) est l'ensemble des pratiques qui permettent de **déployer et maintenir des modèles ML en production** de manière fiable, reproductible et évolutive.

### Analogie simple

Imaginez que vous construisez une maison :
- **Data Science** : Concevoir les plans de la maison (créer le modèle)
- **MLOps** : Construire la maison, l'entretenir, la rénover (déployer et maintenir)

### Différences Data Science vs MLOps

| Aspect | Data Science | MLOps |
|--------|--------------|-------|
| **Objectif** | Créer un modèle performant | Déployer et maintenir en production |
| **Environnement** | Jupyter Notebook, local | Serveurs, cloud, production |
| **Focus** | Précision, métriques | Fiabilité, scalabilité, monitoring |
| **Outils** | Pandas, Scikit-learn | Docker, Kubernetes, CI/CD |
| **Durée** | Projet ponctuel | Maintenance continue |

## 1.2 Pourquoi le MLOps est important ?

### Problèmes sans MLOps

1. **"Ça marche sur mon ordinateur"**
   - Le modèle fonctionne en local mais pas en production
   - Différences d'environnement (versions, dépendances)

2. **Modèles non reproductibles**
   - Impossible de recréer les mêmes résultats
   - Perte de code ou de données

3. **Dégradation des performances**
   - Le modèle devient moins précis avec le temps
   - Pas de monitoring

4. **Déploiement lent et risqué**
   - Processus manuel et long
   - Risque d'erreurs

### Solutions avec MLOps

1. **Containerisation** (Docker)
   - Environnement identique partout
   - "Ça marche partout"

2. **Versioning** (Git, DVC)
   - Code et données versionnés
   - Reproductibilité garantie

3. **Monitoring**
   - Suivi des performances
   - Alertes automatiques

4. **CI/CD**
   - Déploiement automatisé
   - Tests automatiques

## 1.3 Applications en RDC

### 🏥 **Santé**
- Déploiement de modèles de diagnostic dans plusieurs hôpitaux
- Monitoring de la précision en temps réel
- Mise à jour automatique des modèles

### 🌾 **Agriculture**
- API de prédiction de rendement accessible aux agriculteurs
- Modèles adaptés à chaque région
- Suivi de la qualité des prédictions

### ⚡ **Énergie**
- Optimisation de la consommation électrique
- Prédiction de la demande
- Détection d'anomalies

### 💰 **Finance**
- Détection de fraudes en temps réel
- Modèles mis à jour quotidiennement
- Haute disponibilité (99.9%)

In [None]:
# Installation des bibliothèques nécessaires
!pip install scikit-learn pandas numpy matplotlib mlflow fastapi uvicorn -q

print("✅ Bibliothèques installées avec succès !")

In [None]:
# Imports nécessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import joblib
import json
from datetime import datetime

# Configuration
np.random.seed(42)

print("✅ Imports terminés !")

---

# Chapitre 2 : Cycle de vie d'un modèle IA <a id="chapitre-2"></a>

## 2.1 Les étapes du cycle de vie

```
1. Collecte de données
   ↓
2. Préparation des données
   ↓
3. Entraînement du modèle
   ↓
4. Évaluation
   ↓
5. Déploiement
   ↓
6. Monitoring
   ↓
7. Réentraînement (retour à l'étape 1)
```

## 2.2 Étape 1 : Collecte de données

### Bonnes pratiques

1. **Qualité > Quantité**
   - Données propres et pertinentes
   - Éviter les biais

2. **Documentation**
   - Source des données
   - Date de collecte
   - Méthodologie

3. **Versioning**
   - Utiliser DVC (Data Version Control)
   - Tracer les modifications

## 2.3 Étape 2 : Préparation des données

### Tâches principales

1. **Nettoyage**
   - Gérer les valeurs manquantes
   - Supprimer les doublons
   - Corriger les erreurs

2. **Transformation**
   - Normalisation/Standardisation
   - Encodage des variables catégorielles
   - Feature engineering

3. **Split**
   - Train/Validation/Test
   - Stratification si nécessaire

## 2.4 Étape 3 : Entraînement

### Bonnes pratiques

1. **Expérimentation**
   - Tester plusieurs algorithmes
   - Optimiser les hyperparamètres
   - Documenter chaque expérience

2. **Tracking**
   - Utiliser MLflow
   - Enregistrer métriques et paramètres
   - Sauvegarder les modèles

## 2.5 Étape 4 : Évaluation

### Métriques importantes

- **Classification** : Accuracy, Precision, Recall, F1-Score
- **Régression** : MAE, MSE, RMSE, R²
- **Métiers** : Coût des erreurs, temps de réponse

## 2.6 Étape 5 : Déploiement

### Options de déploiement

1. **API REST** (FastAPI, Flask)
   - Accessible via HTTP
   - Facile à intégrer

2. **Batch** (Airflow, Cron)
   - Prédictions en masse
   - Planifiées

3. **Edge** (TensorFlow Lite, ONNX)
   - Sur appareil mobile
   - Hors ligne

## 2.7 Étape 6 : Monitoring

### Métriques à surveiller

1. **Performance du modèle**
   - Précision en production
   - Drift des données

2. **Performance système**
   - Temps de réponse
   - Utilisation CPU/RAM
   - Disponibilité

3. **Métiers**
   - Impact business
   - Satisfaction utilisateurs

In [None]:
# Exemple complet : Cycle de vie d'un modèle de prédiction de paludisme

# 1. Collecte de données (synthétiques pour l'exemple)
print("📊 ÉTAPE 1 : COLLECTE DE DONNÉES")
print("=" * 60)

# Données : [Température, Fatigue (0-10), Maux de tête (0-10), Frissons (0/1)]
np.random.seed(42)
n_samples = 1000

# Cas positifs (paludisme)
X_pos = np.random.randn(n_samples // 2, 4) * np.array([1, 1.5, 1.5, 0.3]) + np.array([39.5, 8, 8, 0.8])
y_pos = np.ones(n_samples // 2)

# Cas négatifs (sain)
X_neg = np.random.randn(n_samples // 2, 4) * np.array([0.5, 2, 2, 0.3]) + np.array([37, 3, 3, 0.2])
y_neg = np.zeros(n_samples // 2)

# Combiner
X = np.vstack([X_pos, X_neg])
y = np.hstack([y_pos, y_neg])

# Créer DataFrame
df = pd.DataFrame(X, columns=['Temperature', 'Fatigue', 'Maux_tete', 'Frissons'])
df['Paludisme'] = y

print(f"Données collectées : {len(df)} exemples")
print(f"\nAperçu des données :")
print(df.head())
print(f"\nDistribution des classes :")
print(df['Paludisme'].value_counts())

In [None]:
# 2. Préparation des données
print("\n🔧 ÉTAPE 2 : PRÉPARATION DES DONNÉES")
print("=" * 60)

# Séparer features et target
X = df.drop('Paludisme', axis=1)
y = df['Paludisme']

# Split train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Train set : {len(X_train)} exemples")
print(f"Test set : {len(X_test)} exemples")

# Normalisation
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n✅ Données normalisées")
print(f"Moyenne : {X_train_scaled.mean(axis=0)}")
print(f"Écart-type : {X_train_scaled.std(axis=0)}")

In [None]:
# 3. Entraînement du modèle
print("\n🎓 ÉTAPE 3 : ENTRAÎNEMENT DU MODÈLE")
print("=" * 60)

# Créer et entraîner le modèle
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_scaled, y_train)

print("✅ Modèle entraîné : Random Forest (100 arbres)")

# Importance des features
feature_importance = pd.DataFrame({
    'Feature': X.columns,
    'Importance': model.feature_importances_
}).sort_values('Importance', ascending=False)

print("\nImportance des features :")
print(feature_importance)

In [None]:
# 4. Évaluation
print("\n📈 ÉTAPE 4 : ÉVALUATION")
print("=" * 60)

# Prédictions
y_pred_train = model.predict(X_train_scaled)
y_pred_test = model.predict(X_test_scaled)

# Métriques
train_acc = accuracy_score(y_train, y_pred_train)
test_acc = accuracy_score(y_test, y_pred_test)

print(f"Précision Train : {train_acc * 100:.2f}%")
print(f"Précision Test : {test_acc * 100:.2f}%")

print("\nRapport de classification (Test) :")
print(classification_report(y_test, y_pred_test, target_names=['Sain', 'Paludisme']))

# Matrice de confusion
cm = confusion_matrix(y_test, y_pred_test)
print("\nMatrice de confusion :")
print(cm)

In [None]:
# 5. Sauvegarde du modèle (préparation au déploiement)
print("\n💾 ÉTAPE 5 : SAUVEGARDE DU MODÈLE")
print("=" * 60)

# Créer un dossier pour les modèles
import os
os.makedirs('models', exist_ok=True)

# Sauvegarder le modèle
model_path = 'models/paludisme_model.pkl'
joblib.dump(model, model_path)
print(f"✅ Modèle sauvegardé : {model_path}")

# Sauvegarder le scaler
scaler_path = 'models/scaler.pkl'
joblib.dump(scaler, scaler_path)
print(f"✅ Scaler sauvegardé : {scaler_path}")

# Sauvegarder les métadonnées
metadata = {
    'model_type': 'RandomForestClassifier',
    'n_estimators': 100,
    'features': list(X.columns),
    'train_accuracy': float(train_acc),
    'test_accuracy': float(test_acc),
    'training_date': datetime.now().isoformat(),
    'n_train_samples': len(X_train),
    'n_test_samples': len(X_test)
}

metadata_path = 'models/metadata.json'
with open(metadata_path, 'w') as f:
    json.dump(metadata, f, indent=2)
print(f"✅ Métadonnées sauvegardées : {metadata_path}")

print("\n📦 Modèle prêt pour le déploiement !")

### 🎯 Exercice 1 : Cycle de vie complet

Créez un modèle de prédiction de rendement agricole :
1. Générez des données synthétiques (pluie, engrais, température → rendement)
2. Préparez les données
3. Entraînez un modèle de régression
4. Évaluez avec MAE et R²
5. Sauvegardez le modèle

In [None]:
# Exercice 1 : À vous de jouer !

# TODO: Créez votre modèle de prédiction de rendement



---

# Chapitre 3 : Outils MLOps <a id="chapitre-3"></a>

## 3.1 Git et GitHub

**Git** est un système de contrôle de version qui permet de :
- Suivre les modifications du code
- Collaborer avec d'autres développeurs
- Revenir à des versions antérieures

### Commandes essentielles

```bash
# Initialiser un dépôt
git init

# Ajouter des fichiers
git add .

# Commit
git commit -m "Message descriptif"

# Pousser vers GitHub
git push origin main

# Cloner un dépôt
git clone https://github.com/user/repo.git
```

### Structure d'un projet ML

```
projet-ml/
├── data/
│   ├── raw/           # Données brutes
│   └── processed/     # Données préparées
├── notebooks/         # Jupyter notebooks
├── src/              # Code source
│   ├── data/         # Scripts de préparation
│   ├── models/       # Définition des modèles
│   └── api/          # API de déploiement
├── models/           # Modèles sauvegardés
├── tests/            # Tests unitaires
├── requirements.txt  # Dépendances
├── Dockerfile        # Configuration Docker
└── README.md         # Documentation
```

## 3.2 Docker

**Docker** permet de créer des **containers** : des environnements isolés et reproductibles.

### Avantages

- ✅ Même environnement partout (dev, test, prod)
- ✅ Isolation des dépendances
- ✅ Déploiement facile
- ✅ Scalabilité

### Dockerfile exemple

```dockerfile
# Image de base
FROM python:3.9-slim

# Répertoire de travail
WORKDIR /app

# Copier les dépendances
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# Copier le code
COPY . .

# Exposer le port
EXPOSE 8000

# Commande de démarrage
CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]
```

### Commandes Docker

```bash
# Construire une image
docker build -t mon-modele-ml .

# Lancer un container
docker run -p 8000:8000 mon-modele-ml

# Lister les containers
docker ps

# Arrêter un container
docker stop <container_id>
```

## 3.3 MLflow

**MLflow** est une plateforme pour gérer le cycle de vie ML :
- Tracking des expérimentations
- Gestion des modèles
- Déploiement

### Composants

1. **MLflow Tracking** : Enregistrer métriques et paramètres
2. **MLflow Projects** : Packager le code
3. **MLflow Models** : Format standard pour les modèles
4. **MLflow Registry** : Gestion centralisée des modèles

## 3.4 CI/CD

**CI/CD** (Continuous Integration / Continuous Deployment) automatise le processus de déploiement.

### Pipeline CI/CD typique

```
1. Push du code (Git)
   ↓
2. Tests automatiques
   ↓
3. Build de l'image Docker
   ↓
4. Déploiement en staging
   ↓
5. Tests d'intégration
   ↓
6. Déploiement en production
```

### Outils

- **GitHub Actions** : Intégré à GitHub
- **GitLab CI** : Intégré à GitLab
- **Jenkins** : Open-source, très flexible
- **CircleCI** : Cloud, facile à utiliser

In [None]:
# Installation de MLflow
!pip install mlflow -q

import mlflow
import mlflow.sklearn

print(f"MLflow version: {mlflow.__version__}")

In [None]:
# Exemple : Tracking avec MLflow

print("📊 TRACKING AVEC MLFLOW")
print("=" * 60)

# Définir l'expérience
mlflow.set_experiment("Paludisme_Detection")

# Démarrer un run
with mlflow.start_run(run_name="RandomForest_v1"):
    
    # Enregistrer les paramètres
    mlflow.log_param("model_type", "RandomForestClassifier")
    mlflow.log_param("n_estimators", 100)
    mlflow.log_param("random_state", 42)
    
    # Entraîner le modèle
    model_rf = RandomForestClassifier(n_estimators=100, random_state=42)
    model_rf.fit(X_train_scaled, y_train)
    
    # Prédictions
    y_pred = model_rf.predict(X_test_scaled)
    
    # Enregistrer les métriques
    accuracy = accuracy_score(y_test, y_pred)
    mlflow.log_metric("accuracy", accuracy)
    mlflow.log_metric("n_train_samples", len(X_train))
    mlflow.log_metric("n_test_samples", len(X_test))
    
    # Enregistrer le modèle
    mlflow.sklearn.log_model(model_rf, "model")
    
    print(f"✅ Run enregistré avec précision : {accuracy * 100:.2f}%")

print("\n💡 Pour voir l'interface MLflow :")
print("   mlflow ui")
print("   Puis ouvrir : http://localhost:5000")

In [None]:
# Comparer plusieurs modèles avec MLflow

print("\n🔬 COMPARAISON DE MODÈLES")
print("=" * 60)

models_to_test = [
    ("Logistic Regression", LogisticRegression(random_state=42)),
    ("Random Forest (50)", RandomForestClassifier(n_estimators=50, random_state=42)),
    ("Random Forest (100)", RandomForestClassifier(n_estimators=100, random_state=42)),
    ("Random Forest (200)", RandomForestClassifier(n_estimators=200, random_state=42)),
]

results = []

for name, model in models_to_test:
    with mlflow.start_run(run_name=name):
        # Entraîner
        model.fit(X_train_scaled, y_train)
        
        # Prédire
        y_pred = model.predict(X_test_scaled)
        
        # Métriques
        accuracy = accuracy_score(y_test, y_pred)
        
        # Log
        mlflow.log_param("model_name", name)
        mlflow.log_metric("accuracy", accuracy)
        mlflow.sklearn.log_model(model, "model")
        
        results.append({'Model': name, 'Accuracy': accuracy})
        print(f"{name:<25} Accuracy: {accuracy * 100:.2f}%")

# Afficher le meilleur modèle
results_df = pd.DataFrame(results).sort_values('Accuracy', ascending=False)
print("\n🏆 Meilleur modèle :")
print(results_df.iloc[0])

### 🎯 Exercice 2 : Tracking avec MLflow

Utilisez MLflow pour comparer 3 modèles de régression :
1. Linear Regression
2. Ridge Regression
3. Random Forest Regressor

Enregistrez les métriques MAE et R² pour chaque modèle.

In [None]:
# Exercice 2 : À vous de jouer !

# TODO: Comparez 3 modèles de régression avec MLflow



---

# Chapitre 4 : Exemple pratique complet <a id="chapitre-4"></a>

## 4.1 Créer une API REST avec FastAPI

**FastAPI** est un framework moderne pour créer des APIs en Python.

### Avantages

- ✅ Très rapide (performance)
- ✅ Documentation automatique
- ✅ Validation des données
- ✅ Facile à utiliser

### Structure d'une API ML

```python
from fastapi import FastAPI
from pydantic import BaseModel
import joblib

# Charger le modèle
model = joblib.load('model.pkl')

# Créer l'app
app = FastAPI()

# Définir le schéma d'entrée
class PredictionInput(BaseModel):
    feature1: float
    feature2: float

# Endpoint de prédiction
@app.post("/predict")
def predict(data: PredictionInput):
    # Faire la prédiction
    prediction = model.predict([[data.feature1, data.feature2]])
    return {"prediction": int(prediction[0])}
```

In [None]:
# Créer un fichier API pour notre modèle de paludisme

api_code = '''
from fastapi import FastAPI
from pydantic import BaseModel
import joblib
import numpy as np

# Charger le modèle et le scaler
model = joblib.load('models/paludisme_model.pkl')
scaler = joblib.load('models/scaler.pkl')

# Créer l'application
app = FastAPI(
    title="API de Détection du Paludisme",
    description="API pour prédire si un patient a le paludisme",
    version="1.0.0"
)

# Schéma d'entrée
class PatientData(BaseModel):
    temperature: float
    fatigue: float  # 0-10
    maux_tete: float  # 0-10
    frissons: float  # 0-1
    
    class Config:
        schema_extra = {
            "example": {
                "temperature": 39.5,
                "fatigue": 8.0,
                "maux_tete": 9.0,
                "frissons": 1.0
            }
        }

# Schéma de sortie
class PredictionResponse(BaseModel):
    prediction: int  # 0 = Sain, 1 = Paludisme
    probability: float
    message: str

# Endpoint racine
@app.get("/")
def root():
    return {
        "message": "API de Détection du Paludisme - RDC",
        "version": "1.0.0",
        "endpoints": {
            "/predict": "POST - Faire une prédiction",
            "/health": "GET - Vérifier l'état de l'API",
            "/docs": "GET - Documentation interactive"
        }
    }

# Endpoint de santé
@app.get("/health")
def health():
    return {"status": "healthy", "model_loaded": True}

# Endpoint de prédiction
@app.post("/predict", response_model=PredictionResponse)
def predict(data: PatientData):
    # Préparer les données
    features = np.array([[
        data.temperature,
        data.fatigue,
        data.maux_tete,
        data.frissons
    ]])
    
    # Normaliser
    features_scaled = scaler.transform(features)
    
    # Prédire
    prediction = model.predict(features_scaled)[0]
    probability = model.predict_proba(features_scaled)[0][1]
    
    # Message
    if prediction == 1:
        message = f"⚠️ Risque de paludisme élevé ({probability*100:.1f}%). Consultez un médecin."
    else:
        message = f"✅ Risque de paludisme faible ({probability*100:.1f}%)."
    
    return {
        "prediction": int(prediction),
        "probability": float(probability),
        "message": message
    }

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)
'''

# Sauvegarder le fichier
with open('main.py', 'w', encoding='utf-8') as f:
    f.write(api_code)

print("✅ Fichier API créé : main.py")
print("\n📝 Pour lancer l'API :")
print("   uvicorn main:app --reload")
print("\n📚 Documentation interactive :")
print("   http://localhost:8000/docs")

In [None]:
# Créer un Dockerfile

dockerfile_content = '''# Image de base
FROM python:3.9-slim

# Métadonnées
LABEL maintainer="IA-Solution RDC"
LABEL description="API de détection du paludisme"

# Répertoire de travail
WORKDIR /app

# Copier les requirements
COPY requirements.txt .

# Installer les dépendances
RUN pip install --no-cache-dir -r requirements.txt

# Copier le code et les modèles
COPY main.py .
COPY models/ models/

# Exposer le port
EXPOSE 8000

# Commande de démarrage
CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]
'''

with open('Dockerfile', 'w') as f:
    f.write(dockerfile_content)

print("✅ Dockerfile créé")

# Créer requirements.txt
requirements = '''fastapi==0.104.1
uvicorn[standard]==0.24.0
pydantic==2.5.0
scikit-learn==1.3.2
joblib==1.3.2
numpy==1.24.3
'''

with open('requirements.txt', 'w') as f:
    f.write(requirements)

print("✅ requirements.txt créé")

print("\n🐳 Pour construire l'image Docker :")
print("   docker build -t paludisme-api .")
print("\n🚀 Pour lancer le container :")
print("   docker run -p 8000:8000 paludisme-api")

## 4.2 Tester l'API

### Avec curl

```bash
curl -X POST "http://localhost:8000/predict" \
  -H "Content-Type: application/json" \
  -d '{"temperature": 39.5, "fatigue": 8, "maux_tete": 9, "frissons": 1}'
```

### Avec Python

```python
import requests

data = {
    "temperature": 39.5,
    "fatigue": 8.0,
    "maux_tete": 9.0,
    "frissons": 1.0
}

response = requests.post("http://localhost:8000/predict", json=data)
print(response.json())
```

In [None]:
# Simuler un appel API (si l'API est lancée)

import requests

def test_api(base_url="http://localhost:8000"):
    """Teste l'API de prédiction"""
    
    print("🧪 TEST DE L'API")
    print("=" * 60)
    
    # Test 1 : Endpoint racine
    try:
        response = requests.get(f"{base_url}/")
        print("✅ Endpoint racine : OK")
        print(response.json())
    except:
        print("❌ API non accessible. Lancez-la avec : uvicorn main:app")
        return
    
    # Test 2 : Health check
    response = requests.get(f"{base_url}/health")
    print("\n✅ Health check : OK")
    print(response.json())
    
    # Test 3 : Prédiction (cas positif)
    data_positif = {
        "temperature": 39.5,
        "fatigue": 8.0,
        "maux_tete": 9.0,
        "frissons": 1.0
    }
    
    response = requests.post(f"{base_url}/predict", json=data_positif)
    print("\n✅ Prédiction (cas positif) :")
    print(response.json())
    
    # Test 4 : Prédiction (cas négatif)
    data_negatif = {
        "temperature": 37.0,
        "fatigue": 2.0,
        "maux_tete": 1.0,
        "frissons": 0.0
    }
    
    response = requests.post(f"{base_url}/predict", json=data_negatif)
    print("\n✅ Prédiction (cas négatif) :")
    print(response.json())

# Décommenter pour tester (si l'API est lancée)
# test_api()

print("\n💡 Pour tester l'API :")
print("1. Lancez l'API : uvicorn main:app --reload")
print("2. Décommentez et exécutez : test_api()")
print("3. Ou visitez : http://localhost:8000/docs")

### 🎯 Exercice 3 : Créer votre API

Créez une API REST pour votre modèle de prédiction de rendement agricole :
1. Définissez le schéma d'entrée (pluie, engrais, température)
2. Créez l'endpoint `/predict`
3. Testez avec différentes valeurs
4. Créez un Dockerfile

In [None]:
# Exercice 3 : À vous de jouer !

# TODO: Créez votre API de prédiction de rendement



---

# Chapitre 5 : Applications en RDC <a id="chapitre-5"></a>

## 5.1 Santé : Suivi des modèles de diagnostic

### Cas d'usage

**Système de détection du paludisme déployé dans 10 hôpitaux**

**Architecture :**
```
Hôpitaux (10) → API Centrale → Base de données
                     ↓
              Dashboard Monitoring
```

**Métriques suivies :**
- Précision par hôpital
- Nombre de prédictions/jour
- Temps de réponse
- Taux de faux positifs/négatifs

**Alertes :**
- Précision < 90% → Réentraînement
- Temps de réponse > 2s → Optimisation
- API down → Notification immédiate

## 5.2 Agriculture : Prédiction de rendement

### Cas d'usage

**Application mobile pour agriculteurs**

**Fonctionnalités :**
- Prédiction du rendement (manioc, maïs)
- Recommandations d'engrais
- Alertes météo

**Pipeline MLOps :**
1. Collecte de données (capteurs, satellites)
2. Réentraînement mensuel
3. A/B testing des nouveaux modèles
4. Déploiement progressif

## 5.3 Énergie : Optimisation de la consommation

### Cas d'usage

**Prédiction de la demande électrique à Kinshasa**

**Données :**
- Historique de consommation
- Météo
- Événements (matchs, fêtes)
- Jour de la semaine

**Bénéfices :**
- Réduction des coupures
- Optimisation de la production
- Économies de coûts

**MLOps :**
- Réentraînement quotidien
- Prédictions toutes les heures
- Monitoring en temps réel
- Alertes automatiques

In [None]:
# Exemple : Dashboard de monitoring simple

import pandas as pd
from datetime import datetime, timedelta

# Simuler des données de monitoring
dates = pd.date_range(start='2025-01-01', end='2025-01-30', freq='D')
monitoring_data = pd.DataFrame({
    'date': dates,
    'predictions': np.random.randint(50, 200, len(dates)),
    'accuracy': np.random.uniform(0.85, 0.98, len(dates)),
    'response_time_ms': np.random.uniform(50, 300, len(dates)),
    'errors': np.random.randint(0, 5, len(dates))
})

print("📊 DASHBOARD DE MONITORING")
print("=" * 60)
print(f"\nPériode : {dates[0].date()} à {dates[-1].date()}")
print(f"\nStatistiques :")
print(f"- Total prédictions : {monitoring_data['predictions'].sum()}")
print(f"- Précision moyenne : {monitoring_data['accuracy'].mean() * 100:.2f}%")
print(f"- Temps de réponse moyen : {monitoring_data['response_time_ms'].mean():.0f} ms")
print(f"- Total erreurs : {monitoring_data['errors'].sum()}")

# Visualiser
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Prédictions par jour
axes[0, 0].plot(monitoring_data['date'], monitoring_data['predictions'], 'b-', linewidth=2)
axes[0, 0].set_title('Prédictions par jour', fontsize=12, fontweight='bold')
axes[0, 0].set_xlabel('Date')
axes[0, 0].set_ylabel('Nombre')
axes[0, 0].grid(True, alpha=0.3)

# Précision
axes[0, 1].plot(monitoring_data['date'], monitoring_data['accuracy'] * 100, 'g-', linewidth=2)
axes[0, 1].axhline(y=90, color='r', linestyle='--', label='Seuil minimum')
axes[0, 1].set_title('Précision du modèle', fontsize=12, fontweight='bold')
axes[0, 1].set_xlabel('Date')
axes[0, 1].set_ylabel('Précision (%)')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# Temps de réponse
axes[1, 0].plot(monitoring_data['date'], monitoring_data['response_time_ms'], 'orange', linewidth=2)
axes[1, 0].axhline(y=200, color='r', linestyle='--', label='Seuil maximum')
axes[1, 0].set_title('Temps de réponse', fontsize=12, fontweight='bold')
axes[1, 0].set_xlabel('Date')
axes[1, 0].set_ylabel('Temps (ms)')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Erreurs
axes[1, 1].bar(monitoring_data['date'], monitoring_data['errors'], color='red', alpha=0.6)
axes[1, 1].set_title('Erreurs par jour', fontsize=12, fontweight='bold')
axes[1, 1].set_xlabel('Date')
axes[1, 1].set_ylabel('Nombre')
axes[1, 1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

# Alertes
print("\n🚨 ALERTES :")
low_accuracy = monitoring_data[monitoring_data['accuracy'] < 0.90]
if len(low_accuracy) > 0:
    print(f"⚠️ Précision < 90% détectée {len(low_accuracy)} fois")
else:
    print("✅ Aucune alerte de précision")

slow_response = monitoring_data[monitoring_data['response_time_ms'] > 200]
if len(slow_response) > 0:
    print(f"⚠️ Temps de réponse > 200ms détecté {len(slow_response)} fois")
else:
    print("✅ Aucune alerte de performance")

### 🎯 Exercice 4 : Monitoring

Créez un système de monitoring pour votre modèle :
1. Simulez des données de production (30 jours)
2. Calculez les métriques clés
3. Créez des visualisations
4. Définissez des seuils d'alerte

In [None]:
# Exercice 4 : À vous de jouer !

# TODO: Créez votre système de monitoring



---

# Chapitre 6 : Projet final <a id="chapitre-6"></a>

## 🎯 Objectif du projet

Créer un **système MLOps complet** pour un modèle de prédiction météo en RDC.

## Spécifications

### 1. Modèle
- Prédire la pluie du lendemain (classification binaire)
- Features : température, humidité, pression, vent
- Précision > 85%

### 2. Versioning
- Code versionné avec Git
- Modèles trackés avec MLflow

### 3. API
- FastAPI avec documentation
- Endpoints : `/predict`, `/health`, `/metrics`
- Validation des données

### 4. Containerisation
- Dockerfile fonctionnel
- Image < 500 MB

### 5. Monitoring
- Dashboard de métriques
- Alertes automatiques

## Livrables

1. Code source (GitHub)
2. Modèle entraîné
3. API fonctionnelle
4. Dockerfile
5. Documentation
6. Présentation (5 min)

In [None]:
# Projet final : Template de démarrage

print("🚀 PROJET FINAL : SYSTÈME MLOPS COMPLET")
print("=" * 60)
print("\nÉtapes à suivre :")
print("\n1️⃣ DONNÉES")
print("   - Générer ou collecter des données météo")
print("   - Features : température, humidité, pression, vent")
print("   - Target : pluie (0/1)")

print("\n2️⃣ MODÈLE")
print("   - Tester plusieurs algorithmes")
print("   - Optimiser les hyperparamètres")
print("   - Tracker avec MLflow")
print("   - Sauvegarder le meilleur modèle")

print("\n3️⃣ API")
print("   - Créer main.py avec FastAPI")
print("   - Définir les schémas Pydantic")
print("   - Implémenter /predict, /health, /metrics")
print("   - Tester localement")

print("\n4️⃣ DOCKER")
print("   - Créer Dockerfile")
print("   - Créer requirements.txt")
print("   - Build l'image")
print("   - Tester le container")

print("\n5️⃣ MONITORING")
print("   - Créer dashboard de métriques")
print("   - Définir seuils d'alerte")
print("   - Simuler données de production")
print("   - Visualiser les résultats")

print("\n6️⃣ DOCUMENTATION")
print("   - README.md complet")
print("   - Guide d'installation")
print("   - Exemples d'utilisation")
print("   - Architecture du système")

print("\n" + "=" * 60)
print("💡 Bon courage pour votre projet !")

### 🎯 Exercice 5 : Projet final

Réalisez le projet complet en suivant les étapes ci-dessus.

**Critères d'évaluation :**
- Qualité du code (20%)
- Performance du modèle (20%)
- API fonctionnelle (20%)
- Containerisation (15%)
- Monitoring (15%)
- Documentation (10%)

In [None]:
# Exercice 5 : Projet final - À vous de jouer !

# TODO: Réalisez votre projet MLOps complet



---

## 🎓 Résumé du module

### Ce que vous avez appris

1. **MLOps**
   - Définition et importance
   - Différence avec Data Science
   - Applications en RDC

2. **Cycle de vie ML**
   - Collecte de données
   - Préparation
   - Entraînement
   - Évaluation
   - Déploiement
   - Monitoring

3. **Outils**
   - Git/GitHub (versioning)
   - Docker (containerisation)
   - MLflow (tracking)
   - FastAPI (déploiement)

4. **Pratique**
   - Création d'API REST
   - Dockerisation
   - Monitoring
   - Projet complet

### Compétences acquises

- ✅ Gérer le cycle de vie complet d'un modèle
- ✅ Versionner code et modèles
- ✅ Créer des APIs de prédiction
- ✅ Containeriser des applications ML
- ✅ Monitorer des modèles en production
- ✅ Appliquer MLOps à des cas RDC

### Prochaines étapes

1. **Approfondir**
   - Kubernetes pour l'orchestration
   - CI/CD avec GitHub Actions
   - A/B testing de modèles
   - Feature stores

2. **Pratiquer**
   - Déployer sur cloud (AWS, GCP, Azure)
   - Créer des pipelines automatisés
   - Monitorer en production réelle

3. **Certifications**
   - AWS Certified Machine Learning
   - Google Cloud Professional ML Engineer
   - MLOps Specialization (Coursera)

---

## 📚 Ressources supplémentaires

### Documentation
- [MLflow Documentation](https://mlflow.org/docs/latest/index.html)
- [FastAPI Documentation](https://fastapi.tiangolo.com/)
- [Docker Documentation](https://docs.docker.com/)

### Cours en ligne
- MLOps Specialization (DeepLearning.AI)
- Machine Learning Engineering for Production (Coursera)
- Full Stack Deep Learning

### Livres
- "Designing Machine Learning Systems" - Chip Huyen
- "Building Machine Learning Powered Applications" - Emmanuel Ameisen
- "Machine Learning Engineering" - Andriy Burkov

### Communautés
- Reddit r/MLOps
- MLOps Community Slack
- LinkedIn MLOps groups

---

**Félicitations ! Vous avez terminé le module MLOps ! 🎉**

*Continuez à pratiquer et à déployer vos modèles en production !*