# 🏭 PARTIE 3 : ETL (EXTRACT, TRANSFORM, LOAD)

### 🌟 Ce que vous allez apprendre :
- **Extract** : Lire des fichiers CSV et JSON
- **Transform** : Nettoyer et enrichir les données
- **Load** : Sauvegarder vers différents formats
- **Pipeline** : Automatiser le processus complet

### 🛠️ Prérequis :
Exécutez d'abord la cellule système ci-dessous.

---

In [3]:
# 📦 INSTALLATION DES PACKAGES NÉCESSAIRES
# Exécutez cette cellule en premier pour installer tous les packages requis

import subprocess
import sys

def install_package(package):
    """Installe un package Python via pip"""
    try:
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"✅ {package} installé avec succès")
    except subprocess.CalledProcessError:
        print(f"❌ Erreur lors de l'installation de {package}")

# Liste des packages nécessaires pour ce notebook
packages = [
    "pandas>=1.5.0",
    "numpy>=1.20.0", 
    "ipywidgets>=7.6.0",
    "requests>=2.28.0",
    "openpyxl>=3.0.0",
    "xlsxwriter>=3.0.0"
]

print("🚀 Installation des packages pour ETL...")
print("Cela peut prendre quelques minutes...")

for package in packages:
    install_package(package)

print("\n✨ Installation terminée ! Vous pouvez maintenant exécuter les cellules suivantes.")
print("📝 Note: Redémarrez le kernel si nécessaire après l'installation.")

🚀 Installation des packages pour ETL...
Cela peut prendre quelques minutes...



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


✅ pandas>=1.5.0 installé avec succès



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


✅ numpy>=1.20.0 installé avec succès



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


✅ ipywidgets>=7.6.0 installé avec succès



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


✅ requests>=2.28.0 installé avec succès



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


✅ openpyxl>=3.0.0 installé avec succès
✅ xlsxwriter>=3.0.0 installé avec succès

✨ Installation terminée ! Vous pouvez maintenant exécuter les cellules suivantes.
📝 Note: Redémarrez le kernel si nécessaire après l'installation.
✅ xlsxwriter>=3.0.0 installé avec succès

✨ Installation terminée ! Vous pouvez maintenant exécuter les cellules suivantes.
📝 Note: Redémarrez le kernel si nécessaire après l'installation.



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [2]:
# 🔧 SYSTÈME D'AIDE ETL (Exécuter une fois)
import sys
import os
from IPython.display import HTML, display
import ipywidgets as widgets
import pandas as pd
import numpy as np
import json
import csv
from datetime import datetime, timedelta
import random
from pathlib import Path

class ETLHelper:
    def __init__(self):
        self.success_style = """
        <div style="background: linear-gradient(90deg, #FF6B35, #F7931E); color: white; padding: 15px; border-radius: 10px; margin: 10px 0; text-align: center; font-weight: bold; font-size: 16px;">
            🏭 {message} 🏭
        </div>
        """
        self.data_dir = Path("data_etl")
        self.data_dir.mkdir(exist_ok=True)
        
        # Base de données des aides cachées
        self.helps = {
            "3.1.1": {
                "hint": "Utilisez pd.read_csv('chemin/fichier.csv'). Le fichier sera dans le dossier data_etl/",
                "solution": """# Extract - Lire le fichier CSV des ventes
df_ventes = pd.read_csv('data_etl/ventes.csv')

print(f"📊 Ventes extraites: {len(df_ventes)} lignes")
print("📋 Colonnes:", list(df_ventes.columns))
print("\\n🔍 Aperçu:")
print(df_ventes.head())""",
                "explanation": "pd.read_csv() lit un fichier CSV et le convertit en DataFrame. Vérifiez toujours la structure après extraction."
            },
            "3.1.2": {
                "hint": "Utilisez pd.read_json('chemin/fichier.json'). Les données JSON peuvent avoir une structure complexe.",
                "solution": """# Extract - Lire le fichier JSON des clients  
df_clients = pd.read_json('data_etl/clients.json')

print(f"👥 Clients extraits: {len(df_clients)} lignes") 
print("📋 Colonnes:", list(df_clients.columns))
print("\\n🔍 Aperçu:")
print(df_clients.head())""",
                "explanation": "pd.read_json() convertit les données JSON en DataFrame. JSON peut contenir des structures imbriquées."
            },
            "3.2.1": {
                "hint": "Utilisez .dropna(), .fillna(), .astype() pour nettoyer. pd.to_datetime() pour les dates.",
                "solution": """# Transform - Nettoyer les données de ventes
df_ventes_clean = df_ventes.copy()

# Supprimer les lignes avec des valeurs manquantes critiques
df_ventes_clean = df_ventes_clean.dropna(subset=['produit', 'prix'])

# Convertir les dates
df_ventes_clean['date'] = pd.to_datetime(df_ventes_clean['date'])

# Nettoyer les prix (convertir en float)
df_ventes_clean['prix'] = pd.to_numeric(df_ventes_clean['prix'], errors='coerce')

# Supprimer les prix invalides
df_ventes_clean = df_ventes_clean.dropna(subset=['prix'])

print(f"🧹 Données nettoyées: {len(df_ventes_clean)} lignes (était {len(df_ventes)})")""",
                "explanation": "Transform nettoie et transforme les données: suppression des nulls, conversion de types, validation."
            },
            "3.2.2": {
                "hint": "Utilisez les mêmes techniques de nettoyage. Attention aux données clients qui peuvent être plus complexes.",
                "solution": """# Transform - Nettoyer les données clients
df_clients_clean = df_clients.copy()

# Supprimer les doublons basés sur l'email
df_clients_clean = df_clients_clean.drop_duplicates(subset=['email'], keep='first')

# Nettoyer les âges (valeurs raisonnables)
df_clients_clean = df_clients_clean[(df_clients_clean['age'] >= 18) & (df_clients_clean['age'] <= 100)]

# Nettoyer les noms (pas de valeurs vides)
df_clients_clean = df_clients_clean.dropna(subset=['nom', 'email'])

print(f"👥 Clients nettoyés: {len(df_clients_clean)} lignes (était {len(df_clients)})")""",
                "explanation": "Nettoyage spécifique aux clients: suppression doublons, validation âges, données obligatoires."
            },
            "3.3.2": {
                "hint": "Utilisez .to_json() avec les paramètres orient et indent pour un JSON lisible.",
                "solution": """# Load - Sauvegarder en JSON
# Fusion des données pour créer un dataset complet
df_final = df_ventes_clean.merge(df_clients_clean, left_on='client_id', right_on='id', how='inner')

# Sauvegarder en JSON avec formatage
output_json = 'data_etl/rapport_final.json'
df_final.to_json(output_json, orient='records', indent=2, date_format='iso')

print(f"💾 Données sauvegardées en JSON: {output_json}")
print(f"📊 {len(df_final)} enregistrements dans le fichier final")""",
                "explanation": "to_json() sauvegarde un DataFrame en JSON. orient='records' crée un format liste de dictionnaires."
            }
        }
    
    def help(self, step):
        """Affiche l'aide pour une étape donnée"""
        if step not in self.helps:
            print(f"❌ Aide non trouvée pour l'étape {step}")
            return
            
        help_data = self.helps[step]
        
        # Conseil caché
        html_hint = f"""
        <details style="margin: 10px 0; border: 1px solid #ddd; border-radius: 5px; padding: 5px; background: #f9f9f9;">
            <summary style="cursor: pointer; background: #fff3e0; padding: 10px; border-radius: 3px; font-weight: bold; color: #ef6c00;">
                💡 Conseil ETL (cliquer pour dérouler)
            </summary>
            <div style="padding: 15px; margin-top: 10px; background: white; border-radius: 3px;">
                <p style="margin: 0; color: #333;">{help_data['hint']}</p>
            </div>
        </details>
        """
        
        # Solution cachée
        html_solution = f"""
        <details style="margin: 10px 0; border: 1px solid #ddd; border-radius: 5px; padding: 5px; background: #f9f9f9;">
            <summary style="cursor: pointer; background: #e8f5e8; padding: 10px; border-radius: 3px; font-weight: bold; color: #2e7d32;">
                🔍 Solution ETL (cliquer pour dérouler)
            </summary>
            <div style="padding: 15px; margin-top: 10px; background: white; border-radius: 3px;">
                <p><strong>🏭 Explication :</strong> {help_data['explanation']}</p>
                <pre style="background: #f5f5f5; padding: 10px; border-radius: 3px; overflow-x: auto; border-left: 3px solid #ff6b35;"><code>{help_data['solution']}</code></pre>
            </div>
        </details>
        """
        
        display(HTML(html_hint))
        display(HTML(html_solution))
    
    def solution(self, code, explanation=""):
        html = f"""
        <details style="margin: 10px 0; border: 1px solid #ddd; border-radius: 5px; padding: 5px;">
            <summary style="cursor: pointer; background: #fff3e0; padding: 10px; border-radius: 3px; font-weight: bold;">
                🔍 Solution ETL (cliquer pour révéler)
            </summary>
            <div style="background: #fafafa; padding: 15px; margin-top: 10px; border-radius: 3px;">
                {f'<p><strong>🏭 Explication ETL:</strong> {explanation}</p>' if explanation else ''}
                <pre style="background: #f8f8f8; padding: 10px; border-radius: 3px; overflow-x: auto;"><code>{code}</code></pre>
            </div>
        </details>
        """
        display(HTML(html))
    
    def hint(self, text):
        html = f"""
        <details style="margin: 10px 0; border: 1px solid #ddd; border-radius: 5px; padding: 5px;">
            <summary style="cursor: pointer; background: #fff3e0; padding: 10px; border-radius: 3px; font-weight: bold;">
                💡 Conseil ETL (cliquer pour révéler)
            </summary>
            <div style="background: #fffdf7; padding: 15px; margin-top: 10px; border-radius: 3px;">
                {text}
            </div>
        </details>
        """
        display(HTML(html))
    
    def _check_file_exists(self, filename):
        filepath = self.data_dir / filename
        return filepath.exists(), str(filepath)
    
    def _check_dataframe(self, df_name, min_rows=None, required_columns=None):
        try:
            frame = sys._getframe(2)
            df = frame.f_globals.get(df_name, frame.f_locals.get(df_name))
            
            if df is None:
                return False, f"❌ DataFrame '{df_name}' non trouvé"
            
            if not isinstance(df, pd.DataFrame):
                return False, f"❌ '{df_name}' n'est pas un DataFrame pandas"
            
            if min_rows and len(df) < min_rows:
                return False, f"❌ DataFrame trop petit: {len(df)} lignes (minimum: {min_rows})"
            
            if required_columns:
                missing = [col for col in required_columns if col not in df.columns]
                if missing:
                    return False, f"❌ Colonnes manquantes: {missing}"
            
            info = f"✅ DataFrame '{df_name}': {df.shape[0]} lignes × {df.shape[1]} colonnes"
            if required_columns:
                info += f"\n✅ Colonnes requises présentes: {required_columns}"
            
            return True, info
            
        except Exception as e:
            return False, f"❌ Erreur: {e}"
    
    def check_extract_button(self, df_name, source_file, min_rows=None):
        output = widgets.Output()
        button = widgets.Button(
            description=f"📥 Vérifier Extract",
            button_style='info',
            layout=widgets.Layout(width='200px', height='35px')
        )
        
        def on_click(b):
            with output:
                output.clear_output()
                # Vérifier le fichier source
                file_exists, filepath = self._check_file_exists(source_file)
                if not file_exists:
                    print(f"❌ Fichier source manquant: {source_file}")
                    return
                
                # Vérifier le DataFrame
                success, message = self._check_dataframe(df_name, min_rows)
                if success:
                    print(f"🎉 EXTRACT réussi !")
                    print(message)
                    print(f"📁 Source: {source_file}")
                else:
                    print(message)
        
        button.on_click(on_click)
        display(widgets.VBox([button, output]))
    
    def check_transform_button(self, df_name, required_columns=None, min_rows=None):
        output = widgets.Output()
        button = widgets.Button(
            description=f"🔄 Vérifier Transform",
            button_style='warning',
            layout=widgets.Layout(width='220px', height='35px')
        )
        
        def on_click(b):
            with output:
                output.clear_output()
                success, message = self._check_dataframe(df_name, min_rows, required_columns)
                if success:
                    print(f"🎉 TRANSFORM réussi !")
                    print(message)
                else:
                    print(message)
        
        button.on_click(on_click)
        display(widgets.VBox([button, output]))
    
    def check_load_button(self, output_file, df_name=None):
        output = widgets.Output()
        button = widgets.Button(
            description=f"💾 Vérifier Load",
            button_style='success',
            layout=widgets.Layout(width='200px', height='35px')
        )
        
        def on_click(b):
            with output:
                output.clear_output()
                file_exists, filepath = self._check_file_exists(output_file)
                if file_exists:
                    file_size = os.path.getsize(filepath)
                    print(f"🎉 LOAD réussi !")
                    print(f"📁 Fichier créé: {output_file}")
                    print(f"📊 Taille: {file_size} bytes")
                    
                    # Vérifier le DataFrame si fourni
                    if df_name:
                        success, message = self._check_dataframe(df_name)
                        if success:
                            print(f"✅ {message}")
                else:
                    print(f"❌ Fichier non créé: {output_file}")
        
        button.on_click(on_click)
        display(widgets.VBox([button, output]))
    
    def success(self, message):
        html = self.success_style.format(message=message)
        display(HTML(html))
    
    def create_sample_data(self):
        """Crée des fichiers de données d'exemple pour les exercices"""
        # CSV des ventes
        sales_data = {
            'date': [f"2024-{random.randint(1,12):02d}-{random.randint(1,28):02d}" for _ in range(100)],
            'produit': [random.choice(['Laptop', 'Mouse', 'Keyboard', 'Monitor', 'Phone']) for _ in range(100)],
            'quantite': [random.randint(1, 10) for _ in range(100)],
            'prix_unitaire': [round(random.uniform(10, 1000), 2) for _ in range(100)],
            'vendeur': [random.choice(['Alice', 'Bob', 'Charlie', 'Diana', 'Eve']) for _ in range(100)]
        }
        
        sales_df = pd.DataFrame(sales_data)
        sales_df.to_csv(self.data_dir / 'ventes.csv', index=False)
        
        # JSON des clients
        clients_data = {
            'clients': [
                {
                    'id': i,
                    'nom': random.choice(['Martin', 'Dubois', 'Moreau', 'Laurent', 'Bernard']),
                    'prenom': random.choice(['Jean', 'Marie', 'Pierre', 'Sophie', 'Nicolas']),
                    'email': f"client{i}@email.com",
                    'age': random.randint(18, 70),
                    'ville': random.choice(['Paris', 'Lyon', 'Marseille', 'Toulouse', 'Nice'])
                }
                for i in range(1, 51)
            ]
        }
        
        with open(self.data_dir / 'clients.json', 'w', encoding='utf-8') as f:
            json.dump(clients_data, f, ensure_ascii=False, indent=2)
        
        return True
    
    def demo_button(self, demo_func, button_text="🎬 Voir la démonstration"):
        output = widgets.Output()
        button = widgets.Button(
            description=button_text,
            button_style='primary',
            layout=widgets.Layout(width='250px', height='35px')
        )
        
        def on_click(b):
            with output:
                output.clear_output()
                demo_func()
        
        button.on_click(on_click)
        display(widgets.VBox([button, output]))

# Création de l'assistant ETL
etl_helper = ETLHelper()

# Création des données d'exemple
etl_helper.create_sample_data()

print("🏭 Système d'aide ETL chargé !")
print("📁 Dossier data_etl créé avec fichiers d'exemple")
print("✨ Prêt pour Extract, Transform, Load !")

🏭 Système d'aide ETL chargé !
📁 Dossier data_etl créé avec fichiers d'exemple
✨ Prêt pour Extract, Transform, Load !


---

## 🌟 Section 3.1 : EXTRACT - Lecture des Données

### 🎯 Objectif :
Maîtriser la lecture de différents formats de données.

### 📝 Étape 3.1.1 : Extraction CSV

**Instructions :**
Lire le fichier `ventes.csv` avec pandas.

In [None]:
# 📝 ÉTAPE 3.1.1 : Lecture CSV
# Lisez le fichier 'data_etl/ventes.csv' dans un DataFrame 'df_ventes'
# Utilisez pd.read_csv()

# Syntaxe : df = pd.read_csv('chemin/fichier.csv')

# 👇 Lisez le fichier CSV ici :

In [None]:
# 💡 Aide pour l'étape 3.1.1
etl_helper.help("3.1.1")

### 📝 Étape 3.1.2 : Extraction JSON

**Instructions :**
Lire le fichier `clients.json` et le convertir en DataFrame.

In [None]:
# 📝 ÉTAPE 3.1.2 : Lecture JSON
# 1. Ouvrez le fichier 'data_etl/clients.json' avec json.load()
# 2. Convertissez les données JSON en DataFrame 'df_clients'
# 
# Structure JSON :
# {
#   "clients": [
#     {"id": 1, "nom": "Martin", ...},
#     {"id": 2, "nom": "Dubois", ...}
#   ]
# }

# Syntaxe :
# with open('fichier.json', 'r', encoding='utf-8') as f:
#     data = json.load(f)
# df = pd.DataFrame(data['clients'])

# 👇 Lisez le fichier JSON ici :

In [None]:
# 💡 Aide pour l'étape 3.1.2
etl_helper.help("3.1.2")

etl_helper.success("Section 3.1 terminée ! Vous maîtrisez l'extraction de données !")

---

## 🌟 Section 3.2 : TRANSFORM - Transformation des Données

### 🎯 Objectif :
Nettoyer, enrichir et transformer les données extraites.

### 📝 Étape 3.2.1 : Nettoyage des données ventes

**Instructions :**
Transformer et enrichir le DataFrame des ventes.

In [None]:
# 📝 ÉTAPE 3.2.1 : Transform ventes
# Transformez df_ventes en df_ventes_clean avec ces opérations :
# 1. Convertir la colonne 'date' en datetime avec pd.to_datetime()
# 2. Créer une colonne 'montant_total' = quantite * prix_unitaire
# 3. Créer une colonne 'mois' extraite de la date (df['date'].dt.month)
# 4. Créer une colonne 'categorie_prix' :
#    - 'Économique' si prix_unitaire < 50
#    - 'Moyen' si 50 <= prix_unitaire < 200  
#    - 'Premium' si prix_unitaire >= 200

# Commencez par copier le DataFrame original :
# df_ventes_clean = df_ventes.copy()

# 👇 Transformez les données ici :

In [None]:
# 🎬 Démonstration des transformations
def demo_transform_ventes():
    try:
        print("🔄 TRANSFORMATIONS APPLIQUÉES")
        print("="*35)
        print(f"📊 Nouvelles colonnes: {list(df_ventes_clean.columns)}")
        print(f"💰 Montant total moyen: {df_ventes_clean['montant_total'].mean():.2f}€")
        print(f"📅 Type colonne date: {df_ventes_clean['date'].dtype}")
        
        print("\n📈 Répartition catégories prix:")
        print(df_ventes_clean['categorie_prix'].value_counts())
        
        print("\n🔍 Aperçu données transformées:")
        print(df_ventes_clean[['produit', 'prix_unitaire', 'quantite', 'montant_total', 'categorie_prix']].head())
        
    except NameError:
        print("⚠️ Créez d'abord df_ventes_clean")

etl_helper.demo_button(demo_transform_ventes, "🎬 Voir les transformations")

In [None]:
# 💡 Aide pour l'étape 3.2.1
etl_helper.help("3.2.1")

### 📝 Étape 3.2.2 : Enrichissement des données clients

**Instructions :**
Transformer le DataFrame des clients.

In [None]:
# 📝 ÉTAPE 3.2.2 : Transform clients
# Transformez df_clients en df_clients_clean avec :
# 1. Créer une colonne 'nom_complet' = prenom + " " + nom
# 2. Créer une colonne 'tranche_age' :
#    - 'Jeune' si age < 30
#    - 'Adulte' si 30 <= age < 50
#    - 'Senior' si age >= 50
# 3. Créer une colonne 'region' selon la ville :
#    - 'Nord' pour Paris, Lyon
#    - 'Sud' pour Marseille, Nice, Toulouse

# 👇 Transformez les clients ici :

In [None]:
# 💡 Aide pour l'étape 3.2.2
etl_helper.help("3.2.2")

etl_helper.success("Section 3.2 terminée ! Vous maîtrisez la transformation de données !")

---

## 🌟 Section 3.3 : LOAD - Sauvegarde des Données

### 🎯 Objectif :
Sauvegarder les données transformées vers différents formats.

### 📝 Étape 3.3.1 : Sauvegarde CSV

**Instructions :**
Sauvegarder les DataFrames transformés en CSV.

In [None]:
# 📝 ÉTAPE 3.3.1 : Sauvegarde CSV
# Sauvegardez les DataFrames transformés :
# 1. df_ventes_clean → 'data_etl/ventes_clean.csv'
# 2. df_clients_clean → 'data_etl/clients_clean.csv'

# Utilisez .to_csv() avec index=False pour éviter les index

# 👇 Sauvegardez en CSV ici :

### 📝 Étape 3.3.2 : Agrégation et sauvegarde JSON

**Instructions :**
Créer un rapport agrégé et le sauvegarder en JSON.

In [None]:
# 📝 ÉTAPE 3.3.2 : Rapport agrégé JSON
# Créez un dictionnaire 'rapport_ventes' avec :
# 1. 'total_ventes' : somme de tous les montants_total
# 2. 'nb_transactions' : nombre total de lignes
# 3. 'vente_moyenne' : montant moyen par transaction
# 4. 'top_produits' : les 3 produits les plus vendus (en quantité)
# 5. 'ventes_par_mois' : montant total par mois
# 6. 'date_rapport' : date actuelle (datetime.now().isoformat())

# Puis sauvegardez en JSON dans 'data_etl/rapport_ventes.json'

# Aide :
# - .sum(), .mean(), .count() pour les agrégations
# - .groupby('produit')['quantite'].sum().nlargest(3) pour le top
# - .groupby('mois')['montant_total'].sum() pour par mois

# 👇 Créez et sauvegardez le rapport ici :

In [None]:
# 💡 Aide pour l'étape 3.3.2
etl_helper.help("3.3.2")

etl_helper.success("Section 3.3 terminée ! Vous maîtrisez la sauvegarde de données !")

---

## 🌟 Section 3.4 : Pipeline ETL Complet

### 🎯 Objectif :
Créer une fonction pipeline complète automatisée.

In [None]:
# 📝 ÉTAPE 3.4 : Pipeline ETL automatisé
# Créez une fonction 'pipeline_etl()' qui :
# 1. EXTRACT : lit les fichiers CSV et JSON
# 2. TRANSFORM : applique toutes les transformations
# 3. LOAD : sauvegarde tous les résultats
# 4. Retourne un dictionnaire avec les métriques du pipeline

def pipeline_etl():
    """Pipeline ETL complet automatisé"""
    print("🏭 DÉMARRAGE PIPELINE ETL")
    print("="*30)
    
    # 📥 EXTRACT
    print("📥 Phase EXTRACT...")
    # Votre code extract ici
    
    # 🔄 TRANSFORM  
    print("🔄 Phase TRANSFORM...")
    # Votre code transform ici
    
    # 💾 LOAD
    print("💾 Phase LOAD...")
    # Votre code load ici
    
    # 📊 Métriques
    metriques = {
        'ventes_lues': 0,  # Remplacez par len(df_ventes)
        'clients_lus': 0,  # Remplacez par len(df_clients)
        'ventes_transformees': 0,  # len(df_ventes_clean)
        'clients_transformes': 0,  # len(df_clients_clean)
        'fichiers_crees': 0,  # Nombre de fichiers créés
        'duree': 0  # En secondes
    }
    
    print("✅ PIPELINE TERMINÉ")
    return metriques

# 👇 Complétez la fonction pipeline_etl :

In [None]:
# 💡 Aide pour le pipeline complet
etl_helper.solution(
    """def pipeline_etl():
    \"\"\"Pipeline ETL complet automatisé\"\"\"
    start_time = time.time()
    print("🏭 DÉMARRAGE PIPELINE ETL")
    print("="*30)
    
    # 📥 EXTRACT
    print("📥 Phase EXTRACT...")
    df_ventes = pd.read_csv('data_etl/ventes.csv')
    with open('data_etl/clients.json', 'r', encoding='utf-8') as f:
        data = json.load(f)
    df_clients = pd.DataFrame(data['clients'])
    
    # 🔄 TRANSFORM  
    print("🔄 Phase TRANSFORM...")
    df_ventes_clean = df_ventes.copy()
    df_ventes_clean['date'] = pd.to_datetime(df_ventes_clean['date'])
    df_ventes_clean['montant_total'] = df_ventes_clean['quantite'] * df_ventes_clean['prix_unitaire']
    df_ventes_clean['mois'] = df_ventes_clean['date'].dt.month
    df_ventes_clean['categorie_prix'] = np.where(
        df_ventes_clean['prix_unitaire'] < 50, 'Économique',
        np.where(df_ventes_clean['prix_unitaire'] < 200, 'Moyen', 'Premium')
    )
    
    df_clients_clean = df_clients.copy()
    df_clients_clean['nom_complet'] = df_clients_clean['prenom'] + \" \" + df_clients_clean['nom']
    df_clients_clean['tranche_age'] = np.where(
        df_clients_clean['age'] < 30, 'Jeune',
        np.where(df_clients_clean['age'] < 50, 'Adulte', 'Senior')
    )
    mapping_region = {
        'Paris': 'Nord', 'Lyon': 'Nord',
        'Marseille': 'Sud', 'Nice': 'Sud', 'Toulouse': 'Sud'
    }
    df_clients_clean['region'] = df_clients_clean['ville'].map(mapping_region)
    
    # 💾 LOAD
    print("💾 Phase LOAD...")
    df_ventes_clean.to_csv('data_etl/ventes_clean.csv', index=False)
    df_clients_clean.to_csv('data_etl/clients_clean.csv', index=False)
    
    rapport_ventes = {
        'total_ventes': float(df_ventes_clean['montant_total'].sum()),
        'nb_transactions': int(len(df_ventes_clean)),
        'vente_moyenne': float(df_ventes_clean['montant_total'].mean()),
        'date_rapport': datetime.now().isoformat()
    }
    
    with open('data_etl/rapport_ventes.json', 'w', encoding='utf-8') as f:
        json.dump(rapport_ventes, f, ensure_ascii=False, indent=2)
    
    # 📊 Métriques
    duree = time.time() - start_time
    metriques = {
        'ventes_lues': len(df_ventes),
        'clients_lus': len(df_clients), 
        'ventes_transformees': len(df_ventes_clean),
        'clients_transformes': len(df_clients_clean),
        'fichiers_crees': 3,
        'duree': duree
    }
    
    print("✅ PIPELINE TERMINÉ")
    return metriques""",
    "Un pipeline ETL automatise Extract→Transform→Load. Mesurez les performances et gérez les erreurs."
)

etl_helper.success("FÉLICITATIONS ! Vous maîtrisez l'ETL complet !")

In [None]:
# 🎉 VALIDATION FINALE ETL
etl_helper.success("MAÎTRE ETL ! Pipeline automatisé maîtrisé !")

print("\n🏆 COMPÉTENCES ETL ACQUISES :")
print("✅ Extract: CSV, JSON, API")
print("✅ Transform: Nettoyage, enrichissement, agrégation")
print("✅ Load: CSV, JSON, bases de données")
print("✅ Pipeline: Automatisation complète")
print("✅ Monitoring: Métriques et performance")
print("\n🚀 Prêt pour : SQLite et bases de données !")