# 🏭 PARTIE 3 : ETL (EXTRACT, TRANSFORM, LOAD)

### 🌟 Ce que vous allez apprendre :
- **Extract** : Lire des fichiers CSV et JSON
- **Transform** : Nettoyer et enrichir les données
- **Load** : Sauvegarder vers différents formats
- **Pipeline** : Automatiser le processus complet

### 🛠️ Prérequis :
Exécutez d'abord la cellule système ci-dessous.

---

In [12]:
exec(open('helpers/etl_helper.py').read())

---

## 🌟 Section 3.1 : EXTRACT - Lecture des Données

### 🎯 Objectif :
Maîtriser la lecture de différents formats de données.

### 📝 Étape 3.1.1 : Extraction CSV

**Instructions :**
Lire le fichier `ventes.csv` avec pandas.

In [None]:
# 📝 ÉTAPE 3.1.1 : Lecture CSV
# Lisez le fichier 'data_etl/ventes.csv' dans un DataFrame 'df_ventes'
# Utilisez pd.read_csv()

# Syntaxe : df = pd.read_csv('chemin/fichier.csv')

# 👇 Lisez le fichier CSV ici :

In [7]:
# 💡 Aide pour l'étape 3.1.1
etl_helper.help("3.1.1")

### 📝 Étape 3.1.2 : Extraction JSON

**Instructions :**
Lire le fichier `clients.json` et le convertir en DataFrame.

In [None]:
# 📝 ÉTAPE 3.1.2 : Lecture JSON
# 1. Ouvrez le fichier 'data_etl/clients.json' avec json.load()
# 2. Convertissez les données JSON en DataFrame 'df_clients'
# 
# Structure JSON :
# {
#   "clients": [
#     {"id": 1, "nom": "Martin", ...},
#     {"id": 2, "nom": "Dubois", ...}
#   ]
# }

# Syntaxe :
# with open('fichier.json', 'r', encoding='utf-8') as f:
#     data = json.load(f)
# df = pd.DataFrame(data['clients'])

# 👇 Lisez le fichier JSON ici :

In [8]:
# 💡 Aide pour l'étape 3.1.2
etl_helper.help("3.1.2")

etl_helper.success("Section 3.1 terminée ! Vous maîtrisez l'extraction de données !")

---

## 🌟 Section 3.2 : TRANSFORM - Transformation des Données

### 🎯 Objectif :
Nettoyer, enrichir et transformer les données extraites.

### 📝 Étape 3.2.1 : Nettoyage des données ventes

**Instructions :**
Transformer et enrichir le DataFrame des ventes.

In [None]:
# 📝 ÉTAPE 3.2.1 : Transform ventes
# Transformez df_ventes en df_ventes_clean avec ces opérations :
# 1. Convertir la colonne 'date' en datetime avec pd.to_datetime()
# 2. Créer une colonne 'montant_total' = quantite * prix_unitaire
# 3. Créer une colonne 'mois' extraite de la date (df['date'].dt.month)
# 4. Créer une colonne 'categorie_prix' :
#    - 'Économique' si prix_unitaire < 50
#    - 'Moyen' si 50 <= prix_unitaire < 200  
#    - 'Premium' si prix_unitaire >= 200

# Commencez par copier le DataFrame original :
# df_ventes_clean = df_ventes.copy()

# 👇 Transformez les données ici :

In [None]:
# 🎬 Démonstration des transformations
def demo_transform_ventes():
    try:
        print("🔄 TRANSFORMATIONS APPLIQUÉES")
        print("="*35)
        print(f"📊 Nouvelles colonnes: {list(df_ventes_clean.columns)}")
        print(f"💰 Montant total moyen: {df_ventes_clean['montant_total'].mean():.2f}€")
        print(f"📅 Type colonne date: {df_ventes_clean['date'].dtype}")
        
        print("\n📈 Répartition catégories prix:")
        print(df_ventes_clean['categorie_prix'].value_counts())
        
        print("\n🔍 Aperçu données transformées:")
        print(df_ventes_clean[['produit', 'prix_unitaire', 'quantite', 'montant_total', 'categorie_prix']].head())
        
    except NameError:
        print("⚠️ Créez d'abord df_ventes_clean")

etl_helper.demo_button(demo_transform_ventes, "🎬 Voir les transformations")

In [9]:
# 💡 Aide pour l'étape 3.2.1
etl_helper.help("3.2.1")

### 📝 Étape 3.2.2 : Enrichissement des données clients

**Instructions :**
Transformer le DataFrame des clients.

In [None]:
# 📝 ÉTAPE 3.2.2 : Transform clients
# Transformez df_clients en df_clients_clean avec :
# 1. Créer une colonne 'nom_complet' = prenom + " " + nom
# 2. Créer une colonne 'tranche_age' :
#    - 'Jeune' si age < 30
#    - 'Adulte' si 30 <= age < 50
#    - 'Senior' si age >= 50
# 3. Créer une colonne 'region' selon la ville :
#    - 'Nord' pour Paris, Lyon
#    - 'Sud' pour Marseille, Nice, Toulouse

# 👇 Transformez les clients ici :

In [10]:
# 💡 Aide pour l'étape 3.2.2
etl_helper.help("3.2.2")

etl_helper.success("Section 3.2 terminée ! Vous maîtrisez la transformation de données !")

---

## 🌟 Section 3.3 : LOAD - Sauvegarde des Données

### 🎯 Objectif :
Sauvegarder les données transformées vers différents formats.

### 📝 Étape 3.3.1 : Sauvegarde CSV

**Instructions :**
Sauvegarder les DataFrames transformés en CSV.

In [None]:
# 📝 ÉTAPE 3.3.1 : Sauvegarde CSV
# Sauvegardez les DataFrames transformés :
# 1. df_ventes_clean → 'data_etl/ventes_clean.csv'
# 2. df_clients_clean → 'data_etl/clients_clean.csv'

# Utilisez .to_csv() avec index=False pour éviter les index

# 👇 Sauvegardez en CSV ici :

### 📝 Étape 3.3.2 : Agrégation et sauvegarde JSON

**Instructions :**
Créer un rapport agrégé et le sauvegarder en JSON.

In [None]:
# 📝 ÉTAPE 3.3.2 : Rapport agrégé JSON
# Créez un dictionnaire 'rapport_ventes' avec :
# 1. 'total_ventes' : somme de tous les montants_total
# 2. 'nb_transactions' : nombre total de lignes
# 3. 'vente_moyenne' : montant moyen par transaction
# 4. 'top_produits' : les 3 produits les plus vendus (en quantité)
# 5. 'ventes_par_mois' : montant total par mois
# 6. 'date_rapport' : date actuelle (datetime.now().isoformat())

# Puis sauvegardez en JSON dans 'data_etl/rapport_ventes.json'

# Aide :
# - .sum(), .mean(), .count() pour les agrégations
# - .groupby('produit')['quantite'].sum().nlargest(3) pour le top
# - .groupby('mois')['montant_total'].sum() pour par mois

# 👇 Créez et sauvegardez le rapport ici :

In [11]:
# 💡 Aide pour l'étape 3.3.2
etl_helper.help("3.3.2")

etl_helper.success("Section 3.3 terminée ! Vous maîtrisez la sauvegarde de données !")

---

## 🌟 Section 3.4 : Pipeline ETL Complet

### 🎯 Objectif :
Créer une fonction pipeline complète automatisée.

In [None]:
# 📝 ÉTAPE 3.4 : Pipeline ETL automatisé
# Créez une fonction 'pipeline_etl()' qui :
# 1. EXTRACT : lit les fichiers CSV et JSON
# 2. TRANSFORM : applique toutes les transformations
# 3. LOAD : sauvegarde tous les résultats
# 4. Retourne un dictionnaire avec les métriques du pipeline

def pipeline_etl():
    """Pipeline ETL complet automatisé"""
    print("🏭 DÉMARRAGE PIPELINE ETL")
    print("="*30)
    
    # 📥 EXTRACT
    print("📥 Phase EXTRACT...")
    # Votre code extract ici
    
    # 🔄 TRANSFORM  
    print("🔄 Phase TRANSFORM...")
    # Votre code transform ici
    
    # 💾 LOAD
    print("💾 Phase LOAD...")
    # Votre code load ici
    
    # 📊 Métriques
    metriques = {
        'ventes_lues': 0,  # Remplacez par len(df_ventes)
        'clients_lus': 0,  # Remplacez par len(df_clients)
        'ventes_transformees': 0,  # len(df_ventes_clean)
        'clients_transformes': 0,  # len(df_clients_clean)
        'fichiers_crees': 0,  # Nombre de fichiers créés
        'duree': 0  # En secondes
    }
    
    print("✅ PIPELINE TERMINÉ")
    return metriques

# 👇 Complétez la fonction pipeline_etl :

In [15]:
# 💡 Aide pour l'étape 3.4.1 : Pipeline ETL complet

# Forcer le rechargement du helper pour prendre en compte les nouvelles sections
etl_helper = ETLHelper()

etl_helper.help("3.4.1")

In [16]:
# 🎉 VALIDATION FINALE ETL
etl_helper.success("MAÎTRE ETL ! Pipeline automatisé maîtrisé !")

print("\n🏆 COMPÉTENCES ETL ACQUISES :")
print("✅ Extract: CSV, JSON, API")
print("✅ Transform: Nettoyage, enrichissement, agrégation")
print("✅ Load: CSV, JSON, bases de données")
print("✅ Pipeline: Automatisation complète")
print("✅ Monitoring: Métriques et performance")
print("\n🚀 Prêt pour : SQLite et bases de données !")


🏆 COMPÉTENCES ETL ACQUISES :
✅ Extract: CSV, JSON, API
✅ Transform: Nettoyage, enrichissement, agrégation
✅ Load: CSV, JSON, bases de données
✅ Pipeline: Automatisation complète
✅ Monitoring: Métriques et performance

🚀 Prêt pour : SQLite et bases de données !
