# **Module 1 : Python pour Data Engineering**

## **1. Programmation Orientée Objet - Concepts Fondamentaux**

### **Définitions essentielles**

La programmation orientée objet repose sur six concepts fondamentaux qu'il est essentiel de maîtriser avant de créer des pipelines de données robustes.

| Terme | Définition | Exemple |
|-------|------------|------|
| **Classe** | Modèle ou plan de construction pour créer des objets | `class Voiture:` |
| **Instance** | Un objet créé à partir d'une classe | `ma_voiture = Voiture()` |
| **Attribut** | Variable qui appartient à une instance | `ma_voiture.couleur = "rouge"` |
| **Méthode** | Fonction qui appartient à une classe | `ma_voiture.demarrer()` |
| **Constructeur** | Méthode spéciale qui initialise une instance | `__init__(self)` |
| **Encapsulation** | Regroupement des données et méthodes dans une classe | Tout dans la classe |

### **1. Classe : Le Plan de Construction**

Une classe est comme un plan d'architecte. Elle définit la structure et le comportement que partageront tous les objets créés à partir de ce plan. En Data Engineering, nous utilisons les classes pour organiser notre code de manière logique et réutilisable.

In [None]:
class ProcesseurDonnees:
    """Plan pour créer des processeurs de données"""
    pass  # Pour l'instant, juste la structure

Cette classe ne fait rien encore, mais elle établit le concept. Tous les processeurs de données que nous créerons à partir de cette classe partageront la même structure de base.

### **2. Instance : L'Objet Concret**

Une instance est un objet concret créé à partir d'une classe. C'est comme construire une maison à partir du plan d'architecte. Chaque maison (instance) est unique même si elle suit le même plan (classe).

In [None]:
# Création de deux instances différentes
processeur1 = ProcesseurDonnees()  # Première instance
processeur2 = ProcesseurDonnees()  # Deuxième instance

# Chaque instance est indépendante
print(processeur1 is processeur2)  # False - ce sont des objets différents

### **3. Attribut : Les Caractéristiques de l'Objet**

Les attributs sont les variables qui appartiennent à une instance. Ils stockent l'état et les données spécifiques à chaque objet. Chaque instance peut avoir des valeurs différentes pour ses attributs.

In [None]:
class ProcesseurDonnees:
    def __init__(self, nom):
        self.nom = nom           # Attribut d'instance
        self.donnees = None      # Attribut d'instance
        self.statut = "inactif"  # Attribut d'instance

# Chaque instance a ses propres attributs
processeur_ventes = ProcesseurDonnees("Ventes")
processeur_clients = ProcesseurDonnees("Clients")

print(processeur_ventes.nom)    # "Ventes"
print(processeur_clients.nom)   # "Clients"

### **4. Méthode : Les Actions de l'Objet**

Les méthodes sont les fonctions qui appartiennent à une classe. Elles définissent ce que les objets peuvent faire. Les méthodes peuvent accéder et modifier les attributs de l'instance.

In [None]:
class ProcesseurDonnees:
    def __init__(self, nom):
        self.nom = nom
        self.donnees = None
    
    def charger_donnees(self, fichier):  # Méthode
        """Charge des données depuis un fichier"""
        import pandas as pd
        self.donnees = pd.read_csv(fichier)
        print(f"{self.nom}: {len(self.donnees)} lignes chargées")
    
    def obtenir_resume(self):  # Méthode
        """Retourne un résumé des données"""
        if self.donnees is not None:
            return f"{self.nom}: {len(self.donnees)} lignes"
        return f"{self.nom}: Aucune donnée"

# Utilisation des méthodes
processeur = ProcesseurDonnees("Ventes")
# processeur.charger_donnees("ventes.csv")  # Appel de méthode
resume = processeur.obtenir_resume()      # Appel de méthode
print(resume)

### **5. Constructeur : L'Initialisation de l'Objet**

Le constructeur est une méthode spéciale qui s'exécute automatiquement lors de la création d'une instance. En Python, le constructeur s'appelle `__init__`. Il permet d'initialiser les attributs de l'objet avec des valeurs de départ.

**Pourquoi utiliser un constructeur :**
- Garantir que chaque instance démarre dans un état cohérent
- Forcer la fourniture de paramètres essentiels
- Initialiser les attributs avec des valeurs par défaut
- Effectuer des validations lors de la création

In [None]:
from datetime import datetime

class ProcesseurDonnees:
    def __init__(self, nom, format_fichier="csv"):
        # Validation des paramètres
        if not nom:
            raise ValueError("Le nom ne peut pas être vide")
        
        # Initialisation des attributs obligatoires
        self.nom = nom
        self.format_fichier = format_fichier
        
        # Initialisation des attributs avec valeurs par défaut
        self.donnees = None
        self.date_creation = datetime.now()
        self.nb_operations = 0
        
        print(f"Processeur '{nom}' créé pour format {format_fichier}")

# Le constructeur s'exécute automatiquement
processeur = ProcesseurDonnees("Ventes", "parquet")
# Affiche: Processeur 'Ventes' créé pour format parquet

**Types de constructeurs :**

| Type | Description | Exemple |
|------|-------------|------|
| **Simple** | Initialisation basique | `__init__(self, nom)` |
| **Avec validation** | Vérifie les paramètres | Contrôle des valeurs |
| **Avec valeurs par défaut** | Paramètres optionnels | `format="csv"` |
| **Avec calculs** | Initialise des valeurs dérivées | Calcul de métadonnées |

### **6. Encapsulation : Regroupement Logique**

L'encapsulation consiste à regrouper les données (attributs) et les actions (méthodes) qui les manipulent dans une même classe. Cela crée une unité logique et cohérente.

**Avantages de l'encapsulation :**
- Organisation claire du code
- Réutilisabilité des composants
- Facilité de maintenance
- Protection des données internes

In [None]:
class ProcesseurDonnees:
    def __init__(self, nom):
        self.nom = nom
        self._donnees = None        # Attribut "privé" (convention)
        self._nb_operations = 0     # Attribut "privé"
    
    def charger(self, fichier):
        """Méthode publique pour charger des données"""
        self._donnees = self._lire_fichier(fichier)
        self._incrementer_operations()
    
    def _lire_fichier(self, fichier):
        """Méthode privée (convention avec _)"""
        import pandas as pd
        return pd.read_csv(fichier)
    
    def _incrementer_operations(self):
        """Méthode privée pour compter les opérations"""
        self._nb_operations += 1
    
    @property
    def nb_operations(self):
        """Propriété pour accéder au compteur (lecture seule)"""
        return self._nb_operations

# Utilisation
processeur = ProcesseurDonnees("Ventes")
# processeur.charger("ventes.csv")  # Méthode publique
print(processeur.nb_operations)   # Accès via propriété
# processeur._nb_operations = 100  # Déconseillé (mais possible)

## **2. Organisation du Code et Fichiers Python**

### **Structure de projet recommandée avec Poetry**

```
mon_projet_data/
├── src/                    # Code source principal
│   ├── __init__.py        # Package principal
│   ├── models.py          # Classes métier
│   ├── utils.py           # Fonctions utilitaires
│   ├── config.py          # Configuration
│   └── exceptions.py      # Exceptions personnalisées
├── tests/                 # Tests unitaires
│   ├── __init__.py
│   ├── test_models.py
│   └── conftest.py        # Configuration des tests
├── data/                  # Dossiers de données
│   ├── raw/              # Données brutes
│   ├── processed/        # Données traitées
│   └── output/           # Résultats finaux
├── scripts/              # Scripts d'automatisation
│   └── run_pipeline.py   # Lancement du pipeline
├── docs/                 # Documentation
├── pyproject.toml        # Configuration Poetry et métadonnées
├── poetry.lock           # Versions exactes des dépendances
├── .env                  # Variables d'environnement
├── .gitignore           # Fichiers à ignorer par Git
├── README.md            # Documentation du projet
└── main.py              # Point d'entrée principal
```

### **Fichiers Python classiques et leurs rôles**

| Fichier | Rôle | Contenu typique |
|---------|------|----------------|
| `__init__.py` | Transforme un dossier en package | Imports, version, configuration |
| `main.py` | Point d'entrée principal | Fonction main(), orchestration |
| `config.py` | Configuration centralisée | Constantes, paramètres, chemins |
| `utils.py` | Fonctions utilitaires | Helpers, fonctions communes |
| `models.py` | Classes métier | Classes principales du domaine |
| `exceptions.py` | Exceptions personnalisées | Erreurs spécifiques au projet |
| `constants.py` | Constantes globales | Valeurs fixes, énumérations |
| `settings.py` | Paramètres d'application | Configuration avancée |

## **3. Gestion d'Erreurs Robuste**

### **Pourquoi gérer les erreurs**

En Data Engineering, nous travaillons avec des fichiers externes, des connexions réseau, et des données imprévisibles. Une bonne gestion d'erreurs permet à votre pipeline de continuer à fonctionner même quand quelque chose se passe mal.

### **Structure try/except/finally**

In [None]:
import pandas as pd
import logging

def charger_donnees_robuste(chemin_fichier):
    """Charge des données avec gestion complète des erreurs"""
    logger = logging.getLogger(__name__)
    
    try:
        # Tentative de chargement normal
        donnees = pd.read_csv(chemin_fichier)
        if donnees.empty:
            raise ValueError("Le fichier est vide")
        logger.info(f"Chargement réussi: {len(donnees)} lignes")
        return donnees
        
    except FileNotFoundError:
        logger.error(f"Fichier non trouvé: {chemin_fichier}")
        return None
        
    except pd.errors.EmptyDataError:
        logger.warning(f"Fichier CSV vide: {chemin_fichier}")
        return pd.DataFrame()
        
    except Exception as e:
        logger.error(f"Erreur inattendue: {e}")
        return None
        
    finally:
        logger.info("Fin de la tentative de chargement")

# Utilisation
# donnees = charger_donnees_robuste("ventes.csv")
# if donnees is not None and not donnees.empty:
#     print("Données prêtes pour le traitement")

### **Types d'erreurs courantes en Data Engineering**

| Type d'erreur | Cause | Solution |
|---------------|-------|----------|
| `FileNotFoundError` | Fichier inexistant | Vérifier le chemin, proposer un fichier alternatif |
| `UnicodeDecodeError` | Problème d'encodage | Tester différents encodages (utf-8, latin-1) |
| `pd.errors.ParserError` | Format CSV invalide | Ajuster les paramètres de lecture |
| `MemoryError` | Fichier trop volumineux | Lecture par chunks |
| `ValueError` | Données invalides | Validation et nettoyage |

## **4. Manipulation de Données avec Pandas et NumPy**

### **DataFrames et Opérations de Base**

Un DataFrame est la structure de données principale de Pandas. C'est comme un tableau Excel en Python, avec des lignes et des colonnes nommées.

In [None]:
import pandas as pd
import numpy as np

# Création d'un DataFrame simple
donnees = {
    'nom': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'salaire': [3000, 3500, 4000]
}
df = pd.DataFrame(donnees)

# Exploration basique
print(df.head())        # Premières lignes
print(df.info())        # Informations générales
print(df.describe())    # Statistiques descriptives

### **Méthodes essentielles de Pandas**

| Méthode | Usage | Description |
|---------|-------|-------------|
| `.head(n)` | `df.head(5)` | Affiche les n premières lignes |
| `.tail(n)` | `df.tail(5)` | Affiche les n dernières lignes |
| `.info()` | `df.info()` | Informations sur le DataFrame |
| `.describe()` | `df.describe()` | Statistiques descriptives |
| `.shape` | `df.shape` | Dimensions (lignes, colonnes) |
| `.columns` | `df.columns` | Noms des colonnes |
| `.dtypes` | `df.dtypes` | Types de données |
| `.isnull()` | `df.isnull()` | Détecte les valeurs manquantes |
| `.dropna()` | `df.dropna()` | Supprime les valeurs manquantes |
| `.fillna()` | `df.fillna(0)` | Remplace les valeurs manquantes |
| `.groupby()` | `df.groupby('colonne')` | Groupe les données |

### **NumPy pour les Calculs Numériques**

NumPy est la base de l'écosystème scientifique Python. Ses arrays sont beaucoup plus efficaces que les listes Python pour les calculs numériques.

In [None]:
import numpy as np

# Conversion en array NumPy
salaires = df['salaire'].values

# Statistiques avec NumPy
moyenne = np.mean(salaires)
mediane = np.median(salaires)
ecart_type = np.std(salaires)
minimum = np.min(salaires)
maximum = np.max(salaires)

print(f"Moyenne: {moyenne}")
print(f"Médiane: {mediane}")
print(f"Écart-type: {ecart_type}")

# Détection d'outliers
z_scores = np.abs((salaires - moyenne) / ecart_type)
outliers = salaires[z_scores > 2]  # Valeurs à plus de 2 écarts-types
print(f"Outliers: {outliers}")

**Avantages de NumPy vs listes Python :**

| Aspect | Listes Python | NumPy Arrays |
|--------|---------------|-------------|
| **Vitesse** | Lent | 10-100x plus rapide |
| **Mémoire** | Beaucoup | Peu |
| **Syntaxe** | Boucles explicites | Opérations vectorisées |
| **Fonctions** | Limitées | Bibliothèque mathématique complète |

## **5. Formats de Fichiers**

### **Format CSV : Lecture robuste**

Le format CSV est omniprésent mais peut poser des défis d'encodage et de format. La clé est de gérer automatiquement ces problèmes.

**Problèmes courants avec les CSV :**
- Encodage incorrect (UTF-8 vs Latin-1)
- Séparateurs différents (virgule, point-virgule, tabulation)
- Caractères spéciaux dans les données
- Lignes de commentaires
- Formats numériques localisés

In [None]:
def lire_csv_robuste(fichier):
    """Lecture robuste avec gestion automatique des problèmes"""
    encodages = ['utf-8', 'latin-1', 'cp1252']
    
    for encodage in encodages:
        try:
            df = pd.read_csv(fichier, encoding=encodage)
            print(f"Lecture réussie avec {encodage}")
            return df
        except UnicodeDecodeError:
            continue
    
    raise ValueError("Impossible de lire le fichier")

# Exemple d'utilisation
# df = lire_csv_robuste("mon_fichier.csv")

### **Paramètres avancés de pd.read_csv()**

**Paramètres de lecture de base :**

| Paramètre | Description | Exemple |
|-----------|-------------|------|
| `sep` | Séparateur de colonnes | `sep=';'` |
| `encoding` | Encodage du fichier | `encoding='latin-1'` |
| `header` | Ligne des en-têtes | `header=0` (première ligne) |
| `skiprows` | Lignes à ignorer | `skiprows=2` |
| `comment` | Caractère de commentaire | `comment='#'` |

**Paramètres de sélection :**

| Paramètre | Description | Exemple |
|-----------|-------------|------|
| `usecols` | Colonnes à lire | `usecols=['nom', 'age']` |
| `nrows` | Nombre de lignes | `nrows=1000` |
| `dtype` | Types de données | `dtype={'age': 'int32'}` |
| `parse_dates` | Colonnes de dates | `parse_dates=['date_naissance']` |

**Paramètres de performance :**

| Paramètre | Description | Exemple |
|-----------|-------------|------|
| `chunksize` | Lecture par blocs | `chunksize=10000` |
| `low_memory` | Optimisation mémoire | `low_memory=False` |
| `compression` | Fichiers compressés | `compression='gzip'` |

### **Optimisation de l'écriture CSV**

L'écriture efficace de fichiers CSV est importante pour plusieurs raisons. La performance devient critique quand vous traitez de gros volumes de données. Réduire le temps d'écriture permet d'accélérer vos pipelines. Minimiser l'espace disque utilisé réduit les coûts de stockage et améliore les transferts. Assurer la lisibilité par d'autres systèmes garantit l'interopérabilité. Éviter la corruption des données protège l'intégrité de vos résultats.

**Stratégies d'optimisation :**

| Stratégie | Avantage | Quand l'utiliser |
|-----------|----------|------------------|
| **Compression** | Réduit la taille de 50-80% | Stockage long terme |
| **Types optimisés** | Moins de mémoire | Gros DataFrames |
| **Format numérique** | Fichiers plus petits | Données décimales |
| **Écriture par chunks** | Gestion mémoire | Très gros volumes |

In [None]:
# Écriture optimisée
df.to_csv(
    "sortie_optimisee.csv",
    index=False,
    float_format='%.2f',      # Limite les décimales
    compression='gzip',       # Compression automatique
    encoding='utf-8'
)

### **Formats JSON et Parquet**

**JSON : Flexibilité et lisibilité**

Le JSON est idéal pour les données semi-structurées, les APIs et échanges web, la configuration et métadonnées, et les données imbriquées.

In [None]:
# Lecture JSON flexible
# data = pd.read_json("donnees.json")

# Écriture JSON propre
df.to_json("sortie.json", orient='records', indent=2)

**Parquet : Performance et compression**

Parquet est le format de référence pour le Big Data. Sa compression permet des fichiers 5-10x plus petits que CSV. Sa vitesse de lecture est ultra-rapide. Il préserve les types de données. Il permet la lecture sélective par colonne.

In [None]:
# Écriture Parquet
df.to_parquet("donnees.parquet", compression='snappy')

# Lecture avec sélection de colonnes
df_partiel = pd.read_parquet("donnees.parquet", columns=['nom', 'age'])
print(df_partiel)

**Comparaison des formats :**

| Format | Taille | Vitesse lecture | Lisibilité | Usage recommandé |
|--------|--------|-----------------|------------|------------------|
| **CSV** | Grande | Moyenne | Excellente | Échange, analyse manuelle |
| **JSON** | Moyenne | Moyenne | Bonne | APIs, données imbriquées |
| **Parquet** | Petite | Très rapide | Nulle | Big Data, performance |

## **6. Pipeline ETL et Bonnes Pratiques**

### **Architecture ETL**

Un pipeline ETL (Extract, Transform, Load) suit toujours la même structure. L'extraction récupère les données depuis les sources. La transformation nettoie et transforme les données. Le chargement sauvegarde les données traitées.

In [None]:
import logging

class PipelineETL:
    def __init__(self, source, destination):
        self.source = source
        self.destination = destination
        self.donnees = None
        self.logger = logging.getLogger(__name__)
    
    def extraire(self):
        """Étape 1: Extraction des données"""
        self.donnees = pd.read_csv(self.source)
        self.logger.info(f"Extraction: {len(self.donnees)} lignes")
    
    def transformer(self):
        """Étape 2: Transformation des données"""
        # Nettoyage
        self.donnees = self.donnees.dropna()
        
        # Nouvelles colonnes
        if 'quantite' in self.donnees.columns and 'prix' in self.donnees.columns:
            self.donnees['total'] = self.donnees['quantite'] * self.donnees['prix']
        
        self.logger.info(f"Transformation: {len(self.donnees)} lignes finales")
    
    def charger(self):
        """Étape 3: Chargement des données"""
        self.donnees.to_csv(self.destination, index=False)
        self.logger.info(f"Chargement: données sauvées dans {self.destination}")
    
    def executer(self):
        """Exécution complète du pipeline"""
        try:
            self.extraire()
            self.transformer()
            self.charger()
            return True
        except Exception as e:
            self.logger.error(f"Erreur dans le pipeline: {e}")
            return False

# Exemple d'utilisation
# pipeline = PipelineETL("donnees_source.csv", "donnees_traitees.csv")
# succes = pipeline.executer()

### **Bonnes Pratiques pour les Pipelines**

#### **Gestion d'Erreurs et Résilience**

Un pipeline robuste doit pouvoir gérer les pannes et reprendre là où il s'est arrêté. Cette résilience est cruciale en production où les interruptions sont fréquentes.

La gestion granulaire des erreurs permet d'identifier précisément où un problème survient. Encapsuler chaque méthode dans des blocs try/catch permet de gérer les erreurs spécifiques à chaque étape. Le retry automatique gère les échecs temporaires comme les problèmes réseau. Un décorateur avec backoff exponentiel évite de surcharger les systèmes défaillants. Les checkpoints sauvegardent l'état à chaque étape majeure. Des fichiers de progression permettent de reprendre un pipeline interrompu. Le rollback annule les modifications en cas d'échec critique. La sauvegarde des états permet de revenir à un point stable.

| Stratégie | Description | Implémentation |
|-----------|-------------|----------------|
| **Try/Catch granulaire** | Gérer les erreurs à chaque étape | Encapsuler chaque méthode |
| **Retry automatique** | Réessayer en cas d'échec temporaire | Décorateur avec backoff |
| **Checkpoints** | Sauvegarder l'état à chaque étape | Fichiers de progression |
| **Rollback** | Annuler en cas d'échec critique | Sauvegarde des états |

#### **Validation et Contrôle de Qualité**

Valider les données à chaque étape permet de détecter les problèmes tôt. Cette approche préventive évite que des données corrompues se propagent dans tout le pipeline.

La validation structurelle vérifie le format et le schéma des données. Elle contrôle la présence des colonnes requises et la cohérence des types de données. La validation métier assure la cohérence business. Elle vérifie que les âges sont positifs, les dates valides, les montants cohérents. La validation statistique détecte les anomalies dans les données. Elle identifie les outliers et analyse les distributions. La validation de complétude contrôle les données manquantes. Elle mesure les taux de remplissage et identifie les valeurs nulles problématiques.

| Type | Objectif | Exemples de contrôles |
|------|----------|----------------------|
| **Structurelle** | Format et schéma | Colonnes requises, types de données |
| **Métier** | Cohérence business | Âges positifs, dates valides |
| **Statistique** | Anomalies dans les données | Outliers, distributions |
| **Complétude** | Données manquantes | Taux de remplissage, valeurs nulles |

#### **Performance et Optimisation**

Optimiser pour traiter de gros volumes efficacement devient essentiel quand vos données grandissent. Les techniques d'optimisation permettent de maintenir des temps de traitement acceptables.

La lecture par chunks maintient une utilisation mémoire constante. Cette technique est indispensable pour les fichiers plus volumineux que la RAM disponible. Les types optimisés réduisent l'utilisation mémoire. Cette optimisation est particulièrement efficace sur les DataFrames volumineux. La parallélisation accroît la vitesse de traitement. Elle est utile pour les opérations indépendantes qui peuvent s'exécuter simultanément. Les formats efficaces accélèrent les opérations d'entrée/sortie. Ils sont recommandés pour le stockage intermédiaire.

| Technique | Avantage | Quand l'utiliser |
|-----------|----------|------------------|
| **Lecture par chunks** | Mémoire constante | Fichiers > RAM disponible |
| **Types optimisés** | Moins de mémoire | DataFrames volumineux |
| **Parallélisation** | Vitesse accrue | Opérations indépendantes |
| **Formats efficaces** | I/O plus rapide | Stockage intermédiaire |

#### **Monitoring et Observabilité**

Surveiller l'exécution permet de détecter et diagnostiquer les problèmes rapidement. Cette observabilité est essentielle pour maintenir des pipelines en production.

Le temps d'exécution indique les problèmes de performance. Un dépassement de 50% du temps normal signale souvent un problème. L'utilisation mémoire révèle les fuites et les goulots d'étranglement. Un usage supérieur à 80% de la RAM disponible nécessite une attention. Le taux d'erreur mesure la qualité du traitement. Plus de 1% des enregistrements en erreur indique un problème systémique. Le volume de données détecte les anomalies dans les sources. Une variation de plus ou moins 20% du volume attendu mérite investigation.

| Métrique | Importance | Seuils typiques |
|----------|------------|----------------|
| **Temps d'exécution** | Performance | +50% du temps normal |
| **Utilisation mémoire** | Stabilité | >80% de la RAM |
| **Taux d'erreur** | Qualité | >1% des enregistrements |
| **Volume de données** | Cohérence | ±20% du volume attendu |

#### **Configuration et Environnements**

Séparer la configuration du code facilite le déploiement dans différents environnements. Cette séparation permet d'adapter le comportement sans modifier le code source.

Les constantes stockent les valeurs fixes comme les formats de date et les seuils métier. L'environnement configure les paramètres de déploiement comme les chemins, URLs et credentials. Le runtime gère les paramètres d'exécution fournis par l'utilisateur.

| Niveau | Portée | Exemples |
|--------|--------|----------|
| **Constantes** | Valeurs fixes | Formats de date, seuils |
| **Environnement** | Déploiement | Chemins, URLs, credentials |
| **Runtime** | Exécution | Paramètres utilisateur |

#### **Tests et Qualité**

Tester chaque composant assure la fiabilité du pipeline. Cette approche systématique prévient les régressions et facilite la maintenance.

Les tests unitaires vérifient les fonctions individuelles. Ils testent chaque méthode isolément avec des données contrôlées. Les tests d'intégration valident les composants ensemble. Ils vérifient que le pipeline complet fonctionne correctement. Les tests de données contrôlent la qualité des résultats. Ils valident que les outputs respectent les contraintes métier.

| Type | Objectif | Exemples |
|------|----------|----------|
| **Unitaires** | Fonctions individuelles | Test d'une méthode |
| **Intégration** | Composants ensemble | Pipeline complet |
| **Données** | Qualité des résultats | Validation des outputs |

Ces bonnes pratiques garantissent que vos pipelines de données sont robustes, maintenables et prêts pour la production. L'investissement initial dans ces pratiques se rentabilise rapidement par la réduction des bugs et la facilité de maintenance.