# **Jour 1-2 : Qualité de Code Automatisée**

## **Objectifs des deux premiers jours**

Maîtriser Ruff comme outil unique de qualité de code, configurer des pre-commit hooks pour automatiser les vérifications, écrire des tests unitaires robustes avec pytest, et établir un workflow de développement qui garantit la qualité à chaque modification de code.

## **1. Mise en place de l'environnement qualité**

### **Pourquoi la qualité de code est votre meilleur investissement**

La qualité de code en Data Engineering n'est pas une option mais une nécessité absolue. Vos pipelines traitent des données critiques pour l'entreprise, s'exécutent souvent sans supervision humaine, et doivent être maintenus par différentes personnes au fil du temps. Un bug dans un pipeline de données peut corrompre des analyses, fausser des rapports financiers, ou causer des pertes importantes.

**Impact concret de la qualité de code :**

Imaginez un pipeline qui traite les données de ventes quotidiennes d'une entreprise. Sans contrôle qualité, une simple erreur de typage pourrait transformer des montants en euros en centimes, faussant tous les rapports de chiffre d'affaires. Avec des outils de qualité automatisés, cette erreur serait détectée avant même que le code soit partagé avec l'équipe.

### **Configuration de Ruff - L'outil unique moderne**

Ruff révolutionne la qualité de code Python en remplaçant une dizaine d'outils différents par un seul outil ultra-rapide. Là où vous deviez auparavant configurer Flake8, Black, isort, Pylint, et d'autres outils séparément, Ruff fait tout en une seule passe.

**Installation dans votre projet :**

In [None]:
# Dans votre projet module1
# cd module1
# poetry add --group dev ruff

# Vérification de l'installation
# poetry run ruff --version

# Alternative avec pip si vous n'utilisez pas poetry
# pip install ruff
# ruff --version

**Configuration progressive de Ruff :**

Créez une configuration Ruff adaptée aux débutants mais évolutive. Cette configuration commence simple et peut être enrichie au fur et à mesure de votre apprentissage.

Créez un fichier `pyproject.toml` avec la configuration suivante :

In [None]:
# Configuration Ruff dans pyproject.toml
config_ruff = '''
[tool.ruff]
# Longueur de ligne standard
line-length = 88
# Version Python cible
target-version = "py311"
# Dossiers à ignorer
extend-exclude = [
    ".venv",
    "data/",
    "*.egg-info",
    "__pycache__",
]

[tool.ruff.lint]
# Règles essentielles pour commencer
select = [
    "E",    # Erreurs de style pycodestyle
    "F",    # Erreurs logiques pyflakes
    "I",    # Organisation des imports
    "B",    # Bugs potentiels
    "UP",   # Modernisation Python
]

# Règles à ignorer pour débuter en douceur
ignore = [
    "E501",  # Longueur de ligne (géré par le formateur)
]

# Règles spécifiques par type de fichier
[tool.ruff.lint.per-file-ignores]
"tests/*" = [
    "B006",  # Arguments mutables OK dans les tests
]

[tool.ruff.format]
# Configuration du formateur automatique
quote-style = "double"
indent-style = "space"
'''

print("Configuration Ruff à copier dans pyproject.toml")
print(config_ruff)

**Utilisation quotidienne de Ruff :**

In [None]:
# Commandes Ruff essentielles

# Vérification et correction automatique
# poetry run ruff check src/ --fix

# Formatage automatique du code
# poetry run ruff format src/

# Commande combinée pour un nettoyage complet
# poetry run ruff check src/ --fix && poetry run ruff format src/

print("Commandes à exécuter dans le terminal :")
print("1. poetry run ruff check src/ --fix")
print("2. poetry run ruff format src/")
print("3. poetry run ruff check src/ --fix && poetry run ruff format src/")

**Exemple de transformation automatique :**

Voici comment Ruff améliore automatiquement votre code :

In [None]:
# Avant Ruff - Code désordonné
code_avant = '''
import pandas as pd,numpy as np
import os,sys

def process_data(file_path):
    df=pd.read_csv(file_path)
    df['new_col']=df['col1']*df['col2']
    return df
'''

# Après Ruff - Code professionnel
code_apres = '''
import os
import sys

import numpy as np
import pandas as pd


def process_data(file_path: str) -> pd.DataFrame:
    """Traite les données d'un fichier CSV."""
    df = pd.read_csv(file_path)
    df["new_col"] = df["col1"] * df["col2"]
    return df
'''

print("AVANT RUFF:")
print(code_avant)
print("\nAPRÈS RUFF:")
print(code_apres)

## **2. Pre-commit Hooks - Automatisation de la qualité**

### **Comprendre les pre-commit hooks par l'analogie**

Les pre-commit hooks fonctionnent comme un contrôle de sécurité à l'aéroport. Avant que votre code "embarque" vers GitHub, il passe automatiquement par une série de vérifications. Si quelque chose ne va pas, le "vol" est annulé et vous devez corriger le problème avant de pouvoir repartir.

**Pourquoi automatiser plutôt que faire manuellement :**

L'automatisation élimine l'erreur humaine et garantit la cohérence. Même le développeur le plus consciencieux peut oublier de lancer Ruff avant un commit urgent. Avec les pre-commit hooks, c'est impossible d'oublier car le processus est automatique.

### **Installation et configuration des pre-commit hooks**

In [None]:
# Installation de pre-commit
# poetry add --group dev pre-commit

# Activation des hooks dans votre repository Git
# poetry run pre-commit install

print("Commandes à exécuter :")
print("1. poetry add --group dev pre-commit")
print("2. poetry run pre-commit install")

**Configuration optimisée pour débutants :**

Créez un fichier `.pre-commit-config.yaml` qui commence simple mais reste extensible :

In [None]:
# Configuration pre-commit
precommit_config = '''
# .pre-commit-config.yaml - Configuration débutant
repos:
  # Vérifications de base des fichiers
  - repo: https://github.com/pre-commit/pre-commit-hooks
    rev: v4.5.0
    hooks:
      - id: trailing-whitespace        # Supprime espaces en fin de ligne
      - id: end-of-file-fixer         # Assure saut de ligne final
      - id: check-yaml                # Valide syntaxe YAML
      - id: check-json                # Valide syntaxe JSON
      - id: check-merge-conflict      # Détecte conflits Git non résolus

  # Ruff pour la qualité Python
  - repo: https://github.com/astral-sh/ruff-pre-commit
    rev: v0.1.8
    hooks:
      - id: ruff                      # Vérification et correction
        args: [--fix]
      - id: ruff-format              # Formatage automatique

  # Tests rapides avant commit
  - repo: local
    hooks:
      - id: pytest-quick
        name: Tests rapides
        entry: poetry run pytest
        language: system
        types: [python]
        args: [tests/, -x, --tb=short]
        pass_filenames: false
'''

print("Configuration à copier dans .pre-commit-config.yaml :")
print(precommit_config)

**Test de votre configuration :**

In [None]:
# Test manuel des hooks sur tous les fichiers
# poetry run pre-commit run --all-files

# Simulation d'un commit pour voir les hooks en action
# echo "print('test')" > test_file.py
# git add test_file.py
# git commit -m "Test des pre-commit hooks"

print("Commandes de test :")
print("1. poetry run pre-commit run --all-files")
print("2. echo \"print('test')\" > test_file.py")
print("3. git add test_file.py")
print("4. git commit -m 'Test des pre-commit hooks'")

### **Workflow de développement avec pre-commit**

**Scénario typique d'une session de développement :**

Vous travaillez sur une nouvelle fonctionnalité de votre pipeline de données. Vous modifiez plusieurs fichiers, ajoutez du code, et êtes prêt à sauvegarder votre travail.

In [None]:
# Workflow typique avec pre-commit
workflow_exemple = '''
# Vous développez normalement
echo "def nouvelle_fonction(): pass" >> src/utils.py

# Vous tentez de committer
git add .
git commit -m "Ajout nouvelle fonction"

# Pre-commit s'exécute automatiquement :
# ✅ trailing-whitespace: Passed
# ✅ end-of-file-fixer: Passed  
# ✅ check-yaml: Passed
# ✅ ruff: Fixed (corrections automatiques appliquées)
# ✅ ruff-format: Passed
# ✅ pytest-quick: Passed

# Si des corrections ont été appliquées, vous devez recommitter
git add .
git commit -m "Ajout nouvelle fonction"
# ✅ Commit réussi !
'''

print("Exemple de workflow avec pre-commit :")
print(workflow_exemple)

**Gestion des échecs de pre-commit :**

Parfois, les pre-commit hooks détectent des problèmes qu'ils ne peuvent pas corriger automatiquement. Voici comment gérer ces situations :

In [None]:
# Exemple de gestion d'échec
echec_exemple = '''
# Exemple d'échec de test
git commit -m "Nouvelle fonctionnalité"
# ❌ pytest-quick: Failed
# tests/test_utils.py::test_nouvelle_fonction FAILED

# Vous corrigez le test
# Puis recommittez
git add .
git commit -m "Nouvelle fonctionnalité avec tests corrigés"
# ✅ Tous les hooks passent
'''

print("Gestion des échecs :")
print(echec_exemple)

## **3. Tests unitaires avec pytest**

### **Pourquoi les tests sont cruciaux en Data Engineering**

En Data Engineering, vos fonctions traitent des données réelles et critiques. Un bug dans une fonction de calcul peut fausser des millions d'euros de transactions. Un problème dans un pipeline peut corrompre des mois d'analyses. Les tests unitaires sont votre filet de sécurité.

**Différence entre tester du code classique et du code Data Engineering :**

Le code Data Engineering présente des défis spécifiques : données variables en format et en volume, dépendances externes (bases de données, APIs), transformations complexes avec logique métier, et gestion d'erreurs pour des cas imprévisibles.

### **Configuration pytest pour Data Engineering**

In [None]:
# Installation des outils de test
# poetry add --group dev pytest pytest-cov pytest-mock

# Structure des tests
# mkdir -p tests/{unit,integration,fixtures}
# touch tests/__init__.py
# touch tests/conftest.py

print("Commandes d'installation et setup :")
print("1. poetry add --group dev pytest pytest-cov pytest-mock")
print("2. mkdir -p tests/{unit,integration,fixtures}")
print("3. touch tests/__init__.py")
print("4. touch tests/conftest.py")

**Configuration pytest dans pyproject.toml :**

In [None]:
# Configuration pytest
pytest_config = '''
[tool.pytest.ini_options]
# Dossiers de tests
testpaths = ["tests"]

# Patterns de découverte des tests
python_files = ["test_*.py", "*_test.py"]
python_classes = ["Test*"]
python_functions = ["test_*"]

# Options par défaut
addopts = [
    "-v",                           # Mode verbeux
    "--tb=short",                   # Traceback court
    "--cov=src",                    # Couverture du code source
    "--cov-report=term-missing",    # Rapport de couverture
    "--cov-fail-under=70",         # Échec si couverture < 70%
]

# Marqueurs pour organiser les tests
markers = [
    "unit: tests unitaires rapides",
    "integration: tests d'intégration",
    "slow: tests lents nécessitant des ressources",
]
'''

print("Configuration pytest à ajouter dans pyproject.toml :")
print(pytest_config)

### **Création de fixtures pour données de test**

Les fixtures pytest permettent de préparer des données de test réutilisables et cohérentes. En Data Engineering, vous avez besoin de données représentatives mais contrôlées.

In [None]:
# Exemple de fixtures pour tests Data Engineering
import pandas as pd
import pytest
from pathlib import Path

# Simulation de fixtures (normalement dans tests/conftest.py)
def sample_sales_data():
    """Données de ventes pour les tests."""
    return pd.DataFrame({
        'date': pd.date_range('2024-01-01', periods=100, freq='D'),
        'product_id': range(1, 101),
        'quantity': [10, 15, 8, 12, 20] * 20,
        'price': [99.99, 149.99, 79.99, 199.99, 299.99] * 20,
        'customer_id': [f"CUST_{i:03d}" for i in range(1, 101)]
    })

def empty_dataframe():
    """DataFrame vide pour tester les cas limites."""
    return pd.DataFrame()

def corrupted_data():
    """Données corrompues pour tester la gestion d'erreurs."""
    return pd.DataFrame({
        'date': ['2024-01-01', 'invalid_date', '2024-01-03'],
        'quantity': [10, -5, None],  # Quantité négative et nulle
        'price': [99.99, 'invalid_price', 149.99]
    })

# Exemple d'utilisation
print("Exemple de données de test :")
sample_data = sample_sales_data()
print(f"Échantillon de données : {len(sample_data)} lignes")
print(sample_data.head())

print("\nDonnées corrompues pour les tests :")
corrupt_data = corrupted_data()
print(corrupt_data)

### **Tests unitaires pour fonctions Data Engineering**

**Test d'une fonction de nettoyage de données :**

In [None]:
# Exemple de fonction à tester
def clean_sales_data(df):
    """Nettoie les données de ventes."""
    if df.empty:
        return df
    
    # Supprime les lignes avec des valeurs nulles
    df_clean = df.dropna()
    
    # Filtre les quantités positives
    if 'quantity' in df_clean.columns:
        df_clean = df_clean[df_clean['quantity'] > 0]
    
    # Filtre les prix positifs
    if 'price' in df_clean.columns:
        df_clean = df_clean[pd.to_numeric(df_clean['price'], errors='coerce') > 0]
    
    return df_clean.reset_index(drop=True)

def is_valid_quantity(quantity):
    """Valide qu'une quantité est positive."""
    if quantity is None:
        return False
    try:
        return float(quantity) > 0
    except (ValueError, TypeError):
        return False

# Tests de la fonction
def test_clean_sales_data_valid_input():
    """Test de nettoyage avec données valides."""
    sample_data = sample_sales_data()
    result = clean_sales_data(sample_data)
    
    # Vérifications de base
    assert isinstance(result, pd.DataFrame)
    assert len(result) <= len(sample_data)  # Peut supprimer des lignes
    assert not result.isnull().any().any()  # Pas de valeurs nulles
    
    # Vérifications métier
    assert (result['quantity'] > 0).all()  # Quantités positives
    assert (result['price'] > 0).all()     # Prix positifs
    
    print("✅ Test données valides réussi")

def test_clean_sales_data_empty_input():
    """Test avec DataFrame vide."""
    empty_df = empty_dataframe()
    result = clean_sales_data(empty_df)
    
    assert isinstance(result, pd.DataFrame)
    assert len(result) == 0
    
    print("✅ Test DataFrame vide réussi")

def test_clean_sales_data_corrupted_input():
    """Test avec données corrompues."""
    corrupt_data = corrupted_data()
    result = clean_sales_data(corrupt_data)
    
    # Doit filtrer les données invalides
    assert len(result) < len(corrupt_data)
    if len(result) > 0:
        assert (result['quantity'] > 0).all()
    
    print("✅ Test données corrompues réussi")

# Tests paramétrés
test_cases = [
    (10, True),
    (0, False),
    (-5, False),
    (None, False),
]

def test_validate_quantity():
    """Test paramétré de validation des quantités."""
    for quantity, expected in test_cases:
        result = is_valid_quantity(quantity)
        assert result == expected, f"Échec pour {quantity}: attendu {expected}, obtenu {result}"
    print("✅ Tests paramétrés réussis")

# Exécution des tests
print("Exécution des tests unitaires :")
test_clean_sales_data_valid_input()
test_clean_sales_data_empty_input()
test_clean_sales_data_corrupted_input()
test_validate_quantity()

### **Test d'une classe de traitement de données :**

In [None]:
# Exemple de classe à tester
class DataProcessor:
    """Classe pour traiter les données de ventes."""
    
    def __init__(self, name: str):
        self.name = name
        self.data = None
        self.processed_count = 0
    
    def load_data(self, file_path: str):
        """Charge les données depuis un fichier CSV."""
        try:
            self.data = pd.read_csv(file_path)
        except FileNotFoundError:
            raise FileNotFoundError(f"Fichier non trouvé : {file_path}")
    
    def process_data(self):
        """Traite les données chargées."""
        if self.data is None:
            raise ValueError("Aucune donnée chargée")
        
        # Calcul du montant total
        if 'quantity' in self.data.columns and 'price' in self.data.columns:
            self.data['total_amount'] = self.data['quantity'] * self.data['price']
        
        self.processed_count = len(self.data)
        return self.data

# Tests de la classe
def test_data_processor_init():
    """Test d'initialisation."""
    processor = DataProcessor("test_processor")
    
    assert processor.name == "test_processor"
    assert processor.data is None
    assert processor.processed_count == 0
    
    print("✅ Test initialisation réussi")

def test_load_data_file_not_found():
    """Test avec fichier inexistant."""
    processor = DataProcessor("test")
    
    try:
        processor.load_data("nonexistent_file.csv")
        assert False, "Should have raised FileNotFoundError"
    except FileNotFoundError:
        print("✅ Test fichier inexistant réussi")

def test_process_data_success():
    """Test de traitement réussi."""
    processor = DataProcessor("test")
    processor.data = sample_sales_data().copy()
    
    result = processor.process_data()
    
    assert result is not None
    assert processor.processed_count > 0
    assert 'total_amount' in result.columns  # Colonne calculée
    
    print("✅ Test traitement réussi")

def test_process_data_no_data_loaded():
    """Test de traitement sans données chargées."""
    processor = DataProcessor("test")
    
    try:
        processor.process_data()
        assert False, "Should have raised ValueError"
    except ValueError as e:
        assert "Aucune donnée chargée" in str(e)
        print("✅ Test sans données réussi")

# Exécution des tests
print("Tests de la classe DataProcessor :")
test_data_processor_init()
test_load_data_file_not_found()
test_process_data_success()
test_process_data_no_data_loaded()

### **Tests d'intégration pour pipelines complets**

In [None]:
# Exemple de classe Pipeline
import json
import tempfile
import os

class SalesPipeline:
    """Pipeline complet de traitement des ventes."""
    
    def __init__(self, input_file: str, output_dir: str):
        self.input_file = input_file
        self.output_dir = output_dir
        self.processor = DataProcessor("sales_pipeline")
    
    def run(self) -> bool:
        """Exécute le pipeline complet."""
        try:
            # Chargement des données
            self.processor.load_data(self.input_file)
            
            # Traitement
            processed_data = self.processor.process_data()
            
            # Nettoyage
            clean_data = clean_sales_data(processed_data)
            
            # Sauvegarde
            output_file = os.path.join(self.output_dir, "processed_sales.csv")
            clean_data.to_csv(output_file, index=False)
            
            # Résumé
            summary = {
                "total_records": len(clean_data),
                "total_amount": clean_data['total_amount'].sum() if 'total_amount' in clean_data.columns else 0
            }
            
            summary_file = os.path.join(self.output_dir, "sales_summary.json")
            with open(summary_file, 'w') as f:
                json.dump(summary, f)
            
            return True
            
        except Exception as e:
            print(f"Erreur dans le pipeline : {e}")
            return False

# Test d'intégration
def test_pipeline_end_to_end():
    """Test du pipeline complet de bout en bout."""
    
    # Création de données de test
    test_data = sample_sales_data()
    
    # Création de fichiers temporaires
    with tempfile.TemporaryDirectory() as temp_dir:
        # Fichier d'entrée
        input_file = os.path.join(temp_dir, "input_sales.csv")
        test_data.to_csv(input_file, index=False)
        
        # Dossier de sortie
        output_dir = os.path.join(temp_dir, "output")
        os.makedirs(output_dir)
        
        # Exécution du pipeline
        pipeline = SalesPipeline(input_file, output_dir)
        result = pipeline.run()
        
        # Vérifications
        assert result is True
        assert os.path.exists(os.path.join(output_dir, "processed_sales.csv"))
        assert os.path.exists(os.path.join(output_dir, "sales_summary.json"))
        
        # Vérification du contenu
        processed_data = pd.read_csv(os.path.join(output_dir, "processed_sales.csv"))
        assert len(processed_data) > 0
        assert 'total_amount' in processed_data.columns
        
        print("✅ Test pipeline end-to-end réussi")
        print(f"   - {len(processed_data)} lignes traitées")
        print(f"   - Montant total : {processed_data['total_amount'].sum():.2f}")

# Exécution du test d'intégration
print("Test d'intégration du pipeline :")
test_pipeline_end_to_end()

### **Exécution et interprétation des tests**

**Commandes essentielles pour les tests :**

In [None]:
# Commandes pytest essentielles
commandes_pytest = '''
# Exécution de tous les tests
poetry run pytest

# Tests avec couverture détaillée
poetry run pytest --cov=src --cov-report=html

# Tests spécifiques
poetry run pytest tests/unit/test_data_cleaning.py -v

# Tests avec marqueurs
poetry run pytest -m "not slow"  # Exclut les tests lents

# Tests en mode debug
poetry run pytest --pdb  # S'arrête au premier échec

# Tests parallèles (plus rapide)
poetry run pytest -n auto
'''

print("Commandes pytest utiles :")
print(commandes_pytest)

**Interprétation des résultats :**

In [None]:
# Exemple de sortie pytest
exemple_sortie = '''
========================= test session starts =========================
collected 15 items

tests/unit/test_data_cleaning.py::test_clean_sales_data_valid_input PASSED [ 13%]
tests/unit/test_data_cleaning.py::test_clean_sales_data_empty_input PASSED [ 26%]
tests/unit/test_data_cleaning.py::test_clean_sales_data_corrupted_input PASSED [ 40%]
tests/unit/test_data_processor.py::test_init PASSED [ 53%]
tests/unit/test_data_processor.py::test_load_data_success PASSED [ 66%]
tests/unit/test_data_processor.py::test_process_data_success PASSED [ 80%]
tests/integration/test_pipeline.py::test_pipeline_end_to_end PASSED [ 93%]

---------- coverage: platform linux, python 3.11.0 -----------
Name                    Stmts   Miss  Cover   Missing
-----------------------------------------------------
src/data_cleaning.py       45      3    93%   23-25
src/data_processor.py      38      2    95%   67, 89
src/pipeline.py           52      5    90%   45-49, 78
-----------------------------------------------------
TOTAL                     135     10    93%

========================= 15 passed in 2.34s =========================
'''

print("Exemple de rapport pytest :")
print(exemple_sortie)

print("\nInterprétation :")
print("- 15 tests collectés et exécutés")
print("- Tous les tests sont passés (PASSED)")
print("- Couverture de code : 93% (très bon)")
print("- Lignes non couvertes identifiées pour amélioration")
print("- Temps d'exécution : 2.34 secondes (rapide)")

## **4. Workflow de développement avec qualité automatisée**

### **Intégration dans votre routine quotidienne**

Maintenant que vous avez configuré Ruff, pre-commit hooks, et pytest, voici comment ces outils s'intègrent dans votre workflow quotidien de développement.

**Routine matinale de développement :**

In [None]:
# Routine quotidienne recommandée
routine_matinale = '''
# 1. Mise à jour du code
git pull origin develop

# 2. Installation/mise à jour des dépendances
poetry install

# 3. Vérification que tout fonctionne
poetry run pytest tests/ -x

# 4. Début du développement
poetry run python src/main.py
'''

print("Routine matinale de développement :")
print(routine_matinale)

**Cycle de développement d'une fonctionnalité :**

In [None]:
# Cycle complet de développement
cycle_developpement = '''
# 1. Création de la branche de fonctionnalité
git checkout -b feature/nouvelle-analyse

# 2. Développement avec tests en continu
poetry run python src/nouvelle_analyse.py
poetry run pytest tests/test_nouvelle_analyse.py -v

# 3. Vérification qualité avant commit
poetry run ruff check src/ --fix
poetry run ruff format src/

# 4. Commit avec pre-commit automatique
git add .
git commit -m "Ajout analyse des tendances de ventes"
# Pre-commit s'exécute automatiquement

# 5. Push vers GitHub
git push origin feature/nouvelle-analyse
'''

print("Cycle de développement d'une fonctionnalité :")
print(cycle_developpement)

### **Gestion des erreurs et debugging**

**Debugging des échecs de tests :**

Quand un test échoue, pytest fournit des informations détaillées pour vous aider à comprendre le problème.

In [None]:
# Exemple de debugging d'échec de test
exemple_debug = '''
# Exécution avec informations détaillées
poetry run pytest tests/test_data_processor.py::test_process_data_success -vvv

# Exemple de sortie d'échec
FAILED tests/test_data_processor.py::test_process_data_success - AssertionError
>       assert 'total_amount' in result.columns
E       AssertionError: assert 'total_amount' in Index(['date', 'quantity', 'price'], dtype='object')

# Le test montre que la colonne 'total_amount' n'a pas été créée
'''

print("Exemple de debugging :")
print(exemple_debug)

print("\nCorrection guidée par le test :")
correction_code = '''
# src/data_processor.py - Correction basée sur l'échec du test
def process_data(self):
    """Traite les données chargées."""
    if self.data is None:
        raise ValueError("Aucune donnée chargée")
    
    # Ajout de la colonne manquante identifiée par le test
    self.data['total_amount'] = self.data['quantity'] * self.data['price']
    
    self.processed_count = len(self.data)
    return self.data
'''
print(correction_code)

## **Résumé et bonnes pratiques**

### **Points clés à retenir :**

1. **Ruff** : Un seul outil pour toute la qualité de code Python
2. **Pre-commit hooks** : Automatisation qui empêche les erreurs d'arriver en production
3. **Pytest** : Tests robustes avec fixtures adaptées au Data Engineering
4. **Workflow intégré** : Qualité automatique à chaque étape du développement

### **Checklist quotidienne :**

- [ ] Tests en vert avant de commencer
- [ ] Développement avec tests en continu
- [ ] Pre-commit hooks activés
- [ ] Couverture de code > 70%
- [ ] Code formaté automatiquement

### **Prochaines étapes :**

Vous êtes maintenant équipé pour développer du code Data Engineering de qualité professionnelle. Les jours suivants, nous appliquerons ces bonnes pratiques à des projets concrets de manipulation de données avec Pandas et Polars.