# üü£ Brief 5 : Pipeline ETL complet

**Badge:** üü£ Expert  
**Dur√©e:** 3 heures  
**Sections valid√©es:** 06-Data-Engineering + 04-Stdlib + 05-Qualit√©-Tests

---

## üìã Contexte

Vous √™tes **Data Engineer** dans une fintech. Votre √©quipe doit ing√©rer des donn√©es de plusieurs sources (fichiers historiques CSV + API REST) pour alimenter un data warehouse.

Le pipeline doit :
- Extraire les donn√©es depuis plusieurs sources
- Valider la qualit√© des donn√©es (sch√©ma, types, contraintes)
- Transformer et enrichir les donn√©es
- Charger dans un data warehouse (DuckDB)
- √ätre robuste, test√©, et respecter les bonnes pratiques de qualit√©

**Votre mission :** Construire un pipeline ETL professionnel avec validation Pydantic, tests, logging structur√©, et configuration par environnement.

---

## üéØ Objectifs du projet

Construire un pipeline ETL complet qui :

1. ‚úÖ **Extract** : Lire CSV + appeler une API REST
2. ‚úÖ **Transform** : Valider avec Pydantic + nettoyer avec Pandas
3. ‚úÖ **Load** : Exporter en Parquet + charger dans DuckDB
4. ‚úÖ **Quality** : Logging JSON, tests pytest > 80%, pre-commit
5. ‚úÖ **Structure** : Architecture propre, configuration centralis√©e

---

## üìù Sp√©cifications techniques

### 1. Extract (Extraction)

**Sources de donn√©es :**

1. **Fichiers CSV historiques** :
   - `data/raw/transactions_*.csv` : Historique des transactions
   - Colonnes : `transaction_id`, `user_id`, `amount`, `currency`, `timestamp`, `status`

2. **API REST** :
   - URL : JSONPlaceholder (`https://jsonplaceholder.typicode.com/users`) ou cr√©er un mock
   - R√©cup√©rer les informations utilisateurs : `id`, `name`, `email`, `city`

**Exigences :**
- Gestion d'erreurs robuste (try/except)
- Retry automatique en cas d'√©chec API (3 tentatives)
- Timeout sur les appels API (5 secondes)
- Logging de toutes les op√©rations

### 2. Transform (Transformation)

**Validation avec Pydantic :**

Cr√©er des mod√®les Pydantic pour chaque source :

```python
class Transaction(BaseModel):
    transaction_id: str
    user_id: int
    amount: Decimal
    currency: str = Field(pattern="^[A-Z]{3}$")  # ISO 4217
    timestamp: datetime
    status: Literal["pending", "completed", "failed"]
    
    @field_validator('amount')
    def amount_positive(cls, v):
        if v <= 0:
            raise ValueError('Amount must be positive')
        return v

class User(BaseModel):
    id: int
    name: str
    email: EmailStr
    city: str
```

**Nettoyage avec Pandas :**
- Supprimer les doublons
- G√©rer les valeurs manquantes
- Convertir les types de donn√©es
- Normaliser les formats (dates, devises)

**Enrichissement :**
- Joindre transactions et users sur `user_id`
- Calculer des m√©triques agr√©g√©es (total par utilisateur, par jour)
- Ajouter des flags de qualit√© (is_valid, has_complete_info)

### 3. Load (Chargement)

**Export Parquet :**
- Partitionner par date (`partition_cols=['year', 'month', 'day']`)
- Compression snappy
- Structure : `data/processed/transactions/year=2024/month=01/day=15/data.parquet`

**Chargement DuckDB :**
- Cr√©er une base DuckDB locale
- Cr√©er les tables `transactions`, `users`, `transactions_enriched`
- Charger les donn√©es depuis les Parquet
- V√©rifier l'int√©grit√© (count, checksums)

### 4. Qualit√© et tests

**Logging structur√© (JSON) :**

```python
import structlog

logger = structlog.get_logger()
logger.info("extraction_started", source="csv", file_count=5)
logger.error("validation_failed", error=str(e), record_id=tx_id)
```

**Tests pytest :**
- Tests unitaires pour chaque fonction
- Tests d'int√©gration pour le pipeline complet
- Fixtures avec donn√©es de test
- Coverage > 80%

**Configuration pre-commit :**
- ruff (linter + formatter)
- mypy (type checker)
- pytest (tests)

**Pydantic Settings pour configuration :**

```python
class Settings(BaseSettings):
    api_url: str
    api_timeout: int = 5
    api_retries: int = 3
    db_path: str = "data/warehouse.duckdb"
    log_level: str = "INFO"
    
    class Config:
        env_file = ".env"
```

### 5. Structure du projet

```
pipeline/
‚îú‚îÄ‚îÄ src/
‚îÇ   ‚îú‚îÄ‚îÄ __init__.py
‚îÇ   ‚îú‚îÄ‚îÄ extract.py           # Extraction CSV + API
‚îÇ   ‚îú‚îÄ‚îÄ transform.py         # Validation + transformation
‚îÇ   ‚îú‚îÄ‚îÄ load.py              # Export Parquet + DuckDB
‚îÇ   ‚îú‚îÄ‚îÄ models.py            # Mod√®les Pydantic
‚îÇ   ‚îú‚îÄ‚îÄ config.py            # Configuration (Pydantic Settings)
‚îÇ   ‚îú‚îÄ‚îÄ exceptions.py        # Exceptions custom
‚îÇ   ‚îî‚îÄ‚îÄ main.py              # Point d'entr√©e
‚îú‚îÄ‚îÄ tests/
‚îÇ   ‚îú‚îÄ‚îÄ __init__.py
‚îÇ   ‚îú‚îÄ‚îÄ test_extract.py
‚îÇ   ‚îú‚îÄ‚îÄ test_transform.py
‚îÇ   ‚îú‚îÄ‚îÄ test_load.py
‚îÇ   ‚îî‚îÄ‚îÄ conftest.py          # Fixtures pytest
‚îú‚îÄ‚îÄ data/
‚îÇ   ‚îú‚îÄ‚îÄ raw/                 # CSV bruts
‚îÇ   ‚îú‚îÄ‚îÄ processed/           # Parquet
‚îÇ   ‚îî‚îÄ‚îÄ warehouse.duckdb     # Base DuckDB
‚îú‚îÄ‚îÄ .env.example             # Exemple de configuration
‚îú‚îÄ‚îÄ .pre-commit-config.yaml
‚îú‚îÄ‚îÄ pyproject.toml
‚îú‚îÄ‚îÄ requirements.txt
‚îî‚îÄ‚îÄ README.md
```

---

## üì¶ Livrables

### Checklist

- [ ] Structure de projet respect√©e
- [ ] `src/extract.py` : Lecture CSV + appel API avec retry
- [ ] `src/models.py` : Mod√®les Pydantic avec validation
- [ ] `src/transform.py` : Validation + nettoyage + enrichissement
- [ ] `src/load.py` : Export Parquet partitionn√© + chargement DuckDB
- [ ] `src/config.py` : Pydantic Settings
- [ ] `src/exceptions.py` : Exceptions custom
- [ ] `src/main.py` : Pipeline complet fonctionnel
- [ ] `tests/` : 8+ tests avec coverage > 80%
- [ ] `pyproject.toml` : Config ruff + pytest
- [ ] `.pre-commit-config.yaml` : Hooks Git
- [ ] `.env.example` : Variables d'environnement
- [ ] Logging structur√© (JSON format)
- [ ] Type hints partout
- [ ] Docstrings (Google style)
- [ ] README.md complet

---

## üéØ Grille d'√©valuation

| Comp√©tence | Crit√®res d'√©valuation | Points |
|------------|----------------------|--------|
| **Extract** | CSV + API, retry, gestion erreurs, logging | **/15** |
| **Validation Pydantic** | Mod√®les complets, validators, types corrects | **/15** |
| **Transform Pandas** | Nettoyage, enrichissement, jointures | **/15** |
| **Load** | Parquet partitionn√© + DuckDB + v√©rifications | **/15** |
| **Tests pytest** | 8+ tests, coverage > 80%, fixtures | **/15** |
| **Logging structur√©** | JSON format, niveaux appropri√©s, contexte | **/10** |
| **Configuration** | pre-commit + ruff + Pydantic Settings | **/10** |
| **Qualit√© code** | Structure, type hints, docstrings, PEP 8 | **/5** |
| **TOTAL** | | **/100** |

### Crit√®res de r√©ussite

- ‚úÖ **Acquis (‚â• 70/100)** : Pipeline complet et professionnel
- üöß **En cours d'acquisition (50-69/100)** : Pipeline partiel
- ‚ùå **Non acquis (< 50/100)** : Pipeline incomplet ou non fonctionnel

---

## üõ†Ô∏è Pr√©paration : Cr√©er des donn√©es de test

In [None]:
# Cr√©er la structure de dossiers
import os

os.makedirs("pipeline/src", exist_ok=True)
os.makedirs("pipeline/tests", exist_ok=True)
os.makedirs("pipeline/data/raw", exist_ok=True)
os.makedirs("pipeline/data/processed", exist_ok=True)

print("‚úÖ Structure de dossiers cr√©√©e")

In [None]:
%%writefile pipeline/data/raw/transactions_20240115.csv
transaction_id,user_id,amount,currency,timestamp,status
TXN001,1,150.50,EUR,2024-01-15 10:30:00,completed
TXN002,2,89.99,USD,2024-01-15 11:45:00,completed
TXN003,1,200.00,EUR,2024-01-15 14:20:00,pending
TXN004,3,45.75,GBP,2024-01-15 16:00:00,completed
TXN005,2,  ,USD,2024-01-15 17:30:00,failed
TXN006,4,300.00,EUR,2024-01-15 18:15:00,completed

In [None]:
%%writefile pipeline/data/raw/transactions_20240116.csv
transaction_id,user_id,amount,currency,timestamp,status
TXN007,1,75.25,EUR,2024-01-16 09:00:00,completed
TXN008,3,120.00,GBP,2024-01-16 10:30:00,completed
TXN009,2,50.50,USD,2024-01-16 12:00:00,pending
TXN010,4,180.00,EUR,2024-01-16 15:45:00,completed

---

## üí° Template : src/models.py

In [None]:
%%writefile pipeline/src/models.py
"""Mod√®les Pydantic pour la validation des donn√©es."""

from datetime import datetime
from decimal import Decimal
from typing import Literal

from pydantic import BaseModel, EmailStr, Field, field_validator


class Transaction(BaseModel):
    """Mod√®le de transaction financi√®re."""
    
    transaction_id: str = Field(..., min_length=5)
    user_id: int = Field(..., gt=0)
    amount: Decimal = Field(..., gt=0)
    currency: str = Field(..., pattern=r"^[A-Z]{3}$")
    timestamp: datetime
    status: Literal["pending", "completed", "failed"]
    
    @field_validator('amount')
    @classmethod
    def amount_positive(cls, v: Decimal) -> Decimal:
        """Valide que le montant est positif."""
        if v <= 0:
            raise ValueError("Amount must be positive")
        return v
    
    class Config:
        frozen = True  # Immutable


class User(BaseModel):
    """Mod√®le d'utilisateur."""
    
    id: int = Field(..., gt=0)
    name: str = Field(..., min_length=1)
    email: EmailStr
    city: str = Field(..., min_length=1)
    
    class Config:
        frozen = True


class TransactionEnriched(BaseModel):
    """Transaction enrichie avec informations utilisateur."""
    
    transaction_id: str
    user_id: int
    user_name: str
    user_email: str
    user_city: str
    amount: Decimal
    currency: str
    timestamp: datetime
    status: str
    year: int
    month: int
    day: int
    
    # TODO: Ajouter des computed fields si n√©cessaire

---

## üí° Template : src/config.py

In [None]:
%%writefile pipeline/src/config.py
"""Configuration centralis√©e avec Pydantic Settings."""

from pydantic_settings import BaseSettings, SettingsConfigDict


class Settings(BaseSettings):
    """Configuration de l'application."""
    
    # API
    api_url: str = "https://jsonplaceholder.typicode.com/users"
    api_timeout: int = 5
    api_retries: int = 3
    
    # Paths
    raw_data_path: str = "data/raw"
    processed_data_path: str = "data/processed"
    db_path: str = "data/warehouse.duckdb"
    
    # Logging
    log_level: str = "INFO"
    log_format: str = "json"
    
    # Processing
    batch_size: int = 1000
    partition_by: list[str] = ["year", "month", "day"]
    
    model_config = SettingsConfigDict(
        env_file=".env",
        env_file_encoding="utf-8",
        case_sensitive=False,
    )


# Instance globale
settings = Settings()

---

## üí° Template : src/exceptions.py

In [None]:
%%writefile pipeline/src/exceptions.py
"""Exceptions personnalis√©es pour le pipeline."""


class PipelineError(Exception):
    """Exception de base pour le pipeline."""
    pass


class ExtractionError(PipelineError):
    """Lev√©e lors d'une erreur d'extraction."""
    pass


class ValidationError(PipelineError):
    """Lev√©e lors d'une erreur de validation."""
    pass


class TransformationError(PipelineError):
    """Lev√©e lors d'une erreur de transformation."""
    pass


class LoadError(PipelineError):
    """Lev√©e lors d'une erreur de chargement."""
    pass

---

## üí° Template : src/extract.py

In [None]:
%%writefile pipeline/src/extract.py
"""Module d'extraction des donn√©es."""

import time
from pathlib import Path
from typing import Any

import pandas as pd
import requests
import structlog

from .config import settings
from .exceptions import ExtractionError

logger = structlog.get_logger()


def extract_csv_files(data_path: str) -> pd.DataFrame:
    """Extrait et concat√®ne tous les fichiers CSV du dossier.
    
    Args:
        data_path: Chemin vers le dossier contenant les CSV.
        
    Returns:
        DataFrame Pandas avec toutes les donn√©es.
        
    Raises:
        ExtractionError: Si aucun fichier trouv√© ou erreur de lecture.
    """
    logger.info("csv_extraction_started", path=data_path)
    
    # TODO: Impl√©menter
    # 1. Lister tous les fichiers CSV
    # 2. Lire chaque fichier avec pd.read_csv
    # 3. Concat√©ner tous les DataFrames
    # 4. G√©rer les erreurs (fichier vide, format invalide, etc.)
    
    pass


def extract_api_data(url: str, timeout: int = 5, retries: int = 3) -> list[dict[str, Any]]:
    """Extrait des donn√©es depuis une API REST avec retry.
    
    Args:
        url: URL de l'API.
        timeout: Timeout en secondes.
        retries: Nombre de tentatives.
        
    Returns:
        Liste de dictionnaires avec les donn√©es.
        
    Raises:
        ExtractionError: Si toutes les tentatives √©chouent.
    """
    logger.info("api_extraction_started", url=url, retries=retries)
    
    # TODO: Impl√©menter avec retry
    # 1. Boucle sur le nombre de retries
    # 2. requests.get() avec timeout
    # 3. V√©rifier response.status_code
    # 4. Parser le JSON
    # 5. En cas d'erreur, attendre avant retry (exponential backoff)
    # 6. Logger chaque tentative
    
    pass


def extract_all() -> tuple[pd.DataFrame, list[dict[str, Any]]]:
    """Extrait toutes les donn√©es (CSV + API).
    
    Returns:
        Tuple (transactions_df, users_list).
    """
    transactions_df = extract_csv_files(settings.raw_data_path)
    users_list = extract_api_data(settings.api_url, settings.api_timeout, settings.api_retries)
    
    logger.info(
        "extraction_completed",
        transactions_count=len(transactions_df),
        users_count=len(users_list),
    )
    
    return transactions_df, users_list

---

## üí° Template : src/transform.py

In [None]:
%%writefile pipeline/src/transform.py
"""Module de transformation des donn√©es."""

from typing import Any

import pandas as pd
import structlog
from pydantic import ValidationError

from .exceptions import TransformationError, ValidationError as CustomValidationError
from .models import Transaction, TransactionEnriched, User

logger = structlog.get_logger()


def validate_transactions(df: pd.DataFrame) -> list[Transaction]:
    """Valide les transactions avec Pydantic.
    
    Args:
        df: DataFrame avec les transactions brutes.
        
    Returns:
        Liste de transactions valid√©es.
    """
    logger.info("validation_started", entity="transactions", count=len(df))
    
    valid_transactions = []
    errors = []
    
    # TODO: Impl√©menter
    # 1. It√©rer sur les lignes du DataFrame
    # 2. Pour chaque ligne, essayer de cr√©er un Transaction
    # 3. Si ValidationError, logger l'erreur et continuer
    # 4. Si OK, ajouter √† valid_transactions
    # 5. Logger le nombre d'erreurs
    
    pass


def validate_users(users_list: list[dict[str, Any]]) -> list[User]:
    """Valide les utilisateurs avec Pydantic.
    
    Args:
        users_list: Liste de dictionnaires avec les users.
        
    Returns:
        Liste d'utilisateurs valid√©s.
    """
    logger.info("validation_started", entity="users", count=len(users_list))
    
    # TODO: Impl√©menter (m√™me logique que validate_transactions)
    
    pass


def clean_dataframe(df: pd.DataFrame) -> pd.DataFrame:
    """Nettoie le DataFrame.
    
    Args:
        df: DataFrame brut.
        
    Returns:
        DataFrame nettoy√©.
    """
    logger.info("cleaning_started", rows_before=len(df))
    
    # TODO: Impl√©menter
    # 1. Supprimer les doublons (drop_duplicates)
    # 2. G√©rer les valeurs manquantes
    # 3. Convertir les types
    # 4. Normaliser les formats
    
    pass


def enrich_transactions(
    transactions: list[Transaction], users: list[User]
) -> pd.DataFrame:
    """Enrichit les transactions avec les informations utilisateurs.
    
    Args:
        transactions: Liste de transactions valid√©es.
        users: Liste d'utilisateurs valid√©s.
        
    Returns:
        DataFrame enrichi.
    """
    logger.info("enrichment_started")
    
    # TODO: Impl√©menter
    # 1. Convertir les listes Pydantic en DataFrames
    # 2. Joindre sur user_id
    # 3. Ajouter des colonnes d√©riv√©es (year, month, day)
    # 4. Retourner le DataFrame enrichi
    
    pass


def transform_all(
    transactions_df: pd.DataFrame, users_list: list[dict[str, Any]]
) -> pd.DataFrame:
    """Pipeline complet de transformation.
    
    Args:
        transactions_df: DataFrame brut des transactions.
        users_list: Liste brute des utilisateurs.
        
    Returns:
        DataFrame enrichi et valid√©.
    """
    # Validation
    valid_transactions = validate_transactions(transactions_df)
    valid_users = validate_users(users_list)
    
    # Enrichissement
    enriched_df = enrich_transactions(valid_transactions, valid_users)
    
    # Nettoyage final
    clean_df = clean_dataframe(enriched_df)
    
    logger.info("transformation_completed", rows=len(clean_df))
    
    return clean_df

---

## üí° Template : src/load.py

In [None]:
%%writefile pipeline/src/load.py
"""Module de chargement des donn√©es."""

import duckdb
import pandas as pd
import structlog

from .config import settings
from .exceptions import LoadError

logger = structlog.get_logger()


def export_to_parquet(df: pd.DataFrame, output_path: str, partition_cols: list[str]) -> None:
    """Exporte le DataFrame en Parquet partitionn√©.
    
    Args:
        df: DataFrame √† exporter.
        output_path: Chemin de base pour l'export.
        partition_cols: Colonnes de partitionnement.
    """
    logger.info("parquet_export_started", path=output_path, partitions=partition_cols)
    
    # TODO: Impl√©menter
    # 1. Utiliser df.to_parquet() avec partition_cols
    # 2. Sp√©cifier compression='snappy'
    # 3. G√©rer les erreurs (permissions, espace disque)
    
    pass


def load_to_duckdb(df: pd.DataFrame, db_path: str, table_name: str) -> None:
    """Charge le DataFrame dans DuckDB.
    
    Args:
        df: DataFrame √† charger.
        db_path: Chemin vers la base DuckDB.
        table_name: Nom de la table.
    """
    logger.info("duckdb_load_started", table=table_name, rows=len(df))
    
    # TODO: Impl√©menter
    # 1. Se connecter √† DuckDB (duckdb.connect)
    # 2. Cr√©er la table si elle n'existe pas
    # 3. Ins√©rer les donn√©es (depuis DataFrame ou Parquet)
    # 4. V√©rifier l'int√©grit√© (count)
    # 5. Fermer la connexion
    
    pass


def verify_data_integrity(db_path: str, table_name: str, expected_count: int) -> bool:
    """V√©rifie l'int√©grit√© des donn√©es charg√©es.
    
    Args:
        db_path: Chemin vers la base DuckDB.
        table_name: Nom de la table.
        expected_count: Nombre de lignes attendu.
        
    Returns:
        True si int√©grit√© OK.
    """
    # TODO: Impl√©menter
    # 1. Compter les lignes dans la table
    # 2. Comparer avec expected_count
    # 3. Logger le r√©sultat
    
    pass


def load_all(df: pd.DataFrame) -> None:
    """Pipeline complet de chargement.
    
    Args:
        df: DataFrame enrichi √† charger.
    """
    # Export Parquet
    export_to_parquet(
        df, settings.processed_data_path, settings.partition_by
    )
    
    # Load DuckDB
    load_to_duckdb(df, settings.db_path, "transactions_enriched")
    
    # V√©rification
    is_valid = verify_data_integrity(settings.db_path, "transactions_enriched", len(df))
    
    if not is_valid:
        raise LoadError("Data integrity check failed")
    
    logger.info("load_completed")

---

## üí° Template : src/main.py

In [None]:
%%writefile pipeline/src/main.py
"""Point d'entr√©e du pipeline ETL."""

import structlog

from .config import settings
from .extract import extract_all
from .load import load_all
from .transform import transform_all

# Configuration du logging
structlog.configure(
    processors=[
        structlog.processors.TimeStamper(fmt="iso"),
        structlog.processors.add_log_level,
        structlog.processors.JSONRenderer(),
    ]
)

logger = structlog.get_logger()


def run_pipeline() -> None:
    """Ex√©cute le pipeline ETL complet."""
    logger.info("pipeline_started")
    
    try:
        # Extract
        transactions_df, users_list = extract_all()
        
        # Transform
        enriched_df = transform_all(transactions_df, users_list)
        
        # Load
        load_all(enriched_df)
        
        logger.info("pipeline_completed")
        
    except Exception as e:
        logger.error("pipeline_failed", error=str(e), error_type=type(e).__name__)
        raise


if __name__ == "__main__":
    run_pipeline()

---

## üí° Template : tests/conftest.py

In [None]:
%%writefile pipeline/tests/conftest.py
"""Fixtures pytest partag√©es."""

from datetime import datetime
from decimal import Decimal

import pandas as pd
import pytest


@pytest.fixture
def sample_transactions_df():
    """Fixture avec des transactions de test."""
    return pd.DataFrame([
        {
            "transaction_id": "TXN001",
            "user_id": 1,
            "amount": 150.50,
            "currency": "EUR",
            "timestamp": "2024-01-15 10:30:00",
            "status": "completed",
        },
        {
            "transaction_id": "TXN002",
            "user_id": 2,
            "amount": 89.99,
            "currency": "USD",
            "timestamp": "2024-01-15 11:45:00",
            "status": "completed",
        },
    ])


@pytest.fixture
def sample_users_list():
    """Fixture avec des utilisateurs de test."""
    return [
        {"id": 1, "name": "Alice", "email": "alice@example.com", "city": "Paris"},
        {"id": 2, "name": "Bob", "email": "bob@example.com", "city": "Lyon"},
    ]


# TODO: Ajouter d'autres fixtures utiles

---

## üí° Template : pyproject.toml et .env.example

In [None]:
%%writefile pipeline/pyproject.toml
[project]
name = "pipeline-etl"
version = "1.0.0"
requires-python = ">=3.11"
dependencies = [
    "pandas>=2.0.0",
    "pydantic>=2.0.0",
    "pydantic-settings>=2.0.0",
    "requests>=2.31.0",
    "duckdb>=0.9.0",
    "structlog>=23.0.0",
    "pytest>=7.4.0",
    "pytest-cov>=4.1.0",
]

[tool.ruff]
line-length = 100
target-version = "py311"

[tool.ruff.lint]
select = ["E", "W", "F", "I", "B", "C4", "UP"]

[tool.pytest.ini_options]
testpaths = ["tests"]
addopts = "-v --cov=src --cov-report=term-missing --cov-report=html"

[tool.mypy]
python_version = "3.11"
warn_return_any = true
disallow_untyped_defs = true

In [None]:
%%writefile pipeline/.env.example
# Configuration du pipeline ETL

# API
API_URL=https://jsonplaceholder.typicode.com/users
API_TIMEOUT=5
API_RETRIES=3

# Paths
RAW_DATA_PATH=data/raw
PROCESSED_DATA_PATH=data/processed
DB_PATH=data/warehouse.duckdb

# Logging
LOG_LEVEL=INFO
LOG_FORMAT=json

---

## üöÄ √âtapes recommand√©es

1. **Cr√©er la structure** : Dossiers et fichiers vides
2. **Impl√©menter Extract** : CSV puis API (avec retry)
3. **Impl√©menter les mod√®les Pydantic** : Transaction et User
4. **Impl√©menter Transform** : Validation puis enrichissement
5. **Impl√©menter Load** : Parquet puis DuckDB
6. **Tester chaque module** : Un test √† la fois
7. **Int√©grer le pipeline** : main.py
8. **Ajouter le logging** : structlog partout
9. **Configurer les hooks** : pre-commit
10. **Documentation** : README.md

---

## üìö Ressources

### Documentation
- [Pydantic](https://docs.pydantic.dev/)
- [Pandas](https://pandas.pydata.org/docs/)
- [DuckDB](https://duckdb.org/docs/)
- [structlog](https://www.structlog.org/)
- [pytest](https://docs.pytest.org/)
- [Parquet](https://arrow.apache.org/docs/python/parquet.html)

### Concepts ETL
- Extract : Ingestion de donn√©es multi-sources
- Transform : Validation, nettoyage, enrichissement
- Load : Persistence optimis√©e (Parquet, DuckDB)
- Data quality : Validation Pydantic, v√©rifications
- Observability : Logging structur√©, m√©triques

---

## ‚úÖ Crit√®res de validation finale

Avant de soumettre, v√©rifiez que :

1. ‚úÖ `python -m src.main` s'ex√©cute sans erreur
2. ‚úÖ Les fichiers Parquet sont g√©n√©r√©s et partitionn√©s
3. ‚úÖ La base DuckDB contient les donn√©es
4. ‚úÖ `pytest` : tous les tests passent, coverage > 80%
5. ‚úÖ `ruff check .` : aucune erreur
6. ‚úÖ `mypy src/` : aucune erreur
7. ‚úÖ Les logs sont en JSON et structur√©s
8. ‚úÖ Les mod√®les Pydantic valident correctement
9. ‚úÖ Le retry API fonctionne
10. ‚úÖ Les exceptions custom sont utilis√©es
11. ‚úÖ La configuration .env fonctionne
12. ‚úÖ Le README explique l'installation et l'utilisation

**Bon courage pour ce projet expert ! üöÄ**