# ‚ö° Brief 1 : Script CLI d'automatisation de traitement de fichiers

**Badge:** ‚ö° Interm√©diaire  
**Dur√©e:** 3 heures  
**Sections valid√©es:** 01-Syntaxe + 04-Biblioth√®que-Standard

---

## üìã Contexte

Vous √™tes **data engineer** dans une entreprise qui re√ßoit quotidiennement des fichiers de donn√©es de diff√©rentes sources (partenaires, capteurs, syst√®mes internes).

Ces fichiers arrivent dans diff√©rents formats (CSV et JSON) et n√©cessitent un traitement standardis√© avant d'√™tre charg√©s dans votre data warehouse.

**Votre mission :** Cr√©er un script CLI Python robuste qui automatise ce traitement.

---

## üéØ Objectifs du projet

D√©velopper un script Python en ligne de commande capable de :

1. ‚úÖ Accepter des arguments CLI (dossiers source/destination, format, mode verbose)
2. ‚úÖ Lire tous les fichiers CSV ou JSON d'un dossier source
3. ‚úÖ Nettoyer et normaliser les donn√©es
4. ‚úÖ Fusionner les fichiers en un seul dataset
5. ‚úÖ G√©n√©rer un rapport de synth√®se
6. ‚úÖ Exporter les r√©sultats dans le format souhait√©
7. ‚úÖ G√©rer les erreurs de mani√®re robuste
8. ‚úÖ Logger toutes les op√©rations importantes

---

## üìù Sp√©cifications techniques

### Interface CLI (argparse)

Le script doit accepter les arguments suivants :

```bash
python process_files.py --input ./data/raw --output ./data/processed --format csv --verbose
```

**Arguments :**
- `--input` / `-i` : Chemin vers le dossier source (REQUIS)
- `--output` / `-o` : Chemin vers le dossier destination (REQUIS)
- `--format` / `-f` : Format de sortie (`csv` ou `json`, d√©faut: `csv`)
- `--verbose` / `-v` : Active le mode verbeux (optionnel)

### Traitement des donn√©es

**Lecture :**
- D√©tecter automatiquement le format des fichiers (.csv ou .json)
- Lire tous les fichiers du dossier source
- G√©rer les erreurs de lecture (fichiers corrompus, permissions)

**Nettoyage :**
- Supprimer les espaces inutiles (strip) sur les colonnes texte
- Normaliser les noms de colonnes en snake_case
- Exemple : `"First Name"` ‚Üí `"first_name"`, `"Email Address"` ‚Üí `"email_address"`

**Fusion :**
- Concat√©ner tous les DataFrames en un seul
- G√©rer les colonnes manquantes/diff√©rentes entre fichiers

**Rapport de synth√®se :**
- Nombre total de lignes
- Nombre de colonnes
- Liste des colonnes
- Nombre de valeurs manquantes par colonne
- Nombre de fichiers trait√©s

### Gestion des erreurs

G√©rer proprement :
- Dossier source inexistant
- Dossier vide
- Fichiers non lisibles (format invalide, corruption)
- Probl√®mes de permissions
- Espace disque insuffisant

### Logging

Utiliser le module `logging` avec :
- Niveau INFO pour les op√©rations normales
- Niveau DEBUG en mode verbose
- Niveau ERROR pour les erreurs
- Format : `[TIMESTAMP] [LEVEL] message`

---

## üì¶ Livrables

### Checklist

- [ ] Script `process_files.py` fonctionnel
- [ ] Interface CLI avec argparse compl√®te
- [ ] Lecture CSV et JSON impl√©ment√©e
- [ ] Nettoyage des donn√©es (strip, snake_case)
- [ ] Fusion des fichiers en un DataFrame unique
- [ ] Rapport de synth√®se g√©n√©r√© et affich√©
- [ ] Export CSV et JSON fonctionnels
- [ ] Gestion d'erreurs robuste (try/except)
- [ ] Logging configur√© correctement
- [ ] Code respectant PEP 8
- [ ] Type hints ajout√©s
- [ ] Docstrings pour les fonctions principales
- [ ] Fichiers de test fournis (au moins 3 CSV ou JSON)
- [ ] README.md avec instructions d'utilisation

---

## üéØ Grille d'√©valuation

| Comp√©tence | Crit√®res d'√©valuation | Points |
|------------|----------------------|--------|
| **CLI avec argparse** | Arguments requis/optionnels, aide (`--help`), validation | **/20** |
| **Lecture fichiers** | CSV et JSON support√©s, d√©tection auto format, gestion erreurs | **/20** |
| **Nettoyage donn√©es** | Strip whitespace, snake_case, normalisation colonnes | **/20** |
| **Gestion erreurs** | Try/except pertinents, messages clairs, robustesse | **/15** |
| **Logging** | Configuration logging, niveaux appropri√©s, mode verbose | **/10** |
| **Qualit√© code** | PEP 8, type hints, docstrings, structure claire | **/15** |
| **TOTAL** | | **/100** |

### Crit√®res de r√©ussite

- ‚úÖ **Acquis (‚â• 70/100)** : Script fonctionnel avec gestion d'erreurs de base
- üöß **En cours d'acquisition (50-69/100)** : Script partiel ou bugs mineurs
- ‚ùå **Non acquis (< 50/100)** : Script incomplet ou non fonctionnel

---

## üõ†Ô∏è Pr√©paration : Cr√©er des fichiers de test

Avant de commencer, cr√©ons des donn√©es de test.

In [None]:
# Cr√©er la structure de dossiers
import os

os.makedirs("data/raw", exist_ok=True)
os.makedirs("data/processed", exist_ok=True)

print("‚úÖ Dossiers cr√©√©s : data/raw et data/processed")

In [None]:
%%writefile data/raw/customers_1.csv
First Name,Last Name,Email Address,Age
  John  ,  Doe  ,john.doe@example.com,28
Jane,Smith,jane.smith@example.com,34
Bob,  Johnson,bob.johnson@example.com,
Alice,Williams,alice.w@example.com,45

In [None]:
%%writefile data/raw/customers_2.csv
First Name,Last Name,Email Address,City,Age
Charlie,Brown,charlie.b@example.com,Paris,29
  Eve  ,Davis,eve.davis@example.com,Lyon,
Frank,Miller,frank.miller@example.com,Marseille,52

In [None]:
%%writefile data/raw/sales_1.json
[
    {"Product Name": "Laptop", "Price": 999.99, "Quantity": 5, "Supplier": "  TechCorp  "},
    {"Product Name": "Mouse", "Price": 24.99, "Quantity": 50, "Supplier": "AccessoriesInc"},
    {"Product Name": "Keyboard", "Price": 79.99, "Quantity": null, "Supplier": "TechCorp"}
]

---

## üí° Indices et structure sugg√©r√©e

### Structure du script

```python
# process_files.py

import argparse
import logging
import pandas as pd
from pathlib import Path
from typing import List, Dict, Any

# Configuration du logging
def setup_logging(verbose: bool) -> None:
    """Configure le syst√®me de logging."""
    pass

# Conversion snake_case
def to_snake_case(name: str) -> str:
    """Convertit un nom de colonne en snake_case."""
    pass

# Lecture fichiers
def read_files(input_dir: Path) -> List[pd.DataFrame]:
    """Lit tous les fichiers CSV/JSON du dossier."""
    pass

# Nettoyage
def clean_dataframe(df: pd.DataFrame) -> pd.DataFrame:
    """Nettoie et normalise un DataFrame."""
    pass

# Rapport
def generate_report(df: pd.DataFrame, num_files: int) -> Dict[str, Any]:
    """G√©n√®re un rapport de synth√®se."""
    pass

# Export
def export_data(df: pd.DataFrame, output_path: Path, format: str) -> None:
    """Exporte le DataFrame dans le format demand√©."""
    pass

# CLI
def parse_args() -> argparse.Namespace:
    """Parse les arguments de la ligne de commande."""
    pass

# Main
def main() -> None:
    """Point d'entr√©e principal du script."""
    pass

if __name__ == "__main__":
    main()
```

### Indices pour argparse

```python
parser = argparse.ArgumentParser(
    description="Script d'automatisation de traitement de fichiers"
)
parser.add_argument(
    "-i", "--input",
    type=str,
    required=True,
    help="Dossier source contenant les fichiers √† traiter"
)
# TODO: Ajouter les autres arguments
```

### Indices pour snake_case

```python
import re

def to_snake_case(name: str) -> str:
    # 1. Strip whitespace
    # 2. Remplacer espaces par underscores
    # 3. Convertir en minuscules
    # 4. Supprimer caract√®res non alphanum√©riques (sauf _)
    pass
```

### Indices pour logging

```python
logging.basicConfig(
    level=logging.DEBUG if verbose else logging.INFO,
    format='[%(asctime)s] [%(levelname)s] %(message)s',
    datefmt='%Y-%m-%d %H:%M:%S'
)
logger = logging.getLogger(__name__)
```

---

## üöÄ √Ä vous de jouer !

### √âtapes recommand√©es

1. **Cr√©er le fichier `process_files.py`** dans un √©diteur externe
2. **Impl√©menter d'abord la CLI** (argparse) et tester avec `--help`
3. **Impl√©menter le logging** et tester les diff√©rents niveaux
4. **Impl√©menter la lecture** de fichiers CSV/JSON
5. **Impl√©menter le nettoyage** (snake_case, strip)
6. **Impl√©menter la fusion** des DataFrames
7. **Impl√©menter le rapport** de synth√®se
8. **Impl√©menter l'export** CSV/JSON
9. **Ajouter la gestion d'erreurs** partout
10. **Tester avec les fichiers de test** cr√©√©s ci-dessus
11. **Am√©liorer et documenter** le code

In [None]:
# Zone de test : Testez votre script ici
# Exemple : !python process_files.py --help

In [None]:
# Test avec les donn√©es cr√©√©es
# !python process_files.py --input data/raw --output data/processed --format csv --verbose

---

## üìö Ressources

### Documentation officielle
- [argparse](https://docs.python.org/fr/3/library/argparse.html)
- [logging](https://docs.python.org/fr/3/library/logging.html)
- [pandas](https://pandas.pydata.org/docs/)
- [pathlib](https://docs.python.org/fr/3/library/pathlib.html)

### Concepts cl√©s
- PEP 8 : Style guide Python
- Type hints (PEP 484)
- Gestion d'erreurs avec try/except
- Context managers (with)

---

## ‚úÖ Crit√®res de validation finale

Avant de soumettre, v√©rifiez que :

1. ‚úÖ Le script s'ex√©cute sans erreur avec `--help`
2. ‚úÖ Le script traite correctement les fichiers de test fournis
3. ‚úÖ Les colonnes sont bien en snake_case
4. ‚úÖ Le rapport de synth√®se s'affiche correctement
5. ‚úÖ Les fichiers de sortie sont g√©n√©r√©s (CSV/JSON)
6. ‚úÖ Les logs s'affichent avec le bon format
7. ‚úÖ Le mode verbose fonctionne
8. ‚úÖ Les erreurs sont g√©r√©es proprement (testez avec un dossier inexistant)
9. ‚úÖ Le code est propre et comment√©
10. ‚úÖ Un README.md explique comment utiliser le script

**Bon courage ! üöÄ**