# üî¥ Brief 3 : Refactoring et mise en qualit√© d'un code legacy

**Badge:** üî¥ Avanc√©  
**Dur√©e:** 3 heures  
**Sections valid√©es:** 05-Qualit√©-Tests

---

## üìã Contexte

Vous venez de rejoindre une √©quipe de data engineering. Votre premi√®re t√¢che : reprendre un script Python √©crit il y a 2 ans par un stagiaire qui a depuis quitt√© l'entreprise.

Le script fonctionne... mais :
- ‚ùå Aucun type hint
- ‚ùå Aucune docstring
- ‚ùå Noms de variables incompr√©hensibles (x, y, tmp, data2)
- ‚ùå Aucune gestion d'erreurs
- ‚ùå Magic numbers partout
- ‚ùå Une seule fonction gigantesque (200 lignes)
- ‚ùå Aucun test
- ‚ùå Aucune configuration (ruff, pre-commit)

**Votre mission :** Transformer ce code "sale" en code professionnel, maintenable et test√©.

---

## üéØ Objectifs du projet

Refactorer le code legacy pour :

1. ‚úÖ Ajouter des type hints sur toutes les fonctions
2. ‚úÖ Ajouter des docstrings (style Google)
3. ‚úÖ Refactorer en fonctions/classes bien d√©coup√©es
4. ‚úÖ Renommer les variables avec des noms explicites
5. ‚úÖ Ajouter la gestion d'erreurs (try/except, exceptions custom)
6. ‚úÖ √âcrire des tests pytest (coverage > 80%)
7. ‚úÖ Configurer ruff (linter/formatter)
8. ‚úÖ Configurer pre-commit (hooks Git)
9. ‚úÖ Ajouter du logging structur√©
10. ‚úÖ Profiler et optimiser si possible

---

## üìù Le code "sale" √† refactorer

Voici le code legacy que vous devez am√©liorer.

In [None]:
%%writefile legacy_code.py
import json
import csv

def process(f, f2, t):
    data = []
    if t == 'csv':
        x = open(f, 'r')
        r = csv.DictReader(x)
        for row in r:
            data.append(row)
        x.close()
    else:
        x = open(f, 'r')
        data = json.load(x)
        x.close()
    
    # nettoyage
    data2 = []
    for d in data:
        tmp = {}
        for k, v in d.items():
            if v != '' and v != None:
                if k == 'age':
                    tmp[k] = int(v)
                elif k == 'salary':
                    tmp[k] = float(v)
                else:
                    tmp[k] = v.strip() if isinstance(v, str) else v
        if len(tmp) > 0:
            data2.append(tmp)
    
    # stats
    total = len(data2)
    ages = [d['age'] for d in data2 if 'age' in d]
    avg_age = sum(ages) / len(ages)
    
    salaries = [d['salary'] for d in data2 if 'salary' in d]
    avg_salary = sum(salaries) / len(salaries)
    
    # groupby city
    cities = {}
    for d in data2:
        c = d.get('city', 'Unknown')
        if c not in cities:
            cities[c] = []
        cities[c].append(d)
    
    # tri par salaire
    sorted_data = sorted(data2, key=lambda x: x.get('salary', 0), reverse=True)
    
    # filtrage senior
    seniors = [d for d in data2 if d.get('age', 0) >= 50]
    
    # export
    result = {
        'total': total,
        'avg_age': avg_age,
        'avg_salary': avg_salary,
        'by_city': {k: len(v) for k, v in cities.items()},
        'top_earners': sorted_data[:5],
        'seniors': seniors
    }
    
    y = open(f2, 'w')
    json.dump(result, y, indent=2)
    y.close()
    
    print('Done!')
    return result


if __name__ == '__main__':
    process('employees.csv', 'report.json', 'csv')

---

## üìù Fichier de test pour le code legacy

In [None]:
%%writefile employees.csv
name,age,city,salary,department
Alice Johnson,28,Paris,55000.50,Engineering
  Bob Smith  ,35,Lyon,62000,Sales
Charlie Brown,,Marseille,48000,Marketing
David Lee,52,Paris,75000.75,Engineering
Eve Davis,45,Lyon,,HR
Frank Miller,58,Paris,82000,Engineering
Grace Wilson,31,Marseille,51000,Sales
Henry Taylor,41,Lyon,64000,Engineering
Iris Anderson,29,,49000,Marketing
Jack Thomas,54,Paris,78000,Engineering

---

## üìã Sp√©cifications techniques

### 1. Type hints

Ajouter des type hints partout :
- Param√®tres de fonctions
- Valeurs de retour
- Variables complexes (List, Dict, Optional, etc.)

```python
from typing import List, Dict, Optional, Any

def read_csv_file(file_path: str) -> List[Dict[str, Any]]:
    ...
```

### 2. Docstrings (style Google)

```python
def calculate_average_age(employees: List[Dict[str, Any]]) -> float:
    """Calcule l'√¢ge moyen des employ√©s.
    
    Args:
        employees: Liste de dictionnaires repr√©sentant les employ√©s.
        
    Returns:
        L'√¢ge moyen en tant que flottant.
        
    Raises:
        ValueError: Si la liste est vide ou si aucun employ√© n'a d'√¢ge.
    """
    ...
```

### 3. Refactoring

D√©couper la fonction g√©ante en fonctions sp√©cialis√©es :
- `read_csv_file(file_path: str) -> List[Dict]`
- `read_json_file(file_path: str) -> List[Dict]`
- `clean_employee_data(data: List[Dict]) -> List[Dict]`
- `calculate_statistics(employees: List[Dict]) -> Dict`
- `group_by_city(employees: List[Dict]) -> Dict[str, List[Dict]]`
- `filter_seniors(employees: List[Dict], age_threshold: int) -> List[Dict]`
- `export_report(report: Dict, output_path: str) -> None`

Optionnel : Cr√©er une classe `EmployeeAnalyzer` pour regrouper la logique.

### 4. Gestion d'erreurs

G√©rer les erreurs avec des exceptions custom :

```python
class EmployeeDataError(Exception):
    """Exception de base pour les erreurs de donn√©es."""
    pass

class FileReadError(EmployeeDataError):
    """Lev√©e quand un fichier ne peut pas √™tre lu."""
    pass

class InvalidDataError(EmployeeDataError):
    """Lev√©e quand les donn√©es sont invalides."""
    pass
```

### 5. Tests pytest

√âcrire des tests pour couvrir :
- Lecture de fichiers CSV/JSON
- Nettoyage des donn√©es
- Calculs statistiques
- Groupement par ville
- Filtrage des seniors
- Gestion d'erreurs

**Objectif : Coverage > 80%**

```bash
pytest --cov=employee_analyzer --cov-report=html
```

### 6. Configuration ruff

Cr√©er un fichier `pyproject.toml` avec la configuration ruff.

### 7. Configuration pre-commit

Cr√©er un fichier `.pre-commit-config.yaml` avec les hooks :
- ruff (linter)
- ruff-format (formatter)
- mypy (type checker)

### 8. Logging

Remplacer les `print()` par du logging structur√© :

```python
import logging

logger = logging.getLogger(__name__)

logger.info("Processing %d employees", len(employees))
logger.debug("Average age calculated: %.2f", avg_age)
logger.error("Failed to read file: %s", file_path)
```

### 9. Optimisation (bonus)

Profiler le code avec `cProfile` ou `line_profiler` et optimiser si n√©cessaire.

---

## üì¶ Livrables

### Checklist

- [ ] Code refactor√© dans `employee_analyzer.py`
- [ ] Type hints sur toutes les fonctions
- [ ] Docstrings (style Google) partout
- [ ] Fonctions bien d√©coup√©es (< 30 lignes par fonction)
- [ ] Noms de variables explicites
- [ ] Constantes nomm√©es (pas de magic numbers)
- [ ] Exceptions custom d√©finies et utilis√©es
- [ ] Fichier `test_employee_analyzer.py` avec 8+ tests
- [ ] Coverage pytest > 80%
- [ ] Fichier `pyproject.toml` avec config ruff
- [ ] Fichier `.pre-commit-config.yaml`
- [ ] Logging configur√© et utilis√©
- [ ] Code passe ruff sans erreur
- [ ] Code passe mypy sans erreur
- [ ] README.md avec instructions

---

## üéØ Grille d'√©valuation

| Comp√©tence | Crit√®res d'√©valuation | Points |
|------------|----------------------|--------|
| **Type hints** | Complets sur toutes fonctions, types pr√©cis (List, Dict, Optional) | **/15** |
| **Refactoring** | Fonctions bien d√©coup√©es, nommage clair, structure logique | **/20** |
| **Tests pytest** | 8+ tests, coverage > 80%, cas limites couverts | **/20** |
| **Config ruff + pre-commit** | Fichiers corrects, hooks fonctionnels, code conforme | **/15** |
| **Gestion erreurs** | Exceptions custom, try/except pertinents | **/10** |
| **Logging** | Logger configur√©, niveaux appropri√©s, messages clairs | **/10** |
| **Documentation** | Docstrings compl√®tes, README, commentaires utiles | **/10** |
| **TOTAL** | | **/100** |

### Crit√®res de r√©ussite

- ‚úÖ **Acquis (‚â• 70/100)** : Code professionnel, test√©, conforme
- üöß **En cours d'acquisition (50-69/100)** : Refactoring partiel
- ‚ùå **Non acquis (< 50/100)** : Code toujours de mauvaise qualit√©

---

## üí° Template pyproject.toml

In [None]:
%%writefile pyproject.toml
[project]
name = "employee-analyzer"
version = "1.0.0"
description = "Analyse de donn√©es employ√©s (refactor√©)"
requires-python = ">=3.11"
dependencies = [
    "pytest>=7.4.0",
    "pytest-cov>=4.1.0",
]

[tool.ruff]
line-length = 100
target-version = "py311"

[tool.ruff.lint]
select = [
    "E",   # pycodestyle errors
    "W",   # pycodestyle warnings
    "F",   # pyflakes
    "I",   # isort
    "B",   # flake8-bugbear
    "C4",  # flake8-comprehensions
    "UP",  # pyupgrade
]
ignore = []

[tool.ruff.lint.per-file-ignores]
"__init__.py" = ["F401"]  # Ignore unused imports in __init__.py

[tool.pytest.ini_options]
testpaths = ["tests"]
python_files = "test_*.py"
addopts = "-v --cov=employee_analyzer --cov-report=term-missing"

[tool.mypy]
python_version = "3.11"
warn_return_any = true
warn_unused_configs = true
disallow_untyped_defs = true

---

## üí° Template .pre-commit-config.yaml

In [None]:
%%writefile .pre-commit-config.yaml
repos:
  - repo: https://github.com/astral-sh/ruff-pre-commit
    rev: v0.4.0
    hooks:
      # Linter
      - id: ruff
        args: [--fix]
      # Formatter
      - id: ruff-format

  - repo: https://github.com/pre-commit/mirrors-mypy
    rev: v1.10.0
    hooks:
      - id: mypy
        additional_dependencies: [types-all]

  - repo: https://github.com/pre-commit/pre-commit-hooks
    rev: v4.5.0
    hooks:
      - id: trailing-whitespace
      - id: end-of-file-fixer
      - id: check-yaml
      - id: check-json
      - id: check-added-large-files

---

## üí° Exemple de structure refactor√©e

Voici une suggestion de structure (ne PAS copier-coller, juste pour vous guider) :

In [None]:
# employee_analyzer.py - STRUCTURE SEULEMENT (√† compl√©ter)

import csv
import json
import logging
from pathlib import Path
from typing import Any, Dict, List, Optional

# Configuration logging
logging.basicConfig(
    level=logging.INFO,
    format="[%(asctime)s] [%(levelname)s] %(message)s",
)
logger = logging.getLogger(__name__)

# Constantes
SENIOR_AGE_THRESHOLD = 50
TOP_EARNERS_LIMIT = 5
DEFAULT_CITY = "Unknown"


# Exceptions
class EmployeeDataError(Exception):
    """Exception de base pour les erreurs de donn√©es employ√©s."""
    pass

# TODO: Ajouter FileReadError, InvalidDataError


# Fonctions de lecture
def read_csv_file(file_path: str) -> List[Dict[str, Any]]:
    """Lit un fichier CSV et retourne une liste de dictionnaires.
    
    Args:
        file_path: Chemin vers le fichier CSV.
        
    Returns:
        Liste de dictionnaires repr√©sentant les employ√©s.
        
    Raises:
        FileReadError: Si le fichier ne peut pas √™tre lu.
    """
    # TODO: Impl√©menter avec gestion d'erreurs
    pass


def read_json_file(file_path: str) -> List[Dict[str, Any]]:
    """Lit un fichier JSON et retourne une liste de dictionnaires."""
    # TODO: Impl√©menter
    pass


# Nettoyage
def clean_employee_data(employees: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
    """Nettoie les donn√©es employ√©s (supprime valeurs vides, convertit types)."""
    # TODO: Impl√©menter
    pass


def clean_employee_record(record: Dict[str, Any]) -> Optional[Dict[str, Any]]:
    """Nettoie un enregistrement employ√© individuel."""
    # TODO: Impl√©menter
    pass


# Statistiques
def calculate_average_age(employees: List[Dict[str, Any]]) -> float:
    """Calcule l'√¢ge moyen des employ√©s."""
    # TODO: Impl√©menter avec gestion ZeroDivisionError
    pass


def calculate_average_salary(employees: List[Dict[str, Any]]) -> float:
    """Calcule le salaire moyen des employ√©s."""
    # TODO: Impl√©menter
    pass


def calculate_statistics(employees: List[Dict[str, Any]]) -> Dict[str, Any]:
    """Calcule toutes les statistiques sur les employ√©s."""
    # TODO: Impl√©menter
    pass


# Groupement et filtrage
def group_by_city(employees: List[Dict[str, Any]]) -> Dict[str, List[Dict[str, Any]]]:
    """Groupe les employ√©s par ville."""
    # TODO: Impl√©menter
    pass


def filter_seniors(employees: List[Dict[str, Any]], 
                   age_threshold: int = SENIOR_AGE_THRESHOLD) -> List[Dict[str, Any]]:
    """Filtre les employ√©s seniors (√¢ge >= seuil)."""
    # TODO: Impl√©menter
    pass


def get_top_earners(employees: List[Dict[str, Any]], 
                    limit: int = TOP_EARNERS_LIMIT) -> List[Dict[str, Any]]:
    """Retourne les employ√©s avec les salaires les plus √©lev√©s."""
    # TODO: Impl√©menter
    pass


# Export
def export_report(report: Dict[str, Any], output_path: str) -> None:
    """Exporte le rapport en JSON."""
    # TODO: Impl√©menter avec gestion d'erreurs
    pass


# Fonction principale
def process_employee_data(input_file: str, output_file: str, file_type: str = "csv") -> Dict[str, Any]:
    """Traite les donn√©es employ√©s et g√©n√®re un rapport.
    
    Args:
        input_file: Chemin vers le fichier d'entr√©e.
        output_file: Chemin vers le fichier de sortie.
        file_type: Type de fichier ('csv' ou 'json').
        
    Returns:
        Dictionnaire contenant le rapport d'analyse.
        
    Raises:
        EmployeeDataError: En cas d'erreur de traitement.
    """
    logger.info("Starting employee data processing...")
    
    # TODO: Impl√©menter en utilisant toutes les fonctions ci-dessus
    
    logger.info("Processing completed successfully")
    return report


if __name__ == "__main__":
    process_employee_data("employees.csv", "report.json", "csv")

---

## üí° Template des tests

In [None]:
%%writefile test_employee_analyzer.py
import pytest
import json
from pathlib import Path
# TODO: Importer vos fonctions et exceptions


@pytest.fixture
def sample_employees():
    """Fixture avec des donn√©es employ√©s de test."""
    return [
        {"name": "Alice", "age": 28, "city": "Paris", "salary": 55000.50},
        {"name": "Bob", "age": 52, "city": "Lyon", "salary": 75000.00},
        {"name": "Charlie", "age": 35, "city": "Paris", "salary": 62000.00},
    ]


def test_calculate_average_age(sample_employees):
    """Test le calcul de l'√¢ge moyen."""
    # TODO: Impl√©menter
    pass


def test_calculate_average_age_empty_list():
    """Test le calcul de l'√¢ge moyen avec liste vide."""
    # TODO: V√©rifier qu'une exception est lev√©e
    pass


def test_filter_seniors(sample_employees):
    """Test le filtrage des seniors."""
    # TODO: Impl√©menter
    pass


def test_group_by_city(sample_employees):
    """Test le groupement par ville."""
    # TODO: Impl√©menter
    pass


def test_clean_employee_record():
    """Test le nettoyage d'un enregistrement employ√©."""
    # TODO: Tester avec espaces, valeurs vides, etc.
    pass


def test_read_csv_file_not_found():
    """Test la lecture d'un fichier CSV inexistant."""
    # TODO: V√©rifier que FileReadError est lev√©e
    with pytest.raises(FileReadError):
        pass


def test_get_top_earners(sample_employees):
    """Test l'obtention des meilleurs salaires."""
    # TODO: Impl√©menter
    pass


def test_export_report(tmp_path):
    """Test l'export du rapport."""
    # TODO: Utiliser tmp_path pour cr√©er un fichier temporaire
    pass

---

## üöÄ √âtapes recommand√©es

### 1. Analyse du code existant
- Lire et comprendre le code legacy
- Identifier tous les probl√®mes
- Lister les fonctionnalit√©s √† pr√©server

### 2. Cr√©er la structure
- D√©finir les exceptions custom
- D√©finir les constantes
- Cr√©er les signatures de fonctions

### 3. Refactoring progressif
- Commencer par les fonctions de lecture
- Puis les fonctions de nettoyage
- Puis les fonctions de calcul
- Enfin, assembler le tout dans `process_employee_data()`

### 4. Ajouter les tests au fur et √† mesure
- Tester chaque fonction apr√®s l'avoir √©crite
- V√©rifier le coverage r√©guli√®rement

### 5. Configuration qualit√©
- Cr√©er `pyproject.toml`
- Cr√©er `.pre-commit-config.yaml`
- Installer et tester les hooks

### 6. Documentation
- Ajouter toutes les docstrings
- Cr√©er le README.md

---

## üß™ Commandes utiles

In [None]:
# Installer pre-commit
# !pip install pre-commit
# !pre-commit install

# Lancer ruff
# !ruff check .
# !ruff format .

# Lancer mypy
# !mypy employee_analyzer.py

# Lancer les tests avec coverage
# !pytest --cov=employee_analyzer --cov-report=html

# Voir le rapport de coverage
# !open htmlcov/index.html

---

## üí° Conseils pour le refactoring

### Nommage
- ‚ùå `data`, `data2`, `tmp`, `x`, `y`
- ‚úÖ `employees`, `cleaned_employees`, `file_handle`, `reader`

### Longueur des fonctions
- Une fonction = une responsabilit√©
- Maximum 30 lignes par fonction
- Si > 30 lignes, d√©couper

### Magic numbers
- ‚ùå `if d.get('age', 0) >= 50:`
- ‚úÖ `SENIOR_AGE_THRESHOLD = 50` puis `if age >= SENIOR_AGE_THRESHOLD:`

### Context managers
- ‚ùå `f = open(...); ...; f.close()`
- ‚úÖ `with open(...) as f: ...`

### Compr√©hensions de listes
```python
# OK pour des cas simples
ages = [emp['age'] for emp in employees if 'age' in emp]

# Mais pr√©f√©rer une fonction pour des cas complexes
def extract_ages(employees: List[Dict]) -> List[int]:
    """Extrait les √¢ges des employ√©s."""
    return [emp['age'] for emp in employees if 'age' in emp]
```

---

## üìö Ressources

### Documentation
- [PEP 8 ‚Äì Style Guide](https://peps.python.org/pep-0008/)
- [PEP 484 ‚Äì Type Hints](https://peps.python.org/pep-0484/)
- [Google Python Style Guide](https://google.github.io/styleguide/pyguide.html)
- [Ruff documentation](https://docs.astral.sh/ruff/)
- [pytest documentation](https://docs.pytest.org/)
- [pre-commit documentation](https://pre-commit.com/)

### Outils
- ruff : Linter et formatter ultra-rapide
- mypy : Type checker
- pytest : Framework de tests
- pytest-cov : Coverage pour pytest
- pre-commit : Hooks Git

---

## ‚úÖ Crit√®res de validation finale

Avant de soumettre, v√©rifiez que :

1. ‚úÖ `ruff check .` passe sans erreur
2. ‚úÖ `ruff format .` ne modifie rien (code d√©j√† format√©)
3. ‚úÖ `mypy employee_analyzer.py` passe sans erreur
4. ‚úÖ `pytest --cov` affiche coverage > 80%
5. ‚úÖ Tous les tests passent
6. ‚úÖ Les hooks pre-commit sont install√©s
7. ‚úÖ Le code fonctionne avec les fichiers de test
8. ‚úÖ Toutes les fonctions ont des docstrings
9. ‚úÖ Toutes les fonctions ont des type hints
10. ‚úÖ Le README.md explique comment utiliser le code

**Bon courage ! üöÄ**