# Synthèse Dask — Optimiser un pipeline et implémenter un Map/Reduce

## Objectifs pédagogiques
- Réviser les principes de base de Dask (`delayed`, calcul paresseux, `compute`, graphe de tâches).
- Identifier et corriger les erreurs classiques de parallélisation.
- Mettre en œuvre une logique **Map → Reduce** en Dask.
- Visualiser et interpréter le graphe de calcul distribué.

## Contexte

Un collègue a tenté de paralléliser le traitement d’un ensemble de fichiers contenant des nombres (un par ligne) pour calculer la **moyenne globale** de tous les fichiers.

Malheureusement, son script **ne tire pas parti de Dask** : il exécute les tâches séquentiellement et brise le graphe de calcul.

Vous devez :
1. Identifier les erreurs de conception ;
2. Réécrire le pipeline pour profiter du parallélisme de Dask ;
3. Étendre la solution avec une logique **Map/Reduce** claire.

## Code de départ (non optimal)

Voici le code initial fourni par votre collègue :

In [None]:
from dask import delayed

def read_file(filename):
    with open(filename, 'r') as f:
        numbers = [(idx, float(line.strip())) for idx, line in enumerate(f.readlines())]
    return numbers

def sum_len(key_value_pairs):
    return sum([v for k, v in key_value_pairs]), len(key_value_pairs)

filenames = ["data/moyenne/1.txt", "data/moyenne/2.txt", "data/moyenne/3.txt"]

sum_len_vals = []
for f in filenames:
    numbers = delayed(read_file)(f).compute()
    sum_len_vals.append(sum_len(numbers))

global_mean = sum([s for s, n in sum_len_vals]) / sum([n for s, n in sum_len_vals])
print("Moyenne globale :", global_mean)

**Question :** Créez des fichiers `"data/moyenne/1.txt"`, `"data/moyenne/2.txt"`, `"data/moyenne/3.txt"` contenant des nombres aléatoires pour tester le code ci-dessus.

## Analyse et correction du code

- Quel est le problème principal avec ce code ?
- Modifiez le dans le cadre ci-dessous pour qu'il utilise correctement Dask et parallélise les opérations.

## Version Map/Reduce

On cherche maintenant à coder ce traitement dans le formalisme Map-Reduce.

**Question :** Comment découper le problème en étapes Map et Reduce ?

*VOTRE REPONSE ICI*

**Question :** Implémentez cette logique Map/Reduce en Dask dans le cadre ci-dessous.