# **Comprendre MapReduce**

## **Map**

```map``` prend en argument une fonction et une collection et retourne une collection. La fonction étant appliquée sur chaque élément de la collection.

**Exo1:** Utiliser la fonction ```map``` pour multiplier par 2 les éléments d'une liste. Faire une version en définissant une fonction et une seconde version en utilisant une fonction anonyme ```lambda```

**Exo2:** Créer une liste de 1000 entiers aléatoires. À l'aide de la fonction `map` retourner une collection qui contient `True` si le nombre était pair et `False` sinon 

#### **Pour faire simple, la seule différence entre le ```map``` de python et celui de spark c'est que le ```map``` de ce dernier découpe le calul sur plusieurs machines pour paralléliser le traitement.**

## **Reduce**

La fonction ```reduce``` prend en entrée une collection et retourne une réduction de celle ci en lui appliquant une fonction d'agrégation itérative, c'est-à-dire, une fonction qui lit les valeurs de la liste de gauche à droite et ne renvoie qu'une seule valeur agrégée.  
La fonction d'agrégation doit donc prendre 2 arguments et ne renvoyer qu'une seule valeur.

Par exemple, ```reduce``` permet de calculer la somme des éléments d'une liste, ce qu'on va faire (enfin vous allez faire) de suite.

**Exo3:** calculer la somme de la liste ```a``` :
>1. en utilisant une boucle ```for```
>2. en utilisant la fonction ```reduce``` du module ```functools```

In [None]:
a = [1, 2, 3, 4, 5]

**Exo4:** générer une liste de 20 entiers entre 0 et 1000 et calculer le maximum de cette liste à l'aide de la fonction ```reduce```

**Exo5:** importer la fonction ```accumulate``` du module ```itertools```, comprendre comment elle marche, la tester et la comparer avec ```reduce``` sur les 2 exemples précédents (somme et maximum d'une liste). Quelles sont les différences ?

#### **Comme pour la fonction ```map``` la seule différence entre le ```reduce``` de python et celui de spark c'est que celui de spark découpe en plusieurs morceaux et parallélise le traitement.**

## **Petit bonus : Filter**


**Exo6**: créer une liste avec les valeurs suivantes : [-1, 3, 2, -1, 6, 8] puis utiliser la fonction ```filter``` pour récupérer uniquement les valeurs positives.

## **Map et Reduce**

On considère le mega big dataset suivant : 

**Exo7:** utiliser la fonction ```map``` pour séparer chaque phrase en en mots

**Exo8:** à l'aide de ```map``` et/ou ```reduce``` renvoyer le nombre total de mots dans ```a```

## **WordCount : le "hello world" du MapReduce**

**Exo9:** on va illustrer le fonctionnement de MapReduce pour compter le nombre d'occurence de chaque mot dans la variable ```text``` définie ci-dessous. Il faut donc éxecuter les 4 étapes suivantes (le preprocessing étant un petit supplément) :
>1. SPLIT: découpage du texte en 4 sous-parties
>2. petite étape de peprocessing avec :
>>- suppression de la ponctuation,
>>- passage en minuscules
>>- suppression des mots de 1, 2 ou 3 lettres
>3. MAP: avec la fonction ```map``` renvoyer une liste de (clé, valeur) : ici clé=mot et valeur=occurence=1
>4. SHUFFLE (& SORT): regroupement des résultats : on doit avoir pour chaque clé le couple (clé, [val, val, val,...]) : ici (mot, [1,1,1,...])
>5. REDUCE: sommer les occurences uniques de chaque mot pour obtenir le nombre d'occurrences totales

In [None]:
text = "Si vous voulez mon avis concernant la morosité conjoncturelle, \
je n'exclus pas de réorganiser la simultanéité des hypothèses réalisables, \
avec toute la prudence requise. Eu égard à la fragilité actuelle, il ne faut \
pas s'interdire de se remémorer précisément les organisations matricielles \
opportunes, avec beaucoup de recul. Afin de circonvenir à cette inflexion de \
l'époque actuelle, je recommande d'essayer la somme des stratégies envisageables, \
même si ce n'est pas facile. Vu la dualité de la situation conjoncturelle, il ne \
faut pas négliger de gérer certaines synergies optimales, parce que nous le valons \
bien. Nonobstant la dualité de la situation observée, je n'exclus pas d'inventorier \
la somme des modalités réalisables, parce qu'il est temps d'agir. Si vous voulez mon \
avis concernant la baisse de confiance présente, je n'exclus pas d'inventorier la \
globalité des améliorations pertinentes, très attentivement."

## **Pour : finir moyenne de liste et temps d'éxecution**

**Exo10:** à l'aide des fonctions ```map``` et ```reduce```, on va calculer la moyenne des éléments d'une liste. Et sans utiliser ```len()```...
>1. créer une liste d'entiers aléatoires de taille 10^7
>2. utiliser ```map``` et ```reduce``` pour caluler la moyenne sur cette liste
>3. utiliser ```%%time``` pour mesurer le temps d'éxecution de ce calcul
>4. découper la liste en 5 sous-listes de tailles égales
>5. importer le module Pool de la libraire multiprocessing et l'utiliser pour paralléliser les calculs sur chaque sous-liste. L'idée est de définir par exemple une fonction MapReduce_average qui reprend votre méthode utilisée pour le calcul de la moyenne et utiliser pool.map(MapReduce_average, liste_splitée)
>6. regarder avec %%time les différences de temps d'éxecution des 2 méthodes

## **Supplément**

**Exo11:** Calculer en utilisant le paradigme MapReduce le produit d'une matrice M avec un vecteur V.  
Ça peut paraître inutile mais cette opération est derrière l'algorithme du PageRank de Google, c'est d'ailleurs en partie pour ce calcul que MapReduce a été conçu. Dans ce cas, la dimension du problème est le nombre de pages web indexées, soit clairement un problème de Big Data.  
Par ailleurs, on l'a vu dans la régression linéaire notamment mais pas, ce produit $matrice*vecteur$ est omniprésent dans les problèmes d'optimisation aussi. 