# Map-Reduce-Filter

```map```, ```reduce```, et ```filter``` sont trois fonctions d'ordre supérieur qui sont venues à symboliser le traitement fonctionnel de Mégadonnées sur des architectures distribuées (Hadoop, etc.).

En combinant des opérations "map", "reduce" et "filter" on peut définir des workflows parallélisables pour implémenter une grande variété d'algorithmes. Ceci a motivé le développement chez Google d'une infrastructure dédiée à map-reduce, décrite dans un article de recherche qui a grandement contribué à populariser ces techniques.

## Map

```map``` permet de réaliser la fonctionnalité suivante: on a une liste en entrée, et on veut appliquer une même transformation à chaque élément de la liste, et récupérer en sortie une nouvelle liste avec les résultats de ces transformations.

Elle s'utilise comme ceci:  
```
nouvelle_liste = map(f, liste_existante)
```
Le premier paramètre de map (```f``` dans l'exemple) est une __fonction__, et le deuxième paramètre est la liste d'entrée: 

si ```liste_existante``` est ```[e1, e2, ..., en]```, alors ```nouvelle_liste``` est la liste ```[f(e1), f(e2), ... f(en)]```.

#### Exemple: 
On a une liste de lettres minuscules, par exemple: ```['b', 'a', 'f', 'z', 'i']```, et on veut appliquer la transformation qui consiste à les remplacer par la majuscule correspondante, ce qui nous donnerait ```['B', 'A', 'F', 'Z', 'I']```. 

Pour réaliser cette opération avec ```map```, il faut d'abord définir une fonction qui représente la transformation à appliquer à chaque élément de la liste de départ: ici, c'est une fonction qui prend en entrée une lettre minuscule et retourne la majuscule correspondante. En Python, la méthode ```upper``` de la classe ```str``` réalise cette fonctionnalité :

In [1]:
s = 'a'
s.upper()

'A'

On peut l'utiliser pour définir une fonction très simple qui réalise la transformation cherchée:

In [2]:
def maj(car):
    return car.upper()

On peut à présent utiliser cette fonction avec ```map``` et la liste d'entrée pour obtenir le résultat voulu:

In [3]:
entree = ['b', 'a', 'f', 'z', 'i']
resultat = map(maj, entree) #appliquer la fonction maj à chaque éléments de la liste entree

Pour que la transformation soit exécutée il nous faut invoquer le constructeur ```list()```, pour des raisons expliquées ci-dessous.

In [4]:
list(resultat)

['B', 'A', 'F', 'Z', 'I']

### Map: une fonction "paresseuse"

En Python3, une particularité des fonctions ```map```, ```reduce``` et ```filter``` est qu'elles sont *paresseuses*, c'est-à-dire qu'elles ne produisent leurs résultats qu'à la demande et un par un.

Quand Python "exécute" ```resultat = map(maj, entree)```, la valeur de ```resultat``` n'est pas la liste finale obtenue après transformation mais un "objet map" qui contient toutes les informations pour réaliser l'opération... mais les transformations elles-mêmes et la production de la nouvelle liste n'est pas encore faite.

On pourra revoir les détails dans la section *Évaluation paresseuse et générateurs*. En attendant, notons que les "objets map", les "objets reduce" et "objets filter" peuvent être combinés entre eux comme s'ils étaient effectivement des listes déjà calculées.

### Map: Exercices

#### Exercice 1
On définit une fonction ```carre``` comme suit:

In [5]:
def carre(x):
    return x*x

On exécute ensuite les instructions suivantes:

In [6]:
nombres = [1, 2, 5, 10]

resultat = map(carre, nombres)

Quel est le contenu de la liste ```resultat```?

#### Exercice 2

On définit les listes ```entree``` et ```sortie``` comme suit:

In [1]:
entree = ['rouge' , 'bleu',  'vert', 'noir']
sortie = ['ro', 'bl', 've', 'no']

Définir une fonction ```f``` telle que ```sortie = map(f, entree)```.

In [3]:
def f(s):
    return s[:2]

list(map(f, entree))

['ro', 'bl', 've', 'no']

## Filter

La fonction ```filter```, comme son nom l'indique, permet de "filtrer" une liste, c'est-à-dire garder seulement certains de ses éléments. 

Plus précisément, la fonction ```filter``` s'utilise comme suit:
```
nouvelle_liste = filter(p, liste_existante)
```
La liste ```liste_existante``` est la liste en entrée, la fonction ```p``` est une fonction booléenne applicable aux éléments de ```liste_existante```. La liste obtenue ```nouvelle_liste``` contient le sous-ensemble des éléments de ```liste_existante``` pour lesquels ```p``` retourne ```True```. 

Noter que conformément aux principes de la programmation fonctionnelle, la liste ```liste_existante``` n'est pas modifiée: la ```filter``` retourne une nouvelle liste.

#### Exemple
On a une liste de mots, dont on veut garder seulement ceux qui commencent par une majuscule.
L'entrée pourrait être: ```['mon', 'ami', 'Antoine', 'habite', 'en', 'Chine']```. 
La sortie serait alors: ```['Antoine', 'Chine']```. 

Pour réaliser cette opération avec ```filter```, il faut d'abord définir une fonction booléenne qui représente le critère de filtrage: elle doit retourner ```True``` pour les éléments qu'on veut garder, et ```False``` pour les éléments à éliminer. Pour notre exemple, on pourra utiliser la méthode ```isupper``` de la classe ```str```. On définira la fonction de filtrage comme suit:

In [8]:
def commenceMaj(mot):
    return mot[0].isupper()

On peut la tester:

In [9]:
commenceMaj('ami')

False

In [10]:
commenceMaj('Antoine')

True

La fonction filter s'utilise comme ceci:

In [11]:
entree = ['mon', 'ami', 'Antoine', 'habite', 'en', 'Chine']
sortie = filter(commenceMaj, entree)

On utilise ```list()``` pour que la transformation se fasse (```filter```  est également paresseuse), et on affiche le résultat:

In [12]:
print(list(sortie))

['Antoine', 'Chine']


### Exercices

#### Exercice 3
Soit la fonction ```courte``` définie comme suit:

In [4]:
def courte(d):
    return len(d)<2

On exécute le code suivant:

In [5]:
liliste = [ [1, 3, 5], [], [4], [6, 7, 6], [3, 1], []]
liste_c = filter(courte, liliste)

Quel sera le contenu de la liste ```liste_c```?

#### Exercice 4

On a une liste de nombres entiers ```nombres2```, et on veut obtenir dans une nouvelle liste ```pairs2``` les nombres pairs de ```nombres2```.
Écrire le code pour obenir ```pairs2``` à partir de ```nombres2``` en utilisant une opération ```filter``` avec une fonction à définir.

## Reduce

La fonction ```reduce``` permet de combiner entre eux les éléments d'une liste en appliquant de manière répétée une opération binaire, pour obtenir une seule valeur: la liste a ainsi été "réduite" à une valeur. 

Par exemple, "réduire" une liste d'entiers avec l'opération binaire "addition" consiste à faire la somme de tous les éléments de la liste. L'opération ```reduce``` généralise cette idée à d'autres opérations binaires, qu'on peut spécifier par des fonctions de deux paramètres. Habituellement, on utilise des opérations associatives afin que l'ordre des opérations n'ait pas d'importance. 

Plus précisément, la fonction ```reduce``` s'utilise comme suit:
```
element = reduce(h, liste_entree)
```
La liste ```liste_entree``` est une liste d'au moins deux éléments, la fonction ```h``` est une fonction de deux paramètres, applicable aux éléments de la liste ```liste_entree```, et qui retourne une valeur de même type. La valeur ```element``` obtenue en sortie est le résultat d'appliquer la fonction ```h``` aux deux premiers éléments de ```liste_entree```, puis à nouveau au résultat de cette opération et au troisième élément de ```liste_entree```, puis au résultat et au quatrième élément de ```liste_entree```, et ainsi de suite jusqu'au dernier élément de ```liste_entree```. 

Autrement dit, si ```liste_entree``` est ```[e1, e2, ..., en]```, alors ```element``` est la valeur ```h(...(h(h(e1, e2), e3), ... , en)```

Notons aussi que pour utiliser cette fonction en Python, il faut l'importer du module functools:
```from functools import reduce```.

#### Exemple
On a une liste de mots qu'on veut concaténer en une seule chaine de caractères, en séparant les mots par des espaces.
L'entrée pourrait être: ```['mon', 'ami', 'Antoine', 'habite', 'en', 'Chine']```. 
La sortie serait alors: ```'mon ami Antoine habite en Chine'```. 

Pour réaliser cette opération avec ```reduce```, il faut définir l'opération binaire par laquelle on va combiner les éléments entre eux: ici on prend deux chaines de caractères, et on les concatène avec un espace entre les deux. On obtient bien une autre chaine de caractères, qui pourra être utilisée comme entrée de la même opération. 

Cette opération peut être réalisée par la fonction suivante:

In [15]:
def concat_espace(s1, s2):
    return s1 + " " + s2

On applique la fonction ```reduce``` à la liste donnée:

In [16]:
from functools import reduce # on importe la fonction du module functools

mots = ['mon', 'ami', 'Antoine', 'habite', 'en', 'Chine']
phrase = reduce(concat_espace, mots)

print(phrase) # on affiche le résultat

mon ami Antoine habite en Chine


#### Exercice 5

On définit une fonction ```plusCourt``` qui prend en entrée deux chaines de caractères et retourne la plus courte:

In [17]:
def plusCourt(s1, s2):
    if(len(s1)<len(s2)):
        return s1
    return s2

Si on applique une opération ```reduce(plusCourt, mots)``` où ```mots``` est la liste de mots de l'exemple ci-dessus, quel sera le résultat?

#### Exercice 6

On définit ci-dessous la fonction ```compresse``` qui s'applique à des tuples, et retourne un tuple de deux éléments:

In [7]:
def compresse(t1, t2):
    return (t1[0], t2[-1]) # l'indice -1 se réfère au dernier élément du tuple

Quel sera le résultat de l'opération ```reduce(compresse, [(0,10), (3, 4), (9, 0), (7,7)])```?

#### Exercice 7

On suppose qu'on a une liste de booléens ```listeb```.

1. Définir une fonction ```f_tous``` telle que  ```reduce(f_tous, listeb)``` donne ```True``` si _tous les éléments_ de ```listeb``` sont ```True```.

2. Définir une fonction ```f_un``` telle que  ```reduce(f_un, listeb)``` donne ```True``` si la liste ```liste_b``` contient _au moins un_ ```True```.

In [10]:
def f_tous(b1, b2):
    ...

In [11]:
reduce(f_tous, [True,True, True, True])

True

In [12]:
reduce(f_tous, [True, False, True, False, True])

False

### Reduce avec valeur initiale, types hétérogènes
Il est aussi possible de donner en entrée une valeur initiale, telle que l'opération ```reduce``` commence par combiner la valeur initiale avec le premier élément, puis le résultat de cette opération avec le deuxième élément, etc.

On donne alors un troisième paramètre, comme ceci:

```
element = reduce(h, liste_entree, val_ini)
```
Le résultat sera alors: ```element = h(...h(h(h(val_ini, e1), e2), e3), ... , en)```

L'utilisation d'une valeur initiale permet d'utiliser une opération ```reduce``` sans erreur quand la liste ne comporte qu'un seul élément, ou bien de réaliser une réduction où le résultat est d'un type différent des éléments de la liste d'entrée.

Supposons par exemple qu'on a en entrée une liste de listes, et qu'on veuille obtenir la _somme des longueurs_ des listes: 

In [19]:
entree = [[1, 0], [], [2, 2, 2, 2], [3, 9]]

On voudrait calculer la somme des longueurs des listes "intérieures", soit 2 + 0 + 4 + 2. 
On a une liste dont les éléments sont des listes, et on veut une valeur finale qui est un nombre entier. On ne peut donc pas réaliser cette opération avec un ```reduce``` simple comme au-dessus.
On pourrait faire cela en deux étapes (```map``` pour obtenir les longueurs puis ```reduce``` pour en faire la somme), mais on peut aussi faire le calcul directement par un ```reduce``` avec une valeur initiale. On peut définir l'opération binaire suivante: 

In [20]:
def sommeLen(a, liste):
    return a + len(liste)

Ici, le paramètre ```a``` sert d'accumulateur (dont la valeur initiale est 0) et permet d'effectuer la somme par étapes, en prenant à chaque étape la prochaine liste:

In [21]:
somme_longueurs = reduce(sommeLen, entree, 0)

print(somme_longueurs)

8


## Séquences Map-Reduce-Filter

Une fois qu'on sait manipuler des listes avec les fonctions ```map```, ```reduce```, et ```filter```, on peut réaliser des fonctionnalités plus complexes en combinant ces opérations en séquence: le résultat d'un ```map``` est une liste et peut être passé en entrée d'un ```filter``` ou d'un ```reduce```. On peut donc décomposer un problème complexe en une série d'étapes ```map```, ```filter```, ou ```reduce```. Un avantage d'une telle décomposition est qu'on peut ensuite exécuter l'opération sur une infrastructure distribuée dédiée comme Hadoop. 

Notons que dans les exemples classiques de "MapReduce" qu'on trouvera sur le Web (et notamment dans l'article publié par Google qui a donné son nom à ce paradigme), les étapes ```map``` produisent des listes de paires (clé, valeur), et avant d'effectuer l'étape ```reduce``` on groupe les paires par clé: l'étape est souvent nommée "shuffle", mais la fonction qui l'implémente est habituellement appelée ```groupBy```.

Ici on va donner quelques exemples de problèmes simples avec des solutions utilisant seulement les fonctions ```map```, ```reduce```, et ```filter``` telles que définies ci-dessus. 


#### Exemple: longueur des listes
Reprenons d'abord l'exemple de la section précédente, où on a en entrée une liste de listes:
```
entree = [[1, 0], [], [2, 2, 2, 2], [3, 9]]
```
et on veut calculer la somme des longueurs de ces listes.

Ceci peut être fait en deux étapes, une étape ```map``` où on associe à chaque liste sa longueur, puis une étape ```reduce``` où on fait la somme des longueurs.

Pour l'étape ```map``` on peut simplement utiliser la fonction existante ```len()```, et pour le ```reduce``` on définit une fonction somme:

In [22]:
def somme(x, y):
    return x+y

On peut maintenant effectuer les deux étapes:

In [23]:
longueurs = map(len, entree)
sommeLongueurs = reduce(somme, longueurs)
print(sommeLongueurs)

8


On peut aussi directement imbriquer les appels de fonctions ```map``` et ```reduce```:

In [24]:
sommeLongueurs = reduce(somme, map(len, entree))
print(sommeLongueurs)

8


#### Exemple: Tri-fusion avec map-reduce

On veut trier une liste avec une version map-reduce du tri fusion: l'idée est de remplacer d'abord chaque élément de la liste par une liste contenant seulement cet élément (ceci peut se faire par un ```map```). On peut ensuite fusionner toutes ces listes en une seule, à l'aide d'une étape ```reduce``` qui fusionne deux listes.

On définit la fonction nécessaire pour le ```map```:

In [25]:
def singleton(x):
    return [x]

Ensuite une fonction pour fusionner deux listes pour l'étape ```reduce``` (celle-ci est un peu plus complexe):

In [26]:
def fusion(a1, a2):
    if (a1==[]):
        return a2
    elif (a2==[]):
        return a1
    else:
        if(a1[0]<a2[0]):
            return [a1[0]] + fusion(a1[1:], a2)
        else: 
            return [a2[0]] + fusion(a1, a2[1:])

On peut à présent effectuer le tri en deux étapes:

In [27]:
atrier = [2, 5, 1, 0, 9, 5, 12, -1, 6, 4, 3, 3]
aprestri = reduce(fusion, map(singleton, atrier))

print(aprestri)

[-1, 0, 1, 2, 3, 3, 4, 5, 5, 6, 9, 12]


Pour bien comprendre ce qu'il se passe, on peut détailler les étapes:

On commence avec ```atrier = [2, 5, 1, 0, 9, 5, 12, -1, 6, 4, 3, 3]```
1. Étape ```map```: on obtient une liste de listes d'un seul élément chacune:

In [28]:
list(map(singleton, atrier))

[[2], [5], [1], [0], [9], [5], [12], [-1], [6], [4], [3], [3]]

2. Étape ```reduce```: le reduce appelle d'abord la fonction ```fusion``` sur les deux premiers éléments:

In [29]:
fusion([2],[5])

[2, 5]

... ensuite on appelle ```fusion``` sur le résultat du premier appel, et le troisième élément:

In [30]:
fusion([2,5], [1])

[1, 2, 5]

... et ainsi de suite:

In [31]:
fusion([1, 2, 5], [0])

[0, 1, 2, 5]

Remarquer qu'ici, le deuxième argument est toujours un singleton: on aurait pu utiliser ceci pour simplifier la fonction de fusion: il aurait suffit d'insérer un élément dans une liste triée, plutôt que de fusionner deux listes. Mais l'avantage d'utiliser la fonction ```fusion``` telle qu'elle est, c'est qu'elle est associative (l'opération d'insérer un élément dans une liste triée ne serait pas associative, pour la simple raison que les deux opérandes ne sont pas du même type, voir plus bas pour une discussion plus détaillée), et qu'on pourrait paralléliser le ```reduce```:

In [32]:
fusion(fusion([1, 2, 5], [0]), fusion(fusion([9], [5]), fusion([12], [-1])))

[-1, 0, 1, 2, 5, 5, 9, 12]

Prenons un dernier exemple avec ```filter```: on veut déterminer si un nombre ```n``` est _parfait_: un nnombre parfait est égal à la somme de ses diviseurs propres. On doit donc lister ses diviseurs propres (on filtre les nombres inférieurs à ```n``` qui divisent ```n```, puis on en fait la somme.

On peut écrire une fonction qui fait la somme des diviseurs propres d'un nombre ```n```:

In [33]:
def somme_diviseurs(n):
    def divise_n(i):
        return n%i==0
    return reduce(somme, filter(divise_n, range(1, n))) # on réutilise la fonction somme définie précédemment

Un nombre est parfait s'il est égal à la somme de ses diviseurs propres:

In [34]:
def estParfait(n):
    return n==somme_diviseurs(n)

On teste (6, 28, et 496 sont les trois premiers nombres parfaits):

In [35]:
estParfait(6)

True

In [36]:
estParfait(20)

False

In [37]:
estParfait(28)

True

In [38]:
estParfait(496)

True

## Map-Reduce et Parallélisme

Le paradigme de programmation distribuée "map-reduce" tel qu'il a été popularisé sur des infrastructures distribuées suppose que les opérations ```map```, ```filter```, et ```reduce``` sont parallélisables. Pour ```map``` et ```filter```, on applique une même fonction sur chaque élément de la liste d'entrée, sans aucune interaction entre ces calculs. L'opération est donc toujours parallélisable, du moment que la fonction utilisée est référentiellement transparente (n'a pas d'effets de bord). 

En revanche, pour pouvoir paralléliser une opération ```reduce```, il est nécessaire que l'opération binaire utilisée soit associative. Si l'opération binaire est réalisée par une fonction ```h```, l'associativité signifie que pour tous éléments ```a```, ```b```, ```c```, on ait: ```h(a, h(b,c)) == h(h(a,b), c)```. Cette propriété permet d'appliquer l'opération binaire en parallèle sur plusieurs paires d'élements de la liste d'entrée, et de combiner ensuite les résultats entre eux, sans que le résultat dépende de l'ordre d'application.

Pour une liste de quatre éléments ```[a, b, c, d]``` et une opération binaire implémentée par la fonction ```h```, la spécification normale de ```reduce``` est que ```reduce(h, [a, b, c, d])``` donne ```h(h(h(a, b), c),d)```
: on applique d'abord ```h``` à ```a``` et ```b```,  puis au résultat de ce calcul et à ```c```, puis enfin au résultat de ce deuxième calcul et à ```d```: on a trois étapes en séquence. 

Si ```h``` implémente une opération associative, alors on pourra effectuer les opérations ```h(a, b)``` et ```h(c,d)``` en parallèle, puis combiner les deux résultats dans une deuxième étape. Le parallélisme réduit le temps total de calcul au temps nécessaire pour faire faire deux calculs en séquence plutôt que trois.  

Plus généralement, pour une liste de longueur ```n```, le nombre d'étapes de calcul est alors la profondeur d'un arbre binaire à ```n``` feuilles, soit $O(log_2(n))$ .



