# MapReduce 1/2

Dans cette séance vous allez utiliser les fonctions [`map()`](https://docs.python.org/fr/3/library/functions.html#map) et [`functools.reduce()`](https://docs.python.org/fr/3/library/functools.html#functools.reduce) de Python pour illustrer les concepts du modèle de programmation MapReduce.

## Exercice #1 : similarité cosinus avec les fonctions `map` et `functools.reduce`

Le but de cet exercice est de comprendre le fonctionnement des fonctions `map` et `functools.reduce` de Python et de les appliquer au calcul de la [similarité cosinus](https://fr.wikipedia.org/wiki/Similarit%C3%A9_cosinus) entre deux vecteurs.

### Processus Map

**Question 1.1**

Ecrire et tester une fonction `carre_liste()` qui prend une liste de nombres en entrée et renvoie la liste des carrés de ces nombres en utilisant la fonction `carre()` fournie et une liste en compréhension. Afficher le résultat obtenu.

In [None]:
def carre(x):
    return x**2
    
# code de votre fonction carre_liste

**Question 1.2**

Ecrire une instruction qui fait la même chose en utilisant la fonction `map()` de python. Afficher le résultat obtenu.

*Indication : la fonction `map()` renvoie un itérateur et non une liste. On peut cependant obtenir la liste correspondante en applicant un "cast" à cet itérateur à l'aide de la fonction `list()`*

**Question 1.3**

Ecrire une fonction `prod_listes()` qui prend en entrée 2 listes de nombres de même taille et qui renvoie une liste des produits 2 à 2 de ces nombres en utilisant la fonction `produit()` fournie et une liste en compréhension. Afficher le résultat obtenu.

*Indication : pour une meilleure implémentation, penser à utiliser la fonction [`zip()`](https://docs.python.org/3/library/functions.html#zip) de Python*

In [None]:
def produit(x,y):
    return x*y

# code de votre fonction prod_liste()

**Question 1.4**

Ecrire une instruction qui fait la même chose en utilisant la fonction `map()` de python. Afficher le résultat obtenu.

### Processus Map+Reduce

**Question 1.5**

Ecrire une fonction **recursive** `reduce_liste()` qui prend en premier paramètre le nom d'une fonction d'opération (telle que `addition` fournies ci-dessous, ou `produit` fournies ci-dessus) et en deuxième paramètre une liste de nombres, et qui permet d'appliquer l'opération de façon récursive à l'ensemble des nombres de la liste. 

Exemple : si `f()` est la fonction d'opération et `x1,x2,x3,x4` les éléments de la liste, l'appel de la fonction récursive sur cette liste doit renvoyer le résultat final suivant :

`f(f(f(x1, x2), x3), x4)`

On prendra soin de bien identifier le dernier calcul de la récursion (c.a.d celui qui arrête les appels récursifs).

Tester cette fonction sur la liste de carrés obtenue à la question 1.2 et afficher le résultat.

In [None]:
def addition(x,y):
    return x+y


**Question 1.6**

Ecrire une instruction unique imbriquant les fonctions `map()`, `reduce()` (du module `functools`), `carre()` et `addition()` (fournies ci-dessus) permettant de calculer la somme des carrés d'une liste. Afficher le résultat obtenu.

In [None]:
from functools import reduce


*Remarque : au lieu de définir nous même la fonction `addition()` on peut passer en premier paramètre à `reduce()` la fonction `add` du module `operator` de Python.*

**Question 1.6**

Ecrire une instruction unique imbriquant les fonctions `map()`, `reduce()`, `produit()` (fournie ci-dessus) et la fonction `add()` du module `operator` permettant de calculer la somme des produits 2 à 2 des éléments de deux listes de même taille. Afficher le résultat obtenu.

In [None]:
from operator import add


*Remarque : comme pour l'addition, au lieu de définir la fonction `produit()` on peut utiliser la fonction `mul()` du module `operator`.*

**Question 1.7**

Ecrire une fonction `sim_cos()` prenant en entrée deux listes de nombres de même taille représentant deux vecteurs, et qui calcule la similarité cosinus entre ces deux vecteurs.

In [None]:
from math import sqrt
from operator import mul


## Exercice #2 : wordcount avec les fonctions `map` et `functools.reduce`

Le but de l'exercice est d'écrire un programme de comptage d'occurences de mots dans un corpus de texte (réparti en plusieurs fichiers) en utilisant les fonctions `map` et `functools.reduce` de Python. Les fichiers de texte seront générés automatiquement grâce au module `lorem` (génération de faux textes en latin).

Le prétraitement des textes sera ici très basique : on passera le texte en minuscule et on retirera les points de ponctuattion.

In [None]:
import lorem

data_in = []

# création des fichiers texte et de la liste de ces fichiers
for i in range(3):
    with open(f"data/wordcount/sample{i}.txt", "w", encoding='utf-8') as f:
        for j in range(2):
            f.write(lorem.text())
    data_in.append(f"data/wordcount/sample{i}.txt")

print(data_in)

**Question 2.1**

Ecrire une fonction `tokenise()` qui prend en entrée un texte, qui pré-traite ce texte et renvoie une liste des mots du texte. Tester sur un des fichiers texte créés.

**Question 2.2**

Ecrire une fonction `combine_words()` qui prend en entrée une liste de mot et renvoie le nombre d'occurences de chaque mot unique rencontré sous forme d'une liste de tuples `(word, nb_word)`. Tester sur le résultat précédent.

**Question 2.3**

Ecrire une fonction `tokenise_and_combine_words()` qui prend en entrée un nom de fichier texte et qui utilise les deux fonctions précédentes pour fournir en sortie une liste des tuples `(word, nb_word)` indiquant le nombre d'occurences de chaque mot rencontré dans le fichier. Tester sur un des fichiers texte.

**Question 2.4**

Ecrire une instruction utilisant la fonction `map` de python permettant d'obtenir une listes des liste de tuples `(word, nb_word)` obtenues sur chaque fichier texte du corpus (ou plus précisément un itérateur sur cette liste). Afficher le résultat.

**Question 2.5**

Ecrire une fonction `group_counts()` qui prendra en entrée une liste des listes de tuples `(word, nb_word)` issues des différents processus Map (ou des itérateurs sur ces listes) et qui fournira en sortie une liste de tuples `(word, list_nb_word)` où `list_nb_word` est une liste des occurences du mot `word` dans les différents fichiers textes.
*Exemple de sortie de la fonction : `[('numquam', [26, 17, 16]), ('quiquia', [21, 13, 26]), ('ipsum', [19, 14, 19]),... ]`*

**Question 2.6**

Ecrire une fonction `reduce_counts()` qui prendra en entrée un tuple `(word, list_nb_word)` et qui utilisera la fonction `functools.reduce()` pour renvoyer un tuple `(word, tot_nb_word)` où `tot_nb_word` est le nombre d'occurences du mot `word` cumulées sur l'ensemble du corpus. Tester sur le premier élément de la liste obtenue à la question précédente.

**Question 2.7**

Ecrire une instruction utilisant la fonction `map()` qui permet d'obtenir une liste de tuples `(word, tot_nb_word)` sur l'ensemble du corpus. Afficher le résultat obtenu par ordre décroissant du nombre d'occurences de mot.