# Map / Reduce en python avec mrjob

## Prérequis : installation de mrjob avec Anaconda

### Ajout de conda-forge comme canal de distribution

Dans le navigateur Anaconda, 

1. cliquer sur `Channels` puis `Add`.
2. Dans la boite de dialogue, saisir `conda-forge` puis valider.
3. Rafraichir l'index en cliquant sur le bouton `Update index...`. 

Alternativement, en ligne de commande, selon la [documentation](https://conda-forge.org/) :

```
conda config --add channels conda-forge
conda config --set channel_priority strict
conda install -c conda-forge mrjob 
```

### Installation de mr-job

Dans la boite de recherche à côté du bouton `Update index...` saisir `mrjob` puis valider.

## Exemple canonique : le word frequency count

La [documentation](https://mrjob.readthedocs.io/en/latest/guides/quickstart.html#writing-your-first-job) fournit un premier exemple qui calcule et retourne le nombre de caractères, de mots et de lignes.

Afin de pouvoir exécuter l'exemple depuis le notebook nous 
- ajoutons l'instruction `%%file wordcount.py`
- déplaçons le `run`dans une autre cellule

(Explication : https://stackoverflow.com/questions/24701101/run-mrjob-from-ipython-notebook/33357944)

In [None]:
%%file comptageDistribue.py
from mrjob.job import MRJob

class MRWordFrequencyCount(MRJob):

    def mapper(self, _, line):
        yield "chars", len(line)
        yield "mots", len(line.split())
        yield "lignes", 1

    def reducer(self, key, values):
        yield key, sum(values)


Ce code fournit 2 méthodes
- `mapper` génère, pour chaque ligne du texte, 3 couples (clé/valeur) dont les valeurs respectives sont le nombre de caractères, de mots et le nombre 1 (car on traite une ligne)
- `reducer` effectue, pour chaque clé, la somme des valeurs générées par le mapper pour chaque ligne - donc la somme des caractères, des mots et des lignes

Il nous reste à appeler le code depuis la cellule suivante. Nous nous appuyons sur la documentation qui explique comment lancer le programme [de manière programmatique](https://mrjob.readthedocs.io/en/latest/guides/runners.html#running-your-job-programmatically).

Nous ajoutons l'import du fichier généré dans la cellule précédente


In [None]:
from importlib import reload
import comptageDistribue
reload(comptageDistribue)

mr_job = comptageDistribue.MRWordFrequencyCount(args=['Data/Le Corbeau et le Renard.txt'])
with mr_job.make_runner() as runner:
     runner.run()
     for key, value in mr_job.parse_output(runner.cat_output()):
        print(key, value)

## Application au comptage des mots

Nous modifions l'exemple précédent de la manière suivante

- Le fichier généré s'appelle désormais comptage.py
- La classe s'appelle ComptageDesMots
- Un couple clé/valeur est généré pour chaque *mot* 

In [None]:
%%file comptage.py
import string
from mrjob.job import MRJob

class ComptageDesMots(MRJob):

    def mapper(self, _, ligne):
        ligneNettoyee = ligne.translate(str.maketrans('', '', string.punctuation))
        listeDeMots=ligneNettoyee.split()
        for mot in listeDeMots:
            yield mot, 1
    
    def reducer(self, key, values):
        yield key, sum(values)

Comme pour l'exemple précédent, l'exécution est lancée depuis une autre cellule afin de respecter le fonctionnement d'Hadoop, où le code est *transmis* là où se situent les données.

In [None]:
from importlib import reload
import comptage
reload(comptage)

mr_job = comptage.ComptageDesMots(args=['Data/Le Corbeau et le Renard.txt'])
with mr_job.make_runner() as runner:
     runner.run()
     for key, value in mr_job.parse_output(runner.cat_output()):
        print(key, value)

# Conclusion

Le programme de ce notebook peut être exécuté sur un véritable cluster Hadoop et traiter plusieurs milliards de lignes comme il a pu traiter de la fable

Pouvez-vous finaliser le travail
1. en produisant la même sortie que l'exemple "python base", en n'affichant que le top 10 des mots les plus fréquents ?
2. ignorer la casse pour que chaque mot ne soit compté qu'une fois, qu'il apparaisse en minuscules ou majuscules

Appuyez-vous sur la [documentation](https://kite.com/python/docs/mrjob.job.MRJob.parse_output) de `parse-output` : 

In [None]:
from importlib import reload
import comptage
reload(comptage)

mr_job = comptage.ComptageDesMots(args=['Data/Le Corbeau et le Renard.txt'])
with mr_job.make_runner() as runner:
    runner.run()
    res = mr_job.parse_output(runner.cat_output())
    
    # à vous ! utilisation du générateur res...
