# Map-Reduce en Hadoop

Dans cette séance, vous allez implémenter des Map-Reduce en Hadoop.

Pour cela, le principe de fonctionnement est simple :

* un premier script Python (dit _mapper_) va lire l'entrée standard (`sys.stdin` en Python) ligne par ligne et, à chaque ligne lue, afficher le résultat de l'étape de _map_ (sur la sortie standard, via un `print()`);
* ensuite Hadoop va centraliser toutes les paires clés-valeurs émises et les trier par ordre (alphabétique) croissant ;
* enfin, un second script Python (dit _mapper_) va lire l'entrée standard (`sys.stdin` en Python) ligne par ligne (chaque ligne correspondant donc à une paire clé-valeur émise par le _mapper_, les lignes étant triées entre elles) et, pour chaque clé, afficher sur la sortie standard le résultat de l'opération de réduction.

**Attention:** pour vous assurer que tous les programmes Python que vous écrirez dans ce TD puissent s'exécuter correctement, vous vous assurerez que :

1. ils contiennent bien l'en-tête `#!/usr/bin/env python` en première ligne ;
2. ils disposent bien des droits d'exécution pour l'utilisateur courant.

## 1. Préambule : remis en route de `hadoop`

Exécutez les cellules ci-dessous pour obtenir un environnement Hadoop fonctionnel.

In [None]:
# Télécharger et extraire hadoop

!wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
!tar -xzf hadoop-3.3.6.tar.gz

In [None]:
import os

os.environ["JAVA_HOME"] = os.popen("dirname $(dirname $(readlink -f $(which java)))").read().strip()
os.environ["PATH"] += ":/content/hadoop-3.3.6/bin/"

**Question 1.1.** Créez un dossier `/hdfs/input` sur le HDFS.

**Question 1.2.** Téléchargez les données contenues dans l'archive <https://raw.githubusercontent.com/rtavenar/m2-big_data/main/notebooks/hadoop_mapreduce/hadoop_mapreduce_data.zip>, décompressez-les dans le dossier courant, puis copiez-les vers le dossier `/hdfs/input` du HDFS.

## 2. Premier exercice : calcul de maxima de température

Le but de cette partie est d'utiliser MapReduce sur Hadoop pour obtenir la valeur maximale de température **par mois** sur les trois années 2020, 2021 et 2022 dans la ville de Buffalo.

Les données correspondantes sont disponibles dans les fichiers `CRND0103-*.txt` extraits précédemment.

**Question 2.1.** Ecrire un programme `mapper_Buffalo.py` permettant de découper chaque ligne récupérée sur l'entrée standard `stdin` (lignes des fichiers de données représentant des données météo journalières), et d'en extraire le mois et la température max journalière. La date est fournie en colonne 2 des fichiers et la température max en colonne 6.

Le mois servira de clé intermédiaire et la température de valeur intermédiaire de sortie du `mapper`. Ces deux éléments seront imprimés sur la sortie standard séparés par une tabulation grâce à la fonction `print()`.

L'entrée standard `stdin` pourra être récupérée grâce au module `sys`de Python.

**Question 2.2.** Pour tester votre programme `mapper_Buffalo.py`, écrire une commande Unix permettant d'afficher le contenu des fichiers de la forme `CRND0103-*.txt*.txt` (on travaille pour l'instant sur les fichiers locaux) sur la sortie standard et de passer ce contenu sur l'entrée standard du programme `mapper_Buffalo.py`.

**Question 2.3.** Ecrire un programme `reducer_Buffalo.py` qui récupère les clés (mois) et valeurs (température max journalière) intermédiaires (issues des processus _mapper_) sur l'entrée standard `stdin` et qui calcule le maximum de température par mois. Le mois et la température max par mois seront imprimés sur la sortie standard comme clé et valeur de sortie du processus MapReduce.

*Indication : utiliser le fait que le `reducer` reçoive les paires de clé et valeur intermédiaires triés par clé.*

**Question 2.4.** Pour tester votre programme `reducer_Buffalo.py`, écrire une commande Unix qui permet d'enchainer les traitements du `mapper` et du `reducer`.

*Indication : on pourra utiliser la commande [`sort`](https://www.gnu.org/software/coreutils/manual/html_node/sort-invocation.html) de Unix pour simuler le traitement intermédiaire de tri effectué par Hadoop.*

**Question 2.5.** Utiliser `mapred streaming` pour enchaîner les opérations, cette fois-ci en utilisant Hadoop et les fichiers localisés sur le HDFS en entrée. Vous écrirez les sorties de votre traitement dans `/hdfs/output_Buffalo`

**Question 2.6.** Comment s'appelle le fichier dans lesquel a été écrit le résultat ? Affichez son contenu.

## 3. Deuxième exercice : _wordcount_

Dans cette partie, vous devrez implémenter un wordcount **en Hadoop MapReduce**.

Pour cela vous devrez :

* travailler sur les fichiers `lorem_*.txt` ;
* implémenter un `mapper_wordcount.py` qui affichera, pour chaque mot lu, une sortie du type `le_mot_lu 1` ;
* implémenter un `reducer_wordcount.py` qui fera la somme des comptes mot par mot ;
* afficher le résultat pour vous assurer que tout a bien fonctionné.

**Question subsidiaire.** Améliorer votre code (si besoin) pour que la ponctuation soit correctement prise en compte.

## Pour aller plus loin

Faites de même en utilisant les fichiers `notes_*.csv` pour calculer les moyennes par étudiant (identifié par son numéro d'étudiant, première colonne).
Vous considérerez que les fichiers `notes_*.csv` contiennent une note par ligne et que les moyennes sont à calculer sans tenir compte de quelconques coefficients et en mélangeant toutes les matières.