Utilisation de Map Reduce et d'Hadoop via Python avec Hdfs3 et l'implémentation d'un map et d'un reduce
Il est nécessaire d'avoir un cluster Hadoop installé. Pour la configuration python, vous pouvez utiliser le fichier requirements.txt pour créer un environnement avec les mêmes dépendances. Dans le cas présent, nous avons utilisé la distribution Cloudera montée sur une VM.
Il suffit de cloner ou copier en local le répetoire.
L'organisation du dépot est la suivante :
- le Notebook Jupyter est le coeur permettant de réaliser les deux exercices Map/Reduce et hdfs3. La trace d'exécution avec le rapport pdf permet de voir le résultat final.
- les consignes se retrouvent dans le répertoire Consigne sur les deux uses cases
- les jeux de données se retrouvent dans HDFS_Data (exercice hdfs3) et Reservation (exercice Map/Reduce avec l'implémentation en python du mapper et du reducer)
Nous utilisons Github pour le versionning.
Anthony Moisan - Initial work @016/12/2019
Ce projet est sous licence MIT voir le fichier LICENSE.md pour plus de détails