## Introduction à HDFS

Dans cet exercice vous allez apprendre à manipuler le système de fichiers HDFS. 

HDFS est l'un des éléments de base de Hadoop, car il coordonne le stockage et la distribution des données dans les différents noeuds d'un cluster Hadoop, permettant ainsi aux applications (MapReduce, Spark, etc.) de se concentrer sur le traitement des données.

* ATTENTION : les données stockées sur HDFS ne sont pas directement accessibles par le shell, il faut passer par une application (*hadoop fs*). Vous pouvez comparer cela au stockage de fichiers dans un serveur distant et son accès avec *ssh* et *scp/sftp*.

### Petite note à propos de cet environnement Jupyter

Les "paragraphes" sont censés exécuter des commandes en python. Comme dans cet exercice nous allons utiliser des commandes shell, il faudra toujours utiliser un **!** (point d'exclamation) avant les commandes.

Par exemple **"! hadoop dfs -ls"**



### Par où on commence ?

Ces exercices se trouvent dans une machine virtuelle où chacun est le seul utilisateur. Utilisez les commandes **ls**, **pwd**, pour vous localiser dans le *home* de votre machine.

* certaines commandes de base du shell (ls, cat, rm) n'ont pas besoin de l'exclamation. À l'inverse, la commande **cd** doit obligatoirement utiliser un percent (**%cd**). Dans le doute, il sera plus simple de précéder ces commandes de base avec %. 

In [None]:
! ls

In [None]:
! pwd

In [None]:
! ls -lh ~/resources/datasets/

On voit déjà quelques *datasets*, mais ce n'est pas ce qu'on souhaite pour ce TP (on les utilisera autre fois). 
On va donc télécharger deux livres très connus en sciences et deux livre classiques de litérature.

In [None]:
! wget http://cosy.univ-reims.fr/~lsteffenel/cours/Master2/RT0902-BigData/livres.tar.gz

In [None]:
! tar -xvzf livres.tar.gz
! mv livres ~/resources/datasets/


In [None]:
! head -10 ~/resources/datasets/livres/Charles_Darwin___On_the_Origin_of_Species_1st_Edition.txt

Maintenant qu'on a notre *dataset* dans le répertoire `/home/jovyan/resources/datasets`, il faudra le stocker dans HDFS avant de procéder à leur analyse.

Tout d'abord, nous allons créer un répertoire dans HDFS afin de déposer ces fichiers. 

HDFS est organisé "presque" comme un répertoire Linux (plus exactement, il suit le standard POSIX). Les fichiers d'un utilisateur se retrouvent donc sous le répertoire `/user/`, comme vous pouvez voir ci-dessous : 

In [None]:
! hdfs dfs -ls /

In [None]:
! hdfs dfs -ls /user

In [None]:
! hdfs dfs -ls /user/$USER

Bien sûr, pour le moment le répertoire `/user/jovyan` est vide (la variable `$USER` retourne le nom de l'utilisateur par défaut dans Jupyter).

On voit aussi que, pour accéder à HDFS, nous devons utiliser la commande `hdfs dfs`

Commençons par créer un répertoire pour notre dataset de livres :

In [None]:
! hdfs dfs -mkdir /user/$USER/livres

Ensuite, nous allons copier le fichier du répertoire `~/resources/datasets/livre/` dans le répertoire `/user/jovyan/livre` grâce à la commande **hfds dfs --put** : 


In [None]:
! hdfs dfs -put ~/resources/datasets/livres/* /user/$USER/livres/

In [None]:
! hdfs dfs -ls -h /user/$USER/livres/

Si on n'indique pas le chemin absolu, hdfs utilisera automatiquement le sous-répertoire relatif à l'utilisateur : 

In [None]:
! hdfs dfs -ls -h livres/

Et voilà, le dataset se trouve dans HDFS. Avant de traiter les fichiers, nous pouvons regarder quelques autres commandes pour les manipuler.

Tout d'abord, on peut afficher le contenu d'un fichier avec l'option `-cat`: 

In [None]:
! hdfs dfs -cat livres/Charles_Darwin___On_the_Origin_of_Species_1st_Edition.txt | head -n 10

En effet, on peut faire le pipeline entre la sortie de `hdfs dfs -cat` et d'autres commandes Linux telles que `head`, `tail`, `grep`, ... 

### HDFS est fait, passons à Hadoop

Vous avez injecté le dataset dans HDFS. Maintenant, on va regarder dans le prochain notebook ([2-IntroMapReduce](./2-IntroHadoopMR.ipynb)) comment l'application `WordCount` est écrite en Java (et comment la compiler et exécuter), pour plus tard effectuer la même chose avec Python.