# Chapitre 7 - Passage au big data (1ère partie)

**Dans le cadre de ce Notebook, nous allons parler de l'environnement Apache Hadoop. Ce notebook n'est donc pas applicable dans votre environnement "classique".**

**Pour que le code foctionnne, il vous faut un environnement Hadoop accessible depuis votre machine.**

**N'essayez pas de faire fonctionner les cellules si votre environnemnt n'est pas correctement paramétré.**

## 7. 1 Est-ce qu’on change tout quand on parle de big data ?

Python est souvent considéré comme le langage du big data. Ceci vient du fait
que la notion de big data est souvent mal définie par beaucoup d’utilisateurs. 

On a pu voir que Python est un langage bien adapté au traitement de la donnée et au machine learning grâce à sa simplicité, ses principes de fonctionnement et toutes les API disponibles. 

Dans le cadre du big data, on est exactement dans le même cas de figure qu’en deep learning. Vous ne trouverez aucun environnement big data nativement développé en Python. Ils sont majoritairement développés en Java. Cependant,
Python sera très souvent un langage pour lequel il existe des API assez poussées.

Les principes du langage Python restent les mêmes mais les commandes, fonctions
et actions dépendront de l’API utilisée et donc du package sollicité.

On utilisera ici Python pour récupérer des données sur un cluster Hadoop. Nous parlerons de Apache Spark dans le prochain Notebook

## 7.3 Récupérer des données avec Python
### 7.3.1 Les approches classiques
Apache Hadoop est donc un environnement big data écrit en Java donnant accès à
un système de fichiers distribués appelé HDFS et à des outils permettant d’extraire des
informations de ces données.

Nous sommes donc dans un cas, où nos données sont stockées dans des formats
dits NoSQL (Not Only SQL) et où vous désirez les récupérer pour vos analyses en
Python. 

Si vous passez par Python, vous allez charger en mémoire les données que
vous récupérez de votre infrastructure. Ainsi, si ces données sont massives, vous allez très rapidement vous trouver face à un problème de taille : la capacité de votre machine en termes de mémoire vive.

Il faut donc faire en sorte de ne charger sur votre machine que les données utiles et, réfléchir à la mise en place d’infrastructures plus puissantes. Par exemple, un serveur JupyterHub extrêmement puissant qui pourra traiter des masses de données plus importantes que votre machine.

### 7.3.2 Se connecter aux fichiers HDFS en Python – Utilisation de PyArrow
Le système de fichiers HDFS est accessible en utilisant la commande hdfs depuis
le terminal. Néanmoins, cet outil est codé en Java et ne possède pas nativement
d’API Python.

La seule solution simple adaptée à Python 3 est liée au projet Apache Arrow. Il s’agit d’un environnement visant à unifier le traitement en mémoire de données colonnes.

Pour utiliser Arrow, nous allons installer son API Python qui est dans le package PyArrow. 

Nous le récupérons grâce à Anaconda :

In [None]:
!conda install -c conda-forge pyarrow

Une fois que vous l’avez installé dans votre environnement, vous pouvez vous
connecter au système de fichiers :

In [None]:
from pyarrow import HdfsClient
hdfs_alt = HdfsClient(host, port, username, driver='libhdfs3')
with hdfs.open('/path/to/file') as f:
    ...

Vous pouvez utiliser les commandes qui se trouvent dans l’objet de la classe
*HdfsClient* que vous avez créé pour faire des actions sur votre environnement
Hadoop.

Ceci vous permettra de gérer de nombreux types de fichiers, notamment les fichiers Apache Parquet de votre environnement big data.

Le projet Apache Arrow est en pleine expansion et, selon les responsables de
la fondation Apache, il devrait traiter près de 80 % des données big data dans les prochaines années.

### 7.3.3 Faire du Hive avec Python – Utilisation de PyHive

Apache Hive est un autre projet de l’environnement big data qui est beaucoup plus ancien mais qui donne accès à une interface du type SQL pour requêter vos données stockées en environnement big data.

Le package disponible pour faire des requêtes Hive en Python est pyHive. Vous
pouvez l’installer dans votre environnement Anaconda avec :

In [None]:
!conda install -c anaconda pyhive

Lorsque vous avez installé PyHive, vous pouvez alors travailler directement sur vos tables Hive créées dans votre environnement Hadoop.

On utilise :

In [None]:
from pyhive import hive
cursor = hive.connect('localhost').cursor()
cursor.execute('SELECT * FROM ma_base LIMIT 10')
for row in cursor.fetchall():
    print(row[0], row[1])

Lors de l’appel de la méthode connect, on utilisera aussi les caractéristiques utilisateur de votre session Hadoop.

Ce code va vous permettre de charger des données directement sur votre machine
et ainsi travailler sur ces données.

Les approches présentées jusqu’ici ne sont pas utilisées de manière généralisée.

L’outil de big data employé par les data scientists, c’est Apache Spark. Il permet, entre autres, de charger des fichiers en Hive, mais surtout de faire du machine learning. Nous en parlons dans le prochain Notebook.