# Introduction 

# Rappel :Big Data 4 Vs

<div style="text-align:center"><img src="images/4V.png" /></div>

# Apache Hadoop 
* 2003, Google développe le système fichier distribué tolerant au pannes appelé **Google File System (GFS)**
* 2004, Google propose **Map Reduce (MR)** pour traiter les données stocké dans un cluster **Google File System (GFS)**
* 2006, Yahoo implemente le framework open-source **Hadoop** basée sur **MR** et **Hadoop Distributed File System (HDFS)**  
* Aujourd'hui, Hadoop ecosyteme est un ensemble de modules et/ou logiciels open-source permettant de traiter, d'analyse de données massive (Big Data): HDFS, Yarn, MapReduce, Pig, Hive, HBASE, Zookeeper, etc.  
<div style="text-align:center"><img src="images/hadoop.png" /></div>

# Hadoop Ecosystème

* Ingestion des données (Flume, Sqoop, Kafka, NIFI)
* Stockage des données (HDFS, HBase, Kudu)
* Processing (Hadoop MapReduce, Pig)
* Manipulation des données comme des tables SQL (Impala, Hive)
* Exploration des données (Hue, Ambari)
* Protection des données (Apache Sentry, Apache Ranger)

# HDFS Architecture
![](./images/hdfs.png)

**Note** : MR envoie le ***mappeur*** et le ***reduceur*** vers le cluster où se trouvent les données plutôt d'apporter les données vers l'application.

# Accès aux données

<div style="text-align:center"><img src="images/motiv.png" /></div>

# Opérations I/O de Hadoop/MR
* Itération intermittente de lectures et d'écritures entre ***mappeur*** et le ***reduceur***
* Les gros jobs MR peuvent durer des heures, voire des jours.  


<div style="text-align:center"><img src="images/mr_jobs.png" /></div>
  

# Apache Spark 

* Débuter comme projet de recherche à l'UC Berkeley en 2009
* Licence Open Source (Apache 2.0)
* Latest Stable Release: 3.4.0 (Mai 2023)
* Plus de 800,000 lines de code (66% Scala)
* Built by 1500+ developers from 200+ companies 
* Interfaçage avec Scala, Python, R et Java

![](./images/sparklogo.png)

# Hadoop vs Spark : 
![](./images/inmemory.png)

# Spark sources de données
![](./images/sparksources.png)

# Spark Architecture
Nous avons cinq élements essentiels dans les étapes d'execution d'un job Spark :  

* Spark Driver
* SparkSession
* Cluster Menager
* Spark executor
* Deployment


![](./images/sparkArchitecture.png)

# Spark Driver : 

* **Spark Application** est responsable de l'instanciation d'une **SparkSession**, 
* **Spark Driver** a plusieurs rôles: 
    * communique avec le gestionnaire de cluster; 
    * demande des ressources (CPU, mémoire, etc.) au gestionnaire de cluster pour les exécuteurs de Spark (JVM);
    * transforme toutes les opérations Spark en calculs DAG, planifications

# SparkSession
* **SparkSession** est devenu un canal unifié vers toutes les opérations et données Spark.
* Elle est le point d'entrèe de spark par l'intermediaire de **SparkContext**, **SQLContext**, **HiveContext**, **SparkConf** ou **StreamingContext**

```// In Scala
import org.apache.spark.sql.SparkSession
// Build SparkSession
val spark = SparkSession
.builder
.appName("LearnSpark")
.config("spark.sql.shuffle.partitions", 6)
.getOrCreate()
...
// Use the session to read JSON
val people = spark.read.json("...")
...
// Use the session to issue a SQL query
val resultsDF = spark.sql("SELECT city, pop, state, zip FROM table_name")
```

# Cluster Manager
* **Cluster Manager** est responsable de la gestion et de l'allocation des ressources pour le cluster dans lequel l'application Spark s'exécute. 
* Spark prend en charge, pour le moment, quatre cluster managers: 
    * Standalone (gestionaire autonome intégré), 
    * Apache Hadoop YARN, 
    * Apache Mesos 
    * Kubernetes.

# Spark executor

* Un exécuteur Spark s'exécute sur chaque worker node du cluster.
* Les exécuteurs communiquent avec le Driver et sont responsables de l'exécution des tâches sur les worker nodes.
* Dans plusieurs modes de déploiement, un seul exécuteur s'exécute par nœud.

# Spark Deployment : Standalone

![](./images/standalone.png)


**Explication**

Spark Standalone utilise un ordonnaceur (scheduler) intégré sans dépendre d'un scheduler externe tel que YARN ou Mesos. Pour installer Spark en mode Standalone, vous devez copier le package d'installation binaire Spark sur toutes les machines du cluster. En mode Standalone, le client peut interagir avec le cluster, soit via Spark-submit ou Spark Shell. Dans les deux cas, le Driver communique avec le Master node de Spark pour obtenir les Worker nodes, où les exécuteurs peuvent être démarrés pour cette application.

# Spark Deployment : Yarn
Il existe deux methodes de deploiment avec YARN scheduler :

* Connexion sur un cluster YARN en mode client:  
``./bin/spark-shell --master yarn --deploy-mode client``   
* Connexion sur un cluster YARN en mode cluster:  
``./bin/spark-shell --master yarn --deploy-mode cluster``

# Yarn Client Mode

![](./images/yarn-client-mode.png)

**Explication**  
En mode client YARN, le Driver s'exécute sur un nœud en dehors du cluster (généralement là où se trouve le client). Le Driver contacte d'abord le gestionnaire de ressources pour demander des ressources pour exécuter un job Spark. Le gestionnaire de ressources alloue un conteneur (conteneur zéro) et répond au Driver. Le Driver lance ensuite l'application Spark Master dans le conteneur zéro. L'application Master de Spark crée ensuite les exécuteurs sur les conteneurs alloués par le gestionnaire de ressources. Les conteneurs YARN peuvent être sur n'importe quel nœud du cluster contrôlé par le node manager. Ainsi, toutes les allocations sont gérées par le gestionnaire de ressources.

# Yarn Cluster mode
![](./images/yarn-cluster-mode.png)

**Explication**

En mode cluster YARN, le Driver s'exécute sur un nœud à l'intérieur du cluster (généralement là où se trouve l'application Master). Le client contacte d'abord le *Resource Manager* pour demander des ressources pour exécuter le job Spark. Le *Resource Manager* alloue un conteneur (conteneur zéro) et répond au client. Le client soumet ensuite le code au cluster, puis lance le Driver et l'application Master de Spark dans le conteneur zéro. Le pilote s'exécute avec le maître d'application et le maître d'application Spark, puis crée les exécuteurs sur les conteneurs alloués par le gestionnaire de ressources. Les conteneurs YARN peuvent se trouver sur n'importe quel nœud du cluster contrôlé par le *node manager*. Ainsi, toutes les allocations sont gérées par le *Resource Manager*.

# Spark deploiement : Mesos

![](./images/mesos-cluster-mode.png)

**Explication**

Le déploiement de Mesos est similaire au mode Standalonde de Spark. L Driver communique avec le Mesos Master, qui alloue ensuite les ressources nécessaires pour exécuter les exécuteurs. Comme vu en mode Standalone, le Driver communique ensuite avec les exécuteurs pour exécuter le job. Ainsi, le Driver, sur le premier deploiement dans Mesos, communique d'abord avec le  Master, puis sécurise la demande du conteneur sur tous les nœuds slaves de Mesos.  
Lorsque les conteneurs sont alloués au job Spark, le Driver démarre les exécuteurs, puis exécute le code dans les exécuteurs. Lorsque le job Spark est terminé et que le Driver se termine, le nœud Master de Mesos est averti, ainsi toutes les ressources allouées sous forme de conteneurs dans les nœuds esclaves Mesos vont etre récupérées.


## Plan d'execution de Spark 

### Etape d'exécution

![](./images/adb-plans-flow-execution-process.png)

### Optimiseur Catalyst

![](./images/adb-plans-flow-catalyst-optimizer.png)

## Démo d'installation de Apache Spark

### Plus de détails voir README.md
