## Spark context ##

Le `spark context` est le principal point d'accès aux fonctionnalités de Spark. 



## Configuration de Spark 

Quelques éléments pour configurer Spark. Pour plus d'information, vous visitez le [guide de l'utilisateur Amazon EMR](https://docs.aws.amazon.com/emr/index.html)

* **spark.master** : URL du master
* **spark.driver.memory** : Volume de mémoire à utiliser pour le processus de pilote, c'est-à-dire où SparkContext est initialisé.
* **spark.driver.cores** : Nombre de cœurs à utiliser sur le driver.
* **spark.executor.memory** : Volume de mémoire à utiliser par les processus de l'exécuteur.
* **spark.executor.instances** : Le nombre d'exécuteurs
* **spark.executor.cores** : Nombre de cœurs à utiliser sur chaque exécuteur.
* **spark.default.parallelism** : Nombre par défaut de partitions dans DDR renvoyées par des transformations telles que join, reduceByKey et parallelize lorsque l'utilisateur ne s'occupe pas de la définition.
* **spark.dynamicAllocation.enabled** :  Décision d'utiliser ou non une affectation des ressources dynamique, qui adapte à la hausse ou à la baisse le nombre d'exécuteurs inscrits auprès d'une application en fonction de la charge de travail.

* **spark.dynamicAllocation.minExecutors** : Limite inférieure pour le nombre d'exécuteurs si l'attribution dynamique est activée.
* **spark.dynamicAllocation.maxExecutors** : Limite supérieure pour le nombre d'exécuteurs si l'attribution dynamique est activée.
* **spark.submit.deployMode**: Type d’exécution d'une application
   * Mode client : le driver est créé dans la machine qui soumet l’application
   * Mode cluster : le driver est créé à l’intérieur du cluster (dans une machine worker)

### Création d'un Spark context

* On ne peut pas créer plus d'un Spark context par session. S'il est dèja créé, il faut l'arrêter avec cette commande `sc.stop`.

In [3]:
import org.apache.spark.{SparkConf, SparkContext}

val conf = new SparkConf()
   conf.set("spark.master", "local[2]")
   conf.set("spark.app.name", "AppName")
   conf.set("spark.broadcast.compress", "false")
   conf.set("spark.shuffle.compress", "false")
   conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

val sc = new SparkContext(conf)

import org.apache.spark.{SparkConf, SparkContext}
conf: org.apache.spark.SparkConf = org.apache.spark.SparkConf@517372d0
sc: org.apache.spark.SparkContext = org.apache.spark.SparkContext@6236069c


In [4]:
sc.getConf.getAll.foreach(x => println(s"${x._1} => ${x._2}"))

spark.app.id => local-1610199821954
spark.driver.host => STAR-L046
spark.app.name => AppName
spark.executor.id => driver
spark.repl.class.outputDir => C:\Users\fayab\AppData\Local\Temp\tmpjnfx5hn0
spark.serializer => org.apache.spark.serializer.KryoSerializer
spark.broadcast.compress => false
spark.repl.class.uri => spark://STAR-L046:52499/classes
spark.submit.pyFiles => 
spark.submit.deployMode => client
spark.driver.port => 52499
spark.ui.showConsoleProgress => true
spark.master => local[2]
spark.shuffle.compress => false


## Création d'une Spark Session

Au début du projet Spark, chaque API dispose de son contexte (sqlContext, HiveContext, ..). Mais depuis la version Apache Spark 2.0, SparkSession permet accéder à toutes les fonctionnalités de Spark. Il regroupe differents contextes :
* Spark Context
* SQL Context
* Streaming Context
* Hive Context
* ...

In [5]:
import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
      .enableHiveSupport()
      .config(conf)
      .getOrCreate()

import org.apache.spark.sql.SparkSession
spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@2255485e


Une Spark Session contient un spark context

In [6]:
spark.sparkContext.getConf.getAll.foreach(x => println(s"${x._1} => ${x._2}"))

spark.app.id => local-1610199821954
spark.driver.host => STAR-L046
spark.app.name => AppName
spark.executor.id => driver
spark.repl.class.outputDir => C:\Users\fayab\AppData\Local\Temp\tmpjnfx5hn0
spark.serializer => org.apache.spark.serializer.KryoSerializer
spark.broadcast.compress => false
spark.repl.class.uri => spark://STAR-L046:52499/classes
spark.submit.pyFiles => 
spark.submit.deployMode => client
spark.driver.port => 52499
spark.ui.showConsoleProgress => true
spark.master => local[2]
spark.shuffle.compress => false


## Création d'un SQL Context

* SQLContext est le point d'accès à SparkSQL

In [7]:
import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)

import org.apache.spark.sql.SQLContext
sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@a59e694


Une Spark Session contient un SQL context

In [8]:
spark.sqlContext

res3: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@7cc62cc0


## Création d'un Hive Context

In [9]:
import org.apache.spark.sql.hive.HiveContext

val hiveContext = new HiveContext(sc)

import org.apache.spark.sql.hive.HiveContext
hiveContext: org.apache.spark.sql.hive.HiveContext = org.apache.spark.sql.hive.HiveContext@6e3319e9


Une Spark Session peut accéder directement à Hive.

**Sources :**  
[Documentation Spark](https://spark.apache.org/docs/3.0.0/)     
[Amazon EMR: Guide de l'utilisateur Amazon EMR](https://docs.aws.amazon.com/emr/index.html)