# Introduction to Spark

## how to use markdown
https://grabngoinfo.com/databricks-notebook-markdown-cheat-sheet/

A **spark session** is not necessarly needed in databricks

Using a builder design pattern, it instantiates a SparkSession object if one does not already exist, along with its associated underlying contexts.

Otherwise, we should create a SparkSession in your notebook python / scala / R

To prouve this, we can create a new databrick notebook (new session) and execute "spark"

In [None]:
from os.path import abspath
from pyspark.sql import SparkSession

# warehouse_location
warehouse_location = abspath('spark-warehouse')

# Create spark session with hive enabled
spark = (
    SparkSession 
    .builder
    .appName("SparkByExamples.com")
#     .config("spark.sql.warehouse.dir", warehouse_location)
    .enableHiveSupport()
    .getOrCreate()
)


### 1. Dataframe and partitions

In [None]:
# myRange = spark.range(1000).toDF("number") # toDF is just for renaming
myRange = spark.range(1000) # is already a DF, 
myRange.rdd.getNumPartitions() # get the number of partitions

myRange.show(5)
myRange.display()
type(myRange)

+---+
| id|
+---+
|  0|
|  1|
|  2|
|  3|
|  4|
+---+
only showing top 5 rows



id
0
1
2
3
4
5
6
7
8
9


Out[4]: pyspark.sql.dataframe.DataFrame

You just ran your first Spark code! We created a DataFrame with one column containing 1,000 rows with values from 0 to 999. This range of numbers represents a distributed collection. When run on a cluster, each part of this range of numbers exists on a different executor. This is a Spark DataFrame.

### 2. Transformations & Action
Expliquer la notion de Transformation vs Action

In [None]:
myRange.where("id % 2 = 0")# filter sur les nombres paires
divisBy2 = myRange.where("id % 2 = 0") 
divisBy2

# why there is no result => because this is a transformation (transformation is abstract), non execution sur data

divisBy2.show()

# Here we have a output, Spark will not act on transformations until we call an action, who triggers the transformation, il will declenche execution of myRange then filter (see explain())

divisBy2.explain()

# You can read explain plans from top to bottom, the top being the end result, and the bottom being the source(s) of data. 

+---+
| id|
+---+
|  0|
|  2|
|  4|
|  6|
|  8|
| 10|
| 12|
| 14|
| 16|
| 18|
| 20|
| 22|
| 24|
| 26|
| 28|
| 30|
| 32|
| 34|
| 36|
| 38|
+---+
only showing top 20 rows

== Physical Plan ==
*(1) Filter ((id#135L % 2) = 0)
+- *(1) Range (0, 1000, step=1, splits=8)




Transformation est une opération Spark qui lit un DataFrame (je prends df comme exemple), manipule des colonnes et éventuellement renvoie un autre DataFrame. Les exemples de transformation comprennent les opérations courantes : filtre, sélection, tri, groupby, map, join [écrire au tableau]…

Narrow transformations : chaque partition d'entrée ne contribue qu'à une seule partition de sortie.

Wide transformation : Les partitions doivent être mélangée pour agrégée pour obtenir un résultat

Dans wide transformation il y a forcément Shuffle Operations
Shuffle Operations
Une Shuffle Operations est déclenchée lorsque des données doivent être mélangées donc déplacées entre les exécuteurs (Spark va échanger des partitions à travers le cluster). Il s'agit d'un élément essentiel de nombreuses transformations, telles que .groupBy(), et de certaines actions, telles que .count().

In [None]:
# Both df have the same number of partitions, why? Because we did a filter => introduit narrow transformations and wide transformations
myRange.rdd.getNumPartitions()

divisBy2.rdd.getNumPartitions()

Out[9]: 8

### 3. THEN  
#### 3.1 lazy evaluation

Maintenant on va voir pour quoi transformation ne donne pas d'output => ne déclenche pas d'éxecution

Les transformations sont évaluées en mode Lazy Evaluation. Cela signifie qu'aucun job Spark n'est déclenché par les transformations, quel que soit le nombre de transformations programmées. Pas de job=> pas d’exécution.

Lazy Evaluation est un modèle courant dans les langages fonctionnels et de Big Data, par exemple Spark, Scala, Java Stream API, etc. 

Si pas d’exécution, que fait-elle une transformation ? Elle construit un plan de logique d’exécution, si vous enchainer les transformations, le plan logique va être enrichi. Si nous construisons un gros travail Spark (join, map…) [schemas au tableau] mais que nous spécifions un filtre à la fin qui ne nécessite que l'extraction de quelques lignes uniquement, la manière la plus efficace d'exécuter ce travail est de faire le filter au début. Spark optimisera cela pour nous en poussant le filtre au début (vers le bas sur le plan) automatiquement.

Au lieu de modifier les données immédiatement, Spark attendra le dernier moment pour exécuter son plan logique. Il va attendre une action qui déclenche l’exécution. Les avantages sont immenses car Spark peut optimiser l'ensemble du flux de données.

D'ailleurs, les utilisateurs peuvent coder des petites transformations (exemple : enchaine plusieurs filters) pour faciliter la lecture et la gestion. Mais Spark regroupe en interne ces transformations, en réduisant le nombre de passages sur les données. Si Spark pouvait regrouper deux transformations en une seule, il n'aurait à lire les données qu'une seule fois pour appliquer les transformations, au lieu de les lire deux fois .


#### 3.2 Action

Les transformations construit un plan de modification de DataFrame. Plus précisement, les transformations nous permettent d'élaborer un plan logique. Pas d’exécution réelle. Elles ne sont exécutées que lorsqu'une action est appelée sur un DataFrame.

Pour déclencher le calcul des transformations, nous appelons une action : une opération Spark qui renvoie un résultat ou écrit sur le disque.
- .show() : afficher les données dans la console
- .count()
- .take() : renvoie le nombre spécifié d'enregistrements au driver process
- .collect() : collecte tous les résultats de tous les nœuds de travail et les renvoie au driver process. N'utilisez cette méthode que pour renvoyer de petites données agrégées.
- .toPandas() : collecte tous les enregistrements de tous les travailleurs, les renvoie au driver process, puis convertit les résultats en un DataFrame pandas. N'utilisez cette méthode que pour renvoyer de petites données agrégées.
- .head(), .first(), .last()

#### 3.3 Overview of Structured API Execution
Voici un aperçu des étapes à suivre :
1. Écrire le DataFrame/Dataset/ SQL Code.
2. Si le code est valide, Spark le convertit en plan logique.
3. Spark transforme ce plan logique en plan physique, en vérifiant les optimisations en cours de route.
4. Spark exécute ensuite ce Plan Physique (manipulations RDD) sur le cluster.

#### 3.4 Logical plan
1. Convertir un code utilisateur vers un plan non résolu parce que même si votre code est valide (verification de syntaxe : parenthèses, nom de function...) les tables ou les colonnes auxquelles il se réfère peuvent exister ou ne pas exister. 
2. Spark utilise catalog, un référentiel de toutes les informations sur les tables et les DataFrame, pour résoudre les colonnes et les tables dans l'analyseur.
3. Le résultat résolu passe ensuite par l'Optimiseur Catalyst (filtre à la fin...).<br/>
=> A la fin vous aurez un plan logique validé et optimisé

#### 3.5 Physical plan
Après avoir créé un plan logique optimisé, Spark entame l’élaboration du plan physique. Le plan physique, souvent appelé plan Spark, spécifie comment le plan logique sera exécuté concrètement sur le cluster en générant différentes stratégies d'exécution physique. Puis spark va les comparer à l'aide d'un modèle de coût (cost model). Physical plan est réellement une série de RDD et de transformations. C’est la raison pour laquelle vous avez peut-être entendu parler de Spark comme un compilateur - il prend des requêtes (= transformations) de DataFrames, Datasets et SQL et les compile de des transformations RDD, et surtout il effectue énormément d’optimisations avant (et durant ??) cette compilation grâce à Catalyst Optimizer et cost model.

#### 3.6 Execution

Une fois un plan physique optimal sélectionné, Spark exécute tous ces codes de transformations sur des RDD (lower-level programming interface). Spark effectue des optimisations supplémentaires au moment de l'exécution, en générant du native Java bytecode qui peut supprimer des tâches ou des étapes entières au cours de l'exécution. Enfin, le résultat est renvoyé à l'utilisateur.

### An End-to-End Example to "*remettre une couche*": transformation (narrow or wide), action, partitions, lazy evaluation
In the previous example, we created a DataFrame of a range of numbers; not exactly groundbreaking big data. here we will reinforce everything we learned previously in
this chapter with a more realistic example

In [None]:
retrail =(spark.read
# .option("inferSchema", "true")
.option("header", "true")
.csv("/databricks-datasets/definitive-guide/data/retail-data/all"))

# we can also use ()

In [None]:
retrail.show(5)
retrail.count() #541909

+---------+---------+--------------------+--------+--------------+---------+----------+--------------+
|InvoiceNo|StockCode|         Description|Quantity|   InvoiceDate|UnitPrice|CustomerID|       Country|
+---------+---------+--------------------+--------+--------------+---------+----------+--------------+
|   536365|   85123A|WHITE HANGING HEA...|       6|12/1/2010 8:26|     2.55|     17850|United Kingdom|
|   536365|    71053| WHITE METAL LANTERN|       6|12/1/2010 8:26|     3.39|     17850|United Kingdom|
|   536365|   84406B|CREAM CUPID HEART...|       8|12/1/2010 8:26|     2.75|     17850|United Kingdom|
|   536365|   84029G|KNITTED UNION FLA...|       6|12/1/2010 8:26|     3.39|     17850|United Kingdom|
|   536365|   84029E|RED WOOLLY HOTTIE...|       6|12/1/2010 8:26|     3.39|     17850|United Kingdom|
+---------+---------+--------------------+--------+--------------+---------+----------+--------------+
only showing top 5 rows

Out[16]: 541909

In [None]:
retrail.where("Quantity <= 6").rdd.getNumPartitions() # 8
retrail.where("Quantity <= 6").explain() # just FileScan


df = retrail.collect()
pd_df = retrail.where("Quantity <= 6").toPandas()

type(df)

type(pd_df)

Out[10]: pandas.core.frame.DataFrame

In [None]:
retrail.sort("UnitPrice").explain()

== Physical Plan ==
AdaptiveSparkPlan isFinalPlan=false
+- Sort [UnitPrice#178 ASC NULLS FIRST], true, 0
   +- Exchange rangepartitioning(UnitPrice#178 ASC NULLS FIRST, 200), ENSURE_REQUIREMENTS, [plan_id=288]
      +- FileScan csv [InvoiceNo#173,StockCode#174,Description#175,Quantity#176,InvoiceDate#177,UnitPrice#178,CustomerID#179,Country#180] Batched: false, DataFilters: [], Format: CSV, Location: InMemoryFileIndex(1 paths)[dbfs:/databricks-datasets/definitive-guide/data/retail-data/all], PartitionFilters: [], PushedFilters: [], ReadSchema: struct<InvoiceNo:string,StockCode:string,Description:string,Quantity:string,InvoiceDate:string,Un...




In [None]:
retrail.rdd.getNumPartitions()

Out[18]: 8

In [None]:
# spark.conf.set("spark.sql.shuffle.partitions", "12") # this doesn't work seems that databrick do not accept partitions set
retrail.where("Quantity <= 6").sort("UnitPrice").rdd.getNumPartitions()


retrail.where("Quantity <= 6").sort("UnitPrice").explain()

Out[19]: 9

In specifying this action, we started a Spark job that runs our filter transformation (a narrow transformation), then an aggregation (a wide transformation) that performs the sort on a per partition basis, and then a collect, which brings our result to a native object in the respective language.

You can see all of this by inspecting the Spark UI, a tool included in Spark with which you can monitor the Spark jobs running on a cluster.

 You can read explain plans from top to bottom, the top being the end result, and the bottom being the source(s) of data. You will see sort, exchange, filter and FileScan. That’s because the sort of our data is actually a wide transformation because rows will need to be compared with one another.

### 4. Job, stages and tasks

In [None]:
df1 = spark.range(2, 100000, 2) # => stage 1, with 8 Tasks
df2 = spark.range(2, 100000, 4) # => stage 2, with 8 Tasks

step1 = df1.repartition(5) # => stage 3, with 5 Tasks

step12 = df2.repartition(6) # => stage 4, with 6 Tasks

step2 = step1.selectExpr("id * 5 as id") 
step3 = step2.join(step12, ["id"]) # => 2 instructions as stage 5, with 8 Tasks (by default)
step4 = step3.selectExpr("sum(id)") # => stage 6, with 1 Tasks because we aggregate only one result

step4.collect()

step4.rdd.getNumPartitions()

step4.explain()

Out[32]: 1

### 5. Spark UI