# Introduction : observer les traitements

Vous connaissez Apache Spark comme le moteur de calcul distribu√© et puissant qui est largement utilis√© pour les traitements batch de donn√©es √† grande √©chelle. Cependant, comme tout autre outil de traitement de donn√©es de cette envergure, la performance de Spark peut √™tre grandement affect√©e par la fa√ßon dont vous configurez Spark, vous utilisez Spark et la fa√ßon dont vous g√©rez vos donn√©es au sein de Spark. Une configuration inad√©quate, un mauvais choix d'op√©rations ou un mauvais choix de cl√© dans vos datasets peuvent conduire √† des performances m√©diocres (par exemple, par sur-utilisation des disques et du r√©seau), voire √† des √©checs d'application (par exemple, en ramenant trop de donn√©es sur un n≈ìud Spark, provoquant ainsi un _out of memory error_ ou _OOM_).

Cette formation a pour de comprendre les m√©canismes internes de Spark et d'apprendre √† percevoir dans vos applications les parties qui pourraient √™tre am√©lior√©es afin de gagner en temps de calcul.

Dans ce notebook, nous allons commencer par mieux appr√©hender les outils de monitoring propos√©s par Spark (typiquement, Spark UI) et voir comment ces outils r√©agissent face √† des op√©rations Spark SQL simples. Nous allons donc particuli√®rement nous int√©resser aux plans d'ex√©cution issue de diff√©rents types de requ√™te.

## Pr√©lude

Nous utilisons ici le moteur de notebook [Jupyter](https://jupyter.org/). Celui-ci a √©t√© d√©velopp√© en Python et fait partie des moteurs de notebook parmi les plus utilis√©s du moment (avec Databricks notebook, Zeppelin et Polynote).

Jupyter se base sur des _kernels_ afin de faire fonctionner divers langages dans ses notebooks. Nous nous basons ici sur le _kernel_ [Almond](https://almond.sh/), qui utilise l'interpr√©teur Scala [Ammonite](https://ammonite.io/).

üë∑ Ex√©cuter les deux cellules suivantes.

In [None]:
import $ivy.`org.slf4j:slf4j-reload4j:2.0.6`
import $ivy.`org.apache.logging.log4j:log4j-api:2.8.2`
import $ivy.`org.apache.logging.log4j:log4j-slf4j-impl:2.8.2`

// Avoid disturbing logs
import org.apache.log4j._
import org.apache.log4j.varia._
BasicConfigurator.configure(NullAppender.getNullAppender())

import $ivy.`org.apache.spark::spark-core:3.5.0`
import $ivy.`org.apache.spark::spark-sql:3.5.0`

In [None]:
import org.apache.spark.rdd._
import org.apache.spark.sql._
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

val spark = {
  NotebookSparkSession.builder()
    .progress(enable = true, keep = true, useBars = false)
    .master("local[*]")
    .appName("Spark tuning ‚Äì Introduction")
    .getOrCreate()
}

import spark.implicits._
val sparkContext = spark.sparkContext
import $file.^.internal.spark_helper
import spark_helper.implicits._

## Analyse d'un chargement de fichier CSV

Nous allons commencer par charger un fichier CSV et observer ce qu'il se passe dans Spark UI.

In [None]:
%%data limit=10

val orders: DataFrame =
  spark.read
    .option("header", true)
    .csv("data/orders.csv")

orders.printSchema()
orders

üëÄ **Ce qu'il faut voir** üëÄ

Avant de basculer sur Spark¬†UI, Spark (via Almond) fait appara√Ætre deux t√¢ches (done), avec un libell√© du style `csv at cell...` ou `showHTML`. Ces t√¢ches repr√©sentent en fait des jobs Spark.

Ici, le premier job permet de r√©cup√©rer le nom des colonnes du contenu du fichier CSV. En effet, nous n'avons rien pr√©cis√© concernant la structure du fichier CSV √† part qu'il contient un en-t√™te. Spark doit donc r√©cup√©rer cet en-t√™te du fichier, afin de d√©terminer le nom des colonnes.

Le second job est lanc√© par la commande `.showHTML` qui ajout√© sur la derni√®re ligne de la cellule par `%%data`.

## Spark UI

* Allez dans Spark UI (`http://<hostname>:4040`)
* Cliquez sur l'onglet "SQL"

√Ä ce niveau, vous allez voir 2 requ√™tes. La premi√®re (ID=0) est nomm√©e "csv..." et la seconde (ID=1) est nomm√©e "show...".
    
ü§î **Question** ü§î

 * Pour la requ√™te 0, combien de lignes ont √©t√© extraites du fichier `orders.csv` ? Expliquez ce nombre.
 * Pour la requ√™te 1, combien de lignes ont √©t√© extraites du fichier `orders.csv` ? Expliquez ce nombre.

Note : le fichier contient environ 10¬†000 lignes.

### Plan d'ex√©cution
    
Dans Spark UI, affichez le d√©tail de la requ√™te 1. En bas, de la page, cliquez sur `> Details`.
    
Dans l'encadr√© "Details", vous voyez appara√Ætre les plans d'ex√©cution de votre requ√™te. 4 plans sont affich√©s :
    
* "Parsed Logical Plan" : c'est le plan d'ex√©cution qui est issue directement de votre requ√™te.
* "Analyzed Logical Plan" : c'est √† nouveau le plan de votre requ√™te, mais avec la r√©solution des noms et des types.
* "Optimized Logical Plan" : il s'agit d'une premi√®re optimisation de votre requ√™te, sans consid√©rer le support physique.
* "Physical Plan" : il s'agit du plan qui sera effectivement ex√©cut√©. Il a √©t√© g√©n√©r√© apr√®s une seconde optimisation prenant en compte le support physique.
    
Chacun des plans se lisent du bas vers le haut : la premi√®re op√©ration du traitement se trouve en bas et la derni√®re op√©ration du traitement se trouve en haut.

ü§î **Question** ü§î

Dans le plan physique, au niveau de l'op√©ration,

* Quel type d'op√©ration est lanc√©e en premier lieu ?
* Remarquez la structure qui sera extraite de ce traitement.

### Explain

Une fa√ßon de voir le plan d'ex√©cution, c'est d'utiliser la m√©thode `.explain()`.

In [None]:
orders.explain()

Il est possible d'utiliser ces options sous forme de cha√Æne de caract√®res sur la m√©thode `.explain()`

* simple affiche uniquement le plan physique.
* extended: affiche le plan logique et le plan physique.
* codegen: affiche le plan physique et le code g√©n√©r√© s'il est disponible.
* cost: affiche le plan logique et les statistiques, si elles sont disponibles.
* formatted: s√©pare la sortie en deux parties : une vue g√©n√©rale sur le plan physique et les d√©tails de chacun des n≈ìuds du plan.

In [None]:
orders.explain("formatted")

### Explain ou Spark UI pour le plan d'ex√©cution ?

La m√©thode `.explain()` permet d'obtenir imm√©diatement dans un code diverses informations concernant une requ√™te, sans avoir √† rechercher l'URL de Spark UI. Cependant, `.explain()` a une limitation : `.explain()` vous fournira les informations qu'il pourra obtenir d'une requ√™te avant son ex√©cution. De fait, `.explain()` ne donnera pas le plan qui a √©t√© effectivement ex√©cut√©, en particulier, les temps interm√©diaires d'ex√©cution ou les derni√®res optimisations qui ont √©t√© apport√©es sur le plan physique, suite aux statistiques obtenues sur les donn√©es, ou les modifications li√©es au cache.

De son c√¥t√©, Spark UI offre la possibilit√©, une fois la requ√™te ex√©cut√©e, de voir
* une repr√©sentation graphique du plan d'ex√©cution (sous forme de DAG),
* le plan physique optimis√©,
* le rattachement √† des jobs Spark Core et les phases d'√©change de donn√©es,
* l'ensemble des caches utilis√©s.

Par contre, sur de la donn√©es volumineuse, il faut attendre que le traitement soit fait pour avoir le plan d'ex√©ction final avec les stats.

Donc, `.explain()` est donc bien pour avoir rapidement une id√©e de ce que va faire une requ√™te. Spark UI est bien pour voir dans le d√©tail ce qu'il s'est r√©ellement pass√©.

## Projection

üë∑ Lancez la requ√™te ci-dessous, qui effectue une projection des donn√©es sur une colonne, en utilisant `.select()`.

In [None]:
%%data limit=10

orders
  .select($"product")

ü§î **Question** ü§î

Dans le plan d'ex√©cution associ√© √† la requ√™te ci-dessus,

* Quelle structure de donn√©e est r√©cup√©r√©e ?
* Est-elle diff√©rente de celle extraite par la requ√™te pr√©c√©dente ?

## Filtre

üë∑ Ex√©cutez la requ√™te ci-dessous, qui filtre les donn√©es avec `.where().

In [None]:
%%data limit=10

orders
  .where($"product" === "expresso")

ü§î **Question** ü§î

Selon le plan physique de cette requ√™te,

* Quel est le filtre qui est appliqu√© sur les donn√©es ?
* Combien de fois ce filtre appara√Æt dans le plan physique ?

### Pushed down filters

Lors de la lecture du fichier, nous pouvons voir que le filtre est aussi appliqu√©. C'est ce qu'indique le champ `PushedFilters`. Cette fonctionnalit√© est appel√©e _pushed down filters_. Elle consiste √† appliquer les filtres que vous utilisez dans votre requ√™te (haut niveau) au niveau du support physique (niveau bas). Cette fonctionnalit√© est surtout int√©ressante pour des sources de donn√©es comme les formats orient√©s colonnes (Parquet, ORC) ou les connexions JDBC, etc. Toutes les sources permettant de filtrer nativement les donn√©es.

### WholeStageCodeGen

Si vous regardez le DAG de la requ√™te, vous voyez que l'op√©ration Filter est inclu dans un n≈ìud plus vaste, nomm√© `WholeStageCodegen`. Ce n≈ìud indique que l'op√©ration Filter a √©t√© convertie en code Java et qu'elle a √©t√© compil√©e au runtime avant d'√™tre ex√©cut√©e.

Le `WholeStageCodegen` pr√©sente ces avantages :
* Permettre de regrouper une s√©rie d'op√©rations en une seule par composition.
* Utiliser implicitement les espaces m√©moires off-heap, qui ne subit pas l'intervention du GC et dont les acc√®s sont optimis√©s.

## Deux op√©rations en une

üë∑ Ex√©cutez la cellule ci-dessous et allez voir comment est interpr√©t√©e cette requ√™te dans Spark UI.

In [None]:
%%data limit=10

orders
  .where($"product" === "expresso")
  .select($"client", $"price" * 2)

ü§î **Question** ü§î

Est-ce que Spark a regroup√© les 2 op√©rations de la requ√™te ci-dessus en un seul bloque ?

### Afficher le code g√©n√©r√©

Il est possible d'afficher le code g√©n√©r√© par Spark.

üë∑ Ex√©cuter la cellule ci-dessous et allez voir au niveau de la ligne 71 dans le code g√©n√©r√©.

In [None]:
orders
  .where($"product" === "expresso")
  .select($"client", $"price" * 2)
  .explain("codegen")

## Agr√©gation

Nous avons vu jusque-l√† des op√©rations lin√©aires (filter, select). Nous allons maintenant voir une op√©ration plus complexe : l'agr√©gation.

L'agr√©gation consiste √† composer une collection de valeur afin d'obtenir une valeur r√©sultante unique. Typiquement, il peut s'agir de compter le nombre d'√©l√©ments dans cette collection, de faire la somme des valeurs contenues s'il s'agit de nombres, de calculer un prix total sur une commande, de d√©terminer le dernier √©v√©nement √† prendre en compte...

Dans le cadre de Spark, la collection consid√©r√©e est un dataframe. Le probl√®me auquel nous faisons face avec Spark, c'est qu'un dataframe s'apparente √† une collection dont les √©l√©ments sont √©parpill√©s sur plusieurs machines, et donc executors. Pour effectuer une agr√©gation dans ce cas, il faut commencer par r√©aliser cette agr√©gation en local sur chaque executor, afin d'obtenir un r√©sultat interm√©diaire. Les diff√©rents r√©sultats interm√©diaires sont ensuite envoy√©s au driver qui terminera l'agr√©gation.

üë∑ Nous allons voir ce que cela donne avec un simple `.count`.

In [None]:
orders.count

Sur une agr√©gation de ce type, le plan d'ex√©cution ne peut √™tre vu que dans Spark UI.

Dans Spark UI, nous pouvons remarquer que le plan physique est divis√© en deux sous-plan :
* "Initial Plan" : plan physique initialement calcul√© par Spark
* "Final Plan" : il s'agit d'une r√©vision du plan physique initial, apr√®s avoir pris en compte le volume des donn√©es.

Dans le plan physique, nous voyons appara√Ætre `AdaptiveSparkPlan isFinalPlan=true`. Ce qui signifie que lors de l'ex√©cution de la requ√™te, Spark a calcul√© d'apr√®s les volum√©tries √† traiter qu'une optimisation √©tait encore possible et qu'il l'a appliqu√©e. Il s'agit de la mise en pratique de la fonctionnalit√© _Adaptive Query Execution_ (ou AQE), qui est une nouveaut√© de Spark 3.

Dans le plan physique, nous pouvons voir les op√©rations suivantes :
* `HashAggregate` : indique qu'une agr√©gation de donn√©es est effectu√©e par rapport aux cl√©s indiqu√©es dans les param√®tres de l'op√©ration, dont un hash est calcul√©. Ici, nous pouvons observer qu'aucune cl√© n'est utilis√©e. Dans les param√®tres, nous pouvons observer aussi `partial_count(1)` pour la premi√®re agr√©gation (il s'agit d'une agr√©gation locale) et `count(1)` pour la seconde agr√©gation (il s'agit de l'agr√©gation finale).
* `Exchange SinglePartition` : `Exchange` signifie que des donn√©es sont √©chang√©es entre plusieurs executors. `SinglePartition` indique que les donn√©es sont dans une seule partition. Il y a donc un √©change de donn√©es dans une seule partition. Autrement dit, l'op√©ration ne fait rien.
* `ShuffleQueryStage` : il s'agit de la phase d'√©change proprement. Cette op√©ration est ajout√©e aussi par la fonctionnalit√© AQE afin de permettre de dissocier les op√©rations aval des autres op√©rations et de permettre √† Spark de changer de strat√©gie en fonction des volum√©tries observ√©es.

#### Association avec Spark Core

üë∑ Dans le haut de la page Spark UI, montrant les d√©tails de la requ√™te, vous avez un champ indiquant les jobs associ√©s en succ√®s. Il y en a deux. Cliquez sur celui le plus √† droite.

Dans la page qui vient de s'ouvrir, vous voyez appara√Ætre le DAG vu par Spark Core. Il est divis√© en deux parties. Chaque partie correspond √† un _stage_. Un _stage_ est une suite d'op√©ration Spark Core dans laquelle toutes les op√©rations se font en local dans l'executor. D√®s qu'on sort d'un stage pour entrer dans un autre, il y a un √©change de donn√©es qui s'effectue entre les executors.

L'objectif est bien s√ªr d'avoir le moins de stage possible dans un traitement. En effet, un √©change de donn√©es signifie une utilisation du r√©seau et une baisse des performances.

Dans le DAG affich√© dans Spark UI, nous pouvons voir que le stage de gauche est gris√© et annot√© _(skipped)_. C'est parce que le premier stage est en r√©alit√© effectu√© par le premier job de notre requ√™te.



### Moyenne

Voici une autre requ√™te effectuant une agr√©gation au moyen cette fois de `.groupBy()` et de `.agg()`.

La particularit√© ici par rapport √† `.count`, c'est qu'√† travers la m√©thode `.groupBy()`, nous d√©terminons une cl√© pour regrouper les valeurs. Ceci signifie que les donn√©es vont √™tre redistribu√©es, afin que celles ayant la m√™me cl√© se retrouvent au niveau du m√™me executor. Une fois la redistribution faite, l'agr√©gation par cl√© peut se faire.

In [None]:
%%data limit=10

import org.apache.spark.sql.functions._

orders
  .groupBy($"client")
  .agg(avg($"price") as "avg_price")

ü§î **Question** ü§î

* Quelles diff√©rences voyez-vous avec le plan d'ex√©cution dans le cas du `.count` ?

## Jointure

Nous allons ce que donne le plan d'ex√©cution dans le cadre d'une jointure.

Pour cela, nous allons utiliser un fichier de correspondance entre les identifiants des clients et leur nom.

In [None]:
%%data limit=10

val mapping = spark.read.option("header", true).csv("data/client-mapping.csv")

mapping.printSchema()
mapping

Le code ci-dessous effectue une jointure entre nos deux dataframes.

La jointure est une op√©ration particuli√®re qui implique de redistribuer sur le cluster les donn√©es, un peu comme pour l'agr√©gation. Mais pour la jointure, il existe divers strat√©gie que nous √©tudierons dans un prochain Notebook.

In [None]:
%%data limit=10

orders
  .join(mapping, $"client" === $"clientId")

ü§î **Question** ü§î
* Comment est repr√©sent√©e la jointure dans le graphe dans Spark UI ?

La notion de _broadcast_ implique l'id√©e de partir d'une valeur et de la copier telle quelle au niveau de l'ensemble des ex√©cuteurs.

## User-Defined Function (UDF)

Nous allons voir maintenant l'effet d'une UDF sur le plan d'ex√©cution.

üë∑ Ex√©cutez la cellule ci-dessous qui utilise les fonctions _builtins_ de Spark.

In [None]:
%%data limit=10

val q1 = orders.withColumn("date", to_date($"timestamp"))

q1

üë∑ Ex√©cutez la cellule ci-dessous qui d√©finie et utilise une UDF.

In [None]:
%%data limit=10

import org.apache.spark.sql.types._

def toDate(timestamp: java.sql.Timestamp): java.sql.Date = {
  java.sql.Date.valueOf(timestamp.toLocalDateTime().toLocalDate())
}

val toDate_udf = udf(toDate(_)).withName("toDate_udf")

val q2 = orders.withColumn("date", toDate_udf($"timestamp"))

q2

ü§î **Question** ü§î

Selon le plan d'ex√©cution de ces deux requ√™tes, quels diff√©rences apparaissent ?

In [None]:
q1.explain("formatted")

In [None]:
q2.explain("codegen")