# Jointure

D'une mani√®re g√©n√©rale, le sujet des jointures en big data est un des sujets de ce domaine les plus complexes, mais aussi sur lequel il y a le plus d'enjeu, tant nous avons une vision relationnelle de la donn√©e.

Le principe d'une jointure consiste, en effet, √† fusionner deux datasets en recherchant dans les deux datasets les lignes qui partagent la m√™me cl√©. Un algorithme na√Øf va r√©soudre une jointure en $O(n^2)$ :

> pour chaque √©l√©ment du premier dataset, je parcours le second dataset pour retrouver le ou les √©l√©ments paratageant la m√™me cl√©.

Dans un contexte big data, une telle complexit√© n'est pas envisageable, du fait de la taille des donn√©es √† traiter, des communications r√©seau que cela peut engendrer et de la capacit√© de stockage en m√©moire vive qui reste relativement petite.

Il existe heureusement des algorithmes de jointure, propos√©s par Spark, bien plus efficaces, qui vont consister √† utiliser une indexation sur la cl√© et/ou un tri sur la cl√© et/ou la diffusion d'un dataset entier sur les diff√©rents executors pour r√©aliser les op√©rations de recherche en local.

Spark, par d√©faut, va rechercher l'algorithme le plus adapt√© et le plus performant, en fonction du type de jointure et de statistiques obtenues sur les donn√©es. Mais, vous avez la possibilit√© de forcer Spark √† adopter un algorithme.

**Dans ce notebook**, vous allez voir les diff√©rents algorithmes propos√©s par Spark et leurs cons√©quences, ainsi que les diff√©rents types de jointures possibles et ce qu'elles impliquent en termes de performance.

## Pr√©lude

In [None]:
import $ivy.`org.slf4j:slf4j-reload4j:2.0.6`
import $ivy.`org.apache.logging.log4j:log4j-api:2.8.2`
import $ivy.`org.apache.logging.log4j:log4j-slf4j-impl:2.8.2`

// Avoid disturbing logs
import org.apache.log4j._
import org.apache.log4j.varia._
BasicConfigurator.configure(NullAppender.getNullAppender())

import $ivy.`org.apache.spark::spark-core:3.2.1`
import $ivy.`org.apache.spark::spark-sql:3.2.1`

In [None]:
import org.apache.spark.sql._
import org.apache.spark.sql.functions._
import org.apache.spark.rdd._

val spark = {
  NotebookSparkSession.builder()
    .master("local[*]")
    .appName("Spark tuning - Jointure")
    .config("spark.sql.legacy.timeParserPolicy", "LEGACY")
    .getOrCreate()
}

import spark.implicits._

## Chargement des datasets

Nous allons utiliser dans ce notebook des datasets diff√©rents de ce qui a √©t√© vu jusque-l√†. Nous nous mettons dans le cadre d'une application sur t√©l√©phone, qui permet √† ses utilisateurs de partager sa position avec leurs amis. Pour cela, l'application d√©tecte par g√©olocalisation le lieu et propose √† l'utilisateur de partager le lieu (_checkin_). Une gamification est ajout√©e, qui permet √† l'utilisateur de gagner des badges selon la fr√©quence de ses checkins, la distance entre deux chekins, l'utilisateur qui effectue r√©guli√®rement les premiers checkins de la journ√©e d'un m√™me lieu devient "Maire" de ce lieu...

Nous avons deux datasets :

* Venues : repr√©sente un ensemble de lieux enregistr√©s qu'il est possible de visiter. Il contient notamment l'identifiant du lieu et ses coordonn√©es.
* Checkins : repr√©sente l'ensemble des checkins r√©alis√©s par les utilisateurs de l'application. Il contient l'identifiant de l'utilisateur, l'identifiant du lieu et le timestamp du checkin.

In [None]:
import java.time.Instant

case class Venue(id: String, latitude: Double, longitude: Double, locationType: String, country: String)
case class Checkin(userId: String, venueId: String, timestamp: Instant)

val venuesFilename   = "data/threetriangle/venues.txt.gz"
val checkinsFilename = "data/threetriangle/checkins.txt.gz"

val venues =
  spark.read
    .option("sep", "\t")
    .schema("id STRING, latitude DOUBLE, longitude DOUBLE, locationType STRING, country STRING")
    .csv(venuesFilename)
    .as[Venue]

val checkins =
  spark.read
    .option("sep", "\t")
    // Option to correctly interpret timestamp in checkin data
    .option("timestampFormat", "EEE MMM d HH:mm:ss Z yyyy")
    .schema("userId STRING, venueId STRING, timestamp TIMESTAMP, tzOffset INT")
    .csv(checkinsFilename)
    .as[Checkin]

venues.createOrReplaceTempView("venues")
checkins.createOrReplaceTempView("checkins")

## Jointure

Nous voulons maintenant retrouver les informations des diff√©rents lieux o√π ont √©t√© effectu√©s les checkins. Nous avons donc besoin de r√©aliser une jointure entre les datasets Checkins et Venues.

La m√©thode `.join()` est assez simple √† utiliser. Elle s'applique sur un premier dataframe, puis vous sp√©cifiez en param√®tre le dataframe avec lequel vous cr√©ez une jointure, en indiquant √©ventuellement la relation de jointure et le type de jointure (inner, outer, left outer, right outer..., par d√©faut : inner).

In [None]:
val data = checkins.join(venues, checkins("venueId") === venues("id"))
data.show(numRows = 10)

Affichons le plan d'ex√©cution de cette requ√™te. Essayer de percevoir les diff√©rentes, dont celles qui concernent la jointure (Quelles optimisations sont apport√©es ? Y a-t-il des √©changes de donn√©es ?)

Note : un plan d'ex√©cution se lit du bas vers le haut pour suivre les diff√©rentes √©tapes de traitement dans l'ordre.

In [None]:
data.explain()

Allez dans Spark UI et explorez l'onglet "SQL / DataFrame". Spark UI montre un DAG assez complexe pour la requ√™te.

**Approche alternative**

Voici l'√©quivalent de notre requ√™te, mais cette fois exprim√©e en SQL.

In [None]:
val data =
  spark.sql("""
SELECT *
FROM
  checkins c INNER JOIN venues v ON (v.id = c.venueId)
""")

data.show(numRows = 10)

ü§î **Question** ü§î

Le plan d'ex√©cution de cette requ√™te est-il similaire au plan pr√©c√©dent ?

In [None]:
data.explain()

üëÄ **Ce qu'il faut voir** üëÄ

Dans le processus de g√©n√©ration du plan d'ex√©cution physique, nous pouvons voir que Spark fini par s√©lectionner une strat√©gie de jointure. Cette strat√©gie se traduit par une phase d'√©change (ou plus exactement, de diffusion) de donn√©es entre ex√©cuteurs (`BroadcastExchange`). Puis, interviens la phase de jointure bas√©e sur le _hash_ de la cl√© de jointure (`BroadcastHashJoin`).

Nous pouvons voir aussi que Spark se laisse la possibilit√© au dernier moment de changer de strat√©gie de jointure (`AdaptiveSparkPlan isFinalPlan=false`), sur la base de donn√©es statistiques r√©cup√©r√©es pendant l'ex√©cution.

Ce type de jointure est similaire √† ce que nous avons vu avec les variables broadcast dans le cas des RDD.

## Strat√©gie de jointure

Spark SQL dispose de diff√©rentes strat√©gies de jointure. Nous venons d'en voir une dans la section pr√©c√©dente.

Sans pr√©cision dans le code, cette strat√©gie est choisie selon une heuristique param√©trable li√©e, notamment, au type de la jointure, la condition sur les cl√©s (√©quivalence ou non-√©quivalence), √† taille des donn√©es ou √† d'autres donn√©es statistiques.

Si vous voulez forcer la strat√©gie de jointure, vous pouvez le pr√©ciser dans le code √† travers des _hints_ :

```scala
  df1.join(df2.hint("<Strat√©gie>"), ...)
```

En SQL :

```scala
  spark.sql("""SELECT /*+ <Strat√©gie> */ ...""")
```

Voici les diff√©rentes strat√©gies (et les valeurs √† utiliser dans les hints) :

 * Broadcast Hash Join (BROADCAST / BROADCASTJOIN / MAPJOIN)
 * Shuffle Sort-Merge Join (MERGE / SHUFFLE_MERGE / MERGEJOIN)
 * Shuffle Hash Join (SHUFFLE_HASH)
 * Shuffle-and-Replicate Nested Loop Join (SHUFFLE_REPLICATE_NL)

### Broadcast Hash Join

Cette strat√©gie est utilis√©e dans ces conditions :
 * La relation de jointure se base sur l'√©galit√© entre les cl√©s (ie. `dataset1("key") === dataset2("key")`).
 * L'un des datasets est consid√©r√© comme √©tant suffisamment petit.
 * Tous les types de jointure sont support√©s, sauf FULL OUTER JOIN.

Dans ce cas, le "petit" dataset est transmis (ou diffus√©, d'o√π le terme _broadcast_) sous la forme d'une table de hachage (_hash table_) √† l'ensemble des ex√©cuteurs participant √† la jointure. La jointure est alors r√©alis√©e en local sur chaque n≈ìud.

Le seuil indiquant si la strat√©gie sera utilis√©e est fix√©e par le param√®tre `spark.sql.autoBroadcastJoinThreshold`. Il est exprim√© en octets (valeur par d√©faut : 10485760 (= 10 MB)). Si l'un des datasets de la jointure √† une taille inf√©rieure √† ce seuil, il sera diffus√©. Si aucun 

Dans le cadre de la fonctionnalit√© AQE (_Adaptive Query Execution_), qui permet de pousser Spark √† s√©lectionner une autre start√©gie sur la base de relev√©s statistiques, au lieu de la strat√©gie planifi√©e initialement, le seuil permettant de passer √† la strat√©gie _Broadcast Hash Join_ est fix√© par le param√®tre `spark.sql.adaptive.autoBroadcastJoinThreshold` exprim√© en octet. Si vous fixez sa valeur √† -1, cette fonctionnalit√© est d√©sactiv√©e.

Un autre param√®tre intervient : `spark.sql.broadcastTimeout`. Ce param√®tre est exprim√© en secondes (valeur par d√©faut¬†: 300 (= 5mn)). Il est d√©tect√© des probl√®mes de communication durant la diffusion des donn√©es. Si la diffusion de la table ne peut pas √™tre termin√©e dans le d√©lai imparti, Spark interrompt l'ex√©cution de la requ√™te et g√©n√®re une erreur.

### Shuffle Sort-Merge Join

Cette strat√©gie est utilis√©e dans ces conditions :
 * La relation de jointure se base sur l'√©galit√© entre les cl√©s (ie. `dataset1("key") === dataset2("key")`).
 * Il est possible de trier les cl√©s.
 * Tous les types de jointure sont support√©s.
 
C'est la strat√©gie utilis√©e par d√©faut (sauf dans le cas ou le param√®tre `spark.sql.join.preferSortMergeJoin=false`, dans ce cas, Spark utilisera _Shuffle Hash Join_).

Les √©tapes de jointure sont :
 1. √âchanges des donn√©es entre ex√©cuteurs en fonction de la cl√©.
 2. Tri des donn√©es en local en fonction de la cl√©.
 3. Fusion des deux datasets.

En g√©n√©ral, _Shuffle Sort-Merge Join_ a de meilleures performances sur des donn√©es volumineuses.

### Shuffle Hash Join

Cette strat√©gie est utilis√©e dans ces conditions :
 * La relation de jointure se base sur l'√©galit√© entre les cl√©s (ie. `dataset1("key") === dataset2("key")`).
 * Il est possible de trier les cl√©s.
 * Tous les types de jointure sont support√©s, sauf FULL OUTER JOIN.

Les √©tapes de jointure sont :
 1. √âchanges des donn√©es entre ex√©cuteurs en fonction de la cl√©.
 2. D√©p√¥t des donn√©es transf√©r√©es en local dans une table de hachage en fonction de la cl√©.
 3. Fusion des deux datasets.

_Shuffle Hash Join_ est efficace lorsque la cl√© utilis√©e pour la jointure permet un partitionnement √©quilibr√© de la donn√©e.

### Shuffle-and-Replicate Nested Loop Join

Cette strat√©gie applique l'algorithme na√Øf vu plus haut : "pour chaque √©l√©ment du premier dataset, je parcours le second dataset pour retrouver le ou les √©l√©ments partageant la m√™me cl√©".

Ce type de jointure convient lorsque :
 * Le premier dataset est diffusable sur une jointure de type RIGHT OUTER JOIN.
 * Ou le second dataset est diffusable sur des jointures de type LEFT OUTER JOIN, LEFT SEMI JOIN ou LEFT ANTI JOIN.
 * Ou Dans tous les autres cas sur des jointures de type INNER JOIN ou √©quivalent.

### Produit cart√©sien

Le produit cart√©sien (ou CROSS JOIN) consiste √† retourner toutes les combinaisons possibles de lignes sur la fusion de deux dataset.

Ce type de jointure intervient lorsque :
 * Le type de jointure est INNER JOIN ou √©quivalent.
 * Ou `cross` est explicitement indiqu√© comme type de jointure
 
Dans les autres cas, l'op√©ration de jointure renvoie une erreur de type AnalysisException.

### Exercices

üë∑ Pour chacun des exercices ci-dessous, vous devez :
 1. Ex√©cuter la cellule contenant la requ√™te.
 2. Observer le plan d'ex√©cution
 3. Retrouver et observer dans Spark UI le DAG de la requ√™te correspondante
 
Essayez de distinguer les diff√©rences qu'il peut y avoir entre les diverses strat√©gies.

### Broadcast Hash Join

In [None]:
val data = checkins.join(venues.hint("BROADCAST"), checkins("venueId") === venues("id"))
data.show(numRows = 10)
data.explain()

### Shuffle Sort-Merge Join

In [None]:
val data = checkins.join(venues.hint("MERGE"), checkins("venueId") === venues("id"))
data.show(numRows = 10)
data.explain()

### Shuffle Hash Join

In [None]:
val data = checkins.join(venues.hint("SHUFFLE_HASH"), checkins("venueId") === venues("id"))
data.show(numRows = 10)
data.explain()

üëÄ **Question** üëÄ

En comparant dans Spark UI avec la pr√©c√©dente strat√©gie, quel pourrait √™tre la meilleure strat√©gie pour nos dataframe ?

### Shuffle-and-Replicate Nested Loop Join

Pour commencer, nous allons utiliser le hint `SHUFFLE_REPLICATE_NL` pour impliquer implicitement un produit cart√©sien.

In [None]:
val data = checkins.join(venues.hint("SHUFFLE_REPLICATE_NL"), checkins("venueId") === venues("id"))
data.show(numRows = 10)
data.explain()

Recherchons les lieux qui n'ont pas encore re√ßu de visite des utilisateurs. Pour cela, nous allons utiliser une jointure de type LEFT ANTI JOIN.

In [None]:
val data = venues.join(checkins.hint("SHUFFLE_REPLICATE_NL"), checkins("venueId") === venues("id"), "leftanti")
data.show(numRows = 10)
data.explain()

### Jointure sans cl√©

Cette fois, sans pr√©ciser la cl√©, nous allons g√©n√©rer toutes les combinaisons possibles d'utilisateurs et de lieux.

In [None]:
val data = checkins.select($"userId").join(venues)
data.show(numRows = 10)
data.explain()

## Influence du type de jointure sur la strat√©gie choisie

Nous allons voir, comment le type de jointure influe sur la strat√©gie de jointure choisie au sein de Spark. Pour rappel, les notions de dataframe gauche et de dataframe droite sont per√ßues par rapport √† l'op√©ration :

`<left_dataframe>.join(<right_dataframe>, ...)`

Voici les diff√©rents types de jointure :

* **inner** : par d√©faut, conserve les √©l√©ments ayant une correspondance de chaque c√¥t√© de la jointure.
* **outer, full, fullouter, full_outer** : tente de trouver une correspondance √† tous les √©l√©ments des deux dataframes, ou en associant des valeurs nulles par d√©faut.
* **leftouter, left, left_outer** : tente de trouver une correspondance pour tous les √©l√©ments de dataframe de gauche, des valeurs nulles sont utilis√©es par d√©faut, pour les √©l√©ments qui ne poss√®dent pas de correspondant √† droite.
* **rightouter, right, right_outer** : tente de trouver une correspondance pour tous les √©l√©ments de dataframe de droite, des valeurs nulles sont utilis√©es par d√©faut, pour les √©l√©ments qui ne poss√®dent pas de correspondant √† gauche.
* **leftsemi, left_semi, semi** : √©quivalent √† un _inner join_, sauf que les colonnes du dataframe de droite sont retir√©es en sortie. Ce type de jointure permet de v√©rifier que des valeurs d'un dataframe apparaissent bien dans un autre dataframe.
* **leftanti, left_anti, anti** : recherche dans le dataframe de gauche les cl√©s qui n'apparaissent pas dans le dataframe de droite. C'est l'oppos√© de _left semi join_. 
* **cross** : produit cart√©sien, essaye toutes les combinaisons de correspondances entre les √©l√©ments gauches et droites.

Ici, nous allons utiliser des donn√©es plus simples : un ensemble d'utilisateurs, que nous chargeons directement en m√©moire.

In [None]:
val users =
  Seq(
    ("123", "1", 32),
    ("456", "2", 25),
    ("789", "3", 16),
    ("321", "8", 55)
  ).toDF("id", "name_id", "age")

val mapping =
  Seq(
    ("1", "Jon"),
    ("2", "Mary"),
    ("3", "Tom"),
    ("4", "Albert")
  ).toDF("id", "name")

val adults = users.where($"age" >= 18)

ü§î **Question** ü§î

* Pour chaque cellule ci-dessous, quelles principales diff√©rences relevez-vous concernant le plan d'ex√©cution ?
* Regroupez les diff√©rents types de jointure selon l'√©quivalence des plans d'ex√©cution. Expliquez pourquoi certains plans sont similaires pour des types de jointure diff√©rents ?

In [None]:
val data = adults.join(mapping, adults("name_id") === mapping("id"), "inner")
data.show()

In [None]:
val data = adults.join(mapping, adults("name_id") === mapping("id"), "outer")
data.show()

In [None]:
val data = adults.join(mapping, adults("name_id") === mapping("id"), "left_outer")
data.show()

In [None]:
val data = adults.join(mapping, adults("name_id") === mapping("id"), "right_outer")
data.show()

In [None]:
val data = adults.join(mapping, adults("name_id") === mapping("id"), "left_semi")
data.show()

In [None]:
val data = adults.join(mapping, adults("name_id") === mapping("id"), "left_anti")
data.show()

## Auto-jointure (_self join_)

L'auto-jointure est une jointure o√π le dataframe de gauche et de droite sont les m√™mes.

Nous avons la table d'employ√©s ci-dessous, qui indique dans la colonne `superior` l'employ√© responsable.

In [None]:
val employees =
  Seq(
    ("123", "Jon", null),
    ("456", "Mary", "123"),
    ("789", "Tom", "123"),
    ("321", "Frank", null)
  ).toDF("id", "name", "superior")

employees.show()

Nous voulons afficher chaque employ√© son responsable, s'il en a un.

In [None]:
val data =
  employees.as("l")
    .join(employees.as("r"), $"l.id" === $"r.superior")
    .select($"l.id", $"r.name", $"l.name" as "superior")
data.show()

ü§î **Question** ü§î

* Quelle strat√©gie est appliqu√©e ?