# Gestion du cache

Le principe d'un cache est de conserver les r√©sultats de requ√™tes pour ne pas avoir √† les recalculer lorsque ces requ√™tes seront √† nouveau re√ßues. Le cache est int√©ressant √† partir du moment o√π des requ√™tes reviennent assez fr√©quemment, sachant qu'en contrepartie, la cache va consommer de la ressource m√©moire, disque et CPU. Il faut que cette consommation de ressources soit plus rentable que la consommation faite par le calcul qu'implique la requ√™te re√ßue, pour que le cache soit consid√©r√© comme une option int√©ressante.

Spark propose une fonctionnalit√© de cache au niveau Spark Core sur les RDD et Spark SQL sur les dataframe et les dataset. Dans le cadre de Spark SQL, le cache devient int√©ressant d√®s qu'un dataframe est utilis√© dans plusieurs requ√™tes s√©par√©es. Dans cette situation, l'utilisation du cache pour un dataframe permet au niveau de chacune des requ√™tes qui utilisent ce dataframe de r√©√©valuer √† chaque fois les calculs qui ont conduit √† ce dataframe.

## Pr√©lude

In [None]:
import $ivy.`org.slf4j:slf4j-reload4j:2.0.6`
import $ivy.`org.apache.logging.log4j:log4j-api:2.8.2`
import $ivy.`org.apache.logging.log4j:log4j-slf4j-impl:2.8.2`

// Avoid disturbing logs
import org.apache.log4j._
import org.apache.log4j.varia._
BasicConfigurator.configure(NullAppender.getNullAppender())

import $ivy.`org.apache.spark::spark-core:3.4.1`
import $ivy.`org.apache.spark::spark-sql:3.4.1`

In [None]:
import org.apache.spark.rdd._
import org.apache.spark.sql._
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._
import org.apache.spark.storage.StorageLevel

val spark = {
  NotebookSparkSession.builder()
    .progress(enable = true, keep = true, useBars = false)
    .master("local[*]")
    .appName("Spark tuning ‚Äî Cache")
    .getOrCreate()
}

import spark.implicits._
val sparkContext = spark.sparkContext
import $file.^.internal.spark_helper
import spark_helper.implicits._

In [None]:
def callWithName[A](name: String)(f: => A): A = {
  spark.sparkContext.setCallSite(name)
  try f
  finally spark.sparkContext.clearCallSite()
}

## Introduction sur le cache

In [None]:
%%data limit=10

val orders: DataFrame =
  spark.read
    .option("header", true)
    .csv("data/orders.csv")
    .repartition(4)

orders.printSchema()
orders

### Sans cache

Nous voulons effectuer des analyses sur la journ√©e du 1er f√©vrier 2023, sans utiliser de cache.

In [None]:
%%data limit=10

val partOfOrders = orders.where(to_date($"timestamp") === to_date(lit("2023-02-01")))

partOfOrders

Nous r√©cup√©rons d'abord le chiffre d'affaires de la journ√©e.

In [None]:
callWithName("show revenue - no cache") {
  partOfOrders
    .agg(round(sum($"price"), 2) as "total")
    .show()
}

Nous allons ensuite analyser la r√©partition du chiffre d'affaires de la journ√©e sur les diff√©rents produits.

In [None]:
callWithName("show product revenue - no cache") {
  partOfOrders
    .groupBy($"product")
    .agg(sum($"price") as "total")
    .where($"total" >= 15.0)
    .orderBy($"total".desc)
    .show()
}

Nous r√©cup√©rons enfin la r√©partition des ventes par client sur le caf√© noisette et le total des ventes de la journ√©e sur ce produit.

In [None]:
callWithName("show noisette - no cache") {
  partOfOrders
    .where($"product" === "noisette")
    .cube($"client")
    .agg(sum($"price") as "total")
    .orderBy($"client".desc)
    .show()
}

üëÄ **Question** üëÄ

Dans toutes ces requ√™tes, lorsque nous regardons le plan d'ex√©cution, nous voyons des DAG relativement √©quivalents. De plus chaque requ√™te se traduit par l'ex√©cution de 3 jobs. Nous le voyons dans ce notebook, au niveau des barres de progression.

### Avec cache

Nous allons maintenant ex√©cuter les m√™mes requ√™tes. Mais cette fois, nous allons mettre en cache le dataframe filtr√© sur la journ√©e 1er f√©vrier 2023.

In [None]:
%%data limit=10

val partOfOrders = orders.where(to_date($"timestamp") === to_date(lit("2023-02-01"))).cache()

partOfOrders

üë∑ Ex√©cutez les requ√™tes ci-dessous.

In [None]:
callWithName("show revenue - cache") {
  partOfOrders
    .agg(round(sum($"price"), 2) as "total")
    .show()
}

In [None]:
callWithName("show product revenue - cache") {
  partOfOrders
    .groupBy($"product")
    .agg(sum($"price") as "total")
    .where($"total" >= 15.0)
    .orderBy($"total".desc)
    .show()
}

In [None]:
callWithName("show noisette - cache") {
  partOfOrders
    .where($"product" === "noisette")
    .cube($"client")
    .agg(sum($"price") as "total")
    .orderBy($"client".desc)
    .show()
}

üëÄ **Ce qu'il faut voir** üëÄ

La diff√©rence, qui appara√Æt ici, est que l'ex√©cution des requ√™tes d'analyse n√©cessite cette 2 jobs au lieu de 3. Ce qui permet un gain en performance sur l'ex√©cution de ces requ√™tes.

En regardant de plus pr√®s le plan d'ex√©cution de ces requ√™tes, nous remarquons que celui-ci est un plus grand. Dans le cadre de la mise en cache, Spark a ajout√© les √©tapes :

* **InMemoryRelation** : mise en cache des donn√©es du dataframe
* **InMemoryTableScan** : parcours des donn√©es du dataframe depuis le cache

Ces √©tapes proviennent de `partOfOrders`.

=> üë∑ Ex√©cutez la cellule suivante pour voir le plan d'ex√©cution li√© √† `partOfOrders`.

In [None]:
partOfOrders.explain()

En fait, dans les requ√™tes d'analyse, toutes les √©tapes pr√©c√©dentes _InMemoryTableScan_ ne sont pas ex√©cut√©es.

Si vous allez dans Spark UI, dans l'onglet _Storage_ vous allez trouver un tableau avec une seule entr√©e, contenant les informations ci-dessous :

* Storage Level: Disk Memory Deserialized 1x Replicated
* Cached Partitions: 4
* Fraction Cached: 100%
* Size in Memory: 8.6 KiB
* Size on Disk: 0.0 B

Cette ligne unique indique les informations sur les donn√©es en cache li√©es √† `partOfOrders`.

_Storage Level_ indique le type de stockage utilis√©. Ici, nous avons un stockage en m√©moire d√©s√©rialis√© (il s'agit uniquement d'objets Java stock√©s dans la _heap_ de la JVM) et sur disque, avec un unique r√©pliqua (il n'y a pas de r√©plication sur d'autres executor).

Nous avons aussi la quantit√© de m√©moire utilis√©e et la quantit√© de donn√©es stock√©e sur disque.

Si vous cliquez sur la ligne du tableau dans Spark UI, vous obtenez plus d'informations sur nos donn√©es en cache. Nous avons notamment la r√©partition des donn√©es en cache par partition avec les executor associ√©s. Et nous avons aussi la m√©moire restante pour le cache.

Il est possible de supprimer le cache √† la main en utilisant la m√©thode `.unpersist()`.

In [None]:
partOfOrders.unpersist()

Si vous retournez dans l'onglet _Storage_ de Spark UI, vous verrez que le tableau aura disparu.

### Fonctionnement

Le cache Spark SQL est un cache LRU (_Least Recently Used_). Ainsi, lorsque l'espace pour le cache manque, toutes les entr√©es les moins utilis√©es sont retir√©es du cache pour laisser de la place. Lors du prochain acc√®s aux donn√©es retir√©es, Spark recalculera ces donn√©es pour les r√©int√©grer dans le cache, en ayant au pr√©alable retir√© les donn√©es les moins utilis√©es, si le cache est √† nouveau plein.

## Les diff√©rents niveaux de cache

### CacheManager

Spark SQL b√©n√©ficie d'un CacheManager qui centralise la gestion des caches.

Il est possible de vider compl√®tement le cache √† travers son interface.

In [None]:
val cacheManager = spark.sharedState.cacheManager

cacheManager.clearCache()

Voyons le fonctionnement du CacheManager. Pour cela, nous allons mettre en cache 2 requ√™tes identiques, mais r√©clamant une strat√©gie du stockage du cache diff√©rente.

In [None]:
val orders_default: DataFrame =
  spark.read.option("header", true).csv("data/orders.csv").repartition(4).cache()
orders_default.take(1)

In [None]:
val orders_memory: DataFrame =
  spark.read.option("header", true).csv("data/orders.csv").repartition(4).persist(StorageLevel.MEMORY_ONLY)
orders_default.take(1)

üëÄ **Ce qu'il faut voir** üëÄ

Si nous regardons dans Spark UI, bien que nous ayons produits deux dataframe, nous ne verrons qu'un seul cache dans l'onglet _Storage_.

Plus exactement, la recherche du cache se fait selon l'op√©ration suivante :

In [None]:
orders_default.queryExecution.logical
  .sameResult(
    orders_memory.queryExecution.logical
  )

Ce qui veut dire que ce qui est retenu, c'est plus exactement la similarit√© des r√©sultats obtenus par les dataframes et non pas sur l'√©galit√© entre les plans d'ex√©cution des dataframes.

La difficult√© est que tout ceci est d√©termin√© avant l'ex√©cution de la requ√™te. Il est dans ce cas parfois difficile de d√©terminer si deux plans d'ex√©cution produiront des r√©sultats √©quivalents. Spark ne sait pas toujours le d√©terminer. Par contre, Spark va capable de d√©terminer si deux plans d'ex√©cution vont donner des r√©sultats diff√©rents.

Pour retrouver des donn√©es en cache, Spark SQL passe par la m√©thode `.lookupCachedData()` du CacheManager.

In [None]:
object test_unique_cache {
  val cache_orders_default = cacheManager.lookupCachedData(orders_default).get
  val cache_orders_memory = cacheManager.lookupCachedData(orders_memory).get

  def run() = {
    println("cache_orders_default.plan sameResult cache_orders_memory.plan: " + cache_orders_default.plan.sameResult(cache_orders_memory.plan))
    println("cache_orders_default: " + cache_orders_default.cachedRepresentation.cacheBuilder.storageLevel)
    println("cache_orders_memory: " + cache_orders_memory.cachedRepresentation.cacheBuilder.storageLevel)
  }
}

test_unique_cache.run()

D'ailleurs, notre dataframe d'origine est lui aussi index√© dans le cache, m√™me si son plan d'ex√©cution d√©duit n'a pas chang√©.

In [None]:
orders.explain()
cacheManager.lookupCachedData(orders).isDefined

Si vous ex√©cutez la cellule ci-dessous et que vous allez dans Spark UI, vous verrez appara√Ætre une √©tape InMemoryRelation et InMemoryTableScan, indiquant que les donn√©es pour cette requ√™te n'ont pas √©t√© r√©cup√©r√©es depuis le fichier, mais depuis le cache.

In [None]:
callWithName("take from order - before clear cache") {
  orders.take(1)
}

Par contre, si nous vidons le cache, la r√©cup√©ration des donn√©es se fait depuis le fichier directement. Dans le plan d'ex√©cution, dans Spark UI, les √©tapes InMemoryRelation et InMemoryTableScan auront disparues.

In [None]:
cacheManager.clearCache()

orders.explain()
cacheManager.lookupCachedData(orders).isDefined

callWithName("take from order - after clear cache") {
  orders.take(1)
}

### Stockage des caches

Voici la liste des strat√©gies de stockage propos√©e par Spark.

* **NONE** : pas de persistance (emp√™che le CacheManager de persister par la suite un type de requ√™te)
* **DISK_ONLY** : persistance sur le disque local
* **DISK_ONLY_2** : persistance sur disque r√©pliqu√©e sur 2 n≈ìuds
* **DISK_ONLY_3** : persistance sur disque r√©pliqu√©e sur 3 n≈ìuds
* **MEMORY_ONLY** : persistance en m√©moire
* **MEMORY_ONLY_2** : persistance en m√©moire sur 2 n≈ìuds
* **MEMORY_ONLY_SER** : persistance s√©rialis√©e en m√©moire
* **MEMORY_ONLY_SER_2** : persistance s√©rialis√©e en m√©moire sur 2 n≈ìuds
* **MEMORY_AND_DISK** : persistance en m√©moire et sur disque
* **MEMORY_AND_DISK_2** : persistance en m√©moire et sur disque r√©pliqu√©e sur 2 n≈ìuds
* **MEMORY_AND_DISK_SER** : persistance s√©rialis√©e en m√©moire et sur disque
* **MEMORY_AND_DISK_SER_2** : persistance s√©rialis√©e en m√©moire et sur disque r√©pliqu√©e sur 2 n≈ìuds
* **OFF_HEAP** : persistance en m√©moire _off heap_ (_exp√©riemntal_)

La s√©rialisation propos√©e ici utilise un encodage binaire propre √† Spark et qui reconnu comme efficace. Il permet de gagner de l'espace en m√©moire, en demandant un effort suppl√©mentaire sur le CPU.

Le stockage sur disque est bien √©videmment plus co√ªteux que le stockage en m√©moire. Il faut dans ce cas que le recalcul du dataframe soit plus lent que l'acc√®s disque pour r√©cup√©rer les donn√©es.

La r√©plication est int√©ressante si le recalcul du dataframe est extr√™mement lent et que l'on souhaite donner la possibilit√© √† Spark de reprendre les traitements en cours sur un autre executor, en cas de panne partielle.

**Exercice**

üë∑ Ci-dessous, apr√®s avoir vid√© le cache, v√©rifier dans Spark UI l'effet du stockage `NONE`.

In [None]:
cacheManager.clearCache()

In [None]:
callWithName("StorageLevel.NONE") {
  orders.where(to_date($"timestamp") === to_date(lit("2023-02-28"))).persist(StorageLevel.NONE).take(1)
}

üë∑ Ex√©cutez la cellule ci-dessous.

In [None]:
callWithName("StorageLevel.MEMORY_ONLY") {
  val memory_only =
    orders.where(to_date($"timestamp") === to_date(lit("2023-03-01"))).persist(StorageLevel.MEMORY_ONLY).take(1).toList
  println(s"memory_only = $memory_only")
}
callWithName("StorageLevel.MEMORY_ONLY_SER") {
  val memory_only_ser =
    orders.where(to_date($"timestamp") === to_date(lit("2023-03-02"))).persist(StorageLevel.MEMORY_ONLY_SER).take(1).toList
  println(s"memory_only_ser = $memory_only_ser")
}
callWithName("StorageLevel.DISK_ONLY") {
  val disk_only =
    orders.where(to_date($"timestamp") === to_date(lit("2023-03-03"))).persist(StorageLevel.DISK_ONLY).take(1).toList
  println(s"disk_only = $disk_only")
}
callWithName("StorageLevel.MEMORY_AND_DISK") {
  val memory_and_disk =
    orders.where(to_date($"timestamp") === to_date(lit("2023-03-04"))).persist(StorageLevel.MEMORY_AND_DISK).take(1).toList
  println(s"memory_and_disk = $memory_and_disk")
}
callWithName("StorageLevel.MEMORY_AND_DISK_SER") {
  val memory_and_disk_ser =
    orders.where(to_date($"timestamp") === to_date(lit("2023-03-05"))).persist(StorageLevel.MEMORY_AND_DISK_SER).take(1).toList
  println(s"memory_and_disk_ser = $memory_and_disk_ser")
}
// experimental
callWithName("StorageLevel.OFF_HEAP") {
  val off_heap =
    orders.where(to_date($"timestamp") === to_date(lit("2023-03-06"))).persist(StorageLevel.OFF_HEAP).take(1).toList
  println(s"off_heap = $off_heap")
}

ü§î **Question** ü§î

V√©rifiez dans Spark UI la strat√©gie de stockage qui semble la meilleure. Appuyez-vous pour cela sur les statistiques de latence et de consommation d'espace.

----

Nous allons maintenant voir l'effet d'une strat√©gie de stockage impliquant une r√©plication, sachant que nous n'avons qu'un seul executor (ie. le driver).

Apr√®s avoir vid√© le cache et lanc√© la requ√™te, regardez dans Spark UI, dans l'onglet _Storage_, si un espace de stockage a √©t√© cr√©√©.

In [None]:
cacheManager.clearCache()
callWithName("StorageLevel.DISK_ONLY_2") {
  orders.where(to_date($"timestamp") === to_date(lit("2023-03-07"))).persist(StorageLevel.DISK_ONLY_2).take(1)
}