# Gestion du cache

Le principe d'un cache est de conserver les r√©sultats de requ√™tes pour ne pas avoir √† les recalculer lorsque ces requ√™tes seront √† nouveau re√ßues. Le cache est int√©ressant √† partir du moment o√π des requ√™tes reviennent assez fr√©quemment, sachant qu'en contrepartie, la cache va consommer de la ressource m√©moire, disque et CPU. Il faut que cette consommation de ressources soit plus rentable que la consommation faite par le calcul qu'implique la requ√™te re√ßue, pour que le cache soit consid√©r√© comme une option int√©ressante.

Spark propose une fonctionnalit√© de cache au niveau Spark Core sur les RDD et Spark SQL sur les dataframe et les dataset. Dans le cadre de Spark SQL, le cache devient int√©ressant d√®s qu'un dataframe est utilis√© dans plusieurs requ√™tes s√©par√©es. Dans cette situation, l'utilisation du cache pour un dataframe permet au niveau de chacune des requ√™tes qui utilisent ce dataframe de r√©√©valuer √† chaque fois les calculs qui ont conduit √† ce dataframe.

## Pr√©lude

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

spark = (SparkSession.builder
    .appName("Spark tuning - Cache")
    .master("local[*]")
    .config("spark.ui.showConsoleProgress", "True")
    .config("spark.executor.memory", "2g")
    .getOrCreate())

# Access the JVM and import the required Java classes
jvm = spark.sparkContext._jvm
Level = jvm.org.apache.logging.log4j.Level
Configurator = jvm.org.apache.logging.log4j.core.config.Configurator

# Set the root level to OFF
Configurator.setRootLevel(Level.OFF)

## Introduction sur le cache

In [3]:
orders = (spark.read
    .option("header", "true")
    .csv("data/orders.csv")
    .repartition(4))

orders.printSchema()
orders.show(10, False)

root
 |-- id: string (nullable = true)
 |-- client: string (nullable = true)
 |-- timestamp: string (nullable = true)
 |-- product: string (nullable = true)
 |-- price: string (nullable = true)

+--------+----------------+-------------------+------------+-----+
|id      |client          |timestamp          |product     |price|
+--------+----------------+-------------------+------------+-----+
|98432797|oplTx8h-38G3be4c|2023-02-27T10:34:31|d√©caf√©in√©   |1.4  |
|90609564|D7pVaSr2-BpeKGwE|2023-03-02T17:59:04|caf√© cr√®me  |2.5  |
|03804834|D7pVaSr2-BpeKGwE|2022-12-19T10:50:17|double caf√© |2.6  |
|23879812|t_CUBr6tyTQxGj2X|2023-02-03T16:29:14|d√©caf√©in√©   |1.4  |
|73975031|TX7wC0pTqCRlCOhi|2023-04-20T09:43:28|caf√© allong√©|1.4  |
|15380364|oplTx8h-38G3be4c|2023-01-25T16:38:28|expresso    |1.1  |
|25138740|oplTx8h-38G3be4c|2023-05-01T17:37:46|noisette    |1.5  |
|57293732|TX7wC0pTqCRlCOhi|2023-05-04T09:27:31|double caf√© |2.6  |
|98462522|H-Mp22FLe99MNhRa|2023-03-24T10:08:22|expresso 

### Sans cache

Nous voulons effectuer des analyses sur la journ√©e du 1er f√©vrier 2023, sans utiliser de cache.

In [5]:
partOfOrders = orders.where(to_date(col("timestamp")) == to_date(lit("2023-02-01")))

partOfOrders.show(10, False)

+--------+----------------+-------------------+--------------+-----+
|id      |client          |timestamp          |product       |price|
+--------+----------------+-------------------+--------------+-----+
|90763431|t_CUBr6tyTQxGj2X|2023-02-01T17:19:26|chocolat chaud|2.6  |
|38930443|XztHU0aeUckvR7AC|2023-02-01T13:17:59|caf√© cr√®me    |2.5  |
|27370329|iQ5y--CyNtHUDL_8|2023-02-01T10:37:08|chocolat chaud|2.6  |
|69412681|JBoCs7rWb_jEs87W|2023-02-01T09:57:30|expresso      |1.1  |
|24134740|JBoCs7rWb_jEs87W|2023-02-01T17:58:08|caf√©          |1.3  |
|52156742|vAfh79KyDpYeFEMR|2023-02-01T13:02:35|double caf√©   |2.6  |
|26805451|D7pVaSr2-BpeKGwE|2023-02-01T13:47:13|double caf√©   |2.6  |
|33619683|iQ5y--CyNtHUDL_8|2023-02-01T09:19:38|caf√©          |1.3  |
|17099792|H-Mp22FLe99MNhRa|2023-02-01T10:22:44|caf√© allong√©  |1.4  |
|77346060|XztHU0aeUckvR7AC|2023-02-01T16:48:48|caf√© cr√®me    |2.5  |
+--------+----------------+-------------------+--------------+-----+
only showing top 10 rows

Nous r√©cup√©rons d'abord le chiffre d'affaires de la journ√©e.

In [27]:
# show revenue - no cache
partOfOrders.agg(round(sum(col("price")), 2).alias("total")).show()

+-----+
|total|
+-----+
|119.2|
+-----+



Nous allons ensuite analyser la r√©partition du chiffre d'affaires de la journ√©e sur les diff√©rents produits.

In [12]:
# show product revenue - no cache
(partOfOrders
.groupBy("product")
.agg(sum("price").alias("total"))
.where("total >= 15.0")
.orderBy(desc("total"))
.show())

+-----------+------------------+
|    product|             total|
+-----------+------------------+
|   expresso|              23.1|
| caf√© cr√®me|              17.5|
|double caf√©|15.600000000000001|
+-----------+------------------+



Nous r√©cup√©rons enfin la r√©partition des ventes par client sur le caf√© noisette et le total des ventes de la journ√©e sur ce produit.

In [13]:
# show noisette - no cache
(partOfOrders
.where(col("product") == "noisette")
.cube("client")
.agg(sum("price").alias("total"))
.orderBy(desc("client"))
.show())

+----------------+-----+
|          client|total|
+----------------+-----+
|vAfh79KyDpYeFEMR|  3.0|
|oplTx8h-38G3be4c|  1.5|
|JBoCs7rWb_jEs87W|  1.5|
|H-Mp22FLe99MNhRa|  1.5|
|D7pVaSr2-BpeKGwE|  3.0|
|            null| 10.5|
+----------------+-----+



üëÄ **Question** üëÄ

Dans toutes ces requ√™tes, lorsque nous regardons le plan d'ex√©cution, nous voyons des DAG relativement √©quivalents. De plus chaque requ√™te se traduit par l'ex√©cution de 3 jobs. Nous le voyons dans ce notebook, au niveau des barres de progression.

### Avec cache

Nous allons maintenant ex√©cuter les m√™mes requ√™tes. Mais cette fois, nous allons mettre en cache le dataframe filtr√© sur la journ√©e 1er f√©vrier 2023.

In [14]:
partOfOrders = orders.where(to_date("timestamp") == to_date(lit("2023-02-01"))).cache()

partOfOrders.show(10, False)

+--------+----------------+-------------------+--------------+-----+
|id      |client          |timestamp          |product       |price|
+--------+----------------+-------------------+--------------+-----+
|90763431|t_CUBr6tyTQxGj2X|2023-02-01T17:19:26|chocolat chaud|2.6  |
|38930443|XztHU0aeUckvR7AC|2023-02-01T13:17:59|caf√© cr√®me    |2.5  |
|27370329|iQ5y--CyNtHUDL_8|2023-02-01T10:37:08|chocolat chaud|2.6  |
|69412681|JBoCs7rWb_jEs87W|2023-02-01T09:57:30|expresso      |1.1  |
|24134740|JBoCs7rWb_jEs87W|2023-02-01T17:58:08|caf√©          |1.3  |
|52156742|vAfh79KyDpYeFEMR|2023-02-01T13:02:35|double caf√©   |2.6  |
|26805451|D7pVaSr2-BpeKGwE|2023-02-01T13:47:13|double caf√©   |2.6  |
|33619683|iQ5y--CyNtHUDL_8|2023-02-01T09:19:38|caf√©          |1.3  |
|17099792|H-Mp22FLe99MNhRa|2023-02-01T10:22:44|caf√© allong√©  |1.4  |
|77346060|XztHU0aeUckvR7AC|2023-02-01T16:48:48|caf√© cr√®me    |2.5  |
+--------+----------------+-------------------+--------------+-----+
only showing top 10 rows

üë∑ Ex√©cutez les requ√™tes ci-dessous.

In [16]:
# show revenue - cache
(
    partOfOrders
        .agg(round(sum("price"), 2).alias("total"))
        .show()
)

+-----+
|total|
+-----+
|119.2|
+-----+



In [17]:
# show product revenue - cache
(
  partOfOrders
    .groupBy("product")
    .agg(sum("price").alias("total"))
    .where(col("total") >= 15.0)
    .orderBy(desc("total"))
    .show()
)

+-----------+------------------+
|    product|             total|
+-----------+------------------+
|   expresso|              23.1|
| caf√© cr√®me|              17.5|
|double caf√©|15.600000000000001|
+-----------+------------------+



In [18]:
# show noisette - cache
(
  partOfOrders
    .where(col("product") == "noisette")
    .cube("client")
    .agg(sum("price").alias("total"))
    .orderBy(desc("client"))
    .show()
)

+----------------+-----+
|          client|total|
+----------------+-----+
|vAfh79KyDpYeFEMR|  3.0|
|oplTx8h-38G3be4c|  1.5|
|JBoCs7rWb_jEs87W|  1.5|
|H-Mp22FLe99MNhRa|  1.5|
|D7pVaSr2-BpeKGwE|  3.0|
|            null| 10.5|
+----------------+-----+



üëÄ **Ce qu'il faut voir** üëÄ

La diff√©rence, qui appara√Æt ici, est que l'ex√©cution des requ√™tes d'analyse n√©cessite cette 2 jobs au lieu de 3. Ce qui permet un gain en performance sur l'ex√©cution de ces requ√™tes.

En regardant de plus pr√®s le plan d'ex√©cution de ces requ√™tes, nous remarquons que celui-ci est un plus grand. Dans le cadre de la mise en cache, Spark a ajout√© les √©tapes :

* **InMemoryRelation** : mise en cache des donn√©es du dataframe
* **InMemoryTableScan** : parcours des donn√©es du dataframe depuis le cache

Ces √©tapes proviennent de `partOfOrders`.

=> üë∑ Ex√©cutez la cellule suivante pour voir le plan d'ex√©cution li√© √† `partOfOrders`.

In [19]:
partOfOrders.explain()

== Physical Plan ==
InMemoryTableScan [id#17, client#18, timestamp#19, product#20, price#21]
   +- InMemoryRelation [id#17, client#18, timestamp#19, product#20, price#21], StorageLevel(disk, memory, deserialized, 1 replicas)
         +- Exchange RoundRobinPartitioning(4), REPARTITION_BY_NUM, [plan_id=1031]
            +- *(1) Filter (isnotnull(timestamp#19) AND (cast(timestamp#19 as date) = 2023-02-01))
               +- FileScan csv [id#17,client#18,timestamp#19,product#20,price#21] Batched: false, DataFilters: [isnotnull(timestamp#19), (cast(timestamp#19 as date) = 2023-02-01)], Format: CSV, Location: InMemoryFileIndex(1 paths)[file:/home/jovyan/work/04_advanced/data/orders.csv], PartitionFilters: [], PushedFilters: [IsNotNull(timestamp)], ReadSchema: struct<id:string,client:string,timestamp:string,product:string,price:string>




En fait, dans les requ√™tes d'analyse, toutes les √©tapes pr√©c√©dentes _InMemoryTableScan_ ne sont pas ex√©cut√©es.

Si vous allez dans Spark UI, dans l'onglet _Storage_ vous allez trouver un tableau avec une seule entr√©e, contenant les informations ci-dessous :

* Storage Level: Disk Memory Deserialized 1x Replicated
* Cached Partitions: 4
* Fraction Cached: 100%
* Size in Memory: 8.6 KiB
* Size on Disk: 0.0 B

Cette ligne unique indique les informations sur les donn√©es en cache li√©es √† `partOfOrders`.

_Storage Level_ indique le type de stockage utilis√©. Ici, nous avons un stockage en m√©moire d√©s√©rialis√© (il s'agit uniquement d'objets Java stock√©s dans la _heap_ de la JVM) et sur disque, avec un unique r√©pliqua (il n'y a pas de r√©plication sur d'autres executor).

Nous avons aussi la quantit√© de m√©moire utilis√©e et la quantit√© de donn√©es stock√©e sur disque.

Si vous cliquez sur la ligne du tableau dans Spark UI, vous obtenez plus d'informations sur nos donn√©es en cache. Nous avons notamment la r√©partition des donn√©es en cache par partition avec les executor associ√©s. Et nous avons aussi la m√©moire restante pour le cache.

Il est possible de supprimer le cache √† la main en utilisant la m√©thode `.unpersist()`.

In [20]:
partOfOrders.unpersist()

DataFrame[id: string, client: string, timestamp: string, product: string, price: string]

Si vous retournez dans l'onglet _Storage_ de Spark UI, vous verrez que le tableau aura disparu.

### Fonctionnement

Le cache Spark SQL est un cache LRU (_Least Recently Used_). Ainsi, lorsque l'espace pour le cache manque, toutes les entr√©es les moins utilis√©es sont retir√©es du cache pour laisser de la place. Lors du prochain acc√®s aux donn√©es retir√©es, Spark recalculera ces donn√©es pour les r√©int√©grer dans le cache, en ayant au pr√©alable retir√© les donn√©es les moins utilis√©es, si le cache est √† nouveau plein.

## Les diff√©rents niveaux de cache

### CacheManager

Spark SQL b√©n√©ficie d'un CacheManager qui centralise la gestion des caches.

Il est possible de vider compl√®tement le cache √† travers son interface.

In [24]:
cache_manager = spark._jsparkSession.sharedState().cacheManager()

cache_manager.clearCache()

Voyons le fonctionnement du CacheManager. Pour cela, nous allons mettre en cache 2 requ√™tes identiques, mais r√©clamant une strat√©gie du stockage du cache diff√©rente.

In [28]:
orders_default = spark.read.option("header", "true").csv("data/orders.csv").repartition(4).cache()
orders_default.take(1)

[Row(id='98432797', client='oplTx8h-38G3be4c', timestamp='2023-02-27T10:34:31', product='d√©caf√©in√©', price='1.4')]

In [30]:
from pyspark import StorageLevel
orders_memory = spark.read.option("header", "true").csv("data/orders.csv").repartition(4).persist(StorageLevel.MEMORY_ONLY)
orders_default.take(1)

[Row(id='98432797', client='oplTx8h-38G3be4c', timestamp='2023-02-27T10:34:31', product='d√©caf√©in√©', price='1.4')]

üëÄ **Ce qu'il faut voir** üëÄ

Si nous regardons dans Spark UI, bien que nous ayons produits deux dataframe, nous ne verrons qu'un seul cache dans l'onglet _Storage_.

Plus exactement, la recherche du cache se fait selon l'op√©ration suivante :

In [34]:
# _jdf accesses the underlying Java DataFrame from the PySpark DataFrame
orders_default._jdf.queryExecution().logical().sameResult(orders_memory._jdf.queryExecution().logical())

True

Ce qui veut dire que ce qui est retenu, c'est plus exactement la similarit√© des r√©sultats obtenus par les dataframes et non pas sur l'√©galit√© entre les plans d'ex√©cution des dataframes.

La difficult√© est que tout ceci est d√©termin√© avant l'ex√©cution de la requ√™te. Il est dans ce cas parfois difficile de d√©terminer si deux plans d'ex√©cution produiront des r√©sultats √©quivalents. Spark ne sait pas toujours le d√©terminer. Par contre, Spark va capable de d√©terminer si deux plans d'ex√©cution vont donner des r√©sultats diff√©rents.

Pour retrouver des donn√©es en cache, Spark SQL passe par la m√©thode `.lookupCachedData()` du CacheManager.

In [35]:
class TestUniqueCache:
    def __init__(self):
        self.cacheManager = spark._jsparkSession.sharedState().cacheManager()
        self.cache_orders_default = self.cacheManager.lookupCachedData(orders_default._jdf).get()
        self.cache_orders_memory = self.cacheManager.lookupCachedData(orders_memory._jdf).get()

    def run(self):
        same_result = self.cache_orders_default.plan().sameResult(self.cache_orders_memory.plan())
        print(f"cache_orders_default.plan sameResult cache_orders_memory.plan: {same_result}")
        
        storage_level_default = self.cache_orders_default.cachedRepresentation().cacheBuilder().storageLevel()
        print(f"cache_orders_default: {storage_level_default}")
        
        storage_level_memory = self.cache_orders_memory.cachedRepresentation().cacheBuilder().storageLevel()
        print(f"cache_orders_memory: {storage_level_memory}")

TestUniqueCache().run()

cache_orders_default.plan sameResult cache_orders_memory.plan: True
cache_orders_default: StorageLevel(disk, memory, deserialized, 1 replicas)
cache_orders_memory: StorageLevel(disk, memory, deserialized, 1 replicas)


D'ailleurs, notre dataframe d'origine est lui aussi index√© dans le cache, m√™me si son plan d'ex√©cution d√©duit n'a pas chang√©.

In [41]:
orders.explain()
cacheManager = spark._jsparkSession.sharedState().cacheManager()
cacheManager.lookupCachedData(orders._jdf).isDefined()

== Physical Plan ==
InMemoryTableScan [id#17, client#18, timestamp#19, product#20, price#21]
   +- InMemoryRelation [id#17, client#18, timestamp#19, product#20, price#21], StorageLevel(disk, memory, deserialized, 1 replicas)
         +- Exchange RoundRobinPartitioning(4), REPARTITION_BY_NUM, [plan_id=1334]
            +- FileScan csv [id#1015,client#1016,timestamp#1017,product#1018,price#1019] Batched: false, DataFilters: [], Format: CSV, Location: InMemoryFileIndex(1 paths)[file:/home/jovyan/work/04_advanced/data/orders.csv], PartitionFilters: [], PushedFilters: [], ReadSchema: struct<id:string,client:string,timestamp:string,product:string,price:string>




True

Si vous ex√©cutez la cellule ci-dessous et que vous allez dans Spark UI, vous verrez appara√Ætre une √©tape InMemoryRelation et InMemoryTableScan, indiquant que les donn√©es pour cette requ√™te n'ont pas √©t√© r√©cup√©r√©es depuis le fichier, mais depuis le cache.

In [42]:
# take from order - before clear cache
orders.take(1)

[Row(id='98432797', client='oplTx8h-38G3be4c', timestamp='2023-02-27T10:34:31', product='d√©caf√©in√©', price='1.4')]

Par contre, si nous vidons le cache, la r√©cup√©ration des donn√©es se fait depuis le fichier directement. Dans le plan d'ex√©cution, dans Spark UI, les √©tapes InMemoryRelation et InMemoryTableScan auront disparues.

In [46]:
cacheManager.clearCache()

orders.explain()
print(f"orders defined ? {cacheManager.lookupCachedData(orders._jdf).isDefined()}")

# take from order - after clear cache
orders.take(1)

== Physical Plan ==
InMemoryTableScan [id#17, client#18, timestamp#19, product#20, price#21]
   +- InMemoryRelation [id#17, client#18, timestamp#19, product#20, price#21], StorageLevel(disk, memory, deserialized, 1 replicas)
         +- Exchange RoundRobinPartitioning(4), REPARTITION_BY_NUM, [plan_id=1334]
            +- FileScan csv [id#1015,client#1016,timestamp#1017,product#1018,price#1019] Batched: false, DataFilters: [], Format: CSV, Location: InMemoryFileIndex(1 paths)[file:/home/jovyan/work/04_advanced/data/orders.csv], PartitionFilters: [], PushedFilters: [], ReadSchema: struct<id:string,client:string,timestamp:string,product:string,price:string>


orders defined ? False


[Row(id='98432797', client='oplTx8h-38G3be4c', timestamp='2023-02-27T10:34:31', product='d√©caf√©in√©', price='1.4')]

### Stockage des caches

Voici la liste des strat√©gies de stockage propos√©e par Spark.

* **NONE** : pas de persistance (emp√™che le CacheManager de persister par la suite un type de requ√™te)
* **DISK_ONLY** : persistance sur le disque local
* **DISK_ONLY_2** : persistance sur disque r√©pliqu√©e sur 2 n≈ìuds
* **DISK_ONLY_3** : persistance sur disque r√©pliqu√©e sur 3 n≈ìuds
* **MEMORY_ONLY** : persistance en m√©moire
* **MEMORY_ONLY_2** : persistance en m√©moire sur 2 n≈ìuds
* **MEMORY_ONLY_SER** : persistance s√©rialis√©e en m√©moire
* **MEMORY_ONLY_SER_2** : persistance s√©rialis√©e en m√©moire sur 2 n≈ìuds
* **MEMORY_AND_DISK** : persistance en m√©moire et sur disque
* **MEMORY_AND_DISK_2** : persistance en m√©moire et sur disque r√©pliqu√©e sur 2 n≈ìuds
* **MEMORY_AND_DISK_SER** : persistance s√©rialis√©e en m√©moire et sur disque
* **MEMORY_AND_DISK_SER_2** : persistance s√©rialis√©e en m√©moire et sur disque r√©pliqu√©e sur 2 n≈ìuds
* **OFF_HEAP** : persistance en m√©moire _off heap_ (_exp√©riemntal_)

La s√©rialisation propos√©e ici utilise un encodage binaire propre √† Spark et qui reconnu comme efficace. Il permet de gagner de l'espace en m√©moire, en demandant un effort suppl√©mentaire sur le CPU.

Le stockage sur disque est bien √©videmment plus co√ªteux que le stockage en m√©moire. Il faut dans ce cas que le recalcul du dataframe soit plus lent que l'acc√®s disque pour r√©cup√©rer les donn√©es.

La r√©plication est int√©ressante si le recalcul du dataframe est extr√™mement lent et que l'on souhaite donner la possibilit√© √† Spark de reprendre les traitements en cours sur un autre executor, en cas de panne partielle.

**Exercice**

üë∑ Ci-dessous, apr√®s avoir vid√© le cache, v√©rifier dans Spark UI l'effet du stockage `NONE`.

In [47]:
cacheManager.clearCache()

In [48]:
# StorageLevel.NONE
orders.where(to_date("timestamp") == to_date(lit("2023-02-28"))).persist(StorageLevel.NONE).take(1)

[Row(id='56391935', client='JBoCs7rWb_jEs87W', timestamp='2023-02-28T10:45:14', product='noisette', price='1.5')]

üë∑ Ex√©cutez les cellules ci-dessous et observez les diff√©rences. A noter que [certaines m√©thodes de s√©rialisation ne sont pas disponibles en PySpark](https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence) (ie: MEMORY_ONLY_SER / MEMORY_AND_DISK_SER)

In [52]:
#StorageLevel.MEMORY_ONLY
memory_only = orders.where(to_date("timestamp") == to_date(lit("2023-03-01"))).persist(StorageLevel.MEMORY_ONLY).take(1)
print(f"memory_only = {memory_only}")

memory_only = [Row(id='49405607', client='H-Mp22FLe99MNhRa', timestamp='2023-03-01T16:57:01', product='caf√© cr√®me', price='2.5')]


In [55]:
#StorageLevel.DISK_ONLY
disk_only = orders.where(to_date("timestamp") == to_date(lit("2023-03-01"))).persist(StorageLevel.DISK_ONLY).take(1)
print(f"disk_only = {disk_only}")

disk_only = [Row(id='49405607', client='H-Mp22FLe99MNhRa', timestamp='2023-03-01T16:57:01', product='caf√© cr√®me', price='2.5')]


In [56]:
#StorageLevel.MEMORY_AND_DISK
memory_and_disk = orders.where(to_date("timestamp") == to_date(lit("2023-03-01"))).persist(StorageLevel.MEMORY_AND_DISK).take(1)
print(f"memory_and_disk = {memory_and_disk}")

memory_and_disk = [Row(id='49405607', client='H-Mp22FLe99MNhRa', timestamp='2023-03-01T16:57:01', product='caf√© cr√®me', price='2.5')]


In [57]:
#experimental
#StorageLevel.OFF_HEAP
off_heap = orders.where(to_date("timestamp") == to_date(lit("2023-03-01"))).persist(StorageLevel.OFF_HEAP).take(1)
print(f"off_heap = {off_heap}")

off_heap = [Row(id='49405607', client='H-Mp22FLe99MNhRa', timestamp='2023-03-01T16:57:01', product='caf√© cr√®me', price='2.5')]


ü§î **Question** ü§î

V√©rifiez dans Spark UI la strat√©gie de stockage qui semble la meilleure. Appuyez-vous pour cela sur les statistiques de latence et de consommation d'espace.

----

Nous allons maintenant voir l'effet d'une strat√©gie de stockage impliquant une r√©plication, sachant que nous n'avons qu'un seul executor (ie. le driver).

Apr√®s avoir vid√© le cache et lanc√© la requ√™te, regardez dans Spark UI, dans l'onglet _Storage_, si un espace de stockage a √©t√© cr√©√©.

In [49]:
cacheManager.clearCache()
#StorageLevel.DISK_ONLY_2
orders.where(to_date("timestamp") == to_date(lit("2023-03-07"))).persist(StorageLevel.DISK_ONLY_2).take(1)

[Row(id='16899776', client='iQ5y--CyNtHUDL_8', timestamp='2023-03-07T09:28:32', product='noisette', price='1.5')]