# Persistencia

## Problema al usar un RDD varias veces:
* Spark recomputa el RDD y sus dependencias cada vez que se ejecuta una acción
* Muy costoso (especialmente en problemas iterativos)


## Solución:
* Conservar el RDD en memoria y/o disco
* Métodos cache() o persist() y unpersist()

## Niveles de persistencia (definidos en pyspark.StorageLevel)

| Nivel 	| Espacio 	| CPU 	| Memoria/Disco 	| Descripción 	|
|---------------------	|---------	|-------	|---------------	|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------	|
| MEMORY_ONLY 	| Alto 	| Bajo 	| Memoria 	| Guarda el RDD como un objeto Java no serializado en la JVM. Si el RDD no cabe en memoria, algunas particiones no se cachearán y serán recomputadas “al vuelo” cada vez que se necesiten. Nivel por defecto en Java y Scala. 	|
| MEMORY_ONLY_SER 	| Bajo 	| Alto 	| Memoria 	| Guarda el RDD como un objeto Java serializado (un byte array por partición). Nivel por defecto en Python, usando pickle. 	|
| MEMORY_AND_DISK 	| Alto 	| Medio 	| Ambos 	| Guarda el RDD como un objeto Java no serializado en la JVM. Si el RDD no cabe en memoria, las particiones que no quepan se guardan en disco y se leen del mismo cada vez que se necesiten 	|
| MEMORY_AND_DISK_SER 	| Bajo 	| Alto 	| Ambos 	| Similar a MEMORY_AND_DISK pero usando objetos serializados. 	|
| DISK_ONLY 	| Bajo 	| Alto 	| Disco 	| Guarda las particiones del RDD solo en disco. 	|
| OFF_HEAP 	| Bajo 	| Alto 	| Memoria 	| Guarda el RDD serializado usando memoria off-heap (fuera del heap de la JVM) lo que puede reducir el overhead del recolector de basura 	|

# Nivel de persistencia

* En Scala y Java, el nivel por defecto es MEMORY_ONLY

* En Python, los datos siempre se serializan (por defecto como objetos pickled)

    * Los niveles MEMORY_ONLY, MEMORY_AND_DISK son equivalentes a MEMORY_ONLY_SER, MEMORY_AND_DISK_SER
    * Es posible especificar serialización marshal al crear el SparkContext
    
        sc = SparkContext(master="local", appName="Mi app", serializer=pyspark.MarshalSerializer())


# Gestión de la cache
* Algoritmo para gestionar la cache
    * Para niveles solo memoria, los RDDs viejos se eliminan y se recalculan
    * Para niveles memoria y disco, las particiones que no caben se escriben a disco

In [5]:
import os
import findspark
findspark.init(os.environ['SPARK_HOME'])

import pyspark
from pyspark.sql import SparkSession

app_name = "Test1"
master = "local[*]"
spark = (SparkSession.builder
    .master(master)
    .appName(app_name)
    .getOrCreate() )
    
sc = spark.sparkContext
print("SparkContext Creado")

SparkContext Creado


In [6]:
rdd = sc.parallelize(range(1000), 10)

print(rdd.is_cached)

False


In [10]:
rdd.persist(pyspark.StorageLevel.MEMORY_AND_DISK_2)

print(rdd.is_cached)

print("Nivel de persistencia de rdd: {0} ".format(rdd.getStorageLevel()))

True
Nivel de persistencia de rdd: Disk Memory Serialized 2x Replicated 


In [11]:
rdd2 = rdd.map(lambda x: x*x)
print(rdd2.is_cached)

False


In [12]:
rdd2.cache() # Nivel por defecto
print(rdd2.is_cached)
print("Nivel de persistencia de rdd2: {0}".format(rdd2.getStorageLevel()))

True
Nivel de persistencia de rdd2: Memory Serialized 1x Replicated


In [13]:
rdd2.unpersist() # Sacamos rdd2 de la cache
print(rdd2.is_cached)

False
