# Fundamentos de Apache Spark: Funciones avanzadas

En este notebook aprenderemos algunas funciones avanzadas para optimizar el rendimiento de Spark, para imputar valores faltantes o a crear funciones definidas por el usuario (UDF).

In [1]:
import findspark
findspark.init()

In [2]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.functions import broadcast
from pyspark.sql.types import *

In [36]:
#Crea la sesión SPARK y le indico que use el driver de postgres
spark = SparkSession.builder.config("spark.jars", "/postgresql-42.7.4.jar").getOrCreate()

In [5]:
emp = [(1, "AAA", "dept1", 1000),
    (2, "BBB", "dept1", 1100),
    (3, "CCC", "dept1", 3000),
    (4, "DDD", "dept1", 1500),
    (5, "EEE", "dept2", 8000),
    (6, "FFF", "dept2", 7200),
    (7, "GGG", "dept3", 7100),
    (None, None, None, 7500),
    (9, "III", None, 4500),
    (10, None, "dept5", 2500)]

dept = [("dept1", "Department - 1"),
        ("dept2", "Department - 2"),
        ("dept3", "Department - 3"),
        ("dept4", "Department - 4")
       ]

df = spark.createDataFrame(emp, ["id", "name", "dept", "salary"])
deptdf = spark.createDataFrame(dept, ["id", "name"]) 

# Create Temp Tables
df.createOrReplaceTempView("empdf")
deptdf.createOrReplaceTempView("deptdf")

# Save as HIVE tables.
df.write.saveAsTable("hive_empdf", mode = "overwrite")
deptdf.write.saveAsTable("hive_deptdf", mode = "overwrite")

## BroadCast Join

El tamaño de la tabla de difusión es de 10 MB. Sin embargo, podemos cambiar el umbral hasta 8GB según la documentación oficial de Spark 2.3.

* Podemos verificar el tamaño de la tabla de transmisión de la siguiente manera:

In [46]:
# Yo necesité cortar la cadena
# porque estaba en binario y me daba problemas al momento de castear a int

bytes = str(spark.conf.get("spark.sql.autoBroadcastJoinThreshold")).split('b',0)[0]
size = int(bytes) / (1024 ** 2)
print("Default size of broadcast table is {0} MB.".format(size))
# Default 10.0 MB

Default size of broadcast table is 50.0 MB.


* Podemos establecer el tamaño de la tabla de transmisión para que diga 50 MB de la siguiente manera:

In [27]:
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 50 * 1024**2)

In [None]:
# Considere que necesitamos unir 2 Dataframes.
# small_df: DataFrame pequeño que puede caber en la memoria y es más pequeño que el umbral especificado.
# big_df: DataFrame grande que debe unirse con DataFrame pequeño.

join_df = big_df.join(broadcast(small_df), big_df["id"] == small_df["id"])

## Almacenamiento en caché
Podemos usar la función de caché / persistencia para mantener el marco de datos en la memoria. Puede mejorar significativamente el rendimiento de su aplicación Spark si almacenamos en caché los datos que necesitamos usar con mucha frecuencia en nuestra aplicación.

In [29]:
df.cache()
df.count()
print(f"Memory used: {df.storageLevel.useMemory}")
print(f"Disk used: {df.storageLevel.useDisk}")

Memory used: True
Disk used: True


Cuando usamos la función de caché, usará el nivel de almacenamiento como Memory_Only hasta Spark 2.0.2. Desde Spark 2.1.x es Memory_and_DISK.

Sin embargo, si necesitamos especificar los distintos niveles de almacenamiento disponibles, podemos usar el método persist( ). Por ejemplo, si necesitamos mantener los datos solo en la memoria, podemos usar el siguiente fragmento.

In [31]:
from pyspark.storagelevel import StorageLevel

In [32]:
print(f"Memory used: {deptdf.storageLevel.useMemory}")
print(f"Disk used: {deptdf.storageLevel.useDisk}")

Memory used: False
Disk used: False


In [33]:
deptdf.persist(StorageLevel.MEMORY_ONLY)
deptdf.count()
print(f"Memory used: {df.storageLevel.useMemory}")
print(f"Disk used: {df.storageLevel.useDisk}")

Memory used: True
Disk used: True


### No persistir
También es importante eliminar la memoria caché de los datos cuando ya no sean necesarios.

In [34]:
#Borra una en específico
df.unpersist()

DataFrame[id: bigint, name: string, dept: string, salary: bigint]

In [35]:
#Borra todas alv ☠️
sqlContext.clearCache()

NameError: name 'sqlContext' is not defined