Databricks notebook source
MAGIC %md
MAGIC Spill - 
MAGIC Quando a quantidade de Dados, excede a quantidade de memória disponível, e quando isso acontece, o spark, utiliza temporariamente o disco para trabalhar e processar os dados ( o que deixa o processamento mais lento)
MAGIC
MAGIC Quando trabalhamos com o Apache Spark, uma das questões que pode impactar a performance é o "spill" de dados para o disco. O spill acontece quando os dados em memória excedem a capacidade disponível e o Spark é forçado a escrever esses dados temporariamente no disco. Isso pode ocorrer durante operações de shuffle ou quando o cache de RDD/DataFrame é grande demais para caber na memória. O spill para o disco pode significativamente desacelerar as operações, já que a leitura e a escrita em disco são muito mais lentas do que operações em memória.
MAGIC
MAGIC Melhores práticas para evitar :

COMMAND ----------

In [None]:
# Aumentar a quantidade de memória dos executers (executer memory)
# alterando para 4gb
# 
#  # utilizando o notebook
%spark.conf.set("spark.executor.memory","4g")

In [None]:
#
# Utilizando uma sessão Spark com mais memória - IDE
# Chamando no objeto Spark
from pyspark.sql import SparkSession

In [None]:
spark = SparkSession.builder \
  .appName("High Memory App") \
  .config("spark.executor.memory","4g") \
  .getOrCreate()

COMMAND ----------

Aumentar a fração de memória para as operações de shuffle, ele pode podencialmente reduzir o Spill

In [None]:
%spark.conf.set("spark.shuffle.memoryFracion","0.6")

COMMAND ----------

In [None]:
# Reduzir a paralelização
# Garante que cada atividade paralela/processamento realizado, vai receber um pouco mais de memória
# reduzindo o número de partições
df = df.coalesce(100)

COMMAND ----------

In [None]:
#Memory Fraction
# Define a fração de memória que está dentro da máquina (jvm) -- estrutura do spark -- spark puro
# usando notebook
%spark.conf.set("spark.memoryFracion","0.7")

In [None]:
#
# utilizando ide
from pyspark.sql import SparkSession

In [None]:
spark = SparkSession.builder \
  .appName("High Memory App") \
  .config("spark.memoryFracion","0.7") \
  .getOrCreate()

COMMAND ----------

Melhorar o tamanho do buffer do shuffle
O Spark, utiliza alguns buffers, para agrupar os dados/registros, antes de realizar o SPILL
Aumentando o tamanho, pode evitar o Spill
o padrão do buffer é 32k

In [None]:
%spark.conf.set("spark.shuffle.file.buffer","128k")