### Iniciando SparkSession

In [0]:
from pyspark.sql import SparkSession

# Crie uma SparkSession com as configura√ß√µes necess√°rias para o Delta Lake
spark = SparkSession.builder \
    .appName("Leitura Delta") \
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
    .getOrCreate()

#### N√∫mero de N√∫cleos

In [0]:
try:
    num_executors = spark.conf.get("spark.executor.instances")
except Exception:
    num_executors = "Not available"

print(f"N√∫mero de n√∫cleos no cluster: {num_executors}")


####Evid√™ncia de Fato Vendas

In [0]:
from delta.tables import DeltaTable
delta_path = "/Volumes/workspace/store/gold/vendas"
delta_table = DeltaTable.forPath(spark, f"{delta_path}/fato_vendas")
display(delta_table.toDF())

####Evid√™ncia de Dim Produto

In [0]:
from delta.tables import DeltaTable
delta_path = "/Volumes/workspace/store/gold/vendas"
dim_produto_df = DeltaTable.forPath(spark, f"{delta_path}/dim_produto")
display(dim_produto_df.toDF())

####Evid√™ncia de Dim Geografia

In [0]:
from delta.tables import DeltaTable
delta_path = "/Volumes/workspace/store/gold/vendas"
dim_geografia_df = DeltaTable.forPath(spark, f"{delta_path}/dim_geografia")
display(dim_geografia_df.toDF())

####Evid√™ncia de Dim Categoria

In [0]:
from delta.tables import DeltaTable
delta_path = "/Volumes/workspace/store/gold/vendas"
dim_categoria_df = DeltaTable.forPath(spark, f"{delta_path}/dim_categoria")
display(dim_categoria_df.toDF())


####Evid√™ncia de Dim Cliente

In [0]:
from delta.tables import DeltaTable
delta_path = "/Volumes/workspace/store/gold/vendas"
dim_cliente_df = DeltaTable.forPath(spark, f"{delta_path}/dim_cliente")
display(dim_cliente_df.toDF())


####Evid√™ncia de Dim Fabricante

In [0]:
from delta.tables import DeltaTable
delta_path = "/Volumes/workspace/store/gold/vendas"
dim_fabricante_df = DeltaTable.forPath(spark, f"{delta_path}/dim_fabricante")
display(dim_fabricante_df.toDF())

####Evid√™ncia de Dim Segmento

In [0]:
from delta.tables import DeltaTable
delta_path = "/Volumes/workspace/store/gold/vendas/"
dim_segmento_df = DeltaTable.forPath(spark, f"{delta_path}/dim_segmento")
display(dim_segmento_df.toDF())

%md
**Dicas para Otimizar a Performance**
> **Particionamento**: Definimos parti√ß√µes adequadas para evitar leituras desnecess√°rias e melhorar a performance de consultas.

> **Codec de compress√£o**: Usamos Snappy, pois oferece boa performance de compress√£o e descompress√£o.

> **Shuffle partitions**: Definimos um valor fixo para spark.sql.shuffle.partitions para melhorar o paralelismo durante opera√ß√µes como joins e agrega√ß√µes.
> Al√©m disso, podemos explorar t√©cnicas como cache para tabelas pequenas (dimens√µes) que s√£o frequentemente acessadas, e broadcast join para otimizar joins entre a tabela Fato e as tabelas de dimens√µes

### Otimiza√ß√£o de Leitura com predicate pushdown:
- Certifique-se de que as consultas est√£o aproveitando o predicate pushdown, o que significa que os filtros s√£o aplicados diretamente ao ler os dados, melhorando a efici√™ncia.


In [0]:
# Utilizando predicate pushdown para otimizar a consulta
# Caminho para o diret√≥rio dos arquivos Delta
gold_path = "/Volumes/workspace/store/gold/vendas/fato_vendas"
df_filtrado = spark.read.format("delta").load(gold_path).filter("Ano = 2012 AND Mes = 10")

display(df_filtrado)

#### Broadcast join
**Explica√ß√£o:**
**1. Broadcast Join:**

- O broadcast() √© aplicado √†s tabelas de <b>dimens√µes</b> (dim_produto_df e dim_cliente_df). Isso replica as tabelas de dimens√£o para todos os n√≥s, permitindo que as jun√ß√µes sejam realizadas localmente em cada n√≥, sem necessidade de comunica√ß√£o entre n√≥s, o que melhora a performance em clusters distribu√≠dos.

**2. Jun√ß√£o com Broadcast:**

- As jun√ß√µes s√£o feitas entre as colunas de chave original (IDProduto, IDCliente) e as tabelas de dimens√£o para obter as chaves substitutas (SK_Produto, SK_Cliente).

**3. Particionamento:**

- Adicionamos colunas de Ano e M√™s para otimizar o armazenamento da tabela de fatos e melhorar o desempenho em consultas temporais. A tabela √© particionada por essas colunas.

**Vantagens do Broadcast Join:**

- Reduz a movimenta√ß√£o de dados durante a opera√ß√£o de jun√ß√£o, pois as dimens√µes pequenas s√£o replicadas para todos os n√≥s.
- Aumenta a performance quando as tabelas de dimens√£o s√£o significativamente menores que a tabela de fatos, o que √© o caso comum em arquiteturas de data warehouse.

**Desvantagens do Broadcast Join:**
- Limita√ß√£o de Mem√≥ria: O DataFrame menor deve caber na mem√≥ria de todos os n√≥s. Se o DataFrame for muito grande, pode causar erros de falta de mem√≥ria

In [0]:
from pyspark.sql.functions import year, sum, broadcast, desc
from pyspark.sql import SparkSession

# Leitura das tabelas Delta
vendas_df = spark.read.format("delta").load("/Volumes/workspace/store/gold/vendas/fato_vendas")
categoria_df = spark.read.format("delta").load("/Volumes/workspace/store/gold/vendas/dim_categoria")

# Usar broadcast para a tabela categoria
 
categoria_df = broadcast(categoria_df)

# Realizar o join entre as tabelas
joined_df = vendas_df.join(categoria_df, vendas_df.sk_categoria == categoria_df.sk_categoria)

# Agrupar por categoria e ano e calcular a soma do total de vendas
resultado_df = joined_df.groupBy("Categoria", "Ano")\
        .agg(sum("TotalVendas").alias("TotalVendas"))\
        .orderBy("Ano",desc("TotalVendas"))

display(resultado_df)

**Melhorias de Performance**

Filtros de Parti√ß√£o: Se voc√™ souber quais parti√ß√µes espec√≠ficas deseja ler, aplicar filtros nas parti√ß√µes pode reduzir significativamente o tempo de leitura.
Reparticionamento: Se os dados estiverem distribu√≠dos de forma desigual, voc√™ pode usar repartition() para redistribuir o DataFrame com base em uma coluna-chave.

# Dicas de Performance com PySpark

## 1. Use DataFrame/Dataset em vez de RDD
Os DataFrames e Datasets s√£o mais eficientes que os RDDs, pois incluem otimiza√ß√µes autom√°ticas e um motor de execu√ß√£o otimizado. Eles permitem um melhor gerenciamento de mem√≥ria e execu√ß√£o mais r√°pida.

## 2. Evite UDFs (User Defined Functions)
As UDFs podem ser lentas porque n√£o s√£o otimizadas pelo Catalyst Optimizer do Spark. Sempre que poss√≠vel, use as fun√ß√µes internas do Spark SQL, que s√£o mais eficientes.

## 3. Use `coalesce()` em vez de `repartition()`
O `coalesce()` √© mais eficiente que o `repartition()` para reduzir o n√∫mero de parti√ß√µes, pois evita o shuffle de dados.

## 4. Cache de Dados
Cache os DataFrames que s√£o reutilizados v√°rias vezes em suas opera√ß√µes. Isso evita a re-leitura dos dados do disco e melhora o desempenho.

## 5. Reduza Opera√ß√µes de Shuffle
Opera√ß√µes de shuffle, como `groupByKey` e `reduceByKey`, podem ser caras. Use `mapPartitions` e `reduceByKey` sempre que poss√≠vel para minimizar o shuffle.

## 6. Ajuste o N√∫mero de Parti√ß√µes
Ajuste o n√∫mero de parti√ß√µes para equilibrar a carga de trabalho entre os executores. Um n√∫mero inadequado de parti√ß√µes pode levar a um uso ineficiente dos recursos.

## 7. Use Formatos de Dados Serializados
Formatos de dados como Parquet e ORC s√£o mais eficientes para leitura e escrita, pois s√£o compactados e otimizados para consultas.

## 8. Ajuste as Configura√ß√µes do Spark
Ajuste configura√ß√µes como `spark.executor.memory`, `spark.executor.cores` e `spark.sql.shuffle.partitions` para otimizar o uso de recursos.

## 9. Utilize a Adaptive Query Execution (AQE)
A AQE permite que o Spark ajuste dinamicamente o plano de execu√ß√£o das consultas com base nas estat√≠sticas de tempo de execu√ß√£o, melhorando o desempenho.

Implementar essas pr√°ticas pode ajudar a melhorar significativamente o desempenho de suas aplica√ß√µes PySpark. Se precisar de mais detalhes ou tiver outras perguntas, estou aqui para ajudar! ü§úü§õ