***AVISO**: Esse Notebook foi feito com base na estrutura do Databricks Free Edition, que utiliza catálogos.*

# **ETAPA 3 - PROCESSAMENTO PARA CAMADA SILVER**

---
---

<br>

Essa etapa será responsável por mover os dados para a camada silver, limpando e filtrandoos dados.

*`Complete as informações necessárias nos trechos que estão destacados em vermelho assim como esse, seguindo o padrão snake_case.`*

<br><br>

---
---

### Parte 1 - **Importação das Bibliotecas Necessárias**

In [0]:
import gc
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.sql.window import Window

### Parte 2 - **Otimizar a Sessão com configurações Personalizadas**

Aqui o será configurado algumas propriedades para que o desempenho da sessão seja mais otimizado 
- Define tamanho fixo de partições para o shuffle para melhorar o paralelismo (usar ***número de partições = número de núclos de CPU * 2 ou 3*** para encontrar melhor cenário possível)
- Define o tamanho máximo de partições para evitar muitos arquivos pequenos
- Usa o codec Snappy para compressão rápida, otimizando tempo de leitura e escrita
- Habilita otimizações adaptativas, ajustando o número de partições dinamicamente com base no tamanho dos dados
- Habilita a escrita otimizada para tabelas Delta Lake, reduzindo a criação de pequenos arquivos durante operações de escrita
- Ativa a compactação automática de arquivos Delta, melhorando a performance de leitura e manutenção das tabelas

In [0]:
spark = (
    SparkSession.builder
        .appName("Silver Layer - Transformations")
        .config("spark.sql.shuffle.partitions", "200")
        .config("spark.sql.files.maxPartitionBytes", "134217728") 
        .config("spark.sql.parquet.compression.codec", "snappy")
        .config("spark.sql.adaptive.enabled", "true")
        .config("spark.databricks.delta.optimizeWrite.enabled", "true")
        .config("spark.databricks.delta.autoCompact.enabled", "true")
        .getOrCreate()
)

### Parte 3 - **Definindo Origens, Arquivos e Destinos**

`Insira nas variáveis:` <br>
- `nome_datalakehouse --> nome do Data Lakehouse `
- `nome_camada_bronze --> nome da camada de origem dos dados`
- `nome_volume_bronze --> nome do volume de origem dos dados dentro da camada`
- `nome_camada_silver --> nome da camada de destino dos dados`
- `nome_volume_silver --> nome do volume de destino dos dados dentro da camada`

In [0]:
nome_datalakehouse = "dataexperts"

nome_camada_bronze = "bronze"
nome_volume_bronze = "vendas_atual" 

nome_camada_silver = "silver"
nome_volume_silver = "vendas" 

O código a seguir armazena em variáveis os caminhos já prontos de origem e de destino dos dados:

In [0]:
origem_dados = f"/Volumes/{nome_datalakehouse}/{nome_camada_bronze}/{nome_volume_bronze}"
destino_dados = f"/Volumes/{nome_datalakehouse}/{nome_camada_silver}/{nome_volume_silver}"

O código a seguir cria o volume de destino caso ele ainda não exista:

In [0]:
spark.sql(f"CREATE VOLUME IF NOT EXISTS {nome_datalakehouse}.{nome_camada_silver}.{nome_volume_silver}")

DataFrame[]

`Insira no vetor todos os arquivos que deseja fazer esse processamento para camada silver:` <br>

In [0]:
bronze_tables = {
    "dim_categoria": "bronze_dim_categoria_produto",
    "dim_cliente": "bronze_dim_cliente",        
    "dim_data": "bronze_dim_data",
    "dim_localidade": "bronze_dim_localidade",                
    "dim_produto": "bronze_dim_produto",                    
    "fato_vendas": "bronze_fato_vendas"                                 
}

bronze_dfs = {                            
    nome: spark.read.format("delta").load(f"{origem_dados}/{tabela}")
    for nome, tabela in bronze_tables.items()
}

### Parte 4 - **Limpando e Filtrando os Dados**

A seguir código para substituir os valores null por N/A:

In [0]:
def replace_null_string(df):
    for coluna, tipo in df.dtypes:
        if tipo == "string" and not coluna.endswith("_id"):
            df = df.withColumn(                                            
                coluna,
                when(col(coluna).isNull(), lit("N/A")).otherwise(col(coluna))
            )
    return df

A seguir código para adicionar SK's:

In [0]:
def add_surrogate_key(df, sk_name):
    window = Window.orderBy(lit(1))
    return df.withColumn(sk_name, row_number().over(window).cast("long"))

Função para traduzir "0" para "False" e "1" para "True":

In [0]:
def byte_to_bool(df):
    df = df.withColumn(
        "final_de_semana",
        when(col("final_de_semana") == 0, lit(False))
        .otherwise(lit(True))
    )
    return df

Função para escrever os nomes dos meses em extenso

In [0]:
def mes_nome(df):
    df = df.withColumn(
        "mes",
        when(col("mes") == 1, lit("Janeiro"))
        .when(col("mes") == 2, lit("Fevereiro"))
        .when(col("mes") == 3, lit("Março"))
        .when(col("mes") == 4, lit("Abril"))
        .when(col("mes") == 5, lit("Maio"))
        .when(col("mes") == 6, lit("Junho"))
        .when(col("mes") == 7, lit("Julho"))
        .when(col("mes") == 8, lit("Agosto"))
        .when(col("mes") == 9, lit("Setembro"))
        .when(col("mes") == 10, lit("Outubro"))
        .when(col("mes") == 11, lit("Novembro"))
        .otherwise(lit("Dezembro"))
    )
    return df

A seguir código para transformar as dimensões:

In [0]:
# Dimensão Categoria
silver_dim_categoria = (
    bronze_dfs["dim_categoria"]
        .dropDuplicates(["categoria_id"])
        .withColumn("categoria_nome", upper(trim(col("categoria_nome"))))
)
silver_dim_categoria = replace_null_string(silver_dim_categoria)
silver_dim_categoria = add_surrogate_key(silver_dim_categoria, "sk_categoria")

# Dimensão Cliente
silver_dim_cliente = (
    bronze_dfs["dim_cliente"]
        .dropDuplicates(["cliente_id"])
        .withColumn("nome_cliente", initcap(trim(col("nome_cliente"))))
        .withColumn("estado_cliente", upper(col("estado"))) 
        .withColumn("cidade_cliente", initcap(col("cidade"))) 
        .drop("estado", "cidade")
)
silver_dim_cliente = replace_null_string(silver_dim_cliente)
silver_dim_cliente = add_surrogate_key(silver_dim_cliente, "sk_cliente")

# Dimensão Data
silver_dim_data = (
    bronze_dfs["dim_data"]
        .dropDuplicates(["data_id"])
)
silver_dim_data = byte_to_bool(silver_dim_data)
silver_dim_data = mes_nome(silver_dim_data)
silver_dim_data = replace_null_string(silver_dim_data)
silver_dim_data = add_surrogate_key(silver_dim_data, "sk_data")

# Dimensão Localidade
silver_dim_localidade = (
    bronze_dfs["dim_localidade"]
        .dropDuplicates(["localidade_id"])
        .withColumn("estado_venda", upper(col("estado"))) # renomear coluna
        .withColumn("cidade_venda", initcap(col("cidade"))) # renomear coluna
        .drop("estado", "cidade")
)
silver_dim_localidade = replace_null_string(silver_dim_localidade)
silver_dim_localidade = add_surrogate_key(silver_dim_localidade, "sk_localidade")

# Dimensão Produto
silver_dim_produto = (
    bronze_dfs["dim_produto"]
        .dropDuplicates(["produto_id"])
        .drop("categoria_nome") # remover categoria_nome
        # .withColumn("categoria_nome", upper(col("categoria_nome")))
)
silver_dim_produto = replace_null_string(silver_dim_produto)
silver_dim_produto = add_surrogate_key(silver_dim_produto, "sk_produto")



A seguir código para transformar o fato:

In [0]:
silver_fato_vendas = (
    bronze_dfs["fato_vendas"]
        .dropDuplicates(["venda_id"])
        .filter(col("quantidade") > 0)
        # Categoria
        .join(
            silver_dim_categoria.select("categoria_id", "sk_categoria"),
            on="categoria_id",
            how="left"
        )
        # Cliente
        .join(
            silver_dim_cliente.select("cliente_id", "sk_cliente"),
            on="cliente_id",
            how="left"
        )
        # Produto
        .join(
            silver_dim_produto.select("produto_id", "sk_produto"),
            on="produto_id",
            how="left"
        )
        # Data
        .join(
            silver_dim_data.select("data_id", "sk_data"),
            on="data_id",
            how="left"
        )
        # Localidade
        .join(
            silver_dim_localidade.select("localidade_id", "sk_localidade"),
            on="localidade_id",
            how="left"
        )
)
# Removendo FKs null
silver_fato_vendas = silver_fato_vendas.filter(
    col("sk_categoria").isNotNull() & 
    col("sk_cliente").isNotNull() &
    col("sk_produto").isNotNull() &
    col("sk_data").isNotNull() &
    col("sk_localidade").isNotNull()
)
# Removendo id's
silver_fato_vendas = silver_fato_vendas.drop(
    "categoria_id",
    "cliente_id",
    "produto_id",
    "data_id",
    "localidade_id"
)



### Parte 5 - **Salvando na Camada Silver**

A seguir, código que salva todas as modificações e os novos arquivos na camada silver:

In [0]:
silver_tables = {
    "silver_dim_categoria_produto": silver_dim_categoria,
    "silver_dim_cliente": silver_dim_cliente,
    "silver_dim_data": silver_dim_data,
    "silver_dim_localidade": silver_dim_localidade,
    "silver_dim_produto": silver_dim_produto,
    "silver_fato_vendas": silver_fato_vendas
}

for nome_tabela, df in silver_tables.items():
    (
        df.write
        .format("delta")
        .mode("overwrite")
        .save(f"{destino_dados}/{nome_tabela}")
    )



### Parte 6 - **Limpeza de Cache e Outros**

O código a seguir libera memória de objetos não mais utilizados:

In [0]:
del bronze_dfs
del silver_tables

gc.collect()

29514


<br>

---
---

### **Resultados**

Aqui é um log simples para mostrar se deu certo ou não toda a construção da arquitetura planejada.

In [0]:
# %skip
silver_dim_categoria_produto = spark.read.format("delta").load("/Volumes/dataexperts/silver/vendas/silver_dim_categoria_produto")
display(silver_dim_categoria_produto)

silver_dim_cliente = spark.read.format("delta").load("/Volumes/dataexperts/silver/vendas/silver_dim_cliente")
display(silver_dim_cliente)

silver_dim_data = spark.read.format("delta").load("/Volumes/dataexperts/silver/vendas/silver_dim_data")
display(silver_dim_data)

silver_dim_localidade = spark.read.format("delta").load("/Volumes/dataexperts/silver/vendas/silver_dim_localidade")
display(silver_dim_localidade)

silver_dim_produto = spark.read.format("delta").load("/Volumes/dataexperts/silver/vendas/silver_dim_produto")
display(silver_dim_produto)

silver_fato_vendas = spark.read.format("delta").load("/Volumes/dataexperts/silver/vendas/silver_fato_vendas")
display(silver_fato_vendas)

categoria_id,categoria_nome,_source_file,_ingestion_date,sk_categoria
8,ESPORTES,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,1
11,PAPELARIA,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,2
2,ELETRODOMÉSTICOS,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,3
12,PET SHOP,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,4
1,ELETRÔNICOS,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,5
10,BRINQUEDOS,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,6
7,COSMÉTICOS,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,7
3,ALIMENTOS,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,8
5,VESTUÁRIO,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,9
4,BEBIDAS,categoria_produto_20260206_022705.csv,2026-02-06T05:27:19.031Z,10


cliente_id,nome_cliente,_source_file,_ingestion_date,estado_cliente,cidade_cliente,sk_cliente
271,Cliente 0271,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,AL,Maceió,1
372,Cliente 0372,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,TO,Palmas,2
722,Cliente 0722,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,CE,Juazeiro Do Norte,3
212,Cliente 0212,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,ES,Vila Velha,4
234,Cliente 0234,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,BA,Feira De Santana,5
362,Cliente 0362,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,SP,Sorocaba,6
331,Cliente 0331,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,PE,Jaboatão Dos Guararapes,7
547,Cliente 0547,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,SC,Florianópolis,8
459,Cliente 0459,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,PA,Santarém,9
673,Cliente 0673,cliente_20260206_022706.csv,2026-02-06T05:27:21.170Z,CE,Maracanaú,10


data_id,data,ano,mes,dia,dia_semana,final_de_semana,_source_file,_ingestion_date,sk_data
20220602,2022-06-02,2022,Junho,2,quinta,False,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,1
20230818,2023-08-18,2023,Agosto,18,sexta,False,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,2
20251006,2025-10-06,2025,Outubro,6,segunda,False,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,3
20240410,2024-04-10,2024,Abril,10,quarta,False,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,4
20241001,2024-10-01,2024,Outubro,1,terça,False,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,5
20220717,2022-07-17,2022,Julho,17,domingo,True,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,6
20230902,2023-09-02,2023,Setembro,2,sábado,True,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,7
20250310,2025-03-10,2025,Março,10,segunda,False,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,8
20250626,2025-06-26,2025,Junho,26,quinta,False,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,9
20240403,2024-04-03,2024,Abril,3,quarta,False,data_20260206_022706.csv,2026-02-06T05:27:23.256Z,10


localidade_id,_source_file,_ingestion_date,estado_venda,cidade_venda,sk_localidade
62,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,RO,Porto Velho,1
8,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,BA,Ilhéus,2
38,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,PB,Campina Grande,3
39,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,PB,João Pessoa,4
49,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,PR,Londrina,5
26,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,MG,Betim,6
33,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,MT,Cuiabá,7
40,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,PE,Caruaru,8
11,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,BA,Vitória Da Conquista,9
71,localidade_20260206_022706.csv,2026-02-06T05:27:25.121Z,SC,Chapecó,10


produto_id,preco_lista,_source_file,_ingestion_date,sk_produto
271,64.38,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,1
212,53.59,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,2
234,18.34,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,3
290,18.66,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,4
240,45.22,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,5
117,26.55,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,6
184,36.22,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,7
203,51.93,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,8
62,24.25,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,9
263,5.0,produto_20260206_022707.csv,2026-02-06T05:27:27.044Z,10


venda_id,quantidade,preco_lista,valor_total,_source_file,_ingestion_date,sk_categoria,sk_cliente,sk_produto,sk_data,sk_localidade
271,2,83.72,167.44,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,10,296,260,695,55
1785,1,40.02,40.02,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,8,402,101,683,46
1898,2,13.22,26.44,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,3,598,162,449,24
2851,1,40.43,40.43,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,6,56,138,382,60
7312,2,48.49,96.98,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,11,4,208,1432,80
7347,1,22.83,22.83,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,5,182,117,466,5
9762,2,43.6,87.2,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,12,640,285,617,18
10523,2,21.69,43.38,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,6,220,174,856,37
10696,1,22.14,22.14,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,3,535,150,946,19
14640,1,44.21,44.21,vendas_part1_20260206_022707.csv,2026-02-06T05:27:29.399Z,12,252,285,534,20


---
---

<br><br><br><br><br>