# ü™ô Camada Silver - Enriquecimento e Otimiza√ß√£o de Vendas

## üìå Objetivo

Este pipeline tem como finalidade transformar os dados brutos processados da **Camada Bronze** em uma **tabela desnormalizada, otimizada e confi√°vel** (Esse modelo **One Big Table (OBT)** facilita an√°lises explorat√≥rias, reduz a necessidade de joins complexos e melhora a performance de consultas anal√≠ticas) na **Camada Silver**, pronta para an√°lise e consumo por dashboards, relat√≥rios e modelo anal√≠tico. Ele aplica pr√°ticas avan√ßadas de engenharia de dados com o **Delta Lake** no ambiente **Databricks**. 

---

## üìÅ Estrutura de Pastas

| Camada     | Localiza√ß√£o |
|------------|-------------|
| Bronze     | `abfss://bronze@dlsprojetofixo.dfs.core.windows.net` |
| Silver     | `abfss://silver@dlsprojetofixo.dfs.core.windows.net` |

---

## üîç Fontes Utilizadas

- `vendas_lucas_exploded` ‚Äî Tabela com informa√ß√µes detalhadas de vendas (por item).
- `clientes_lucas` ‚Äî Tabela de dados cadastrais dos clientes.

---

## üõ†Ô∏è Principais Transforma√ß√µes

- **Convers√£o de tipos:** `OrderDate` convertida para `Date`
- **Remo√ß√£o de colunas amb√≠guas:** `Date_Time_Load` removido de clientes
- **Limpeza de dados:** remo√ß√£o de duplicatas e nulos (`dropDuplicates()` + `na.drop()`)
- **Desnormaliza√ß√£o:** join entre vendas e clientes via chave `CustomerID`
- **Padroniza√ß√£o:** ordena√ß√£o expl√≠cita das colunas
- **Inclus√£o de auditoria:** campo `last_updated` com timestamp da carga
- **Reparticionamento por data:** otimiza√ß√£o por `OrderDate`

---

## üß† T√©cnicas Avan√ßadas Utilizadas

| T√©cnica                    | Benef√≠cio                                                                 |
|---------------------------|--------------------------------------------------------------------------|
| üîÑ `DeltaTable.merge()`    | Garantia de atualiza√ß√£o incremental e controle de duplicidade           |
| üì¶ `broadcast join`       | Acelera joins assim√©tricos (cliente x vendas) evitando shuffle           |
| üßπ `dropDuplicates()` + `na.drop()` | Eleva a qualidade do dado removendo inconsist√™ncias              |
| üßä `cache()`               | Melhora performance em pipelines com m√∫ltiplas etapas                    |
| üß± `OPTIMIZE ZORDER`       | Melhora leitura por colunas com filtragem frequente (`OrderDate`, `OrderID`) |
| üßº `VACUUM`                | Reduz custo de armazenamento com limpeza de arquivos obsoletos           |
| üìö Registro no metastore  | Permite acesso √† tabela Silver via SQL e notebooks                       |

---

## üß™ Valida√ß√£o Final

Ao final da execu√ß√£o, √© feita a contagem total de registros na tabela para fins de auditoria.





| **Informa√ß√µes**    |            **Detalhes**         |
|--------------------|---------------------------------|
| Nome da Tabela     |          Camada Silver          |
| Data da Ingestao   |            31/03/2025           |
| Ultima Atualiza√ßao |            31/03/2025           |
| Origem             | Banco de Dados Azure - Patrick  |
| Respons√°vel        |           Lucas Sousa           |
| Motivo             |   Cria√ßao de Camada Silver      |
| Observa√ß√µes        |               None              |

In [0]:
# üì¶ Pipeline Silver - Enriquecimento de Vendas com Dados de Clientes
# üß† Objetivo: Criar uma tabela desnormalizada e otimizada na camada Silver
# com pr√°ticas avan√ßadas de engenharia de dados:
# - Controle de schema
# - Performance em joins
# - Economia de recursos
# - Otimiza√ß√µes estruturais (Z-ORDER, VACUUM)
# - Clareza e rastreabilidade para uso anal√≠tico

from pyspark.sql.functions import col, current_timestamp, to_date, broadcast
from delta.tables import DeltaTable

# ------------------------------------------
# ‚úÖ Caminhos das tabelas Delta
# ------------------------------------------

# Fontes da camada Bronze (origem de dados raw processados)
file_path_sales = 'abfss://bronze@dlsprojetofixo.dfs.core.windows.net/vendas_lucas_exploded'
file_path_customer = 'abfss://bronze@dlsprojetofixo.dfs.core.windows.net/clientes_lucas'
# Destino da camada Silver (dados refinados, desnormalizados e preparados para an√°lise)
table_path_silver = 'abfss://silver@dlsprojetofixo.dfs.core.windows.net/tabela_prata_desnormalizadas'

# ------------------------------------------
# ‚úÖ Leitura dos dados da Bronze
# ------------------------------------------
# Leitura no formato Delta permite transa√ß√µes ACID, controle de vers√£o e escalabilidade
vendas_df = spark.read.format("delta").load(file_path_sales)
clientes_df = spark.read.format("delta").load(file_path_customer)

# Remove a coluna amb√≠gua que existe em ambos os DataFrames (evita erro no join)
clientes_df = clientes_df.drop("Date_Time_Load")

# Converte a coluna "OrderDate" para tipo Date (removendo horas)
vendas_df = vendas_df.withColumn("OrderDate", to_date(col("OrderDate")))

# ------------------------------------------
# ‚úÖ Aplica√ß√£o de cache para evitar reprocessamento dos dados durante o pipeline
# ------------------------------------------
# Ideal para melhorar performance quando os DataFrames s√£o usados m√∫ltiplas vezes
vendas_df.cache()
clientes_df.cache()

# ------------------------------------------
# ‚úÖ Join entre Vendas e Clientes usando broadcast join
# ------------------------------------------
# Broadcast envia o DataFrame menor (clientes) para todos os n√≥s do cluster,
# evitando shuffle e melhorando performance drasticamente em joins assim√©tricos
joined_df = vendas_df.alias("sales").join(
    broadcast(clientes_df.alias("customer")),
    on="CustomerID",
    how="right"
)

# ------------------------------------------
# ‚úÖ Limpeza dos dados
# ------------------------------------------
# Remove registros duplicados e com valores nulos ‚Äî garante qualidade e consist√™ncia
joined_df = joined_df.dropDuplicates()
joined_df = joined_df.na.drop()

# ------------------------------------------
# ‚úÖ Sele√ß√£o das colunas relevantes e inclus√£o de auditoria
# ------------------------------------------
# Inclui informa√ß√µes necess√°rias para an√°lise e auditoria
final_df = joined_df.select(
    col("sales.OrderDate"),
    col("sales.OrderID"),
    col("sales.CustomerID"),
    col("sales.Status"),
    col("sales.ItemID"),
    col("sales.ProductName"),
    col("sales.Quantity"),
    col("sales.Price"),
    col("sales.TotalAmount"),
    col("sales.City"),
    col("sales.Country"),
    col("sales.PostalCode"),
    col("sales.State"),
    col("sales.Street"),
    col("customer.Name"),
    col("customer.PhoneNumber"),
    col("customer.Age").cast("int"),
    current_timestamp().alias("last_updated")  # marca o hor√°rio da carga na Silver
)

# ------------------------------------------
# ‚úÖ Reorganiza√ß√£o expl√≠cita da ordem das colunas para consist√™ncia
# ------------------------------------------
# Garante que a tabela Delta Silver tenha layout padronizado, importante para downstream (dashboards, relat√≥rios)
final_df = final_df.select(
    "OrderDate", "OrderID", "CustomerID", "Status", "ItemID", "ProductName",
    "Quantity", "Price", "TotalAmount", "City", "Country", "PostalCode",
    "State", "Street", "Name", "PhoneNumber", "Age", "last_updated"
)

# ------------------------------------------
# ‚úÖ Reparticionamento por OrderDate
# ------------------------------------------
# Estrat√©gia que melhora performance na grava√ß√£o e futuras leituras filtradas por data
final_df = final_df.repartition(8, "OrderDate")

# ------------------------------------------
# ‚úÖ Cria√ß√£o do banco Silver no cat√°logo, se necess√°rio
# ------------------------------------------
spark.sql("CREATE DATABASE IF NOT EXISTS silver")

# ------------------------------------------
# ‚úÖ Escrita com MERGE (upsert): atualiza ou insere com base em chaves de neg√≥cio
# ------------------------------------------
# Mant√©m integridade da Silver e evita duplicidade com efici√™ncia
if DeltaTable.isDeltaTable(spark, table_path_silver):
    silver_table = DeltaTable.forPath(spark, table_path_silver)
    silver_table.alias("target").merge(
        final_df.alias("source"),
        """
        target.OrderID = source.OrderID AND 
        target.ItemID = source.ItemID AND 
        target.OrderDate = source.OrderDate
        """
    ).whenMatchedUpdate(set={
        "OrderDate": col("source.OrderDate"),
        "OrderID": col("source.OrderID"),
        "CustomerID": col("source.CustomerID"),
        "Status": col("source.Status"),
        "ItemID": col("source.ItemID"),
        "ProductName": col("source.ProductName"),
        "Quantity": col("source.Quantity"),
        "Price": col("source.Price"),
        "TotalAmount": col("source.TotalAmount"),
        "City": col("source.City"),
        "Country": col("source.Country"),
        "PostalCode": col("source.PostalCode"),
        "State": col("source.State"),
        "Street": col("source.Street"),
        "Name": col("source.Name"),
        "PhoneNumber": col("source.PhoneNumber"),
        "Age": col("source.Age"),
        "last_updated": col("source.last_updated")
    }).whenNotMatchedInsert(values={
        "OrderDate": col("source.OrderDate"),
        "OrderID": col("source.OrderID"),
        "CustomerID": col("source.CustomerID"),
        "Status": col("source.Status"),
        "ItemID": col("source.ItemID"),
        "ProductName": col("source.ProductName"),
        "Quantity": col("source.Quantity"),
        "Price": col("source.Price"),
        "TotalAmount": col("source.TotalAmount"),
        "City": col("source.City"),
        "Country": col("source.Country"),
        "PostalCode": col("source.PostalCode"),
        "State": col("source.State"),
        "Street": col("source.Street"),
        "Name": col("source.Name"),
        "PhoneNumber": col("source.PhoneNumber"),
        "Age": col("source.Age"),
        "last_updated": col("source.last_updated")
    }).execute()
    print("‚úÖ Tabela Silver atualizada com sucesso via MERGE.")
else:
    final_df.write.format("delta").mode("append").save(table_path_silver)
    print("‚úÖ Tabela Silver criada com sucesso.")


# ------------------------------------------
# ‚úÖ Otimiza√ß√£o estrutural com Z-ORDER
# ------------------------------------------
# Organiza os dados fisicamente por colunas de acesso frequente (filtragens, joins)
# Melhora performance de leitura filtrada por `OrderDate` e `OrderID`
spark.sql(f"""
    OPTIMIZE delta.`{table_path_silver}`
    ZORDER BY (OrderDate, OrderID)
""")

# ------------------------------------------
# ‚úÖ Limpeza de arquivos antigos com VACUUM
# ------------------------------------------
# Reduz custo de armazenamento, mantendo apenas arquivos √∫teis
spark.sql(f"""
    VACUUM delta.`{table_path_silver}` RETAIN 168 HOURS
""")

# ------------------------------------------
# ‚úÖ Registro da tabela no cat√°logo Hive/Unity Catalog
# ------------------------------------------
# Garante disponibilidade por SQL e notebooks
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS silver.tabela_prata_desnormalizadas
    USING DELTA
    LOCATION '{table_path_silver}'
""")

# ------------------------------------------
# ‚úÖ Valida√ß√£o final: contagem de registros
# ------------------------------------------
# Verifica√ß√£o r√°pida e √∫til para logs, auditoria e monitoramento
total_registros = spark.read.format("delta").load(table_path_silver).count()
print(f"‚úÖ Total de registros na Tabela Silver: {total_registros}")


‚úÖ Tabela Silver atualizada com sucesso via MERGE.
‚úÖ Total de registros na Tabela Silver: 29945


In [0]:
%sql
SELECT * FROM silver.tabela_prata_desnormalizadas LIMIT 20

CustomerID,OrderDate,OrderID,Status,TotalAmount,ItemID,Price,ProductName,Quantity,City,Country,PostalCode,State,Street,Name,PhoneNumber,Age,last_updated,lastupdate
8,2024-02-04,9761,Pending,682.6,1d8cc57e-147b-4c5e-9eaf-b0359dca6914,315.58,Scanner,1,Jacksonview,Malawi,16236,WI,32501 Larry Parkways,Marie Moon,+1-917-7575,41,2025-04-22T01:39:49.945Z,
35,2023-02-03,5481,Completed,319.27,8de76938-7ae6-4be1-81a1-2f2fefb3f240,279.71,Motherboard,3,Victorport,Brunei Darussalam,69412,KS,087 Michele Causeway,Sandra Craig,+1-369-8136,66,2025-04-22T01:39:49.945Z,
78,2024-04-18,6372,Pending,582.61,8bd3bf24-1f80-4045-b73d-3023f7783596,325.22,Power Supply,3,East Scottburgh,Fiji,18353,WY,3453 Peter Wells,Dustin Foster,+1-623-7342,29,2025-04-22T01:39:49.945Z,
159,2022-12-11,569,Pending,46.12,4f568819-4a3f-4bc4-9797-7e49ab345b06,476.18,Smartwatch,1,Garciaside,Singapore,95226,KS,48677 Elizabeth Prairie,Jerry Butler,+1-459-1917,34,2025-04-22T01:39:49.945Z,
170,2023-04-13,1542,Cancelled,629.66,506aa919-581e-43cc-8beb-8b7aeb7ec06a,48.13,USB Cable,1,West Lisaborough,Canada,49641,NC,190 Farley Avenue Apt. 470,Edward Miller,+1-858-7541,35,2025-04-22T01:39:49.945Z,
204,2024-10-17,7886,Completed,614.27,057077d9-a384-4ff5-9ff3-45c91fe6c92b,446.18,USB Cable,2,Port Lauramouth,Saint Lucia,23477,KS,0242 Frank Walks Suite 511,Robert Burns,+1-662-5893,64,2025-04-22T01:39:49.945Z,
210,2023-01-09,4042,Pending,355.37,22c01a68-6480-4848-a284-beabcde1f167,160.59,Power Supply,1,Francesfort,Falkland Islands (Malvinas),12328,ID,996 Gonzalez Turnpike Suite 293,Nicole Butler,+1-569-8131,37,2025-04-22T01:39:49.945Z,
215,2024-01-08,8511,Completed,720.51,53b3e58a-bad8-4985-8deb-96398ac1b4ba,224.41,Smartwatch,3,New Johnview,Brunei Darussalam,92728,WI,193 Rebecca Drives,Paul Lopez,+1-630-9754,38,2025-04-22T01:39:49.945Z,
264,2022-12-24,1569,Pending,243.08,8af1473e-30ff-4c71-abfc-fca2aa32f097,292.0,Tablet,3,West Ericaland,Bolivia,29957,MS,904 Fowler Cove,Diane Stewart,+1-887-2644,46,2025-04-22T01:39:49.945Z,
289,2024-04-11,1876,Cancelled,904.26,ef0392af-9dc9-48db-92a1-d969149d43c7,54.36,Gaming Chair,2,North Bianca,Cote d'Ivoire,31997,ME,871 Karla Valley,Sarah George,+1-273-2739,60,2025-04-22T01:39:49.945Z,


In [0]:
# üìä Monitoramento e Governan√ßa - Log de Execu√ß√£o do Pipeline Silver

from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType
from pyspark.sql.functions import current_timestamp
from datetime import datetime
import time

# ------------------------------------------
# ‚úÖ In√≠cio da contagem do tempo de execu√ß√£o
# ------------------------------------------
start_time = time.time()

# ------------------------------------------
# ‚úÖ Par√¢metros do log
# ------------------------------------------
job_name = "silver_tabela_prata_desnormalizadas"
status = "SUCESSO"
erro = None

try:
    qtd_linhas = total_registros  # vindo da √∫ltima c√©lula

except Exception as e:
    status = "ERRO"
    erro = str(e)
    qtd_linhas = 0

# ------------------------------------------
# ‚úÖ Tempo total de execu√ß√£o em segundos
# ------------------------------------------
tempo_total = round(time.time() - start_time, 2)

# ------------------------------------------
# ‚úÖ Esquema expl√≠cito para evitar erros de infer√™ncia
# ------------------------------------------
schema_log = StructType([
    StructField("job_name", StringType(), True),
    StructField("data_execucao", StringType(), True),
    StructField("qtd_linhas", IntegerType(), True),
    StructField("status", StringType(), True),
    StructField("erro", StringType(), True),
    StructField("tempo_total_segundos", DoubleType(), True)
])

# ------------------------------------------
# ‚úÖ Cria√ß√£o do DataFrame de log
# ------------------------------------------
log_execucao_df = spark.createDataFrame([(
    job_name,
    datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    qtd_linhas,
    status,
    erro,
    tempo_total
)], schema=schema_log)

# ------------------------------------------
# ‚úÖ Escrita no Delta Lake - agora dentro do container 'silver'
# ------------------------------------------
log_execucao_df.write.format("delta") \
    .mode("append") \
    .option("mergeSchema", "true") \
    .save("abfss://silver@dlsprojetofixo.dfs.core.windows.net/log_execucoes_silver")

print(f"üìå Log da execu√ß√£o do job '{job_name}' registrado com sucesso.")


üìå Log da execu√ß√£o do job 'silver_tabela_prata_desnormalizadas' registrado com sucesso.


In [0]:
%sql
CREATE TABLE IF NOT EXISTS silver.log_execucoes_silver
USING DELTA
LOCATION 'abfss://silver@dlsprojetofixo.dfs.core.windows.net/log_execucoes_silver'

In [0]:
%sql
SELECT * FROM silver.log_execucoes_silver 

job_name,data_execucao,qtd_linhas,status,erro,tempo_total_segundos
silver_tabela_prata_desnormalizadas,2025-04-22 02:06:34,29945,SUCESSO,,0.0
