# üöÄ Projeto: Constru√ß√£o da Tabela Gold - Dimens√£o Cliente

## üìå Vis√£o Geral

Este m√≥dulo representa a constru√ß√£o da **tabela de dimens√£o `dim_cliente`** na camada **Gold** do projeto de Data Lakehouse. A tabela √© derivada da Silver e foi desenhada para armazenar as informa√ß√µes consolidadas dos clientes, com foco em **qualidade dos dados**, **desempenho anal√≠tico** e **governan√ßa eficiente**.

---

## üéØ Objetivo

Criar uma tabela dimensional que represente os clientes, garantindo:

- üôã‚Äç‚ôÇÔ∏è Dados √∫nicos e limpos por cliente (`CustomerID`)
- ‚öôÔ∏è Estrutura otimizada para consultas anal√≠ticas
- üïí Rastreabilidade com controle de cria√ß√£o (`Created_at`)
- üîÑ Atualiza√ß√µes eficientes via **MERGE Delta**
- üöÄ Alto desempenho com **Z-ORDER** e **reparticionamento estrat√©gico**

---

## üìê Detalhes T√©cnicos

- **Fonte**: Camada Silver (`tabela_prata_desnormalizadas`)
- **Destino**: Camada Gold (`gold.dim_cliente`)
- **Particionamento**: `Country`, `State` (4 parti√ß√µes)
- **Chave de Neg√≥cio**: `CustomerID`
- **Colunas da Dimens√£o Cliente**:
  - `CustomerID` (identificador do cliente)
  - `Name` (nome do cliente)
  - `PhoneNumber` (telefone)
  - `Age` (idade)
  - `City` (cidade)
  - `State` (estado)
  - `Country` (pa√≠s)
  - `Created_at` (timestamp de inser√ß√£o na tabela Gold)

---

## ‚öôÔ∏è Etapas do Pipeline

1. **Cria√ß√£o do Banco de Dados `gold`**, caso n√£o exista.
2. **Leitura da Tabela Silver** com dados brutos e normalizados.
3. **Reparticionamento Estrat√©gico** com base em `Country` e `State`.
4. **Limpeza de Dados**: remo√ß√£o de duplicatas e registros nulos.
5. **Cache dos Dados** para otimiza√ß√£o de m√∫ltiplas opera√ß√µes.
6. **Adi√ß√£o de Auditoria Temporal** com a coluna `Created_at`.
7. **Auditoria Inicial**: contagem dos clientes √∫nicos existentes.
8. **Aplica√ß√£o do MERGE Delta**: inser√ß√£o e atualiza√ß√£o baseada em `CustomerID`.
9. **Auditoria Final**: nova contagem dos clientes √∫nicos p√≥s-processamento.
10. **Otimiza√ß√£o com Z-ORDER** por `CustomerID` e `Country`.
11. **Limpeza com VACUUM** para libera√ß√£o de espa√ßo.
12. **Registro no Cat√°logo Hive/Unity Catalog** para consultas SQL.

---

## ‚úÖ Benef√≠cios T√©cnicos Aplicados

| T√©cnica                      | Finalidade                                                                |
|-----------------------------|---------------------------------------------------------------------------|
| `MERGE` Delta               | Evita duplicidade e garante atualiza√ß√µes incrementais                    |
| Reparticionamento estrat√©gico | Aumenta performance de leitura por filtros geogr√°ficos (`Country`, `State`) |
| `dropDuplicates` + `na.drop` | Garante consist√™ncia e integridade dos dados                             |
| `Z-ORDER`                   | Melhora tempo de resposta em consultas filtradas por `CustomerID`         |
| `VACUUM`                    | Reduz uso de armazenamento eliminando arquivos obsoletos                 |
| Registro no cat√°logo        | Permite uso via SQL e dashboards com governan√ßa centralizada             |

---

## üß± Modelo Estrela (Star Schema)

Esta tabela √© utilizada como uma **Dimens√£o** em um **Esquema Estrela**, onde ser√° relacionada √† Tabela Fato de Vendas atrav√©s da chave `CustomerID`, permitindo an√°lises como:

- Total de vendas por cliente
- Perfis demogr√°ficos dos consumidores (idade, localiza√ß√£o)
- Foco regional em campanhas de marketing

---


In [0]:
from pyspark.sql.functions import col, current_timestamp, lit
from delta.tables import DeltaTable

# Caminho para as tabelas Delta
SILVER_PATH = "abfss://silver@dlsprojetofixo.dfs.core.windows.net/tabela_prata_desnormalizadas"
GOLD_DIM_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_dim_cliente"
GOLD_DIM_TABLE = "gold.dim_cliente"

# ------------------------------------------
# 1. Verifica se o banco de dados 'gold' existe e cria caso n√£o exista
# ------------------------------------------
# Criar o banco de dados 'gold' se n√£o existir para garantir que a tabela seja registrada corretamente.
spark.sql("CREATE DATABASE IF NOT EXISTS gold")

# ------------------------------------------
# 2. Carregar os dados da camada Silver
# ------------------------------------------
# Leitura dos dados da camada Silver, onde as informa√ß√µes brutas s√£o armazenadas.
# Aqui, os dados s√£o carregados de uma tabela Delta.
clientes_df = spark.read.format("delta").load(SILVER_PATH)

# ------------------------------------------
# 3. Reparticionamento estrat√©gico
# ------------------------------------------
# Reparticionamento baseado em "Country" e "State" para melhorar a performance durante filtros geogr√°ficos.
# O reparticionamento deve ser feito para reduzir o tempo de leitura em opera√ß√µes futuras, especialmente em consultas 
# que fazem filtros por essas colunas. Usamos 4 parti√ß√µes como exemplo.
clientes_df = clientes_df.repartition(4, "Country", "State")

# ------------------------------------------
# 4. Limpeza robusta dos dados
# ------------------------------------------
# A limpeza de dados √© um passo fundamental. 
# 1. Removemos duplicatas com base no campo 'CustomerID', que √© uma chave √∫nica.
# 2. Eliminamos registros com valores nulos nas colunas essenciais (Name, PhoneNumber e Age).
clientes_df = clientes_df.dropDuplicates(["CustomerID"])
clientes_df = clientes_df.na.drop(subset=["Name", "PhoneNumber", "Age"])

# ------------------------------------------
# 5. Cache do DataFrame para otimizar m√∫ltiplas opera√ß√µes subsequentes
# ------------------------------------------
# O cache √© utilizado aqui porque o DataFrame ser√° utilizado em v√°rias transforma√ß√µes, 
# o que pode levar a um ganho significativo de desempenho ao evitar recalcular o DataFrame repetidamente.
clientes_df.cache()

# ------------------------------------------
# 6. Adicionar uma coluna de data de cria√ß√£o
# ------------------------------------------
# Adiciona uma coluna 'Created_at' com a data e hora atual para rastrear quando os dados foram carregados ou atualizados.
clientes_df = clientes_df.withColumn("Created_at", current_timestamp())

# ------------------------------------------
# 7. Habilita a atualiza√ß√£o autom√°tica de schema no Delta Lake
# ------------------------------------------
# Permite que o Delta aceite novos campos durante a escrita sem erro de schema incompat√≠vel.
spark.conf.set("spark.databricks.delta.schema.autoMerge.enabled", "true")

# ------------------------------------------
# 8. MERGE - Atualizar ou inserir dados na tabela Delta Gold
# ------------------------------------------
# Usamos o MERGE para garantir que a tabela Delta seja atualizada com dados novos ou modificados.
# O MERGE realiza um "upsert", ou seja, ele faz update quando os registros existem e insere quando n√£o existem.
# Verificamos se a tabela j√° existe. Caso exista, fazemos o merge, caso contr√°rio, criamos a tabela do zero.
if DeltaTable.isDeltaTable(spark, GOLD_DIM_PATH):
    cliente_table = DeltaTable.forPath(spark, GOLD_DIM_PATH)

    # Realiza o MERGE: 
    cliente_table.alias("target").merge(
        clientes_df.alias("source"),
        "target.CustomerID = source.CustomerID"
    ).whenMatchedUpdate(set={
        "Name": col("source.Name"),
        "PhoneNumber": col("source.PhoneNumber"),
        "Age": col("source.Age"),
        "City": col("source.City"),
        "State": col("source.State"),
        "Country": col("source.Country"),
        "Created_at": col("source.Created_at")
    }).whenNotMatchedInsert(values={
        "CustomerID": col("source.CustomerID"),
        "Name": col("source.Name"),
        "PhoneNumber": col("source.PhoneNumber"),
        "Age": col("source.Age"),
        "City": col("source.City"),
        "State": col("source.State"),
        "Country": col("source.Country"),
        "Created_at": col("source.Created_at")
    }).execute()
    print("Tabela Gold Dimens√£o Cliente atualizada com sucesso.")
else:
    # Se a tabela n√£o existir, criamos a tabela a partir dos dados carregados.
    clientes_df.write.format("delta").mode("append").option("mergeSchema", "true").save(GOLD_DIM_PATH)
    print("Tabela Gold Dimens√£o Cliente criada com sucesso.")

# ------------------------------------------
# 9. Z-ORDER para otimizar leitura por colunas frequentemente filtradas
# ------------------------------------------
# O Z-ORDER otimiza fisicamente os dados no Delta Lake para melhorar a performance de leitura,
# principalmente quando os dados s√£o filtrados com frequ√™ncia por determinadas colunas, como "CustomerID" e "Country".
# Isso organiza os dados em disco para facilitar a leitura r√°pida por essas colunas.
spark.sql(f"OPTIMIZE delta.`{GOLD_DIM_PATH}` ZORDER BY (CustomerID, Country)")
print("Tabela Gold Dimens√£o Cliente otimizada com sucesso.")

# ------------------------------------------
# 10. VACUUM para economia de armazenamento
# ------------------------------------------
# O comando VACUUM remove arquivos n√£o referenciados no Delta Log que podem estar ocupando espa√ßo desnecess√°rio.
# A reten√ß√£o de 168 horas (7 dias) garante que os dados sejam mantidos por um tempo suficiente antes de serem removidos.
spark.sql(f"VACUUM delta.`{GOLD_DIM_PATH}` RETAIN 168 HOURS")
print("Processo de VACUUM conclu√≠do, arquivos obsoletos removidos.")

# ------------------------------------------
# 11. Registro no cat√°logo para acesso via SQL e notebooks
# ------------------------------------------
# Registra a tabela no cat√°logo para facilitar o acesso em outros processos, notebooks ou consultas SQL.
spark.sql(f"""
CREATE TABLE IF NOT EXISTS {GOLD_DIM_TABLE}
USING DELTA
LOCATION '{GOLD_DIM_PATH}'
""")
print("Tabela Gold Dimens√£o Cliente registrada no cat√°logo com sucesso.")

# ------------------------------------------
# 12. Valida√ß√£o e auditoria da carga
# ------------------------------------------
# Realiza a auditoria imprimindo o total de registros antes e depois do processamento
cliente_count_before = spark.read.format("delta").load(GOLD_DIM_PATH).select("CustomerID").distinct().count()
print(f"Total de registros distintos antes do processamento (Gold Dimens√£o Cliente): {cliente_count_before}")

cliente_count_after = spark.read.format("delta").load(GOLD_DIM_PATH).select("CustomerID").distinct().count()
print(f"Total de registros distintos ap√≥s o processamento (Gold Dimens√£o Cliente): {cliente_count_after}")


Tabela Gold Dimens√£o Cliente atualizada com sucesso.
Tabela Gold Dimens√£o Cliente otimizada com sucesso.
Processo de VACUUM conclu√≠do, arquivos obsoletos removidos.
Tabela Gold Dimens√£o Cliente registrada no cat√°logo com sucesso.
Total de registros distintos antes do processamento (Gold Dimens√£o Cliente): 500
Total de registros distintos ap√≥s o processamento (Gold Dimens√£o Cliente): 500


In [0]:
display(spark.read.table(GOLD_DIM_TABLE).dropDuplicates(["CustomerID"]))

CustomerID,Name,PhoneNumber,Age,City,State,Country,Created_at,data_atualizacao
1,Peter Arroyo,+1-510-4943,35,Kathrynfort,AK,Netherlands Antilles,2025-04-23T00:15:07.27Z,
2,Noah Kramer,+1-322-2452,36,Danielsville,WV,Papua New Guinea,2025-04-23T00:15:07.27Z,
3,Kirk Becker,+1-554-6529,69,Ryanchester,LA,France,2025-04-23T00:15:07.27Z,
4,Jacqueline Gray,+1-700-4444,58,Jennifershire,AK,Congo,2025-04-23T00:15:07.27Z,
5,Julie Hobbs,+1-157-9744,51,Patriciaborough,TX,American Samoa,2025-04-23T00:15:07.27Z,
6,Philip Thompson,+1-843-5051,47,New Emilyside,AL,Moldova,2025-04-23T00:15:07.27Z,
7,Lisa Becker,+1-381-5680,41,West Jessicaview,ND,Bermuda,2025-04-23T00:15:07.27Z,
8,Marie Moon,+1-917-7575,41,Jacksonview,WI,Malawi,2025-04-23T00:15:07.27Z,
9,Michael Johnson,+1-400-5224,48,Aaronberg,MI,Angola,2025-04-23T00:15:07.27Z,
10,Victor Williams,+1-188-8635,70,Meyerhaven,WA,Estonia,2025-04-23T00:15:07.27Z,


In [0]:
# üìä Monitoramento e Governan√ßa - Log de Execu√ß√£o do Pipeline Gold (Dimens√£o Cliente)

from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType
from datetime import datetime
import time

# ------------------------------------------
# 1. In√≠cio da contagem de tempo de execu√ß√£o
# ------------------------------------------
start_time = time.time()

# ------------------------------------------
# 2. Par√¢metros do log
# ------------------------------------------
job_name = "gold_dim_cliente"
status = "SUCESSO"
erro = None

try:
    # C√°lculo da quantidade de registros processados
    qtd_linhas = clientes_df.select("CustomerID").distinct().count()

except Exception as e:
    status = "ERRO"
    erro = str(e)
    qtd_linhas = 0

# ------------------------------------------
# 3. C√°lculo do tempo total de execu√ß√£o (em segundos)
# ------------------------------------------
tempo_total = round(time.time() - start_time, 2)

# ------------------------------------------
# 4. Defini√ß√£o do schema do log
# ------------------------------------------
schema_log = StructType([
    StructField("job_name", StringType(), True),
    StructField("data_execucao", StringType(), True),
    StructField("qtd_linhas", IntegerType(), True),
    StructField("status", StringType(), True),
    StructField("erro", StringType(), True),
    StructField("tempo_total_segundos", DoubleType(), True)
])

# ------------------------------------------
# 5. Cria√ß√£o do DataFrame de log
# ------------------------------------------
log_execucao_df = spark.createDataFrame([(
    job_name,
    datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    qtd_linhas,
    status,
    erro,
    tempo_total
)], schema=schema_log)

# ------------------------------------------
# 6. Escrita no Delta Lake no container da camada Gold
# ------------------------------------------
log_execucao_df.write.format("delta") \
    .mode("append") \
    .option("mergeSchema", "true") \
    .save("abfss://gold@dlsprojetofixo.dfs.core.windows.net/log_execucoes_gold_dim_cliente")

print(f"üìå Log da execu√ß√£o do job '{job_name}' registrado com sucesso.")


üìå Log da execu√ß√£o do job 'gold_dim_cliente' registrado com sucesso.


In [0]:
spark.sql("""
    CREATE TABLE IF NOT EXISTS gold.log_execucoes_gold_dim_cliente
    USING DELTA
    LOCATION 'abfss://gold@dlsprojetofixo.dfs.core.windows.net/log_execucoes_gold_dim_cliente'
""")


DataFrame[]

In [0]:
%sql
SELECT * FROM gold.log_execucoes_gold_dim_cliente

job_name,data_execucao,qtd_linhas,status,erro,tempo_total_segundos
gold_dim_cliente,2025-04-22 02:18:15,0,ERRO,name 'dim_cliente_df' is not defined,0.0
gold_dim_cliente,2025-04-22 02:22:55,0,ERRO,name 'dim_cliente_df' is not defined,0.0
gold_dim_cliente,2025-04-22 02:23:21,0,ERRO,name 'dim_cliente_df' is not defined,0.0
gold_dim_cliente,2025-04-22 02:27:31,0,ERRO,name 'dim_cliente_df' is not defined,0.0
gold_dim_cliente,2025-04-22 02:30:46,500,SUCESSO,,8.58
gold_dim_cliente,2025-04-23 00:17:21,500,SUCESSO,,8.51
