<h1>Validação Stage¶</h1>

In [None]:
# Import do projeto
import sys
import os

PROJECT_ROOT = "/repositorio/projeto"

if PROJECT_ROOT not in sys.path:
    sys.path.append(PROJECT_ROOT)

In [None]:
# Imports das configurações
from pyspark.sql import functions as F
from pyspark.sql.types import *
from pyspark.sql.window import Window
from delta.tables import DeltaTable
from src.utils.spark_session import criar_spark_session
from src.config.settings import settings

# Cria uma sessão do Spark
spark = criar_spark_session()

# Reduzir ruídos
spark.sparkContext.setLogLevel("ERROR")

<h3>Stage Clientes</h3>

In [None]:
# Ler STAGE – clientes (Delta)
df_stage_clientes = spark.read.format("delta").load(
    "s3a://data-lake-local/stage/clientes/"
)

df_stage_clientes.show(5)
df_stage_clientes.printSchema()
print(f'Quantidade de registros: {df_stage_clientes.count()}')

In [None]:
# Ver o histórico da tabela clientes Delta
delta_clientes = DeltaTable.forPath(
    spark,
    "s3a://data-lake-local/stage/clientes/"
)

delta_clientes.history().show(truncate=False)

In [None]:
# Time travel (Lendo a primeira versão da tabela clientes)
df_stage_clientes_v0 = spark.read.format("delta") \
    .option("versionAsOf", 0) \
    .load("s3a://data-lake-local/stage/clientes/")

df_stage_clientes_v0.show(5)
df_stage_clientes_v0.printSchema()
print(f'Quantidade de registros: {df_stage_clientes_v0.count()}')

<h3>Stage Endereços</h3>

In [None]:
# # Ler STAGE – endereços (Delta)
df_stage_enderecos = spark.read.format("delta").load(
    "s3a://data-lake-local/stage/enderecos/"
)

df_stage_enderecos.show(5)
df_stage_enderecos.printSchema()
print(f'Quantidade de registros: {df_stage_enderecos.count()}')

In [None]:
# Time travel (Lendo a primeira versão da tabela endereços)
df_stage_enderecos_v0 = spark.read.format("delta") \
    .option("versionAsOf", 0) \
    .load("s3a://data-lake-local/stage/enderecos/")

df_stage_enderecos_v0.show(5)
df_stage_enderecos_v0.printSchema()
print(f'Quantidade de registros: {df_stage_enderecos_v0.count()}')

In [None]:
# Confirmar deduplicação
df_stage_enderecos.groupBy("id_endereco").count().filter("count > 1").show()

In [None]:
# Ver o histórico da tabela endereços Delta
delta_enderecos = DeltaTable.forPath(
    spark,
    "s3a://data-lake-local/stage/enderecos/"
)

delta_enderecos.history().show(truncate=False)