## Imports

In [1]:
# Imports
from spark_config import init_spark
import os
import glob
from datetime import datetime

## Start Spark Session

In [2]:
spark = init_spark("Pipeline VACUUM Delta")


‚úÖ Spark 3.5.7 iniciado com Hive local persistente!
üìÅ Warehouse: D:/Projetos/DataLake/spark-warehouse
üìÅ Metastore: D:/Projetos/DataLake/metastore_db



## Define Delta Table Paths

In [3]:
# Configura√ß√µes de caminho
base_silver_path = "D:/Projetos/Jornada_financas_pessoais/data/delta/silver"
base_gold_path = "D:/Projetos/Jornada_financas_pessoais/data/delta/gold"

## Define Functions

In [4]:
# Fun√ß√£o para localizar diret√≥rios Delta (procura por _delta_log)
def find_delta_paths(root_path):
    paths = []
    if not os.path.exists(root_path):
        return paths
    for candidate in glob.glob(os.path.join(root_path, "**"), recursive=True):
        if os.path.isdir(candidate) and os.path.exists(os.path.join(candidate, "_delta_log")):
            paths.append(os.path.abspath(candidate))
    # remove duplicatas e ordena
    return sorted(list(dict.fromkeys(paths)))

# Fun√ß√£o para executar VACUUM em uma lista de caminhos
def vacuum_paths(paths, retention_hours=168, dry_run=True):
    """
    Executa VACUUM para cada caminho em `paths`.
    - retention_hours: horas a reter (padr√£o 168 = 7 dias)
    - dry_run: se True apenas imprime os comandos
    """
    for p in paths:
        cmd = f"VACUUM delta.`{p}` RETAIN {retention_hours} HOURS"
        print(f"[{datetime.now()}] Comando: {cmd}")
        if dry_run:
            print(f"  -> dry-run: n√£o executado")
            continue
        try:
            spark.sql(cmd)
            print(f"  ‚úÖ Vacuum finalizado: {p}")
        except Exception as e:
            print(f"  ‚ùå Falha ao executar VACUUM em {p}: {e}")

## Main

In [None]:
# Monta lista de caminhos padr√£o (gold + silver) e adiciona caminhos expl√≠citos comuns
paths = []
paths.extend(find_delta_paths(base_gold_path))
paths.extend(find_delta_paths(base_silver_path))

if not paths:
    print("Nenhum diret√≥rio Delta encontrado nas pastas gold/silver especificadas.")
else:
    print("Caminhos Delta detectados para vacuum:")
    for p in paths:
        print(" -", p)

# Execu√ß√£o padr√£o: dry-run. Para execu√ß√£o real, chamar com dry_run=False
vacuum_paths(paths, retention_hours=168, dry_run=False)

print("\nObserva√ß√£o: Para executar o VACUUM real, re-execute a c√©lula chamando:\n    vacuum_paths(paths, retention_hours=168, dry_run=False)\n")

Caminhos Delta detectados para vacuum:
 - D:\Projetos\Jornada_financas_pessoais\data\delta\gold\dim_ativo_financeiro
 - D:\Projetos\Jornada_financas_pessoais\data\delta\gold\dim_cliente
 - D:\Projetos\Jornada_financas_pessoais\data\delta\gold\dim_tempo
 - D:\Projetos\Jornada_financas_pessoais\data\delta\gold\fato_carteira
 - D:\Projetos\Jornada_financas_pessoais\data\delta\gold\fato_cotacao
 - D:\Projetos\Jornada_financas_pessoais\data\delta\silver\stg_controle_ativo
 - D:\Projetos\Jornada_financas_pessoais\data\delta\silver\stg_cotacao_historica
[2025-12-20 18:09:48.478917] Comando: VACUUM delta.`D:\Projetos\Jornada_financas_pessoais\data\delta\gold\dim_ativo_financeiro` RETAIN 168 HOURS
  ‚úÖ Vacuum finalizado: D:\Projetos\Jornada_financas_pessoais\data\delta\gold\dim_ativo_financeiro
[2025-12-20 18:11:17.212038] Comando: VACUUM delta.`D:\Projetos\Jornada_financas_pessoais\data\delta\gold\dim_cliente` RETAIN 168 HOURS
  ‚úÖ Vacuum finalizado: D:\Projetos\Jornada_financas_pessoais\dat

## Stop Spark Session

In [None]:
# Encerra a SparkSession
spark.stop()
print("\n‚úÖ Spark finalizado")


‚úÖ Spark finalizado
