In [1]:
# ---------------------------------------------------------------------------
# Notebook de Manutenção Periódica dos Lakehouses
# Autor: José Augusto
# Data: 08 de Agosto de 2025
# Objetivo: Executar rotinas de otimização (VACUUM, OPTIMIZE, ANALYZE)
#           nas principais tabelas Silver e Gold para garantir performance e
#           controle de custos.
# ---------------------------------------------------------------------------

import logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# --- CONFIGURAÇÃO ---
# Adicione aqui o nome completo de todas as tabelas importantes que você quer manter.
# Inclua suas principais tabelas Silver e, principalmente, as tabelas Gold que são mais usadas.
tables_to_maintain = [
    # Exemplo da sua dimensão histórica, que é a mais importante
    "lk_departamento_pessoal.tab_gold_dim_funcionario_historico",
    
    # Exemplo da sua dimensão de última posição
    "lk_departamento_pessoal.tab_gold_dim_funcionario_ultima_posicao",
    
    # Adicione aqui outras tabelas grandes ou importantes
    # "seu_outro_lakehouse.sua_outra_tabela_silver",
    # "seu_outro_lakehouse.sua_outra_tabela_gold"
]
# --------------------


logging.info(f"Iniciando script de manutenção para {len(tables_to_maintain)} tabelas.")
print("="*60)

# Loop principal que passa por cada tabela da lista
for table_name in tables_to_maintain:
    logging.info(f"--- Iniciando manutenção para a tabela: {table_name} ---")
    
    # --- Etapa 1: VACUUM ---
    # Limpa arquivos órfãos e mais antigos que o período de retenção (padrão é 7 dias)
    try:
        logging.info(f"Executando VACUUM em {table_name}...")
        spark.sql(f"VACUUM {table_name} RETAIN 168 HOURS")
        logging.info(f"VACUUM em {table_name} concluído com sucesso.")
    except Exception as e:
        logging.error(f"ERRO ao executar VACUUM em {table_name}: {e}")

    # --- Etapa 2: OPTIMIZE ---
    # Compacta arquivos pequenos em arquivos maiores para otimizar a velocidade de leitura
    try:
        logging.info(f"Executando OPTIMIZE em {table_name}...")
        spark.sql(f"OPTIMIZE {table_name}")
        logging.info(f"OPTIMIZE em {table_name} concluído com sucesso.")
    except Exception as e:
        logging.error(f"ERRO ao executar OPTIMIZE em {table_name}: {e}")

    # --- Etapa 3: ANALYZE TABLE ---
    # Coleta estatísticas da tabela para ajudar o motor do Spark a criar planos de consulta mais rápidos
    try:
        logging.info(f"Executando ANALYZE TABLE em {table_name}...")
        spark.sql(f"ANALYZE TABLE {table_name} COMPUTE STATISTICS FOR ALL COLUMNS")
        logging.info(f"ANALYZE TABLE em {table_name} concluído com sucesso.")
    except Exception as e:
        logging.error(f"ERRO ao executar ANALYZE TABLE em {table_name}: {e}")
        
    print(f"--- Manutenção para {table_name} finalizada. ---")
    print("-"*60)

logging.info("=== SCRIPT DE MANUTENÇÃO FINALIZADO COM SUCESSO ===")



StatementMeta(, 92d66009-0da5-4a29-bfd2-454d178b8164, 3, Finished, Available, Finished)

2025-09-22 16:44:08,017 - INFO - Iniciando script de manutenção para 2 tabelas.
2025-09-22 16:44:08,018 - INFO - --- Iniciando manutenção para a tabela: lk_departamento_pessoal.tab_gold_dim_funcionario_historico ---
2025-09-22 16:44:08,019 - INFO - Executando VACUUM em lk_departamento_pessoal.tab_gold_dim_funcionario_historico...
2025-09-22 16:44:41,772 - INFO - VACUUM em lk_departamento_pessoal.tab_gold_dim_funcionario_historico concluído com sucesso.
2025-09-22 16:44:41,774 - INFO - Executando OPTIMIZE em lk_departamento_pessoal.tab_gold_dim_funcionario_historico...
2025-09-22 16:44:55,962 - INFO - VACUUM em lk_departamento_pessoal.tab_gold_dim_funcionario_ultima_posicao concluído com sucesso.
2025-09-22 16:44:55,963 - INFO - Executando OPTIMIZE em lk_departamento_pessoal.tab_gold_dim_funcionario_ultima_posicao...


--- Manutenção para lk_departamento_pessoal.tab_gold_dim_funcionario_historico finalizada. ---
------------------------------------------------------------
--- Manutenção para lk_departamento_pessoal.tab_gold_dim_funcionario_ultima_posicao finalizada. ---
------------------------------------------------------------
