# Hometown - Analytics Case
## Pipeline principal - Dados de Aerogeradores SIGEL/ANEEL

Este notebook implementa um pipeline completo e idempotente para:
- **Extra√ß√£o** de dados da API SIGEL/ANEEL
- **Transforma√ß√£o** de JSON para Parquet otimizado
- **Consolida√ß√£o** em CSV final para Tableau

### Caracter√≠sticas do Pipeline:
- **Idempotente**: N√£o reprocessa dados desnecessariamente
- **Baseado em dados**: Usa `DATA_ATUALIZACAO` da pr√≥pria API
- **Paralelo**: ThreadPool para performance
- **Robusto**: Retry, valida√ß√µes e logs detalhados
- **Limpo**: Auto-limpeza de dados antigos

---
## üì¶ 1. Setup e configura√ß√£o inicial

Configura√ß√£o do ambiente, imports e valida√ß√£o da conectividade com a API.

In [1]:
# Imports b√°sicos e configura√ß√£o de paths
import sys
import json
from pathlib import Path
import pandas as pd

# Configurar path do projeto
project_root = Path.cwd().parent
src_path = project_root / "src"
sys.path.insert(0, str(src_path))

print("üîß Configura√ß√£o do ambiente...")
print(f"Projeto root: {project_root}")
print(f"Src path: {src_path}")
print("‚úÖ Paths configurados!")

üîß Configura√ß√£o do ambiente...
Projeto root: /home/victor-jose/Documents/projetos/hometown
Src path: /home/victor-jose/Documents/projetos/hometown/src
‚úÖ Paths configurados!


In [2]:
# Imports dos m√≥dulos do projeto
from extraction.extractors import SigelExtractor
from extraction.validators import validate_api_connection, validate_extraction_results
from transformation.processors import DataProcessor
from consolidation.consolidators import DataConsolidator
from config.settings import SIGEL_CONFIG
from utils.logger import setup_logger
from utils.exceptions import APIConnectionError, ValidationError

# Setup do logger principal
logger = setup_logger(__name__, "pipeline.log")

print("M√≥dulos importados com sucesso!")
print(f"API URL: {SIGEL_CONFIG['url']}")
print(f"Tamanho da p√°gina: {SIGEL_CONFIG['page_size']} registros")
print("‚úÖ Setup conclu√≠do!")

M√≥dulos importados com sucesso!
API URL: https://sigel.aneel.gov.br/arcgis/rest/services/PORTAL/WFS/MapServer/0/query
Tamanho da p√°gina: 1000 registros
‚úÖ Setup conclu√≠do!


### Valida√ß√£o da conectividade

Testa a conex√£o com a API SIGEL/ANEEL antes de iniciar o pipeline.

In [3]:
# Testar conectividade com a API
try:
    print("üåê Testando conectividade com a API SIGEL/ANEEL...")
    
    api_url = SIGEL_CONFIG["url"]
    connection_ok = validate_api_connection(api_url)
    
    if connection_ok:
        print("‚úÖ API conectada com sucesso!")
        logger.info("Valida√ß√£o de conectividade conclu√≠da com sucesso")
    else:
        print("‚ùå Falha na conex√£o com API")
        
except (APIConnectionError, ValidationError) as e:
    print(f"‚ùå Erro de valida√ß√£o: {e}")
    logger.error(f"Erro de valida√ß√£o: {e}")
except Exception as e:
    print(f"‚ùå Erro inesperado: {e}")
    logger.error(f"Erro inesperado durante valida√ß√£o: {e}")

üåê Testando conectividade com a API SIGEL/ANEEL...
2025-06-01 18:46:04 - extraction.validators - INFO - API conectada com sucesso. Total de registros: 23522
‚úÖ API conectada com sucesso!
2025-06-01 18:46:04 - __main__ - INFO - Valida√ß√£o de conectividade conclu√≠da com sucesso


---
## 2. Comandos de limpeza e manuten√ß√£o

Fun√ß√µes utilit√°rias para gerenciar dados e fazer limpeza quando necess√°rio.

In [4]:
def show_current_data_status():
    """Exibe status atual dos dados no projeto"""
    print("STATUS ATUAL DOS DADOS:")
    print("="*40)
    
    # Contar arquivos em cada etapa
    raw_files = list(Path("data/raw").glob("aerogeradores_raw_*.json")) if Path("data/raw").exists() else []
    processed_files = list(Path("data/processed").glob("aerogeradores_processed_*.parquet")) if Path("data/processed").exists() else []
    output_files = list(Path("data/output").glob("aerogeradores_consolidado_*.csv")) if Path("data/output").exists() else []
    
    print(f"Arquivos JSON (raw): {len(raw_files)}")
    print(f"Arquivos Parquet (processed): {len(processed_files)}")
    print(f"Arquivos CSV (output): {len(output_files)}")
    
    # Calcular tamanhos
    total_size = 0
    for files, label in [(raw_files, "JSONs"), (processed_files, "Parquets"), (output_files, "CSVs")]:
        if files:
            size = sum(f.stat().st_size for f in files) / 1024 / 1024
            total_size += size
            print(f"Tamanho {label}: {size:.2f} MB")
    
    print(f"Tamanho total: {total_size:.2f} MB")
    
    return {
        'raw_count': len(raw_files),
        'processed_count': len(processed_files),
        'output_count': len(output_files),
        'total_size_mb': total_size
    }

def cleanup_all_data():
    """Remove todos os dados para recome√ßar do zero"""
    print("INICIANDO LIMPEZA COMPLETA...")
    
    # Instanciar classes para usar m√©todos de limpeza
    extractor = SigelExtractor()
    processor = DataProcessor()
    consolidator = DataConsolidator()
    
    # Executar limpeza de cada etapa
    raw_removed = extractor.cleanup_all_raw_data()
    processed_removed = processor.cleanup_all_processed_data()
    output_removed = consolidator.cleanup_all_output_data()
    
    total_removed = raw_removed + processed_removed + output_removed
    
    print(f"RESUMO DA LIMPEZA:")
    print(f"  JSONs removidos: {raw_removed}")
    print(f"  Parquets removidos: {processed_removed}")
    print(f"  CSVs removidos: {output_removed}")
    print(f"  Total de arquivos: {total_removed}")
    print(f"‚úÖ Limpeza completa conclu√≠da!")
    
    return total_removed

# Mostrar status inicial
status = show_current_data_status()

print("\n" + "="*50)
print("COMANDOS DISPON√çVEIS:")
print("‚Ä¢ show_current_data_status() - Mostra status dos dados")
print("‚Ä¢ cleanup_all_data() - Remove todos os dados")
print("="*50)

STATUS ATUAL DOS DADOS:
Arquivos JSON (raw): 0
Arquivos Parquet (processed): 0
Arquivos CSV (output): 0
Tamanho total: 0.00 MB

COMANDOS DISPON√çVEIS:
‚Ä¢ show_current_data_status() - Mostra status dos dados
‚Ä¢ cleanup_all_data() - Remove todos os dados


---
## üöÄ 3. Pipeline principal - extra√ß√£o de dados

Extra√ß√£o idempotente de dados da API SIGEL/ANEEL. O sistema verifica automaticamente se os dados mudaram na API antes de fazer nova extra√ß√£o.

In [5]:
# Instanciar extrator e verificar freshness dos dados
print("üîç VERIFICANDO FRESHNESS DOS DADOS...")
print("="*50)

extractor = SigelExtractor()
freshness = extractor.check_data_freshness()

print(f"STATUS DOS DADOS:")
print(f"  API √∫ltima atualiza√ß√£o: {freshness['api_latest_update']}")
print(f"  Nossa √∫ltima extra√ß√£o: {freshness['our_last_extraction']}")
print(f"  Precisa atualizar: {freshness['needs_refresh']}")

if freshness['last_extraction_time']:
    print(f"  √öltima extra√ß√£o em: {freshness['last_extraction_time']}")
    print(f"  Registros da √∫ltima extra√ß√£o: {freshness['last_total_records']:,}")
else:
    print(f"  Primeira execu√ß√£o - nenhuma extra√ß√£o anterior")

print("\n" + "="*50)

üîç VERIFICANDO FRESHNESS DOS DADOS...
2025-06-01 18:46:04 - extraction.extractors - INFO - Verificando freshness dos dados...
2025-06-01 18:46:04 - extraction.extractors - INFO - API √∫ltima atualiza√ß√£o: 1673359590000
2025-06-01 18:46:04 - extraction.extractors - INFO - Nossa √∫ltima extra√ß√£o: 0
2025-06-01 18:46:04 - extraction.extractors - INFO - Precisa atualizar: True
STATUS DOS DADOS:
  API √∫ltima atualiza√ß√£o: 1673359590000
  Nossa √∫ltima extra√ß√£o: 0
  Precisa atualizar: True
  Primeira execu√ß√£o - nenhuma extra√ß√£o anterior



In [6]:
# Executar extra√ß√£o (idempotente - s√≥ extrai se necess√°rio)
print("EXECUTANDO EXTRA√á√ÉO DE DADOS...")
print("(O sistema decide automaticamente se precisa extrair baseado na DATA_ATUALIZACAO da API)\n")

try:
    # Extra√ß√£o idempotente (force_refresh=False por padr√£o)
    saved_files = extractor.extract_all_data()
    
    print(f"\nRESULTADO DA EXTRA√á√ÉO:")
    print(f"‚úÖ Arquivos JSON salvos: {len(saved_files)}")
    
    if saved_files:
        # Mostrar alguns arquivos como exemplo
        print(f"\nArquivos salvos (primeiros 3):")
        for i, file_path in enumerate(saved_files[:3]):
            filename = Path(file_path).name
            size = Path(file_path).stat().st_size / 1024  # KB
            print(f"  {i+1}. {filename} ({size:.1f} KB)")
        
        if len(saved_files) > 3:
            print(f"  ... e mais {len(saved_files) - 3} arquivos")
        
        # Calcular tamanho total
        total_size = sum(Path(f).stat().st_size for f in saved_files) / 1024 / 1024
        print(f"\nTamanho total: {total_size:.2f} MB")
        print(f"Localiza√ß√£o: data/raw/")
    
    logger.info(f"Extra√ß√£o conclu√≠da: {len(saved_files)} arquivos")
    
except Exception as e:
    print(f"‚ùå Erro durante extra√ß√£o: {e}")
    logger.error(f"Erro durante extra√ß√£o: {e}")
    raise

EXECUTANDO EXTRA√á√ÉO DE DADOS...
(O sistema decide automaticamente se precisa extrair baseado na DATA_ATUALIZACAO da API)

2025-06-01 18:46:04 - extraction.extractors - INFO - Verificando freshness dos dados...
2025-06-01 18:46:04 - extraction.extractors - INFO - API √∫ltima atualiza√ß√£o: 1673359590000
2025-06-01 18:46:04 - extraction.extractors - INFO - Nossa √∫ltima extra√ß√£o: 0
2025-06-01 18:46:04 - extraction.extractors - INFO - Precisa atualizar: True
2025-06-01 18:46:04 - extraction.extractors - INFO - üîÑ Dados da API foram atualizados, executando nova extra√ß√£o...
2025-06-01 18:46:05 - extraction.extractors - INFO - üìä Total de registros: 23522
2025-06-01 18:46:05 - extraction.extractors - INFO - üìÑ Total de p√°ginas: 24
2025-06-01 18:46:05 - extraction.extractors - INFO - üìÖ Data de atualiza√ß√£o da API: 1673359590000
2025-06-01 18:46:05 - extraction.extractors - INFO - Extraindo p√°gina 1/24
2025-06-01 18:46:05 - extraction.extractors - INFO - Extraindo p√°gina 2/2

In [7]:
# Valida√ß√£o dos dados extra√≠dos
if 'saved_files' in locals() and saved_files:
    print("VALIDANDO DADOS EXTRA√çDOS...")
    
    try:
        # Valida√ß√£o usando fun√ß√£o do m√≥dulo validators
        validation_ok = validate_extraction_results(
            saved_files=saved_files,
            expected_records=0  # A fun√ß√£o vai descobrir automaticamente
        )
        
        if validation_ok:
            print("‚úÖ Valida√ß√£o dos dados extra√≠dos conclu√≠da!")
        else:
            print("‚ùå Falha na valida√ß√£o dos dados extra√≠dos")
            
        # Explorar estrutura de um arquivo como exemplo
        print("\nEXPLORANDO ESTRUTURA DOS DADOS:")
        first_file = saved_files[0]
        print(f"Arquivo exemplo: {Path(first_file).name}")
        
        with open(first_file, 'r', encoding='utf-8') as f:
            sample_data = json.load(f)
        
        print(f"Chaves principais: {list(sample_data.keys())}")
        
        if 'features' in sample_data:
            features = sample_data['features']
            print(f"Features neste arquivo: {len(features)}")
            
            if features:
                first_feature = features[0]
                attrs = first_feature.get('attributes', {})
                print(f"Campos dispon√≠veis: {list(attrs.keys())[:8]}...")  # Primeiros 8
                
                # Mostrar campo de data de atualiza√ß√£o
                if 'DATA_ATUALIZACAO' in attrs:
                    data_atualizacao = attrs['DATA_ATUALIZACAO']
                    print(f"DATA_ATUALIZACAO exemplo: {data_atualizacao}")
        
        logger.info("Valida√ß√£o dos dados extra√≠dos conclu√≠da com sucesso")
        
    except Exception as e:
        print(f"‚ùå Erro durante valida√ß√£o: {e}")
        logger.error(f"Erro durante valida√ß√£o: {e}")
else:
    print("‚ö†Ô∏è Nenhum arquivo para validar. A extra√ß√£o pode ter sido pulada (idempot√™ncia).")

VALIDANDO DADOS EXTRA√çDOS...
2025-06-01 18:46:13 - extraction.validators - INFO - Valida√ß√£o da extra√ß√£o conclu√≠da. 24 arquivos salvos
‚úÖ Valida√ß√£o dos dados extra√≠dos conclu√≠da!

EXPLORANDO ESTRUTURA DOS DADOS:
Arquivo exemplo: aerogeradores_raw_20250601_184604_page_0003.json
Chaves principais: ['displayFieldName', 'fieldAliases', 'geometryType', 'spatialReference', 'fields', 'features', 'exceededTransferLimit']
Features neste arquivo: 1000
Campos dispon√≠veis: ['POT_MW', 'ALT_TOTAL', 'ALT_TORRE', 'DIAM_ROTOR', 'DATA_ATUALIZACAO', 'EOL_VERSAO_ID', 'NOME_EOL', 'DEN_AEG']...
DATA_ATUALIZACAO exemplo: 1666625847000
2025-06-01 18:46:13 - __main__ - INFO - Valida√ß√£o dos dados extra√≠dos conclu√≠da com sucesso


---
## üîÑ 4. Fase de transforma√ß√£o - JSON ‚Üí Parquet

Transforma os arquivos JSON em Parquet otimizado com dados geogr√°ficos processados (lat/long extra√≠dos). Essa fase deixa os dados armazenados em parquet para futuras transforma√ß√µes ou persist√™ncia em um banco de dados, otimizando a leitura.

In [8]:
# Instanciar processador e verificar necessidade de transforma√ß√£o
print("VERIFICANDO NECESSIDADE DE TRANSFORMA√á√ÉO...")
print("="*50)

processor = DataProcessor()
transform_check = processor.check_transformation_needed()

print(f"STATUS DA TRANSFORMA√á√ÉO:")
print(f"  Precisa transformar: {transform_check['needs_transformation']}")

if 'json_count' in transform_check:
    print(f"  Arquivos JSON encontrados: {transform_check['json_count']}")
if 'parquet_count' in transform_check:
    print(f"  Arquivos Parquet existentes: {transform_check['parquet_count']}")

print("\n" + "="*50)

VERIFICANDO NECESSIDADE DE TRANSFORMA√á√ÉO...
2025-06-01 18:46:13 - transformation.processors - INFO - Descobertos 24 arquivos JSON para processar
STATUS DA TRANSFORMA√á√ÉO:
  Precisa transformar: True
  Arquivos JSON encontrados: 24
  Arquivos Parquet existentes: 0



In [9]:
# Executar transforma√ß√£o (idempotente - s√≥ processa se necess√°rio)
print("EXECUTANDO TRANSFORMA√á√ÉO JSON ‚Üí PARQUET...")
print("(Sistema converte JSON para Parquet com coordenadas lat/long extra√≠das)\n")

try:
    # Transforma√ß√£o idempotente (force_refresh=False por padr√£o)
    processed_files = processor.process_all_files()
    
    print(f"\nRESULTADO DA TRANSFORMA√á√ÉO:")
    print(f"‚úÖ Arquivos Parquet criados: {len(processed_files)}")
    
    if processed_files:
        # Calcular estat√≠sticas dos parquets
        total_size = 0
        total_records = 0
        
        print(f"\nüìã Arquivos Parquet (primeiros 3):")
        for i, file_path in enumerate(processed_files[:3]):
            filename = Path(file_path).name
            size = Path(file_path).stat().st_size / 1024  # KB
            total_size += Path(file_path).stat().st_size
            
            # Contar registros no parquet
            try:
                df = pd.read_parquet(file_path)
                records = len(df)
                total_records += records
                print(f"  {i+1}. {filename} ({size:.1f} KB, {records:,} registros)")
            except:
                print(f"  {i+1}. {filename} ({size:.1f} KB)")
        
        if len(processed_files) > 3:
            print(f"  ... e mais {len(processed_files) - 3} arquivos")
            
            # Contar registros restantes
            for file_path in processed_files[3:]:
                total_size += Path(file_path).stat().st_size
                try:
                    df = pd.read_parquet(file_path)
                    total_records += len(df)
                except:
                    pass
        
        print(f"\nTamanho total: {total_size / 1024 / 1024:.2f} MB")
        print(f"Total de registros: {total_records:,}")
        print(f"Localiza√ß√£o: data/processed/")
        print(f"Compress√£o: {((total_size / 1024 / 1024) / 17) * 100:.1f}% do tamanho original JSON")
    
    logger.info(f"Transforma√ß√£o conclu√≠da: {len(processed_files)} parquets")
    
except :
    print(f"‚ùå Erro durante transforma√ß√£o: N√£o precisa transformar, n√£o h√° atualiza√ß√£o")
    logger.error(f"Erro durante transforma√ß√£o: N√£o precisa transformar, n√£o h√° atualiza√ß√£o")
    raise

EXECUTANDO TRANSFORMA√á√ÉO JSON ‚Üí PARQUET...
(Sistema converte JSON para Parquet com coordenadas lat/long extra√≠das)

2025-06-01 18:46:13 - transformation.processors - INFO - Descobertos 24 arquivos JSON para processar
2025-06-01 18:46:13 - transformation.processors - INFO - üîÑ Transforma√ß√£o necess√°ria: {'needs_transformation': True, 'reason': 'Transforma√ß√£o necess√°ria', 'json_count': 24, 'parquet_count': 0}
2025-06-01 18:46:13 - transformation.processors - INFO - Descobertos 24 arquivos JSON para processar
2025-06-01 18:46:13 - transformation.processors - INFO - Iniciando processamento de 24 arquivos...
2025-06-01 18:46:13 - transformation.processors - INFO - Processado aerogeradores_raw_20250601_184604_page_0003.json: 1000 registros
2025-06-01 18:46:13 - transformation.processors - INFO - Processado aerogeradores_raw_20250601_184604_page_0002.json: 1000 registros
2025-06-01 18:46:13 - transformation.geo_utils - INFO - Valida√ß√£o geogr√°fica: 1000/1000 registros v√°lidos
2

---
## üìä 5. Fase de consolida√ß√£o - Parquet ‚Üí CSV Final

Consolida todos os Parquets em um √∫nico CSV otimizado para o Tableau, com valida√ß√µes inteligentes de conte√∫do.

In [10]:
# Instanciar consolidador e verificar necessidade de consolida√ß√£o
print("üìä VERIFICANDO NECESSIDADE DE CONSOLIDA√á√ÉO...")
print("="*50)

consolidator = DataConsolidator()
consolidation_check = consolidator.check_consolidation_needed()

print(f"üìä STATUS DA CONSOLIDA√á√ÉO:")
print(f"  üîÑ Precisa consolidar: {consolidation_check['needs_consolidation']}")
print(f"  üìù Motivo: {consolidation_check['reason']}")

if 'csv_records' in consolidation_check:
    print(f"  üìÑ Registros no CSV atual: {consolidation_check['csv_records']:,}")
if 'expected_records' in consolidation_check:
    print(f"  üì¶ Registros esperados: {consolidation_check['expected_records']:,}")
if 'parquet_count' in consolidation_check:
    print(f"  üì¶ Arquivos Parquet encontrados: {consolidation_check['parquet_count']}")

print("\n" + "="*50)

üìä VERIFICANDO NECESSIDADE DE CONSOLIDA√á√ÉO...
2025-06-01 18:46:13 - consolidation.consolidators - INFO - Descobertos 24 arquivos Parquet para consolidar
üìä STATUS DA CONSOLIDA√á√ÉO:
  üîÑ Precisa consolidar: True
  üìù Motivo: Nenhum CSV encontrado
  üì¶ Arquivos Parquet encontrados: 24



In [11]:
# Executar consolida√ß√£o (idempotente - s√≥ consolida se necess√°rio)
print("EXECUTANDO CONSOLIDA√á√ÉO PARQUET ‚Üí CSV...")
print("(Sistema cria CSV final otimizado para Tableau com dados limpos e validados)\n")

try:
    # Consolida√ß√£o idempotente (force_refresh=False por padr√£o)
    output_path = consolidator.consolidate_all()
    
    print(f"\nRESULTADO DA CONSOLIDA√á√ÉO:")
    
    if output_path and Path(output_path).exists():
        filename = Path(output_path).name
        file_size = Path(output_path).stat().st_size / 1024 / 1024  # MB
        
        print(f"‚úÖ CSV final criado: {filename}")
        print(f"Tamanho do arquivo: {file_size:.2f} MB")
        print(f"Localiza√ß√£o completa: {output_path}")
        
        # Analisar conte√∫do do CSV final
        print(f"\nAN√ÅLISE DO CSV FINAL:")
        df_final = pd.read_csv(output_path)
        summary = consolidator.get_data_summary(df_final)
        
        print(f"Total de registros: {summary['total_records']:,}")
        print(f"Total de colunas: {summary['total_columns']}")
        print(f"Uso de mem√≥ria: {summary['memory_usage_mb']:.2f} MB")
        
        # Coordenadas geogr√°ficas
        if 'coordinate_stats' in summary:
            coords = summary['coordinate_stats']
            print(f"\nCOORDENADAS GEOGR√ÅFICAS:")
            print(f"  Latitude: {coords['lat_min']:.6f} ‚Üí {coords['lat_max']:.6f}")
            print(f"  Longitude: {coords['lon_min']:.6f} ‚Üí {coords['lon_max']:.6f}")
        
        # Estrutura das colunas
        print(f"\nESTRUTURA DOS DADOS (primeiras 10 colunas):")
        for i, col in enumerate(summary['columns'][:10], 1):
            print(f"  {i:2d}. {col}")
        if len(summary['columns']) > 10:
            print(f"  ... e mais {len(summary['columns']) - 10} colunas")
        
        print(f"\nCSV PRONTO PARA TABLEAU")
        print(f"   ‚Ä¢ Coordenadas no in√≠cio para mapas autom√°ticos")
        print(f"   ‚Ä¢ Dados limpos e validados")
        print(f"   ‚Ä¢ Formato otimizado para an√°lise")
        
    else:
        print(f"‚ö†Ô∏è Nenhum CSV foi criado (possivelmente devido √† idempot√™ncia)")
    
    logger.info(f"Consolida√ß√£o conclu√≠da: {filename if output_path else 'pulada'}")
    
except Exception as e:
    print(f"‚ùå Erro durante consolida√ß√£o: {e}")
    logger.error(f"Erro durante consolida√ß√£o: {e}")
    raise

EXECUTANDO CONSOLIDA√á√ÉO PARQUET ‚Üí CSV...
(Sistema cria CSV final otimizado para Tableau com dados limpos e validados)

2025-06-01 18:46:13 - consolidation.consolidators - INFO - Descobertos 24 arquivos Parquet para consolidar
2025-06-01 18:46:13 - consolidation.consolidators - INFO - üîÑ Consolida√ß√£o necess√°ria: Nenhum CSV encontrado
2025-06-01 18:46:13 - consolidation.consolidators - INFO - Iniciando consolida√ß√£o completa...
2025-06-01 18:46:13 - consolidation.consolidators - INFO - Descobertos 24 arquivos Parquet para consolidar
2025-06-01 18:46:13 - consolidation.consolidators - INFO - Carregando 24 arquivos Parquet...
2025-06-01 18:46:13 - consolidation.consolidators - INFO - Consolidando 24 DataFrames...
2025-06-01 18:46:13 - consolidation.consolidators - INFO - Consolida√ß√£o conclu√≠da: 23522 registros totais
2025-06-01 18:46:13 - consolidation.consolidators - INFO - Otimizando dados para Tableau...
2025-06-01 18:46:13 - consolidation.consolidators - INFO - Removidas c

In [12]:
# Teste de force refresh - deve reprocessar tudo
print("\nTESTE DE FORCE REFRESH")
print("="*40)
print("‚ö†Ô∏è ATEN√á√ÉO: Isso vai reprocessar todos os dados (pode demorar alguns minutos)")
print("Descomente as linhas abaixo se quiser testar force refresh:\n")

print("# Force refresh - descomente para executar:")
print("# force_files = test_extractor.extract_all_data(force_refresh=True)")
print("# force_parquets = test_processor.process_all_files(force_refresh=True)")
print("# force_csv = test_consolidator.consolidate_all(force_refresh=True)")
print("# print(f'Force refresh: {len(force_files)} JSONs, {len(force_parquets)} Parquets, 1 CSV')")

print("\nO force refresh deve:")
print("   ‚Ä¢ Limpar dados antigos automaticamente")
print("   ‚Ä¢ Reprocessar todos os dados do zero")
print("   ‚Ä¢ Gerar novos timestamps em todos os arquivos")


TESTE DE FORCE REFRESH
‚ö†Ô∏è ATEN√á√ÉO: Isso vai reprocessar todos os dados (pode demorar alguns minutos)
Descomente as linhas abaixo se quiser testar force refresh:

# Force refresh - descomente para executar:
# force_files = test_extractor.extract_all_data(force_refresh=True)
# force_parquets = test_processor.process_all_files(force_refresh=True)
# force_csv = test_consolidator.consolidate_all(force_refresh=True)
# print(f'Force refresh: {len(force_files)} JSONs, {len(force_parquets)} Parquets, 1 CSV')

O force refresh deve:
   ‚Ä¢ Limpar dados antigos automaticamente
   ‚Ä¢ Reprocessar todos os dados do zero
   ‚Ä¢ Gerar novos timestamps em todos os arquivos


---
## üõ†Ô∏è 7. Comandos de manuten√ß√£o

Ferramentas para limpeza, debug e manuten√ß√£o do pipeline.

In [13]:
# Comandos de limpeza e manuten√ß√£o
print("üõ†Ô∏è COMANDOS DE MANUTEN√á√ÉO DISPON√çVEIS")
print("="*50)

print("üìä STATUS E INFORMA√á√ïES:")
print("‚Ä¢ show_current_data_status() - Mostra status completo dos dados")
print("‚Ä¢ extractor.check_data_freshness() - Verifica se API mudou")
print("‚Ä¢ processor.check_transformation_needed() - Verifica necessidade de transforma√ß√£o")
print("‚Ä¢ consolidator.check_consolidation_needed() - Verifica necessidade de consolida√ß√£o")

print("\nLIMPEZA:")
print("‚Ä¢ cleanup_all_data() - Remove TODOS os dados (reset completo)")
print("‚Ä¢ extractor.cleanup_all_raw_data() - Remove apenas JSONs")
print("‚Ä¢ processor.cleanup_all_processed_data() - Remove apenas Parquets")
print("‚Ä¢ consolidator.cleanup_all_output_data() - Remove apenas CSVs")

print("\nFORCE REFRESH:")
print("‚Ä¢ extractor.extract_all_data(force_refresh=True) - For√ßa nova extra√ß√£o")
print("‚Ä¢ processor.process_all_files(force_refresh=True) - For√ßa nova transforma√ß√£o")
print("‚Ä¢ consolidator.consolidate_all(force_refresh=True) - For√ßa nova consolida√ß√£o")

print("\n" + "="*50)
print("‚Ä¢ Use cleanup_all_data() se quiser recome√ßar do zero")
print("‚Ä¢ Use force_refresh=True se suspeitar de dados corrompidos")
print("‚Ä¢ O pipeline normal (sem par√¢metros) √© idempotente e eficiente")
print("="*50)

üõ†Ô∏è COMANDOS DE MANUTEN√á√ÉO DISPON√çVEIS
üìä STATUS E INFORMA√á√ïES:
‚Ä¢ show_current_data_status() - Mostra status completo dos dados
‚Ä¢ extractor.check_data_freshness() - Verifica se API mudou
‚Ä¢ processor.check_transformation_needed() - Verifica necessidade de transforma√ß√£o
‚Ä¢ consolidator.check_consolidation_needed() - Verifica necessidade de consolida√ß√£o

LIMPEZA:
‚Ä¢ cleanup_all_data() - Remove TODOS os dados (reset completo)
‚Ä¢ extractor.cleanup_all_raw_data() - Remove apenas JSONs
‚Ä¢ processor.cleanup_all_processed_data() - Remove apenas Parquets
‚Ä¢ consolidator.cleanup_all_output_data() - Remove apenas CSVs

FORCE REFRESH:
‚Ä¢ extractor.extract_all_data(force_refresh=True) - For√ßa nova extra√ß√£o
‚Ä¢ processor.process_all_files(force_refresh=True) - For√ßa nova transforma√ß√£o
‚Ä¢ consolidator.consolidate_all(force_refresh=True) - For√ßa nova consolida√ß√£o

‚Ä¢ Use cleanup_all_data() se quiser recome√ßar do zero
‚Ä¢ Use force_refresh=True se suspeitar de dado