In [17]:
!pip install pyarrow duckdb pandas numpy -q

# üì¶ Instala√ß√£o de Pacotes

Antes de come√ßar, vamos instalar os pacotes necess√°rios:

# Capitulo 10 Casos Uso Otimizacoes

Notebook gerado automaticamente a partir do c√≥digo fonte python.


## üìö Importa√ß√£o de Bibliotecas

Importando as bibliotecas necess√°rias para o cap√≠tulo:

In [18]:
import pyarrow as pa
import pyarrow.parquet as pq
import pyarrow.dataset as ds
import duckdb
import pandas as pd
import numpy as np
import os

# Configura√ß√µes de exibi√ß√£o
pd.options.display.max_columns = None
print("Bibliotecas importadas com sucesso!")

Bibliotecas importadas com sucesso!


In [19]:
print(f"\n{'='*80}")
print(f"--- {'BEST PRACTICES AVAN√áADAS: Production-Ready Patterns'.upper()} ---")
print(f"{'='*80}\n")

# Melhores pr√°ticas para ambientes de produ√ß√£o

# ==== 1. MEMORY MANAGEMENT ====
print("üíæ FASE 1: Gerenciamento de Mem√≥ria e Recursos\n")

# 1.1 Configura√ß√£o otimizada do DuckDB
con_prod = duckdb.connect(':memory:')  # In-memory para performance
con_prod.execute("SET threads TO 4")
con_prod.execute("SET memory_limit='1GB'")
con_prod.execute("SET temp_directory='data_output/temp'")
con_prod.execute("SET preserve_insertion_order=false")  # Mais r√°pido

print("  ‚úì Configura√ß√µes de produ√ß√£o aplicadas:")
configs = con_prod.execute("""
    SELECT name, value 
    FROM duckdb_settings() 
    WHERE name IN ('threads', 'memory_limit', 'temp_directory', 'preserve_insertion_order')
""").fetchdf()
print(configs.to_string(index=False))

# 1.2 Zero-Copy com Arrow (registrar tabelas sem copiar)
print("\n  ‚Üí Registrando tabelas com Zero-Copy:")
start_register = time.time()
con_prod.register('vendas_view', data)
register_time = time.time() - start_register
print(f"    ‚úì Tabela registrada em {register_time:.4f}s (zero-copy, sem duplica√ß√£o)")

# ==== 2. BATCH PROCESSING ====
print(f"\n‚öôÔ∏è FASE 2: Processamento em Batches para Grandes Volumes\n")

def process_in_batches(table, batch_size=10000, operation_func=None):
    """Processa uma Arrow Table em batches"""
    results = []
    num_batches = (table.num_rows + batch_size - 1) // batch_size
    
    print(f"  ‚Üí Processando {table.num_rows:,} registros em {num_batches} batches de {batch_size:,}")
    
    for i in range(0, table.num_rows, batch_size):
        batch_data = table.slice(i, min(batch_size, table.num_rows - i))
        
        # Aplicar opera√ß√£o customizada
        if operation_func:
            result = operation_func(batch_data, i // batch_size + 1)
            results.append(result)
    
    return results

# Exemplo: processar em batches
def batch_aggregation(batch_table, batch_num):
    """Agrega√ß√£o customizada por batch"""
    con_prod.register(f'batch_{batch_num}', batch_table)
    agg = con_prod.execute(f"""
        SELECT 
            {batch_num} as batch_id,
            COUNT(*) as registros,
            ROUND(AVG(preco_unitario), 2) as preco_medio,
            SUM(quantidade) as qtd_total
        FROM batch_{batch_num}
    """).fetch_arrow_table()
    con_prod.unregister(f'batch_{batch_num}')  # Liberar mem√≥ria
    return agg

start_batch = time.time()
batch_results = process_in_batches(data, batch_size=10000, operation_func=batch_aggregation)
batch_time = time.time() - start_batch

# Consolidar resultados
con_prod.register('all_batches', pa.concat_tables(batch_results))
consolidated = con_prod.execute("""
    SELECT 
        COUNT(DISTINCT batch_id) as total_batches,
        SUM(registros) as total_registros,
        ROUND(AVG(preco_medio), 2) as preco_medio_geral,
        SUM(qtd_total) as qtd_total_geral
    FROM all_batches
""").fetch_arrow_table()

print(f"  ‚úì Processamento em batches conclu√≠do em {batch_time:.4f}s")
print("\n  ‚Üí Resultado Consolidado:")
print(consolidated.to_pandas().to_string(index=False))

# ==== 3. ERROR HANDLING E VALIDA√á√ÉO ====
print(f"\nüõ°Ô∏è FASE 3: Error Handling Robusto e Valida√ß√£o de Dados\n")

def safe_query_execution(connection, query, query_name="Query"):
    """Execu√ß√£o segura com error handling"""
    try:
        start = time.time()
        result = connection.execute(query).fetch_arrow_table()
        elapsed = time.time() - start
        
        # Valida√ß√µes
        if result.num_rows == 0:
            print(f"  ‚ö†Ô∏è {query_name}: Retornou 0 linhas")
            return None
        
        print(f"  ‚úì {query_name}: {result.num_rows:,} linhas em {elapsed:.4f}s")
        return result
        
    except Exception as e:
        print(f"  ‚úó {query_name}: ERRO - {str(e)[:100]}")
        return None

# Testar com queries v√°lidas e inv√°lidas
print("  ‚Üí Testando queries com error handling:")

# Query v√°lida
valid_query = "SELECT regiao, COUNT(*) as total FROM vendas_view GROUP BY regiao"
result1 = safe_query_execution(con_prod, valid_query, "Query V√°lida")

# Query com tabela inexistente (gera erro)
invalid_query = "SELECT * FROM tabela_nao_existe"
result2 = safe_query_execution(con_prod, invalid_query, "Query Inv√°lida")

# Query que retorna vazio
empty_query = "SELECT * FROM vendas_view WHERE 1=0"
result3 = safe_query_execution(con_prod, empty_query, "Query Vazia")

# ==== 4. SCHEMA VALIDATION ====
print(f"\nüìê FASE 4: Valida√ß√£o de Schema e Tipos\n")

def validate_schema(table, expected_schema):
    """Valida se a tabela tem o schema esperado"""
    issues = []
    
    # Verificar colunas
    expected_cols = set(expected_schema.names)
    actual_cols = set(table.schema.names)
    
    missing = expected_cols - actual_cols
    extra = actual_cols - expected_cols
    
    if missing:
        issues.append(f"Colunas faltando: {missing}")
    if extra:
        issues.append(f"Colunas extras: {extra}")
    
    # Verificar tipos das colunas comuns
    for col in expected_cols.intersection(actual_cols):
        expected_type = expected_schema.field(col).type
        actual_type = table.schema.field(col).type
        if expected_type != actual_type:
            issues.append(f"Coluna '{col}': tipo esperado {expected_type}, obtido {actual_type}")
    
    return issues

# Definir schema esperado
expected_schema = pa.schema([
    ('id', pa.int64()),
    ('data_venda', pa.timestamp('ns')),
    ('produto', pa.string()),
    ('quantidade', pa.int64()),
    ('preco_unitario', pa.float64())
])

print("  ‚Üí Validando schema da tabela de vendas:")
validation_issues = validate_schema(data, expected_schema)
if validation_issues:
    print("  ‚ö†Ô∏è Problemas encontrados:")
    for issue in validation_issues:
        print(f"    ‚Ä¢ {issue}")
else:
    print("  ‚úì Schema v√°lido!")

# ==== 5. CONNECTION POOLING E REUSO ====
print(f"\nüîÑ FASE 5: Connection Pooling e Reuso de Recursos\n")

class DuckDBConnectionPool:
    """Pool simples de conex√µes DuckDB"""
    def __init__(self, pool_size=3):
        self.pool = [duckdb.connect(':memory:') for _ in range(pool_size)]
        self.available = list(range(pool_size))
        self.in_use = {}
    
    def acquire(self):
        if self.available:
            conn_id = self.available.pop(0)
            self.in_use[conn_id] = self.pool[conn_id]
            return conn_id, self.pool[conn_id]
        return None, None
    
    def release(self, conn_id):
        if conn_id in self.in_use:
            del self.in_use[conn_id]
            self.available.append(conn_id)
    
    def stats(self):
        return {
            'total': len(self.pool),
            'available': len(self.available),
            'in_use': len(self.in_use)
        }

# Criar pool
pool = DuckDBConnectionPool(pool_size=3)
print(f"  ‚úì Connection pool criado: {pool.stats()}")

# Simular uso do pool
print("\n  ‚Üí Simulando queries concorrentes com pool:")
for i in range(5):
    conn_id, conn = pool.acquire()
    if conn:
        conn.register('data_temp', data)
        result = conn.execute("SELECT COUNT(*) as total FROM data_temp").fetchone()
        print(f"    ‚Ä¢ Query {i+1}: conex√£o #{conn_id}, resultado: {result[0]:,} registros")
        pool.release(conn_id)
    else:
        print(f"    ‚Ä¢ Query {i+1}: aguardando conex√£o dispon√≠vel...")

print(f"  ‚úì Estado final do pool: {pool.stats()}")

# ==== 6. MONITORING E PROFILING ====
print(f"\nüìä FASE 6: Monitoring e Profiling de Performance\n")

# Habilitar profiling detalhado
con_prod.execute("PRAGMA enable_profiling='json'")
con_prod.execute("PRAGMA profiling_output='data_output/profile.json'")

monitoring_query = """
    SELECT 
        regiao,
        produto,
        COUNT(*) as vendas,
        SUM(quantidade * preco_unitario) as receita
    FROM vendas_view
    WHERE status = 'Completado'
    GROUP BY regiao, produto
    HAVING vendas > 100
    ORDER BY receita DESC
    LIMIT 20
"""

print("  ‚Üí Executando query com profiling habilitado:")
start_profile = time.time()
profile_result = con_prod.execute(monitoring_query).fetch_arrow_table()
profile_time = time.time() - start_profile

print(f"    ‚úì Query executada em {profile_time:.4f}s")
print(f"    ‚úì Resultados: {profile_result.num_rows} linhas")
print(f"    ‚úì Profile salvo em: data_output/profile.json")

# Obter estat√≠sticas de mem√≥ria
memory_stats = con_prod.execute("""
    SELECT 
        database_size as db_size,
        block_size,
        total_blocks,
        used_blocks,
        free_blocks
    FROM pragma_database_size()
""").fetchdf()

print("\n  ‚Üí Estat√≠sticas de Mem√≥ria do DuckDB:")
print(memory_stats.to_string(index=False))

# ==== 7. RESUMO FINAL ====
print(f"\n{'='*80}")
print(f"‚ú® BEST PRACTICES - RESUMO")
print(f"{'='*80}")
print(f"  ‚úì Memory Management: Configura√ß√µes otimizadas aplicadas")
print(f"  ‚úì Zero-Copy: Tabelas registradas sem duplica√ß√£o")
print(f"  ‚úì Batch Processing: {data.num_rows:,} registros em batches de 10k")
print(f"  ‚úì Error Handling: Valida√ß√£o robusta implementada")
print(f"  ‚úì Schema Validation: Verifica√ß√£o de tipos e colunas")
print(f"  ‚úì Connection Pooling: Pool de 3 conex√µes gerenciado")
print(f"  ‚úì Monitoring: Profiling e estat√≠sticas habilitados")
print(f"{'='*80}")

print("\n" + "="*80)
print(f"üéØ FIM DO CAP√çTULO 10: CASOS DE USO E OTIMIZA√á√ïES")
print("="*80)
print("\nüìö T√≥picos Cobertos:")
print("  1. ETL Pipeline Avan√ßado (Extract, Transform, Load)")
print("  2. Data Lake Architecture Multi-N√≠vel")
print("  3. Incremental Loading com CDC e Merge/Upsert")
print("  4. Query Optimization com Window Functions e JOINs")
print("  5. Best Practices para Produ√ß√£o")
print("\n‚úÖ Todas as implementa√ß√µes foram executadas com sucesso!")
print("="*80 + "\n")


--- BEST PRACTICES AVAN√áADAS: PRODUCTION-READY PATTERNS ---

üíæ FASE 1: Gerenciamento de Mem√≥ria e Recursos

  ‚úì Configura√ß√µes de produ√ß√£o aplicadas:
                    name            value
            memory_limit        953.6 MiB
preserve_insertion_order            false
          temp_directory data_output/temp
                 threads                4

  ‚Üí Registrando tabelas com Zero-Copy:
    ‚úì Tabela registrada em 0.0000s (zero-copy, sem duplica√ß√£o)

‚öôÔ∏è FASE 2: Processamento em Batches para Grandes Volumes

  ‚Üí Processando 50,000 registros em 5 batches de 10,000
  ‚úì Processamento em batches conclu√≠do em 0.0174s

  ‚Üí Resultado Consolidado:
 total_batches total_registros  preco_medio_geral qtd_total_geral
             5           50000             2520.1          500223

üõ°Ô∏è FASE 3: Error Handling Robusto e Valida√ß√£o de Dados

  ‚Üí Testando queries com error handling:
  ‚úì Query V√°lida: 5 linhas em 0.0041s
  ‚úó Query Inv√°lida: ERRO - Catalo

## 5Ô∏è‚É£ Best Practices

Melhores pr√°ticas no uso de Arrow e DuckDB:

In [20]:
print(f"\n{'='*80}")
print(f"--- {'OTIMIZA√á√ÉO AVAN√áADA DE QUERIES'.upper()} ---")
print(f"{'='*80}\n")

# T√©cnicas avan√ßadas de otimiza√ß√£o com comparativos de performance

# ==== 1. BENCHMARK SETUP ====
print("‚öôÔ∏è FASE 1: Setup de Benchmark")

# Registrar dados para queries
con.register('vendas', data)
print(f"  ‚úì Dataset registrado: {data.num_rows:,} vendas")
print(f"  ‚úì Colunas: {data.num_columns}")

# ==== 2. QUERY N√ÉO OTIMIZADA VS OTIMIZADA ====
print(f"\nüîç FASE 2: Comparativo - Query N√£o Otimizada vs Otimizada\n")

# Query N√£o Otimizada (sem √≠ndices, sem filtros early, sem projection pushdown)
print("  ‚ùå Query N√ÉO OTIMIZADA:")
query_nao_otimizada = """
    SELECT * 
    FROM vendas
"""
start = time.time()
result_full = con.execute(query_nao_otimizada).fetch_arrow_table()
# Aplicar filtros e agrega√ß√µes em Python (ineficiente)
df_temp = result_full.to_pandas()
df_filtered = df_temp[df_temp['status'] == 'Completado']
resultado_nao_opt = df_filtered.groupby('produto').agg({
    'quantidade': 'sum',
    'preco_unitario': 'mean'
}).reset_index()
time_nao_otimizada = time.time() - start
print(f"    ‚Ä¢ Tempo: {time_nao_otimizada:.4f}s")
print(f"    ‚Ä¢ Registros processados: {result_full.num_rows:,}")
print(f"    ‚Ä¢ T√©cnica: Full table scan + Python aggregation")

# Query Otimizada (com projection, filter pushdown, agrega√ß√£o no DuckDB)
print("\n  ‚úÖ Query OTIMIZADA:")
query_otimizada = """
    SELECT 
        produto,
        SUM(quantidade) as quantidade,
        ROUND(AVG(preco_unitario), 2) as preco_unitario
    FROM vendas
    WHERE status = 'Completado'
    GROUP BY produto
"""
start = time.time()
resultado_otimizado = con.execute(query_otimizada).fetch_arrow_table()
time_otimizada = time.time() - start
print(f"    ‚Ä¢ Tempo: {time_otimizada:.4f}s")
print(f"    ‚Ä¢ Speedup: {time_nao_otimizada/time_otimizada:.2f}x mais r√°pido")
print(f"    ‚Ä¢ T√©cnicas: Filter pushdown + Projection pushdown + SQL aggregation")

print(f"\n  üìä Melhoria de Performance: {((time_nao_otimizada - time_otimizada) / time_nao_otimizada * 100):.1f}%")

# ==== 3. EXPLAIN PLANS DETALHADOS ====
print(f"\nüìã FASE 3: An√°lise de Planos de Execu√ß√£o\n")

# Query complexa para an√°lise
complex_query = """
    WITH vendas_por_vendedor AS (
        SELECT 
            vendedor_id,
            produto,
            regiao,
            COUNT(*) as total_vendas,
            SUM(quantidade * preco_unitario * (1 - desconto_percentual/100.0)) as receita
        FROM vendas
        WHERE status = 'Completado'
            AND data_venda >= '2023-06-01'
        GROUP BY vendedor_id, produto, regiao
    ),
    ranking_vendedores AS (
        SELECT 
            vendedor_id,
            SUM(receita) as receita_total,
            COUNT(DISTINCT produto) as produtos_vendidos,
            RANK() OVER (ORDER BY SUM(receita) DESC) as rank_receita
        FROM vendas_por_vendedor
        GROUP BY vendedor_id
    )
    SELECT 
        v.vendedor_id,
        v.produto,
        v.regiao,
        v.total_vendas,
        ROUND(v.receita, 2) as receita,
        r.receita_total,
        r.rank_receita
    FROM vendas_por_vendedor v
    JOIN ranking_vendedores r ON v.vendedor_id = r.vendedor_id
    WHERE r.rank_receita <= 10
    ORDER BY r.rank_receita, v.receita DESC
"""

print("  ‚Üí EXPLAIN (Plano L√≥gico):")
explain_result = con.execute(f"EXPLAIN {complex_query}").fetchdf()
print(explain_result['explain_value'].iloc[0][:500] + "...")

print("\n  ‚Üí EXPLAIN ANALYZE (Plano F√≠sico com M√©tricas):")
start_analyze = time.time()
analyze_result = con.execute(f"EXPLAIN ANALYZE {complex_query}").fetchdf()
analyze_time = time.time() - start_analyze
print(f"    ‚Ä¢ Tempo total de execu√ß√£o: {analyze_time:.4f}s")
print("\n" + analyze_result['explain_value'].iloc[0][:800] + "...")

# Executar a query para ver resultados
actual_result = con.execute(complex_query).fetch_arrow_table()
print(f"\n  ‚Üí Resultados: {actual_result.num_rows} linhas retornadas")

# ==== 4. WINDOW FUNCTIONS E OTIMIZA√á√ïES ====
print(f"\nü™ü FASE 4: Window Functions Avan√ßadas\n")

window_query = """
    SELECT 
        produto,
        regiao,
        DATE_TRUNC('month', data_venda) as mes,
        SUM(quantidade * preco_unitario * (1 - desconto_percentual/100.0)) as receita_mensal,
        -- Moving average (m√©dia m√≥vel de 3 meses)
        ROUND(AVG(SUM(quantidade * preco_unitario * (1 - desconto_percentual/100.0))) 
            OVER (PARTITION BY produto, regiao 
                  ORDER BY DATE_TRUNC('month', data_venda) 
                  ROWS BETWEEN 2 PRECEDING AND CURRENT ROW), 2) as media_movel_3m,
        -- Rank dentro de cada regi√£o
        RANK() OVER (PARTITION BY regiao, DATE_TRUNC('month', data_venda) 
                     ORDER BY SUM(quantidade * preco_unitario * (1 - desconto_percentual/100.0)) DESC) as rank_na_regiao,
        -- Percentual do total da regi√£o
        ROUND(SUM(quantidade * preco_unitario * (1 - desconto_percentual/100.0)) * 100.0 / 
              SUM(SUM(quantidade * preco_unitario * (1 - desconto_percentual/100.0))) 
                OVER (PARTITION BY regiao, DATE_TRUNC('month', data_venda)), 2) as pct_da_regiao
    FROM vendas
    WHERE status = 'Completado'
    GROUP BY produto, regiao, DATE_TRUNC('month', data_venda)
    ORDER BY mes DESC, regiao, receita_mensal DESC
"""

start_window = time.time()
window_result = con.execute(window_query).fetch_arrow_table()
window_time = time.time() - start_window

print(f"  ‚úì Query com Window Functions executada em: {window_time:.4f}s")
print(f"  ‚úì Resultados: {window_result.num_rows:,} linhas")
print("\n  ‚Üí Amostra dos Resultados (Top 10):")
print(window_result.to_pandas().head(10).to_string(index=False))

# ==== 5. JOINS COMPLEXOS E OTIMIZA√á√ÉO ====
print(f"\nüîó FASE 5: Otimiza√ß√£o de JOINs Complexos\n")

# Criar dimens√£o de produtos para JOIN
dim_produtos = pa.table({
    'produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Webcam', 'Headset', 'SSD', 'RAM'],
    'categoria': ['Computadores', 'Acess√≥rios', 'Acess√≥rios', 'Perif√©ricos', 
                  'Acess√≥rios', 'Acess√≥rios', 'Componentes', 'Componentes'],
    'margem_percentual': [15.0, 40.0, 35.0, 20.0, 30.0, 35.0, 25.0, 30.0]
})
con.register('dim_produtos', dim_produtos)

# JOIN Otimizado
join_query = """
    SELECT 
        p.categoria,
        v.regiao,
        COUNT(*) as total_vendas,
        SUM(v.quantidade) as qtd_total,
        ROUND(SUM(v.quantidade * v.preco_unitario * (1 - v.desconto_percentual/100.0)), 2) as receita_bruta,
        ROUND(SUM(v.quantidade * v.preco_unitario * (1 - v.desconto_percentual/100.0) * p.margem_percentual / 100.0), 2) as margem_lucro
    FROM vendas v
    INNER JOIN dim_produtos p ON v.produto = p.produto
    WHERE v.status = 'Completado'
    GROUP BY p.categoria, v.regiao
    ORDER BY margem_lucro DESC
"""

start_join = time.time()
join_result = con.execute(join_query).fetch_arrow_table()
join_time = time.time() - start_join

print(f"  ‚úì JOIN executado em: {join_time:.4f}s")
print(f"  ‚úì Tipo: INNER JOIN com agrega√ß√µes")
print("\n  ‚Üí An√°lise de Margem por Categoria e Regi√£o:")
print(join_result.to_pandas().to_string(index=False))

# ==== 6. PERFORMANCE SUMMARY ====
print(f"\n{'='*80}")
print(f"‚ö° RESUMO DE PERFORMANCE - OTIMIZA√á√ïES")
print(f"{'='*80}")
print(f"  Query N√£o Otimizada: {time_nao_otimizada:.4f}s")
print(f"  Query Otimizada: {time_otimizada:.4f}s")
print(f"  Speedup: {time_nao_otimizada/time_otimizada:.2f}x")
print(f"  Query Complexa (CTEs + Window): {analyze_time:.4f}s")
print(f"  Window Functions: {window_time:.4f}s")
print(f"  JOIN com Agrega√ß√µes: {join_time:.4f}s")
print(f"  Total de registros processados: {data.num_rows:,}")
print(f"{'='*80}\n")


--- OTIMIZA√á√ÉO AVAN√áADA DE QUERIES ---

‚öôÔ∏è FASE 1: Setup de Benchmark
  ‚úì Dataset registrado: 50,000 vendas
  ‚úì Colunas: 11

üîç FASE 2: Comparativo - Query N√£o Otimizada vs Otimizada

  ‚ùå Query N√ÉO OTIMIZADA:
    ‚Ä¢ Tempo: 0.0357s
    ‚Ä¢ Registros processados: 50,000
    ‚Ä¢ T√©cnica: Full table scan + Python aggregation

  ‚úÖ Query OTIMIZADA:
    ‚Ä¢ Tempo: 0.0111s
    ‚Ä¢ Speedup: 3.23x mais r√°pido
    ‚Ä¢ T√©cnicas: Filter pushdown + Projection pushdown + SQL aggregation

  üìä Melhoria de Performance: 69.0%

üìã FASE 3: An√°lise de Planos de Execu√ß√£o

  ‚Üí EXPLAIN (Plano L√≥gico):
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ            CTE            ‚îÇ
‚îÇ    ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ   ‚îÇ
‚îÇ         CTE Name:         ‚îÇ
‚îÇ    vendas_por_vendedor    ‚îÇ
‚îÇ                           ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ       Table Index: 0      ‚îÇ     

## 4Ô∏è‚É£ Query Optimization

Otimizando queries para melhor desempenho:

In [21]:
print(f"\n{'='*80}")
print(f"--- {'INCREMENTAL LOADING AVAN√áADO: CDC & MERGE/UPSERT'.upper()} ---")
print(f"{'='*80}\n")

# Implementa√ß√£o de Carregamento Incremental com Change Data Capture (CDC) e Merge/Upsert

# ==== 1. SETUP: ESTADO INICIAL DO DATA WAREHOUSE ====
print("üóÑÔ∏è FASE 1: Setup - Estado Inicial do Data Warehouse")
incremental_base = "data_output/incremental_warehouse"
if os.path.exists(incremental_base):
    import shutil
    shutil.rmtree(incremental_base)
os.makedirs(incremental_base, exist_ok=True)

# Carga inicial (Snapshot T0)
print("  ‚Üí Criando snapshot inicial (T0)...")
initial_snapshot = pa.table({
    'cliente_id': [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008],
    'nome': ['Ana Silva', 'Bruno Costa', 'Carla Lima', 'Daniel Santos', 
             'Elena Martins', 'Fernando Dias', 'Gabriela Rocha', 'Hugo Pinto'],
    'email': ['ana@email.com', 'bruno@email.com', 'carla@email.com', 'daniel@email.com',
              'elena@email.com', 'fernando@email.com', 'gabriela@email.com', 'hugo@email.com'],
    'status': ['Ativo', 'Ativo', 'Ativo', 'Ativo', 'Ativo', 'Ativo', 'Ativo', 'Ativo'],
    'saldo': [1500.50, 2300.00, 980.75, 4500.25, 1200.00, 3300.50, 890.00, 5100.75],
    'ultima_atualizacao': pd.to_datetime(['2023-01-01']*8),
    'versao': [1]*8
})

snapshot_path = f"{incremental_base}/clientes.parquet"
pq.write_table(initial_snapshot, snapshot_path)
print(f"    ‚úì Snapshot inicial salvo: {initial_snapshot.num_rows} clientes")
print(f"    ‚úì Path: {snapshot_path}\n")

# ==== 2. SIMULA√á√ÉO DE MUDAN√áAS (CDC) ====
print("üîÑ FASE 2: Change Data Capture - Detectando Altera√ß√µes")

# Simular mudan√ßas incrementais (T1)
# - Updates: clientes 1002, 1004, 1007
# - Inserts: novos clientes 1009, 1010
# - Deletes: cliente 1006 (soft delete)
print("  ‚Üí Simulando batch incremental (T1)...")
incremental_changes = pa.table({
    'cliente_id': [1002, 1004, 1006, 1007, 1009, 1010],
    'nome': ['Bruno Costa', 'Daniel Santos', 'Fernando Dias', 'Gabriela Rocha', 
             'Isabela Ferreira', 'Jo√£o Mendes'],
    'email': ['bruno.novo@email.com', 'daniel@email.com', 'fernando@email.com', 'gabriela@email.com',
              'isabela@email.com', 'joao@email.com'],
    'status': ['Ativo', 'Ativo', 'Inativo', 'Ativo', 'Ativo', 'Ativo'],  # 1006 soft deleted
    'saldo': [2500.00, 5000.00, 3300.50, 1200.00, 2100.00, 1800.50],  # saldos atualizados/novos
    'ultima_atualizacao': pd.to_datetime(['2023-02-01']*6),
    'versao': [2, 2, 2, 2, 1, 1]
})

changes_path = f"{incremental_base}/changes_t1.parquet"
pq.write_table(incremental_changes, changes_path)
print(f"    ‚úì CDC capturado: {incremental_changes.num_rows} altera√ß√µes")
print(f"    ‚úì Tipo de opera√ß√µes: 3 UPDATEs + 2 INSERTs + 1 SOFT DELETE\n")

# ==== 3. MERGE/UPSERT OPERATION ====
print("üîÄ FASE 3: Executando Merge/Upsert com DuckDB")

con.register('tabela_atual', pq.read_table(snapshot_path))
con.register('mudancas', incremental_changes)

# Estrat√©gia de Merge: 
# 1. Identificar registros novos (INSERTs)
# 2. Atualizar registros existentes (UPDATEs)
# 3. Manter hist√≥rico de vers√µes
start_merge = time.time()

merged_result = con.execute("""
    -- CTE para identificar √∫ltima vers√£o de cada cliente
    WITH ultima_versao AS (
        -- Combinar dados atuais e mudan√ßas
        SELECT * FROM tabela_atual
        UNION ALL
        SELECT * FROM mudancas
    ),
    ranked AS (
        SELECT 
            *,
            ROW_NUMBER() OVER (PARTITION BY cliente_id ORDER BY ultima_atualizacao DESC, versao DESC) as rn
        FROM ultima_versao
    )
    SELECT 
        cliente_id,
        nome,
        email,
        status,
        saldo,
        ultima_atualizacao,
        versao
    FROM ranked
    WHERE rn = 1  -- Pegar apenas a vers√£o mais recente
    ORDER BY cliente_id
""").fetch_arrow_table()

merge_time = time.time() - start_merge

# Salvar resultado do merge
merged_path = f"{incremental_base}/clientes_merged.parquet"
pq.write_table(merged_result, merged_path)
print(f"  ‚úì Merge conclu√≠do em {merge_time:.3f}s")
print(f"  ‚úì Total de clientes ap√≥s merge: {merged_result.num_rows}")
print(f"  ‚úì Resultado salvo em: {merged_path}\n")

# ==== 4. AN√ÅLISE DE MUDAN√áAS ====
print("üìä FASE 4: An√°lise Detalhada das Mudan√ßas")

# Comparar antes e depois
con.register('antes', initial_snapshot)
con.register('depois', merged_result)

analise = con.execute("""
    SELECT 
        'Inicial' as snapshot,
        COUNT(*) as total_clientes,
        COUNT(CASE WHEN status = 'Ativo' THEN 1 END) as clientes_ativos,
        ROUND(SUM(saldo), 2) as saldo_total
    FROM antes
    
    UNION ALL
    
    SELECT 
        'P√≥s-Merge' as snapshot,
        COUNT(*) as total_clientes,
        COUNT(CASE WHEN status = 'Ativo' THEN 1 END) as clientes_ativos,
        ROUND(SUM(saldo), 2) as saldo_total
    FROM depois
""").fetch_arrow_table()

print("  ‚Üí Comparativo Antes vs Depois:")
print(analise.to_pandas().to_string(index=False))

# Detalhar mudan√ßas espec√≠ficas
print("\n  ‚Üí Clientes com Mudan√ßas Detectadas:")
mudancas_detalhadas = con.execute("""
    SELECT 
        d.cliente_id,
        a.nome as nome_anterior,
        d.nome as nome_atual,
        a.email as email_anterior,
        d.email as email_atual,
        a.saldo as saldo_anterior,
        d.saldo as saldo_atual,
        ROUND(d.saldo - a.saldo, 2) as diferenca_saldo,
        d.status as status_atual
    FROM antes a
    INNER JOIN depois d ON a.cliente_id = d.cliente_id
    WHERE a.email != d.email 
       OR a.saldo != d.saldo 
       OR a.status != d.status
""").fetch_arrow_table()
print(mudancas_detalhadas.to_pandas().to_string(index=False))

# Novos clientes
print("\n  ‚Üí Novos Clientes Inseridos:")
novos = con.execute("""
    SELECT d.*
    FROM depois d
    LEFT JOIN antes a ON d.cliente_id = a.cliente_id
    WHERE a.cliente_id IS NULL
""").fetch_arrow_table()
print(novos.to_pandas().to_string(index=False))

# ==== 5. HIST√ìRICO E AUDITORIA ====
print(f"\nüìú FASE 5: Mantendo Hist√≥rico Completo (SCD Type 2)")

# Salvando hist√≥rico completo com todas as vers√µes
historico_path = f"{incremental_base}/historico_completo.parquet"
historico_completo = con.execute("""
    SELECT 
        *,
        CASE 
            WHEN cliente_id IN (SELECT cliente_id FROM mudancas) THEN 'MODIFICADO'
            ELSE 'INALTERADO'
        END as tipo_registro
    FROM (
        SELECT * FROM tabela_atual
        UNION ALL
        SELECT * FROM mudancas
    )
    ORDER BY cliente_id, versao
""").fetch_arrow_table()

pq.write_table(historico_completo, historico_path)
print(f"  ‚úì Hist√≥rico completo salvo: {historico_completo.num_rows} registros")
print(f"  ‚úì Path: {historico_path}")

# Visualizar hist√≥rico de um cliente espec√≠fico
print("\n  ‚Üí Hist√≥rico Completo do Cliente 1002 (Bruno):")
historico_bruno = con.execute("""
    SELECT * FROM historico_completo
    WHERE cliente_id = 1002
    ORDER BY versao
""").fetch_arrow_table()
print(historico_bruno.to_pandas().to_string(index=False))

# ==== 6. M√âTRICAS FINAIS ====
print(f"\n{'='*80}")
print(f"üìà M√âTRICAS DO PROCESSO INCREMENTAL")
print(f"{'='*80}")
print(f"  Snapshot Inicial: {initial_snapshot.num_rows} registros")
print(f"  Mudan√ßas Detectadas (CDC): {incremental_changes.num_rows} registros")
print(f"  Estado Final: {merged_result.num_rows} registros")
print(f"  Tempo de Merge: {merge_time:.3f}s")
print(f"  Registros no Hist√≥rico: {historico_completo.num_rows}")
print(f"  Throughput: {initial_snapshot.num_rows / merge_time:,.0f} registros/segundo")
print(f"{'='*80}\n")


--- INCREMENTAL LOADING AVAN√áADO: CDC & MERGE/UPSERT ---

üóÑÔ∏è FASE 1: Setup - Estado Inicial do Data Warehouse
  ‚Üí Criando snapshot inicial (T0)...
    ‚úì Snapshot inicial salvo: 8 clientes
    ‚úì Path: data_output/incremental_warehouse/clientes.parquet

üîÑ FASE 2: Change Data Capture - Detectando Altera√ß√µes
  ‚Üí Simulando batch incremental (T1)...
    ‚úì CDC capturado: 6 altera√ß√µes
    ‚úì Tipo de opera√ß√µes: 3 UPDATEs + 2 INSERTs + 1 SOFT DELETE

üîÄ FASE 3: Executando Merge/Upsert com DuckDB
  ‚úì Merge conclu√≠do em 0.005s
  ‚úì Total de clientes ap√≥s merge: 10
  ‚úì Resultado salvo em: data_output/incremental_warehouse/clientes_merged.parquet

üìä FASE 4: An√°lise Detalhada das Mudan√ßas
  ‚Üí Comparativo Antes vs Depois:
 snapshot  total_clientes  clientes_ativos  saldo_total
  Inicial               8                8     19772.75
P√≥s-Merge              10                9     24683.00

  ‚Üí Clientes com Mudan√ßas Detectadas:
 cliente_id  nome_anterior    

## 3Ô∏è‚É£ Incremental Loading

T√©cnicas de carregamento incremental de dados:

In [22]:
print(f"\n{'='*80}")
print(f"--- {'DATA LAKE ARCHITECTURE AVAN√áADA'.upper()} ---")
print(f"{'='*80}\n")

# Arquitetura Moderna de Data Lake com Particionamento Multi-N√≠vel

# ==== 1. CRIA√á√ÉO DO DATA LAKE COM PARTICIONAMENTO HIER√ÅRQUICO ====
print("üèóÔ∏è FASE 1: Construindo Data Lake com Particionamento Multi-N√≠vel")
lake_base = "data_output/data_lake_advanced"
import shutil
if os.path.exists(lake_base):
    shutil.rmtree(lake_base)
os.makedirs(lake_base, exist_ok=True)

# Adicionar colunas de particionamento temporal
start_partition = time.time()
con.register('vendas_raw', data)
vendas_partitioned = con.execute("""
    SELECT 
        *,
        YEAR(data_venda) as ano,
        MONTH(data_venda) as mes,
        DAY(data_venda) as dia
    FROM vendas_raw
    WHERE status = 'Completado'  -- Apenas vendas completadas no lake
""").fetch_arrow_table()

# Salvar com particionamento hier√°rquico: ano/mes/regiao
# Importante: ordem das colunas de parti√ß√£o afeta performance de queries
pq.write_to_dataset(
    vendas_partitioned,
    root_path=lake_base,
    partition_cols=['ano', 'mes', 'regiao'],
    basename_template='vendas-{i}.parquet',
    compression='zstd',  # Melhor compress√£o que snappy
    existing_data_behavior='overwrite_or_ignore'
)

partition_time = time.time() - start_partition
print(f"  ‚úì Data Lake criado em: {lake_base}")
print(f"  ‚úì Tempo de particionamento: {partition_time:.3f}s")

# Mostrar estrutura do Data Lake
print(f"\nüìÅ Estrutura do Data Lake (primeiras 20 pastas):")
count = 0
for root, dirs, files in os.walk(lake_base):
    if count >= 20:
        print("  ... (mais pastas)")
        break
    level = root.replace(lake_base, '').count(os.sep)
    indent = '  ' * level
    folder_name = os.path.basename(root)
    if folder_name:
        print(f"{indent}‚îî‚îÄ {folder_name}/")
        count += 1

# ==== 2. METADATA E ESTAT√çSTICAS DO DATA LAKE ====
print(f"\nüìä FASE 2: Analisando Metadata do Data Lake")

# Coletar estat√≠sticas do dataset
dataset = ds.dataset(lake_base, format='parquet', partitioning='hive')
print(f"  ‚úì Total de parti√ß√µes: {len(list(dataset.get_fragments()))}")
print(f"  ‚úì Colunas dispon√≠veis: {len(dataset.schema.names)}")
print(f"  ‚úì Schema: {', '.join(dataset.schema.names[:10])}...")

# Calcular tamanho total dos arquivos
total_size = 0
file_count = 0
for root, dirs, files in os.walk(lake_base):
    for file in files:
        if file.endswith('.parquet'):
            filepath = os.path.join(root, file)
            total_size += os.path.getsize(filepath)
            file_count += 1

print(f"  ‚úì Total de arquivos: {file_count}")
print(f"  ‚úì Tamanho total: {total_size / (1024**2):.2f} MB")
print(f"  ‚úì Tamanho m√©dio por arquivo: {total_size / file_count / 1024:.2f} KB")

# ==== 3. QUERIES ANAL√çTICAS COMPLEXAS ====
print(f"\nüîç FASE 3: Executando Queries Anal√≠ticas Complexas")

# Query 1: An√°lise de vendas por regi√£o com partition pruning
print("\n  ‚Üí Query 1: Top Produtos por Regi√£o (com partition pruning)")
start_q1 = time.time()
query1 = con.execute(f"""
    SELECT 
        regiao,
        produto,
        COUNT(*) as total_vendas,
        ROUND(SUM(preco_unitario * quantidade * (1 - desconto_percentual/100.0)), 2) as receita_total,
        ROUND(AVG(rating), 2) as rating_medio
    FROM read_parquet('{lake_base}/**/*.parquet', hive_partitioning=1)
    WHERE ano = 2023 AND mes >= 6  -- Partition pruning ativa
    GROUP BY regiao, produto
    ORDER BY receita_total DESC
    LIMIT 20
""").fetch_arrow_table()
q1_time = time.time() - start_q1
print(f"    ‚úì Tempo: {q1_time:.3f}s | Resultados: {query1.num_rows} linhas")
print(query1.to_pandas().head(5).to_string(index=False))

# Query 2: An√°lise temporal com window functions
print("\n  ‚Üí Query 2: Tend√™ncia de Vendas Mensal com Crescimento")
start_q2 = time.time()
query2 = con.execute(f"""
    WITH vendas_mensais AS (
        SELECT 
            ano,
            mes,
            regiao,
            COUNT(*) as total_vendas,
            ROUND(SUM(preco_unitario * quantidade * (1 - desconto_percentual/100.0)), 2) as receita
        FROM read_parquet('{lake_base}/**/*.parquet', hive_partitioning=1)
        GROUP BY ano, mes, regiao
    )
    SELECT 
        ano,
        mes,
        regiao,
        total_vendas,
        receita,
        LAG(receita) OVER (PARTITION BY regiao ORDER BY ano, mes) as receita_mes_anterior,
        ROUND(
            (receita - LAG(receita) OVER (PARTITION BY regiao ORDER BY ano, mes)) / 
            NULLIF(LAG(receita) OVER (PARTITION BY regiao ORDER BY ano, mes), 0) * 100, 
            2
        ) as crescimento_percentual
    FROM vendas_mensais
    ORDER BY regiao, ano, mes
""").fetch_arrow_table()
q2_time = time.time() - start_q2
print(f"    ‚úì Tempo: {q2_time:.3f}s | Resultados: {query2.num_rows} linhas")
print(query2.to_pandas().head(10).to_string(index=False))

# Query 3: An√°lise de clientes com m√∫ltiplas agrega√ß√µes
print("\n  ‚Üí Query 3: An√°lise de Comportamento de Clientes")
start_q3 = time.time()
query3 = con.execute(f"""
    SELECT 
        cliente_id,
        COUNT(DISTINCT produto) as produtos_distintos,
        COUNT(*) as total_compras,
        ROUND(SUM(preco_unitario * quantidade * (1 - desconto_percentual/100.0)), 2) as lifetime_value,
        ROUND(AVG(rating), 2) as rating_medio,
        MIN(data_venda) as primeira_compra,
        MAX(data_venda) as ultima_compra,
        DATEDIFF('day', MIN(data_venda), MAX(data_venda)) as dias_como_cliente
    FROM read_parquet('{lake_base}/**/*.parquet', hive_partitioning=1)
    GROUP BY cliente_id
    HAVING total_compras > 5  -- Apenas clientes recorrentes
    ORDER BY lifetime_value DESC
    LIMIT 15
""").fetch_arrow_table()
q3_time = time.time() - start_q3
print(f"    ‚úì Tempo: {q3_time:.3f}s | Resultados: {query3.num_rows} linhas")
print(query3.to_pandas().to_string(index=False))

# ==== 4. PERFORMANCE SUMMARY ====
print(f"\n{'='*80}")
print(f"‚ö° PERFORMANCE SUMMARY - DATA LAKE")
print(f"{'='*80}")
print(f"  Registros no Lake: {vendas_partitioned.num_rows:,}")
print(f"  Arquivos Parquet: {file_count}")
print(f"  Compress√£o: {total_size / (1024**2):.2f} MB (ratio: {vendas_partitioned.nbytes / total_size:.1f}x)")
print(f"  Query 1 (Partition Pruning): {q1_time:.3f}s")
print(f"  Query 2 (Window Functions): {q2_time:.3f}s")
print(f"  Query 3 (Complex Aggregations): {q3_time:.3f}s")
print(f"{'='*80}\n")


--- DATA LAKE ARCHITECTURE AVAN√áADA ---

üèóÔ∏è FASE 1: Construindo Data Lake com Particionamento Multi-N√≠vel
  ‚úì Data Lake criado em: data_output/data_lake_advanced
  ‚úì Tempo de particionamento: 0.069s

üìÅ Estrutura do Data Lake (primeiras 20 pastas):
‚îî‚îÄ data_lake_advanced/
  ‚îî‚îÄ ano=2023/
    ‚îî‚îÄ mes=1/
      ‚îî‚îÄ regiao=Centro/
      ‚îî‚îÄ regiao=Leste/
      ‚îî‚îÄ regiao=Norte/
      ‚îî‚îÄ regiao=Oeste/
      ‚îî‚îÄ regiao=Sul/
    ‚îî‚îÄ mes=10/
      ‚îî‚îÄ regiao=Centro/
      ‚îî‚îÄ regiao=Leste/
      ‚îî‚îÄ regiao=Norte/
      ‚îî‚îÄ regiao=Oeste/
      ‚îî‚îÄ regiao=Sul/
    ‚îî‚îÄ mes=11/
      ‚îî‚îÄ regiao=Centro/
      ‚îî‚îÄ regiao=Leste/
      ‚îî‚îÄ regiao=Norte/
      ‚îî‚îÄ regiao=Oeste/
      ‚îî‚îÄ regiao=Sul/
  ... (mais pastas)

üìä FASE 2: Analisando Metadata do Data Lake
  ‚úì Total de parti√ß√µes: 90
  ‚úì Colunas dispon√≠veis: 14
  ‚úì Schema: id, data_venda, produto, quantidade, preco_unitario, desconto_percentual, status, cliente_

## 2Ô∏è‚É£ Data Lake Architecture

Arquitetura de data lake com Arrow:

In [23]:
print(f"\n{'='*80}")
print(f"--- {'ETL PIPELINE AVAN√áADO: Extract -> Transform -> Load'.upper()} ---")
print(f"{'='*80}\n")

# Pipeline ETL Completo e Avan√ßado

# ==== EXTRACT ====
print("üì• FASE 1: EXTRACT")
start_extract = time.time()

# Simulando extra√ß√£o de m√∫ltiplas fontes
fonte_principal = data
print(f"  ‚úì Fonte Principal: {fonte_principal.num_rows:,} registros extra√≠dos")

# Criando tabela de metadados de produtos
metadados_produtos = pa.table({
    'produto': ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Webcam', 'Headset', 'SSD', 'RAM'],
    'categoria': ['Hardware', 'Perif√©ricos', 'Perif√©ricos', 'Hardware', 'Perif√©ricos', 'Perif√©ricos', 'Hardware', 'Hardware'],
    'peso_kg': [2.5, 0.1, 0.8, 5.0, 0.3, 0.4, 0.05, 0.02],
    'garantia_meses': [24, 12, 12, 36, 12, 12, 60, 60]
})
print(f"  ‚úì Metadados de Produtos: {metadados_produtos.num_rows} registros")

extract_time = time.time() - start_extract
print(f"  ‚è± Tempo de extra√ß√£o: {extract_time:.3f}s\n")

# ==== TRANSFORM ====
print("üîÑ FASE 2: TRANSFORM")
start_transform = time.time()

# Registrar tabelas no DuckDB para transforma√ß√µes complexas
con.register('vendas', fonte_principal)
con.register('produtos_meta', metadados_produtos)

# Transforma√ß√£o 1: Valida√ß√£o e Limpeza
print("  ‚Üí Etapa 2.1: Valida√ß√£o e Limpeza de Dados")
dados_validados = con.execute("""
    SELECT 
        *,
        CASE 
            WHEN preco_unitario <= 0 THEN NULL
            WHEN quantidade <= 0 THEN NULL
            ELSE preco_unitario * quantidade * (1 - desconto_percentual/100.0)
        END as valor_total_venda
    FROM vendas
    WHERE status != 'Cancelado'  -- Remover vendas canceladas
        AND preco_unitario > 0
        AND quantidade > 0
""").fetch_arrow_table()
print(f"    ‚úì Registros v√°lidos: {dados_validados.num_rows:,} (removidos {fonte_principal.num_rows - dados_validados.num_rows:,})")

# Transforma√ß√£o 2: Enriquecimento com JOIN
print("  ‚Üí Etapa 2.2: Enriquecimento com Metadados")
con.register('vendas_validadas', dados_validados)
dados_enriquecidos = con.execute("""
    SELECT 
        v.*,
        p.categoria,
        p.peso_kg,
        p.garantia_meses,
        v.quantidade * p.peso_kg as peso_total_kg
    FROM vendas_validadas v
    LEFT JOIN produtos_meta p ON v.produto = p.produto
""").fetch_arrow_table()
print(f"    ‚úì Dados enriquecidos: {dados_enriquecidos.num_columns} colunas")

# Transforma√ß√£o 3: Agrega√ß√µes Complexas
print("  ‚Üí Etapa 2.3: Agrega√ß√µes Anal√≠ticas")
con.register('vendas_enriquecidas', dados_enriquecidos)
agregacoes = con.execute("""
    WITH vendas_por_periodo AS (
        SELECT 
            DATE_TRUNC('month', data_venda) as mes,
            regiao,
            categoria,
            produto,
            COUNT(*) as total_vendas,
            SUM(valor_total_venda) as receita_total,
            SUM(quantidade) as qtd_vendida,
            AVG(rating) as rating_medio,
            COUNT(DISTINCT cliente_id) as clientes_unicos,
            COUNT(DISTINCT vendedor_id) as vendedores_ativos
        FROM vendas_enriquecidas
        GROUP BY 1, 2, 3, 4
    )
    SELECT 
        mes,
        regiao,
        categoria,
        produto,
        total_vendas,
        ROUND(receita_total, 2) as receita_total,
        qtd_vendida,
        ROUND(rating_medio, 2) as rating_medio,
        clientes_unicos,
        vendedores_ativos,
        ROUND(receita_total / total_vendas, 2) as ticket_medio
    FROM vendas_por_periodo
    ORDER BY mes DESC, receita_total DESC
""").fetch_arrow_table()
print(f"    ‚úì Agrega√ß√µes geradas: {agregacoes.num_rows:,} linhas")

transform_time = time.time() - start_transform
print(f"  ‚è± Tempo de transforma√ß√£o: {transform_time:.3f}s\n")

# ==== LOAD ====
print("üíæ FASE 3: LOAD")
start_load = time.time()

# Load em m√∫ltiplos formatos e destinos
output_base = "data_output/etl_advanced"
os.makedirs(output_base, exist_ok=True)

# 3.1: Dados validados em Parquet comprimido
validated_path = f"{output_base}/vendas_validadas.parquet"
pq.write_table(dados_validados, validated_path, compression='snappy')
print(f"  ‚úì Dados validados: {validated_path}")

# 3.2: Dados enriquecidos particionados por regi√£o
enriched_path = f"{output_base}/vendas_enriquecidas"
pq.write_to_dataset(
    dados_enriquecidos, 
    root_path=enriched_path,
    partition_cols=['regiao', 'categoria'],
    compression='zstd'
)
print(f"  ‚úì Dados enriquecidos (particionados): {enriched_path}")

# 3.3: Agrega√ß√µes finais
agg_path = f"{output_base}/agregacoes_mensais.parquet"
pq.write_table(agregacoes, agg_path, compression='gzip')
print(f"  ‚úì Agrega√ß√µes mensais: {agg_path}")

load_time = time.time() - start_load
print(f"  ‚è± Tempo de load: {load_time:.3f}s\n")

# ==== M√âTRICAS FINAIS ====
total_time = extract_time + transform_time + load_time
print(f"{'='*80}")
print(f"üìä M√âTRICAS DO PIPELINE ETL")
print(f"{'='*80}")
print(f"  Registros Processados: {fonte_principal.num_rows:,}")
print(f"  Registros Validados: {dados_validados.num_rows:,} ({dados_validados.num_rows/fonte_principal.num_rows*100:.1f}%)")
print(f"  Registros Agregados: {agregacoes.num_rows:,}")
print(f"  Tempo Total: {total_time:.3f}s")
print(f"  Taxa de Processamento: {fonte_principal.num_rows/total_time:,.0f} registros/segundo")
print(f"{'='*80}\n")

# Visualizar amostra dos resultados
print("üìã Amostra das Agrega√ß√µes Mensais (Top 10 por Receita):")
print(agregacoes.to_pandas().head(10).to_string(index=False))


--- ETL PIPELINE AVAN√áADO: EXTRACT -> TRANSFORM -> LOAD ---

üì• FASE 1: EXTRACT
  ‚úì Fonte Principal: 50,000 registros extra√≠dos
  ‚úì Metadados de Produtos: 8 registros
  ‚è± Tempo de extra√ß√£o: 0.006s

üîÑ FASE 2: TRANSFORM
  ‚Üí Etapa 2.1: Valida√ß√£o e Limpeza de Dados
    ‚úì Registros v√°lidos: 44,964 (removidos 5,036)
  ‚Üí Etapa 2.2: Enriquecimento com Metadados
    ‚úì Dados enriquecidos: 16 colunas
  ‚Üí Etapa 2.3: Agrega√ß√µes Anal√≠ticas
    ‚úì Agrega√ß√µes geradas: 720 linhas
  ‚è± Tempo de transforma√ß√£o: 0.060s

üíæ FASE 3: LOAD
  ‚úì Dados validados: data_output/etl_advanced/vendas_validadas.parquet
  ‚úì Dados enriquecidos (particionados): data_output/etl_advanced/vendas_enriquecidas
  ‚úì Agrega√ß√µes mensais: data_output/etl_advanced/agregacoes_mensais.parquet
  ‚è± Tempo de load: 0.076s

üìä M√âTRICAS DO PIPELINE ETL
  Registros Processados: 50,000
  Registros Validados: 44,964 (89.9%)
  Registros Agregados: 720
  Tempo Total: 0.141s
  Taxa de Processame

## 1Ô∏è‚É£ ETL Pipelines

Construindo pipelines ETL com Arrow e DuckDB:

In [24]:
# Dados de exemplo globais - Dataset Complexo para Casos de Uso Avan√ßados
import time

try:
    print("\nGerando dados de exemplo complexos...")
    
    # Gerar dados de vendas realistas (50.000 registros)
    num_records = 50000
    np.random.seed(42)
    
    # Datas ao longo de 2 anos
    start_date = pd.Timestamp('2023-01-01')
    dates = pd.date_range(start_date, periods=num_records, freq='15min')
    
    # Produtos, Regi√µes, Status
    produtos = ['Notebook', 'Mouse', 'Teclado', 'Monitor', 'Webcam', 'Headset', 'SSD', 'RAM']
    regioes = ['Norte', 'Sul', 'Leste', 'Oeste', 'Centro']
    status = ['Completado', 'Pendente', 'Cancelado', 'Em Processamento']
    
    data = pa.table({
        'id': range(num_records),
        'data_venda': dates,
        'produto': np.random.choice(produtos, num_records),
        'regiao': np.random.choice(regioes, num_records),
        'quantidade': np.random.randint(1, 20, num_records),
        'preco_unitario': np.round(np.random.uniform(50.0, 5000.0, num_records), 2),
        'desconto_percentual': np.random.choice([0, 5, 10, 15, 20], num_records),
        'status': np.random.choice(status, num_records, p=[0.7, 0.15, 0.1, 0.05]),
        'cliente_id': np.random.randint(1000, 10000, num_records),
        'vendedor_id': np.random.randint(1, 100, num_records),
        'rating': np.round(np.random.uniform(1.0, 5.0, num_records), 1)
    })
    
    print(f"‚úì Tabela PyArrow criada: {data.num_rows:,} linhas x {data.num_columns} colunas")
    print(f"‚úì Schema: {', '.join([f.name for f in data.schema])}")
    print(f"‚úì Tamanho em mem√≥ria: ~{data.nbytes / (1024**2):.2f} MB")
    
except Exception as e:
    print(f"‚úó Erro ao criar dados: {e}")

# Conex√£o DuckDB com configura√ß√µes otimizadas
con = duckdb.connect()
con.execute("SET threads TO 4")
con.execute("SET memory_limit='2GB'")
print("‚úì Conex√£o DuckDB estabelecida com configura√ß√µes otimizadas")


Gerando dados de exemplo complexos...
‚úì Tabela PyArrow criada: 50,000 linhas x 11 colunas
‚úì Schema: id, data_venda, produto, regiao, quantidade, preco_unitario, desconto_percentual, status, cliente_id, vendedor_id, rating
‚úì Tamanho em mem√≥ria: ~4.03 MB
‚úì Conex√£o DuckDB estabelecida com configura√ß√µes otimizadas
