# Cap√≠tulo 10 - Performance e Boas Pr√°ticas

Este notebook final explora t√©cnicas de otimiza√ß√£o e boas pr√°ticas para maximizar a performance do DuckDB.

## üìö T√≥picos Abordados:
1. Configura√ß√µes de Performance
2. Otimiza√ß√µes de Queries
3. Gerenciamento de Mem√≥ria
4. Formatos de Arquivo (Parquet vs CSV)
5. Compress√£o e Row Groups
6. Prepared Statements
7. Paralelismo e Threads
8. Benchmarking
9. Pipeline de ETL Otimizado
10. Checklist de Boas Pr√°ticas

## üöÄ Objetivos:
- **Maximizar** performance
- **Reduzir** uso de mem√≥ria
- **Acelerar** pipelines de dados
- **Aplicar** melhores pr√°ticas

## 1. Setup e Prepara√ß√£o

In [None]:
import duckdb
import pandas as pd
import numpy as np
import time
from datetime import datetime, timedelta

print(f"DuckDB vers√£o: {duckdb.__version__}")
print("‚úì Bibliotecas importadas!")

## 2. Configura√ß√µes de Performance

### 2.1 Configura√ß√µes Essenciais

In [None]:
# Criar conex√£o com configura√ß√µes otimizadas
con = duckdb.connect(':memory:')

# Configurar mem√≥ria
con.execute("SET memory_limit = '2GB'")
print("‚úì Memory limit: 2GB")

# Configurar threads (use n√∫mero de cores da CPU)
con.execute("SET threads TO 4")
print("‚úì Threads: 4")

# Desabilitar ordem de inser√ß√£o (melhora performance em GROUP BY)
con.execute("SET preserve_insertion_order = false")
print("‚úì Preserve insertion order: false")

# Ver configura√ß√µes
result = con.execute("""
    SELECT name, value
    FROM duckdb_settings()
    WHERE name IN ('memory_limit', 'threads', 'preserve_insertion_order')
""").fetchdf()
print("\nConfigura√ß√µes atuais:")
print(result)

### 2.2 Temp Directory para Grandes Volumes

In [None]:
import tempfile

# Configurar diret√≥rio tempor√°rio
temp_dir = tempfile.gettempdir()
con.execute(f"SET temp_directory = '{temp_dir}'")

print(f"‚úì Temp directory: {temp_dir}")
print("\nüí° Use SSD para melhor performance!")

## 3. Criar Dados de Teste

### 3.1 Gerar Dataset Sint√©tico

In [None]:
# Gerar dados de teste
np.random.seed(42)

n_rows = 100000
dates = [datetime(2024, 1, 1) + timedelta(days=i % 365) for i in range(n_rows)]

df = pd.DataFrame({
    'id': range(n_rows),
    'data': dates,
    'categoria': np.random.choice(['A', 'B', 'C', 'D'], n_rows),
    'valor': np.random.uniform(10, 1000, n_rows),
    'quantidade': np.random.randint(1, 100, n_rows),
    'regiao': np.random.choice(['Norte', 'Sul', 'Leste', 'Oeste'], n_rows)
})

print(f"‚úì Dataset gerado: {len(df):,} linhas")
print(f"‚úì Tamanho em mem√≥ria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print("\nPrimeiras linhas:")
print(df.head())

### 3.2 Registrar no DuckDB

In [None]:
# Registrar DataFrame
con.register('vendas', df)
print("‚úì DataFrame registrado como 'vendas'")

# Verificar
result = con.execute("SELECT COUNT(*) as total FROM vendas").fetchone()
print(f"Total de registros: {result[0]:,}")

## 4. Formatos de Arquivo: CSV vs Parquet

### 4.1 Exportar em Diferentes Formatos

In [None]:
import os

# Exportar CSV
print("Exportando CSV...")
start = time.time()
con.execute("""
    COPY vendas TO 'vendas_test.csv' (FORMAT CSV, HEADER true)
""")
csv_time = time.time() - start
csv_size = os.path.getsize('vendas_test.csv') / 1024**2
print(f"‚úì CSV: {csv_time:.3f}s, {csv_size:.2f} MB")

# Exportar Parquet
print("\nExportando Parquet...")
start = time.time()
con.execute("""
    COPY vendas TO 'vendas_test.parquet' (FORMAT PARQUET)
""")
parquet_time = time.time() - start
parquet_size = os.path.getsize('vendas_test.parquet') / 1024**2
print(f"‚úì Parquet: {parquet_time:.3f}s, {parquet_size:.2f} MB")

# Compara√ß√£o
print("\nüìä COMPARA√á√ÉO:")
print(f"Velocidade: Parquet √© {csv_time/parquet_time:.1f}x mais r√°pido")
print(f"Tamanho: Parquet √© {csv_size/parquet_size:.1f}x menor")

### 4.2 Leitura: CSV vs Parquet

In [None]:
# Ler CSV
print("Lendo CSV...")
start = time.time()
result_csv = con.execute("SELECT COUNT(*) FROM 'vendas_test.csv'").fetchone()
csv_read_time = time.time() - start
print(f"‚úì CSV: {csv_read_time:.3f}s, {result_csv[0]:,} linhas")

# Ler Parquet
print("\nLendo Parquet...")
start = time.time()
result_parquet = con.execute("SELECT COUNT(*) FROM 'vendas_test.parquet'").fetchone()
parquet_read_time = time.time() - start
print(f"‚úì Parquet: {parquet_read_time:.3f}s, {result_parquet[0]:,} linhas")

# Compara√ß√£o
print("\n‚ö° PERFORMANCE:")
print(f"Parquet √© {csv_read_time/parquet_read_time:.1f}x mais r√°pido para leitura")

## 5. Compress√£o e Row Groups

### 5.1 Diferentes Compress√µes

In [None]:
# Testar diferentes compress√µes
compressoes = ['snappy', 'gzip', 'zstd', 'uncompressed']
resultados = []

for comp in compressoes:
    filename = f'vendas_{comp}.parquet'
    
    # Exportar
    start = time.time()
    con.execute(f"""
        COPY vendas TO '{filename}' 
        (FORMAT PARQUET, COMPRESSION {comp})
    """)
    write_time = time.time() - start
    
    # Tamanho
    size = os.path.getsize(filename) / 1024**2
    
    # Ler
    start = time.time()
    con.execute(f"SELECT COUNT(*) FROM '{filename}'").fetchone()
    read_time = time.time() - start
    
    resultados.append({
        'compressao': comp,
        'tamanho_mb': size,
        'write_s': write_time,
        'read_s': read_time
    })

# Mostrar resultados
comp_df = pd.DataFrame(resultados)
print("üìä COMPARA√á√ÉO DE COMPRESS√ïES:")
print(comp_df.to_string(index=False))

print("\nüí° ZSTD oferece melhor balan√ßo!")

### 5.2 Row Group Size

In [None]:
# Testar diferentes row group sizes
print("Testando ROW_GROUP_SIZE:")

for size in [10000, 50000, 100000]:
    filename = f'vendas_rg_{size}.parquet'
    
    start = time.time()
    con.execute(f"""
        COPY vendas TO '{filename}'
        (FORMAT PARQUET, COMPRESSION zstd, ROW_GROUP_SIZE {size})
    """)
    write_time = time.time() - start
    file_size = os.path.getsize(filename) / 1024**2
    
    print(f"Row group {size:6d}: {write_time:.3f}s, {file_size:.2f} MB")

print("\nüí° Row groups menores = mais paralelismo")
print("üí° Row groups maiores = melhor compress√£o")

## 6. Otimiza√ß√£o de Queries

### 6.1 Filtros e Proje√ß√µes

In [None]:
# Query SEM otimiza√ß√£o
print("Query SEM filtro na origem:")
start = time.time()
result = con.execute("""
    SELECT categoria, AVG(valor) as media
    FROM (
        SELECT * FROM vendas
    )
    WHERE data >= '2024-06-01'
    GROUP BY categoria
""").fetchdf()
slow_time = time.time() - start
print(f"Tempo: {slow_time:.3f}s")

# Query COM otimiza√ß√£o (filtro early)
print("\nQuery COM filtro antecipado:")
start = time.time()
result = con.execute("""
    SELECT categoria, AVG(valor) as media
    FROM vendas
    WHERE data >= '2024-06-01'
    GROUP BY categoria
""").fetchdf()
fast_time = time.time() - start
print(f"Tempo: {fast_time:.3f}s")

print(f"\n‚ö° Melhoria: {slow_time/fast_time:.1f}x mais r√°pido")
print("\nüí° Aplique filtros o mais cedo poss√≠vel!")

### 6.2 SELECT * vs Colunas Espec√≠ficas

In [None]:
# SELECT *
print("SELECT * (todas as colunas):")
start = time.time()
result = con.execute("""
    SELECT * FROM 'vendas_test.parquet' LIMIT 10000
""").fetchdf()
all_cols_time = time.time() - start
print(f"Tempo: {all_cols_time:.3f}s, Mem√≥ria: {result.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# SELECT espec√≠fico
print("\nSELECT categoria, valor (colunas espec√≠ficas):")
start = time.time()
result = con.execute("""
    SELECT categoria, valor FROM 'vendas_test.parquet' LIMIT 10000
""").fetchdf()
few_cols_time = time.time() - start
print(f"Tempo: {few_cols_time:.3f}s, Mem√≥ria: {result.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print(f"\n‚ö° Economia: {all_cols_time/few_cols_time:.1f}x mais r√°pido")
print("\nüí° Selecione apenas colunas necess√°rias!")

## 7. Prepared Statements

### 7.1 Compara√ß√£o: Normal vs Prepared

In [None]:
# Criar tabela de teste
con.execute("""
    CREATE OR REPLACE TABLE usuarios (
        id INTEGER,
        nome VARCHAR,
        idade INTEGER
    )
""")

# M√©todo 1: Query normal (lento)
print("M√©todo 1: Query normal")
start = time.time()
for i in range(1000):
    con.execute(f"INSERT INTO usuarios VALUES ({i}, 'User_{i}', {20 + i % 50})")
normal_time = time.time() - start
print(f"Tempo: {normal_time:.3f}s")

# Limpar
con.execute("DELETE FROM usuarios")

# M√©todo 2: Prepared statement (r√°pido)
print("\nM√©todo 2: Prepared statement")
start = time.time()
stmt = con.execute("PREPARE insert_user AS INSERT INTO usuarios VALUES ($1, $2, $3)")
for i in range(1000):
    con.execute(f"EXECUTE insert_user({i}, 'User_{i}', {20 + i % 50})")
prepared_time = time.time() - start
print(f"Tempo: {prepared_time:.3f}s")

print(f"\n‚ö° Prepared statement √© {normal_time/prepared_time:.1f}x mais r√°pido!")

# Verificar
count = con.execute("SELECT COUNT(*) FROM usuarios").fetchone()[0]
print(f"\n‚úì Total inserido: {count:,} registros")

## 8. Paralelismo e Threads

### 8.1 Impacto do N√∫mero de Threads

In [None]:
# Query de teste (agrega√ß√£o pesada)
query = """
    SELECT 
        categoria,
        regiao,
        COUNT(*) as total,
        SUM(valor * quantidade) as receita,
        AVG(valor) as valor_medio
    FROM vendas
    GROUP BY categoria, regiao
    ORDER BY receita DESC
"""

# Testar diferentes n√∫meros de threads
print("Testando diferentes n√∫meros de threads:")
print()

for threads in [1, 2, 4, 8]:
    con.execute(f"SET threads = {threads}")
    
    start = time.time()
    result = con.execute(query).fetchdf()
    elapsed = time.time() - start
    
    print(f"Threads {threads}: {elapsed:.3f}s")

print("\nüí° Mais threads = melhor performance (at√© o limite de cores)")

# Resetar para valor otimizado
con.execute("SET threads = 4")

## 9. Benchmarking Completo

### 9.1 Suite de Benchmarks

In [None]:
# Suite de queries para benchmark
benchmarks = {
    'Count': "SELECT COUNT(*) FROM vendas",
    'Agrega√ß√£o Simples': "SELECT categoria, SUM(valor) FROM vendas GROUP BY categoria",
    'Agrega√ß√£o Complexa': """
        SELECT 
            categoria, regiao,
            COUNT(*) as total,
            AVG(valor) as media,
            STDDEV(valor) as desvio
        FROM vendas
        GROUP BY categoria, regiao
    """,
    'Filtro + Sort': """
        SELECT * FROM vendas
        WHERE valor > 500
        ORDER BY valor DESC
        LIMIT 1000
    """,
    'Window Function': """
        SELECT 
            categoria,
            valor,
            ROW_NUMBER() OVER (PARTITION BY categoria ORDER BY valor DESC) as rank
        FROM vendas
    """
}

print("üèÉ EXECUTANDO BENCHMARKS:")
print("="*60)

resultados_bench = []
for nome, query in benchmarks.items():
    start = time.time()
    result = con.execute(query).fetchdf()
    elapsed = time.time() - start
    
    resultados_bench.append({
        'Benchmark': nome,
        'Tempo (s)': f"{elapsed:.3f}",
        'Linhas': len(result)
    })
    
    print(f"{nome:25s} {elapsed:6.3f}s  ({len(result):,} linhas)")

print("="*60)
print("\n‚úì Benchmarks conclu√≠dos!")

## 10. Pipeline ETL Otimizado

### 10.1 Pipeline Completo

In [None]:
def pipeline_etl_otimizado():
    """
    Pipeline ETL otimizado com DuckDB
    """
    print("üöÄ PIPELINE ETL OTIMIZADO")
    print("="*60)
    
    # 1. Configura√ß√£o
    print("\n1Ô∏è‚É£ Configurando conex√£o...")
    con_etl = duckdb.connect(':memory:')
    con_etl.execute("SET memory_limit = '2GB'")
    con_etl.execute("SET threads = 4")
    con_etl.execute("SET preserve_insertion_order = false")
    print("   ‚úì Configura√ß√£o aplicada")
    
    # 2. Extra√ß√£o (CSV ‚Üí Parquet)
    print("\n2Ô∏è‚É£ Convertendo CSV para Parquet...")
    start = time.time()
    con_etl.execute("""
        COPY (
            SELECT * FROM 'vendas_test.csv'
        ) TO 'vendas_otimizado.parquet'
        (FORMAT PARQUET, COMPRESSION zstd, ROW_GROUP_SIZE 50000)
    """)
    print(f"   ‚úì Convers√£o: {time.time() - start:.2f}s")
    
    # 3. Transforma√ß√£o
    print("\n3Ô∏è‚É£ Aplicando transforma√ß√µes...")
    start = time.time()
    con_etl.execute("""
        CREATE TABLE vendas_processadas AS
        SELECT 
            id,
            data,
            categoria,
            valor,
            quantidade,
            valor * quantidade as receita,
            regiao,
            CASE 
                WHEN valor < 100 THEN 'Baixo'
                WHEN valor < 500 THEN 'M√©dio'
                ELSE 'Alto'
            END as faixa_preco
        FROM 'vendas_otimizado.parquet'
        WHERE valor > 0
    """)
    print(f"   ‚úì Transforma√ß√£o: {time.time() - start:.2f}s")
    
    # 4. Agrega√ß√£o
    print("\n4Ô∏è‚É£ Gerando agrega√ß√µes...")
    start = time.time()
    result = con_etl.execute("""
        SELECT 
            categoria,
            regiao,
            faixa_preco,
            COUNT(*) as transacoes,
            SUM(receita) as receita_total,
            AVG(valor) as ticket_medio
        FROM vendas_processadas
        GROUP BY categoria, regiao, faixa_preco
        ORDER BY receita_total DESC
    """).fetchdf()
    print(f"   ‚úì Agrega√ß√£o: {time.time() - start:.2f}s")
    print(f"   ‚úì Resultados: {len(result)} linhas")
    
    # 5. Exporta√ß√£o
    print("\n5Ô∏è‚É£ Exportando resultados...")
    start = time.time()
    con_etl.execute("""
        COPY (
            SELECT * FROM vendas_processadas
        ) TO 'vendas_final.parquet'
        (FORMAT PARQUET, COMPRESSION zstd)
    """)
    print(f"   ‚úì Exporta√ß√£o: {time.time() - start:.2f}s")
    
    print("\n" + "="*60)
    print("‚úÖ PIPELINE CONCLU√çDO COM SUCESSO!")
    
    con_etl.close()
    return result

# Executar pipeline
resultado = pipeline_etl_otimizado()
print("\nTop 5 resultados:")
print(resultado.head())

## 11. Checklist de Boas Pr√°ticas

### 11.1 Configura√ß√£o

In [None]:
print("""
‚úÖ CHECKLIST DE BOAS PR√ÅTICAS
""" + "="*60 + """

üîß CONFIGURA√á√ÉO:
  ‚úì Definir memory_limit apropriado
  ‚úì Configurar threads = n√∫mero de cores
  ‚úì Usar temp_directory em SSD
  ‚úì preserve_insertion_order = false (quando poss√≠vel)

üìÅ FORMATOS DE ARQUIVO:
  ‚úì Usar Parquet em vez de CSV
  ‚úì Compress√£o ZSTD para melhor balan√ßo
  ‚úì Row group size entre 50k-100k
  ‚úì Particionar dados grandes por data/categoria

üîç QUERIES:
  ‚úì Selecionar apenas colunas necess√°rias
  ‚úì Aplicar filtros o mais cedo poss√≠vel
  ‚úì Usar LIMIT quando apropriado
  ‚úì Evitar SELECT * em produ√ß√£o

‚ö° PERFORMANCE:
  ‚úì Usar prepared statements para inserts repetitivos
  ‚úì Batch inserts em vez de individuais
  ‚úì Habilitar paralelismo (force_parallelism = true)
  ‚úì Reusar conex√µes quando poss√≠vel

üíæ MEM√ìRIA:
  ‚úì Processar dados em chunks para grandes volumes
  ‚úì Usar streaming quando poss√≠vel
  ‚úì Limpar temp files ap√≥s processamento
  ‚úì Monitorar uso de mem√≥ria

üìä MONITORAMENTO:
  ‚úì Usar EXPLAIN ANALYZE para otimizar queries
  ‚úì Fazer benchmarks regulares
  ‚úì Monitorar tempo de execu√ß√£o
  ‚úì Revisar planos de execu√ß√£o

üîê SEGURAN√áA:
  ‚úì Validar inputs de usu√°rios
  ‚úì Usar prepared statements (previne SQL injection)
  ‚úì N√£o expor credenciais no c√≥digo
  ‚úì Usar secrets para credenciais S3
""" + "="*60)

### 11.2 Limpeza

In [None]:
# Limpar arquivos de teste
import glob

arquivos_teste = glob.glob('vendas*.csv') + glob.glob('vendas*.parquet')
for arquivo in arquivos_teste:
    try:
        os.remove(arquivo)
    except:
        pass

print(f"‚úì {len(arquivos_teste)} arquivos de teste removidos")
print("\n‚úÖ Notebook conclu√≠do!")

## üéØ Resumo Final

### ‚úÖ Principais Aprendizados:

**Performance:**
- Parquet √© **~5-10x mais r√°pido** que CSV
- Parquet √© **~3-5x menor** que CSV
- ZSTD oferece melhor balan√ßo compress√£o/velocidade
- Prepared statements s√£o **~5-10x mais r√°pidos**
- Threads adequados = **2-4x mais r√°pido**

**Configura√ß√µes Essenciais:**
1. `memory_limit` ‚Üí Evitar OOM
2. `threads` ‚Üí Maximizar paralelismo
3. `temp_directory` ‚Üí SSD para grandes volumes
4. `preserve_insertion_order = false` ‚Üí Melhor GROUP BY

**Otimiza√ß√µes de Query:**
- Filtrar cedo (WHERE antes de JOIN)
- Selecionar apenas colunas necess√°rias
- Usar LIMIT quando apropriado
- Aproveitar predicate pushdown

**Formatos:**
- ‚úÖ Parquet: Produ√ß√£o
- ‚ö†Ô∏è CSV: Interchange/debug
- ‚úÖ Compress√£o: ZSTD
- ‚úÖ Row groups: 50k-100k

### üöÄ Pr√≥ximos Passos:

1. **Aplicar em projetos reais**
2. **Monitorar performance continuamente**
3. **Iterar e otimizar**
4. **Documentar resultados**

### üìö Recursos Adicionais:

- [DuckDB Documentation](https://duckdb.org/docs/)
- [Performance Guide](https://duckdb.org/docs/guides/performance/)
- [Best Practices](https://duckdb.org/docs/guides/best_practices/)

### üéì Conclus√£o:

Parab√©ns! Voc√™ completou o curso **DuckDB - Easy**!

Voc√™ aprendeu:
- ‚úÖ 10 cap√≠tulos completos
- ‚úÖ SQL avan√ßado com DuckDB
- ‚úÖ Integra√ß√£o com Python/Pandas/Polars
- ‚úÖ Otimiza√ß√£o e performance
- ‚úÖ Boas pr√°ticas de desenvolvimento

**Continue praticando e explorando o DuckDB! ü¶Ü**