# üì¶ Instala√ß√£o de Depend√™ncias

In [None]:
!pip install duckdb pandas -q

---

## ‚öôÔ∏è Bloco 1: Configura√ß√µes de Performance

Otimizando mem√≥ria, threads e armazenamento tempor√°rio.

In [None]:
import duckdb

con = duckdb.connect()

# Configurar para m√°xima performance
con.execute("SET memory_limit='2GB'")
con.execute("SET temp_directory='./temp'")
con.execute("SET threads=4")
con.execute("SET preserve_insertion_order=false")

# Verificar configura√ß√µes
result = con.sql("""
    SELECT
        current_setting('memory_limit') as memoria,
        current_setting('threads') as threads,
        current_setting('temp_directory') as temp_dir
""").fetchall()

print("Configura√ß√µes aplicadas:")
print(f"Mem√≥ria: {result[0][0]}")
print(f"Threads: {result[0][1]}")
print(f"Temp dir: {result[0][2]}")
print("\n‚úÖ Performance otimizada!")

---

## üöÄ Bloco 2: Prepared Statements

Reutilizando queries para melhor performance.

In [None]:
import duckdb

con = duckdb.connect()

# Criar tabela de teste
con.execute("CREATE TABLE users (id INTEGER, name VARCHAR)")

# ‚úÖ MELHOR: Prepared statement
stmt = con.prepare("INSERT INTO users VALUES ($1, $2)")

for i in range(100):
    stmt.execute([i, f"User_{i}"])

print(f"‚úÖ Inseridos 100 registros com prepared statement")

# Verificar
result = con.sql("SELECT COUNT(*) FROM users").fetchone()
print(f"Total de usu√°rios: {result[0]}")

---

## üì¶ Bloco 3: Formato de Arquivo (Parquet vs CSV)

Parquet √© muito mais eficiente que CSV.

In [None]:
import duckdb
import pandas as pd
import time

con = duckdb.connect()

# Criar dados de teste
dados = pd.DataFrame({
    'id': range(10000),
    'valor': range(10000),
    'texto': [f"Item_{i}" for i in range(10000)]
})

# Salvar como CSV
dados.to_csv('test.csv', index=False)

# Salvar como Parquet
con.sql("COPY (SELECT * FROM dados) TO 'test.parquet' (FORMAT parquet)")

# Comparar velocidade de leitura
start = time.time()
csv_result = con.sql("SELECT COUNT(*) FROM 'test.csv'").fetchone()
csv_time = time.time() - start

start = time.time()
parquet_result = con.sql("SELECT COUNT(*) FROM 'test.parquet'").fetchone()
parquet_time = time.time() - start

print(f"üìÑ CSV: {csv_time:.4f}s")
print(f"üì¶ Parquet: {parquet_time:.4f}s")
print(f"‚ö° Parquet √© {csv_time/parquet_time:.1f}x mais r√°pido!")

---

## üí° Bloco 4: Melhores Pr√°ticas

Resumo de boas pr√°ticas para performance ideal.

In [None]:
"""
‚úÖ MELHORES PR√ÅTICAS DUCKDB:

1. **Formato de Arquivo**
   - ‚úÖ Use Parquet em vez de CSV
   - ‚úÖ Ative compress√£o (ZSTD, GZIP)
   - ‚úÖ Configure row_group_size adequadamente

2. **Conex√µes**
   - ‚úÖ Reutilize conex√µes quando poss√≠vel
   - ‚úÖ Use context managers (with)
   - ‚úÖ Uma conex√£o por thread em ambientes multi-thread

3. **Queries**
   - ‚úÖ Use prepared statements para queries repetidas
   - ‚úÖ Filtre dados o mais cedo poss√≠vel (WHERE)
   - ‚úÖ Limite resultados quando apropriado

4. **Mem√≥ria**
   - ‚úÖ Configure memory_limit apropriadamente
   - ‚úÖ Use temp_directory em disco r√°pido
   - ‚úÖ Habilite streaming para datasets grandes

5. **Integra√ß√£o Python**
   - ‚úÖ Consulte DataFrames diretamente (sem copiar)
   - ‚úÖ Use .df() para resultados Pandas
   - ‚úÖ Use .arrow() para zero-copy com Arrow

6. **Compress√£o**
   - ‚úÖ Databases persistentes s√£o sempre comprimidos
   - ‚úÖ In-memory: configure compress=True se necess√°rio
"""

print(__doc__)
print("\n‚úÖ Guia de melhores pr√°ticas completo!")

# Capitulo 10 Performance Boas Praticas

Notebook gerado automaticamente a partir do c√≥digo fonte python.
