# Cap√≠tulo 06 - Integra√ß√£o com Python

Este notebook explora a integra√ß√£o profunda entre DuckDB e Python, mostrando como trabalhar com DataFrames, conex√µes, configura√ß√µes e pr√°ticas recomendadas.

## üìö T√≥picos Abordados:
1. Queries B√°sicas e Relations
2. Leitura de Arquivos (CSV, Parquet, JSON)
3. Integra√ß√£o com Pandas, Polars e Arrow
4. Convers√µes de Resultados
5. Exporta√ß√£o de Dados
6. Gest√£o de Conex√µes
7. Configura√ß√µes Avan√ßadas
8. Casos de Uso Pr√°ticos (ETL, An√°lise)
9. Boas Pr√°ticas
10. Extens√µes e Performance

## 1. Setup e Prepara√ß√£o

In [None]:
# Instalar depend√™ncias
%pip install duckdb pandas polars pyarrow -q
print("‚úì Pacotes instalados!")

In [None]:
import duckdb
import pandas as pd
import json
import os
from datetime import datetime, timedelta

print(f"DuckDB vers√£o: {duckdb.__version__}")
print(f"Pandas vers√£o: {pd.__version__}")
print("\n‚úì Imports realizados!")

## 2. Queries B√°sicas

### 2.1 Query Simples

In [None]:
# Query simples retorna um Relation
result = duckdb.sql("SELECT 42 AS answer, 'DuckDB' AS name")

print("Tipo do resultado:", type(result))
print("\nResultado:")
result.show()

print("\n‚úì Query executada!")

### 2.2 Encadeamento de Queries

DuckDB permite referenciar resultados anteriores!

In [None]:
# Primeira query
r1 = duckdb.sql("SELECT 42 AS i, 'Python' AS lang")

# Segunda query referencia r1!
print("Dobrando o valor de i:")
duckdb.sql("SELECT i * 2 AS doubled, lang FROM r1").show()

# Terceira query
print("\nTriplicando o valor:")
duckdb.sql("SELECT i * 3 AS tripled FROM r1").show()

print("\n‚úì Relations podem ser reutilizadas!")

## 3. Leitura de Arquivos

### 3.1 Criar Arquivos de Teste

In [None]:
# Criar CSV
csv_data = """id,nome,idade,cidade
1,Alice,28,S√£o Paulo
2,Bob,35,Rio de Janeiro
3,Charlie,42,Belo Horizonte"""

with open('example.csv', 'w', encoding='utf-8') as f:
    f.write(csv_data)

# Criar Parquet
duckdb.sql("""
    COPY (SELECT * FROM 'example.csv') 
    TO 'example.parquet'
""")

# Criar JSON
json_data = [
    {"id": 1, "nome": "Alice", "idade": 28, "cidade": "S√£o Paulo"},
    {"id": 2, "nome": "Bob", "idade": 35, "cidade": "Rio de Janeiro"},
    {"id": 3, "nome": "Charlie", "idade": 42, "cidade": "Belo Horizonte"}
]

with open('example.json', 'w', encoding='utf-8') as f:
    json.dump(json_data, f)

print("‚úì Arquivos de teste criados: CSV, Parquet, JSON")

### 3.2 Ler CSV

In [None]:
# M√©todo 1: read_csv()
print("M√©todo 1 - read_csv():")
rel = duckdb.read_csv("example.csv")
print(f"Tipo: {type(rel)}")
rel.show()

# M√©todo 2: SQL direto
print("\nM√©todo 2 - SQL direto:")
duckdb.sql("SELECT * FROM 'example.csv' WHERE idade > 30").show()

print("\n‚úì CSV lido de duas formas!")

### 3.3 Ler Parquet

In [None]:
# read_parquet()
print("Lendo Parquet:")
rel = duckdb.read_parquet("example.parquet")
rel.show()

# SQL direto
print("\nQuery SQL:")
duckdb.sql("""
    SELECT nome, cidade 
    FROM 'example.parquet' 
    ORDER BY idade DESC
""").show()

### 3.4 Ler JSON

In [None]:
# read_json()
print("Lendo JSON:")
rel = duckdb.read_json("example.json")
rel.show()

# SQL direto com agrega√ß√£o
print("\nAgrega√ß√£o:")
duckdb.sql("""
    SELECT 
        COUNT(*) AS total,
        AVG(idade) AS idade_media
    FROM 'example.json'
""").show()

## 4. Integra√ß√£o com Frameworks Python

### 4.1 Pandas DataFrame

In [None]:
# Criar conex√£o para uso nas pr√≥ximas c√©lulas
con = duckdb.connect()

# Criar DataFrame Pandas com tipos expl√≠citos
pandas_df = pd.DataFrame({
    "produto": pd.Series(["Notebook", "Mouse", "Teclado"], dtype="object"),
    "preco": [3500.00, 50.00, 150.00],
    "estoque": [15, 120, 80]
})

print("DataFrame Pandas:")
print(pandas_df)

# Consulta SQL no DataFrame
print("\nConsulta SQL no DataFrame:")
result = con.execute("""
    SELECT 
        produto,
        preco,
        preco * estoque AS valor_total_estoque
    FROM pandas_df
    ORDER BY valor_total_estoque DESC
""").fetchdf()

print(result)
print("\n‚úì DuckDB consulta Pandas diretamente!")

### 4.2 Polars DataFrame

In [None]:
import polars as pl

# Criar DataFrame Polars
polars_df = pl.DataFrame({
    "categoria": ["Eletr√¥nicos", "M√≥veis", "Livros"],
    "vendas": [125000, 85000, 42000]
})

print("DataFrame Polars:")
print(polars_df)

# Consultar Polars DataFrame
print("\nConsulta SQL:")
duckdb.sql("""
    SELECT 
        categoria,
        vendas,
        vendas * 1.15 AS com_impostos
    FROM polars_df
""").show()

print("\n‚úì DuckDB consulta Polars tamb√©m!")

### 4.3 PyArrow Table

In [None]:
import pyarrow as pa

# Criar Arrow Table
arrow_table = pa.Table.from_pydict({
    "id": [1, 2, 3],
    "nome": ["Alice", "Bob", "Charlie"],
    "score": [95.5, 87.0, 91.5]
})

print("Arrow Table:")
print(arrow_table)

# Consultar Arrow Table
print("\nConsulta SQL:")
duckdb.sql("""
    SELECT nome, score,
        CASE 
            WHEN score >= 90 THEN 'A'
            WHEN score >= 80 THEN 'B'
            ELSE 'C'
        END AS conceito
    FROM arrow_table
""").show()

print("\n‚úì Arrow Tables suportadas!")

## 5. Convers√µes de Resultados

### 5.1 Para Lista de Tuplas

In [None]:
result = duckdb.sql("""
    SELECT 42 AS num, 'hello' AS text, 3.14 AS pi
""")

# fetchall() - todas as linhas
rows = result.fetchall()
print("fetchall():")
print(rows)
print(f"Tipo: {type(rows[0])}")

# fetchone() - uma linha
result2 = duckdb.sql("SELECT 1, 2, 3")
row = result2.fetchone()
print("\nfetchone():")
print(row)

# fetchmany() - N linhas
result3 = duckdb.sql("SELECT * FROM range(10)")
some_rows = result3.fetchmany(3)
print("\nfetchmany(3):")
print(some_rows)

### 5.2 Para Pandas DataFrame

In [None]:
result = duckdb.sql("""
    SELECT * FROM 'example.csv'
""")

# Converter para Pandas
df = result.df()

print(f"Tipo: {type(df)}")
print(f"\nShape: {df.shape}")
print("\nDataFrame:")
print(df)

# Usar m√©todos Pandas
print("\nEstat√≠sticas:")
print(df['idade'].describe())

### 5.3 Para Polars DataFrame

In [None]:
result = duckdb.sql("""
    SELECT * FROM 'example.csv'
""")

# Converter para Polars
pl_df = result.pl()

print(f"Tipo: {type(pl_df)}")
print(f"\nShape: {pl_df.shape}")
print("\nDataFrame Polars:")
print(pl_df)

print("\n‚úì Convertido para Polars!")

### 5.4 Para Arrow Table

In [None]:
result = duckdb.sql("""
    SELECT * FROM 'example.csv'
""")

# Converter para Arrow
arrow = result.arrow()

print(f"Tipo: {type(arrow)}")
print(f"\nSchema: {arrow.schema}")

# Ler os batches
arrow_table = arrow.read_all()
print(f"\nNum rows: {len(arrow_table)}")
print("\nArrow Table:")
print(arrow_table)

### 5.5 Para NumPy Arrays

In [None]:
result = duckdb.sql("""
    SELECT 42 AS num, 100 AS total, 3.14 AS pi
""")

# Converter para NumPy (dict de arrays)
numpy_result = result.fetchnumpy()

print("fetchnumpy():")
print(numpy_result)
print(f"\nTipo de 'num': {type(numpy_result['num'])}")
print(f"Valores: {numpy_result['num'][0]}, {numpy_result['total'][0]}")

## 6. Exporta√ß√£o de Dados

### 6.1 Exportar como Parquet

In [None]:
# M√©todo 1: COPY
duckdb.sql("""
    COPY (
        SELECT * FROM 'example.csv' WHERE idade > 30
    ) TO 'output1.parquet'
""")

print("‚úì M√©todo 1 (COPY): output1.parquet criado")
print(f"Tamanho: {os.path.getsize('output1.parquet'):,} bytes")

# Verificar
print("\nConte√∫do:")
duckdb.sql("SELECT * FROM 'output1.parquet'").show()

### 6.2 Exportar como CSV

In [None]:
# Exportar CSV
duckdb.sql("""
    COPY (
        SELECT nome, idade FROM 'example.csv'
    ) TO 'output.csv' (HEADER)
""")

print("‚úì output.csv criado")
print(f"Tamanho: {os.path.getsize('output.csv'):,} bytes")

# Mostrar conte√∫do
with open('output.csv', 'r', encoding='utf-8') as f:
    print("\nConte√∫do:")
    print(f.read())

### 6.3 Exportar como JSON

In [None]:
# Exportar JSON
duckdb.sql("""
    COPY (
        SELECT * FROM 'example.csv'
    ) TO 'output.json' (FORMAT JSON, ARRAY true)
""")

print("‚úì output.json criado")
print(f"Tamanho: {os.path.getsize('output.json'):,} bytes")

# Verificar
with open('output.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
    print(f"\nRegistros: {len(data)}")
    print(json.dumps(data[0], indent=2, ensure_ascii=False))

## 7. Gest√£o de Conex√µes

### 7.1 Conex√£o em Mem√≥ria

In [None]:
# Criar conex√£o em mem√≥ria
con = duckdb.connect()

print("Conex√£o criada!")
con.sql("SELECT 42 AS answer").show()

# Fechar conex√£o
con.close()
print("\n‚úì Conex√£o fechada")

### 7.2 Conex√£o com Arquivo

In [None]:
# Criar/conectar a arquivo de banco de dados
con = duckdb.connect("test.db")

# Criar tabela
con.sql("DROP TABLE IF EXISTS usuarios")
con.sql("CREATE TABLE usuarios (id INTEGER, nome VARCHAR)")
con.sql("INSERT INTO usuarios VALUES (1, 'Alice'), (2, 'Bob')")

print("Dados persistidos em test.db:")
con.table("usuarios").show()

con.close()
print("\n‚úì Dados salvos em disco!")

### 7.3 Context Manager (Recomendado)

In [None]:
# Usar 'with' para fechar automaticamente
with duckdb.connect("test2.db") as con:
    con.sql("DROP TABLE IF EXISTS produtos")
    con.sql("CREATE TABLE produtos (id INTEGER, nome VARCHAR, preco DOUBLE)")
    con.sql("INSERT INTO produtos VALUES (1, 'Notebook', 3500.00)")
    
    print("Dentro do context manager:")
    con.table("produtos").show()

# Conex√£o fechada automaticamente!
print("\n‚úì Conex√£o fechada automaticamente pelo 'with'")

### 7.4 Configura√ß√µes na Conex√£o

In [None]:
# Configurar n√∫mero de threads
con = duckdb.connect(config={'threads': 4})
print("‚úì Conex√£o com 4 threads")
con.close()

# M√∫ltiplas configura√ß√µes
con = duckdb.connect(config={
    'threads': 2,
    'max_memory': '1GB',
    'default_order': 'DESC'
})

print("\nConfigura√ß√µes aplicadas:")
print("- Threads: 2")
print("- Mem√≥ria m√°xima: 1GB")
print("- Ordem padr√£o: DESC")

# Testar ordem padr√£o
con.sql("SELECT * FROM range(5)").show()
con.close()

## 8. Casos de Uso Pr√°ticos

### 8.1 An√°lise de Vendas com Pandas

In [None]:
# Criar dados de vendas
vendas = pd.DataFrame({
    'data': pd.date_range('2024-01-01', periods=100),
    'produto': pd.Series(['A', 'B', 'C'] * 33 + ['A'], dtype="object"),
    'quantidade': range(1, 101),
    'preco': [10.5, 20.0, 15.75] * 33 + [10.5]
})

print(f"Dataset: {len(vendas)} vendas")
print("\nPrimeiras linhas:")
print(vendas.head())

# An√°lise com DuckDB usando conex√£o
resultado = con.execute("""
    SELECT
        produto,
        COUNT(*) as total_vendas,
        SUM(quantidade) as total_quantidade,
        ROUND(SUM(quantidade * preco), 2) as receita_total,
        ROUND(AVG(preco), 2) as preco_medio
    FROM vendas
    GROUP BY produto
    ORDER BY receita_total DESC
""").fetchdf()

print("\nüìä An√°lise por Produto:")
print(resultado)

### 8.2 Pipeline ETL Completo

In [None]:
# Criar dados de exemplo
# Vendas CSV
vendas_data = pd.DataFrame({
    'venda_id': range(1, 11),
    'cliente_id': [1, 2, 1, 3, 2, 1, 3, 2, 1, 3],
    'data': pd.date_range('2024-01-01', periods=10),
    'valor_total': [100, 250, 150, 300, 200, 180, 220, 190, 160, 280],
    'quantidade': [2, 5, 3, 6, 4, 3, 5, 4, 3, 6]
})
vendas_data.to_csv('vendas.csv', index=False)

# Clientes Parquet
clientes_data = pd.DataFrame({
    'id': [1, 2, 3],
    'cliente_nome': pd.Series(['Alice', 'Bob', 'Charlie'], dtype="object"),
    'regiao': pd.Series(['Sul', 'Sudeste', 'Norte'], dtype="object")
})
con.execute("COPY clientes_data TO 'clientes.parquet'")

print("‚úì Dados de exemplo criados\n")

# Pipeline ETL
with duckdb.connect() as con_etl:
    print("üîÑ Iniciando ETL...")
    
    # Extract: Ler de m√∫ltiplas fontes
    con_etl.sql("CREATE TABLE vendas AS SELECT * FROM 'vendas.csv'")
    con_etl.sql("CREATE TABLE clientes AS SELECT * FROM 'clientes.parquet'")
    print("  ‚úì Extract: Dados carregados")
    
    # Transform: Processar e limpar dados
    con_etl.sql("""
        CREATE TABLE vendas_processadas AS
        SELECT
            v.venda_id,
            v.data,
            c.cliente_nome,
            c.regiao,
            v.valor_total,
            v.quantidade,
            v.valor_total / v.quantidade AS preco_unitario
        FROM vendas v
        JOIN clientes c ON v.cliente_id = c.id
        WHERE v.data >= '2024-01-01'
    """)
    print("  ‚úì Transform: Dados processados")
    
    # Load: Exportar para Parquet
    con_etl.sql("""
        COPY vendas_processadas
        TO 'vendas_processadas.parquet'
        (FORMAT parquet, COMPRESSION zstd)
    """)
    print("  ‚úì Load: Exportado para vendas_processadas.parquet")
    
    # Visualizar resultado
    print("\nüìä Resultado ETL:")
    con_etl.sql("SELECT * FROM vendas_processadas LIMIT 5").show()
    
    print(f"\n‚úì ETL conclu√≠do! Arquivo: {os.path.getsize('vendas_processadas.parquet'):,} bytes")

### 8.3 An√°lise R√°pida em Notebooks

In [None]:
# Criar dados de exemplo
sales_df = pd.DataFrame({
    'category': pd.Series(['Electronics', 'Electronics', 'Furniture', 'Books', 'Electronics', 'Furniture'], dtype="object"),
    'product': pd.Series(['Laptop', 'Mouse', 'Chair', 'Novel', 'Keyboard', 'Desk'], dtype="object"),
    'price': [1200, 25, 350, 15, 75, 600],
    'quantity': [5, 50, 20, 100, 30, 10],
    'revenue': [6000, 1250, 7000, 1500, 2250, 6000]
})

print("Dataset de vendas:")
print(sales_df)

# An√°lise r√°pida com DuckDB usando conex√£o
print("\nüìä An√°lise por Categoria:")
con.execute("""
    SELECT
        category,
        COUNT(*) as count,
        ROUND(AVG(price), 2) as avg_price,
        SUM(revenue) as total_revenue
    FROM sales_df
    GROUP BY category
    ORDER BY total_revenue DESC
""").fetchdf().head()

print("\n‚úì An√°lise instant√¢nea!")

### 8.4 Combinar Dados em Mem√≥ria e Disco

In [None]:
# Dados em mem√≥ria (Pandas)
clientes_memoria = pd.DataFrame({
    'id': [1, 2, 3],
    'nome': pd.Series(['Alice Silva', 'Bob Santos', 'Charlie Oliveira'], dtype="object")
})

print("Clientes em mem√≥ria:")
print(clientes_memoria)

# Combinar com arquivo no disco usando conex√£o
print("\nüîó Combinando dados (mem√≥ria + disco):")
resultado = con.execute("""
    SELECT
        v.venda_id,
        c.nome,
        v.valor_total,
        v.data
    FROM 'vendas.csv' v
    JOIN clientes_memoria c ON v.cliente_id = c.id
    WHERE v.valor_total > 150
    ORDER BY v.data DESC
    LIMIT 5
""").fetchdf()

print(resultado)
print("\n‚úì JOIN entre mem√≥ria e disco!")

## 9. Boas Pr√°ticas

### 9.1 Reutilizar Conex√µes

In [None]:
import time

# ‚úÖ BOM: Reutilizar conex√£o
start = time.time()
con = duckdb.connect()
for i in range(100):
    con.sql(f"SELECT {i}").fetchall()
con.close()
time_good = time.time() - start

print(f"‚úÖ Reutilizando conex√£o: {time_good*1000:.2f}ms")

# ‚ùå RUIM: Criar nova conex√£o toda vez
start = time.time()
for i in range(100):
    con = duckdb.connect()
    con.sql(f"SELECT {i}").fetchall()
    con.close()
time_bad = time.time() - start

print(f"‚ùå Criando nova conex√£o: {time_bad*1000:.2f}ms")
print(f"\nüí° Reutilizar √© {time_bad/time_good:.1f}x mais r√°pido!")

### 9.2 Usar Parquet ao Inv√©s de CSV

In [None]:
# Criar dataset teste
with duckdb.connect() as con:
    con.sql("""
        COPY (
            SELECT 
                i AS id,
                'User_' || i AS nome,
                20 + (i % 50) AS idade
            FROM range(1, 10001) t(i)
        ) TO 'benchmark.csv'
    """)
    
    con.sql("""
        COPY (
            SELECT * FROM 'benchmark.csv'
        ) TO 'benchmark.parquet'
    """)

csv_size = os.path.getsize('benchmark.csv')
parquet_size = os.path.getsize('benchmark.parquet')

print("Tamanhos:")
print(f"CSV:     {csv_size:>10,} bytes")
print(f"Parquet: {parquet_size:>10,} bytes ({parquet_size/csv_size*100:.1f}%)")

# Benchmark leitura
print("\n‚ö° Benchmark Leitura:")

# CSV
start = time.time()
duckdb.sql("SELECT COUNT(*) FROM 'benchmark.csv'").fetchall()
time_csv = time.time() - start
print(f"CSV:     {time_csv*1000:>8.2f}ms")

# Parquet
start = time.time()
duckdb.sql("SELECT COUNT(*) FROM 'benchmark.parquet'").fetchall()
time_parquet = time.time() - start
print(f"Parquet: {time_parquet*1000:>8.2f}ms")

print(f"\nüí° Parquet √© {time_csv/time_parquet:.1f}x mais r√°pido!")

### 9.3 Context Managers e Limpeza

In [None]:
# ‚úÖ BOM: Usar 'with' para garantir fechamento
def processar_dados_correto():
    with duckdb.connect('temp.db') as con:
        con.sql("CREATE TABLE test (id INTEGER)")
        con.sql("INSERT INTO test VALUES (1), (2), (3)")
        result = con.table('test').fetchall()
    # Conex√£o fechada automaticamente
    return result

result = processar_dados_correto()
print("‚úÖ Context manager:")
print(result)

# ‚ùå RUIM: Esquecer de fechar pode causar problemas
def processar_dados_errado():
    con = duckdb.connect('temp2.db')
    con.sql("CREATE TABLE test (id INTEGER)")
    result = con.table('test').fetchall()
    # Sem con.close() - pode causar problemas!
    return result

print("\n‚ùå Sem fechar: Pode causar problemas")
print("üí° Sempre use 'with' ou feche explicitamente!")

## 10. Recursos Avan√ßados

### 10.1 Prepared Statements

In [None]:
con_prep = duckdb.connect()

# DuckDB 1.4.3 n√£o tem prepare(), usar execute com par√¢metros
print("Queries parametrizadas:")

# Exemplo 1
result1 = con_prep.execute("SELECT ? * ? AS resultado", [2, 3]).fetchall()
print(f"2 * 3 = {result1[0][0]}")

# Exemplo 2
result2 = con_prep.execute("SELECT ? * ? AS resultado", [5, 7]).fetchall()
print(f"5 * 7 = {result2[0][0]}")

# Exemplo 3
result3 = con_prep.execute("SELECT ? * ? AS resultado", [10, 10]).fetchall()
print(f"10 * 10 = {result3[0][0]}")

con_prep.close()
print("\n‚úì Queries parametrizadas executadas!")

### 10.2 Limitar Mem√≥ria

In [None]:
# Processar com limite de mem√≥ria
with duckdb.connect() as con:
    # Configurar mem√≥ria m√°xima
    con.execute("SET memory_limit='500MB'")
    
    print("‚úì Mem√≥ria limitada a 500MB")
    
    # Query que respeita o limite
    result = con.sql("""
        SELECT
            (i % 12) + 1 AS mes,
            COUNT(*) as eventos,
            AVG(i) as media
        FROM range(1, 100001) t(i)
        GROUP BY mes
        ORDER BY mes
    """).df()
    
    print("\nResultado:")
    print(result.head())
    print("\nüí° DuckDB gerencia mem√≥ria automaticamente!")

## üéØ Resumo do Cap√≠tulo

Neste cap√≠tulo exploramos:

### ‚úÖ Funcionalidades:
1. **Queries SQL**: B√°sicas e encadeadas
2. **Leitura**: CSV, Parquet, JSON
3. **Integra√ß√£o**: Pandas, Polars, PyArrow
4. **Convers√µes**: tuplas, DataFrame, Arrow, NumPy
5. **Exporta√ß√£o**: Parquet, CSV, JSON
6. **Conex√µes**: Mem√≥ria, arquivo, context manager
7. **ETL**: Pipeline completo
8. **Performance**: Reutilizar conex√µes, usar Parquet

### üîë Pontos-Chave:
- DuckDB consulta **DataFrames diretamente**
- Relations podem ser **reutilizadas**
- **Context manager** (`with`) √© recomendado
- **Parquet** √© mais r√°pido que CSV
- Reutilizar conex√µes **melhora performance**
- Suporta **Pandas, Polars e Arrow**

### üí° Boas Pr√°ticas:
1. Use `with` para conex√µes
2. Reutilize conex√µes
3. Prefira Parquet a CSV
4. Limite mem√≥ria quando necess√°rio
5. Use prepared statements para queries repetidas

### üìö Pr√≥ximo Cap√≠tulo:
Tipos de dados no DuckDB!

## üßπ Limpeza (Opcional)

In [None]:
# Remover arquivos criados
arquivos = [
    'example.csv', 'example.parquet', 'example.json',
    'output1.parquet', 'output.csv', 'output.json',
    'test.db', 'test2.db', 'temp.db', 'temp2.db',
    'vendas.csv', 'clientes.parquet', 'vendas_processadas.parquet',
    'benchmark.csv', 'benchmark.parquet', 'temp_python_data.json'
]

for arquivo in arquivos:
    if os.path.exists(arquivo):
        os.remove(arquivo)
        print(f"‚úì Removido: {arquivo}")

print("\n‚úì Limpeza conclu√≠da!")