# Cap√≠tulo 02 - Instala√ß√£o e Configura√ß√£o do DuckDB

Este notebook explora as diferentes formas de instalar, configurar e usar o DuckDB em Python. Vamos aprender sobre conex√µes, configura√ß√µes avan√ßadas, extens√µes e boas pr√°ticas.

## üìö T√≥picos Abordados:
1. Instala√ß√£o do DuckDB
2. Queries Simples Diretas
3. Conex√£o em Mem√≥ria (Padr√£o)
4. Conex√£o com Arquivo Persistente
5. Context Manager (with statement)
6. Configura√ß√µes B√°sicas
7. Configura√ß√µes Avan√ßadas
8. Boas Pr√°ticas em Ambientes Multi-Thread
9. Queries Encadeadas
10. Instala√ß√£o e Uso de Extens√µes
11. Permitir Extens√µes N√£o Assinadas

## 1. Instala√ß√£o do DuckDB

O DuckDB pode ser instalado via pip. √â r√°pido e leve!

In [None]:
# Instalar DuckDB
%pip install duckdb -q
print("‚úì DuckDB instalado com sucesso!")

## 2. Queries Simples Diretas

O DuckDB permite executar queries SQL diretas sem criar uma conex√£o expl√≠cita.

### 2.1 Query Simples com duckdb.sql()

In [None]:
import duckdb

# Query simples para testar - retorna 42
resultado = duckdb.sql("SELECT 42 AS resposta")
resultado.show()

print("\n‚úì Query executada com sucesso!")

### 2.2 Mais Exemplos de Queries Diretas

In [None]:
# Query com c√°lculos
print("Query com c√°lculos:")
duckdb.sql("SELECT 10 * 5 AS multiplicacao, 100 / 4 AS divisao").show()

# Query com strings
print("\nQuery com strings:")
duckdb.sql("SELECT 'Hello, DuckDB!' AS mensagem").show()

# Query com data/hora
print("\nQuery com data/hora:")
duckdb.sql("SELECT current_timestamp AS agora").show()

## 3. Conex√£o em Mem√≥ria (Padr√£o)

A forma mais comum de usar DuckDB √© com uma conex√£o em mem√≥ria.

### Vantagens:
- ‚ö° Extremamente r√°pida
- üîí Isolada (n√£o interfere com outros processos)
- üßπ Limpa automaticamente ao fechar

### Desvantagens:
- üìâ Dados perdidos ao fechar a conex√£o
- üíæ Limitada pela mem√≥ria RAM dispon√≠vel

In [None]:
import duckdb

# Conex√£o padr√£o (em mem√≥ria) - equivalente a duckdb.connect(':memory:')
con = duckdb.connect()

# Executar query
resultado = con.sql("SELECT 42 AS x, 'Em Mem√≥ria' AS tipo")
resultado.show()

print("\n‚úì Conex√£o em mem√≥ria criada!")
print(f"Tipo de conex√£o: {type(con)}")

### 3.1 Criar Tabela em Mem√≥ria

In [None]:
# Criar tabela tempor√°ria
con.sql("CREATE TABLE usuarios (id INTEGER, nome VARCHAR)")
con.sql("INSERT INTO usuarios VALUES (1, 'Alice'), (2, 'Bob'), (3, 'Charlie')")

# Consultar
print("Tabela 'usuarios' em mem√≥ria:")
con.table("usuarios").show()

print("\n‚úì Tabela criada e populada!")

## 4. Conex√£o com Arquivo Persistente

Para dados persistentes, use uma conex√£o com arquivo.

### Vantagens:
- üíæ Dados persistem entre execu√ß√µes
- üì¶ F√°cil de compartilhar (arquivo √∫nico)
- üîÑ Pode ser versionado

### Quando Usar:
- Dados que precisam ser salvos
- An√°lises que levam tempo
- Compartilhamento de datasets

In [None]:
import duckdb
import os

# Criar ou conectar a um arquivo de banco de dados
con_file = duckdb.connect("file.db")

# Dropar tabela se existir (para evitar conflitos)
con_file.sql("DROP TABLE IF EXISTS test")

# Criar tabela (se n√£o existir)
con_file.sql("CREATE TABLE IF NOT EXISTS test (i INTEGER, descricao VARCHAR)")

# Inserir dados
con_file.sql("INSERT INTO test VALUES (42, 'Primeiro registro'), (100, 'Segundo registro')")

# Consultar
print("Dados na tabela 'test':")
con_file.table("test").show()

# Fechar conex√£o
con_file.close()

print("\n‚úì Dados salvos em 'file.db'")
print(f"Arquivo existe: {os.path.exists('file.db')}")

### 4.1 Reconectar e Verificar Persist√™ncia

In [None]:
# Reconectar ao mesmo arquivo
con_file2 = duckdb.connect("file.db")

print("Dados ainda est√£o l√° ap√≥s reconex√£o:")
con_file2.table("test").show()

# Limpar para pr√≥ximos testes
con_file2.sql("DROP TABLE test")
con_file2.close()

print("\n‚úì Persist√™ncia verificada!")

## 5. Context Manager (with statement)

A forma mais segura e pyth√¥nica de trabalhar com conex√µes.

### Vantagens:
- üîí Fecha automaticamente
- üõ°Ô∏è Garante cleanup mesmo com erros
- üìù C√≥digo mais limpo e leg√≠vel

In [None]:
import duckdb

# Usar context manager
with duckdb.connect("file.db") as con:
    # Criar e popular tabela
    con.sql("CREATE TABLE IF NOT EXISTS produtos (id INTEGER, nome VARCHAR, preco DECIMAL)")
    con.sql("""
        INSERT INTO produtos VALUES 
        (1, 'Notebook', 3500.00),
        (2, 'Mouse', 50.00),
        (3, 'Teclado', 150.00)
    """)
    
    # Consultar
    print("Produtos cadastrados:")
    con.table("produtos").show()
    
# Conex√£o √© fechada automaticamente aqui!
print("\n‚úì Conex√£o fechada automaticamente!")

### 5.1 Context Manager com Tratamento de Erros

In [None]:
try:
    with duckdb.connect("file.db") as con:
        # Query que funciona
        con.sql("SELECT * FROM produtos WHERE preco < 200").show()
        print("\n‚úì Query executada com sucesso!")
except Exception as e:
    print(f"‚ùå Erro: {e}")
finally:
    print("\n‚úì Conex√£o sempre fechada, mesmo com erro!")

## 6. Configura√ß√µes B√°sicas

DuckDB permite configurar v√°rios aspectos do comportamento.

### 6.1 Limitar Threads

In [None]:
import duckdb

# Limitar a 1 thread (√∫til para debugging)
con_single = duckdb.connect(config={'threads': 1})

# Verificar configura√ß√£o
threads_config = con_single.sql("SELECT current_setting('threads') AS threads").fetchall()
print(f"N√∫mero de threads configurado: {threads_config[0][0]}")

con_single.close()
print("\n‚úì Conex√£o com 1 thread criada!")

### 6.2 Verificar Threads Padr√£o

In [None]:
# Conex√£o padr√£o usa todas as CPUs dispon√≠veis
con_default = duckdb.connect()

threads_default = con_default.sql("SELECT current_setting('threads') AS threads").fetchall()
print(f"Threads padr√£o (baseado nas CPUs): {threads_default[0][0]}")

con_default.close()

## 7. Configura√ß√µes Avan√ßadas

M√∫ltiplas configura√ß√µes podem ser definidas ao criar a conex√£o.

### Configura√ß√µes Comuns:
- `threads`: N√∫mero de threads para processamento paralelo
- `max_memory`: Limite de mem√≥ria (ex: '4GB', '512MB')
- `default_order`: Ordem padr√£o (ASC ou DESC)
- `temp_directory`: Diret√≥rio para arquivos tempor√°rios

In [None]:
import duckdb

# M√∫ltiplas configura√ß√µes
con_advanced = duckdb.connect(config={
    'threads': 4,              # Usar 4 threads
    'max_memory': '4GB',       # Limitar a 4GB de RAM
    'default_order': 'DESC'    # Ordem decrescente por padr√£o
})

# Verificar configura√ß√µes
print("Configura√ß√µes aplicadas:")
print(f"Threads: {con_advanced.sql('SELECT current_setting(\'threads\')').fetchall()[0][0]}")
print(f"Max Memory: {con_advanced.sql('SELECT current_setting(\'max_memory\')').fetchall()[0][0]}")
print(f"Default Order: {con_advanced.sql('SELECT current_setting(\'default_order\')').fetchall()[0][0]}")

con_advanced.close()
print("\n‚úì Configura√ß√µes avan√ßadas aplicadas!")

### 7.1 Testar Ordem Padr√£o

In [None]:
# Criar conex√£o com ordem DESC padr√£o
con_desc = duckdb.connect(config={'default_order': 'DESC'})

# Criar tabela de teste
con_desc.sql("CREATE TABLE numeros (valor INTEGER)")
con_desc.sql("INSERT INTO numeros VALUES (1), (5), (3), (9), (2)")

# ORDER BY sem especificar ASC/DESC usa o padr√£o
print("Ordena√ß√£o padr√£o (DESC configurado):")
con_desc.sql("SELECT * FROM numeros ORDER BY valor").show()

con_desc.close()

## 8. Boas Pr√°ticas em Ambientes Multi-Thread

**‚ö†Ô∏è IMPORTANTE**: Cada thread deve ter sua pr√≥pria conex√£o!

### ‚úÖ BOM: Cada thread com sua conex√£o

In [None]:
import duckdb
import threading

# ‚úÖ CORRETO: Cada thread cria sua pr√≥pria conex√£o
def boa_pratica(thread_id):
    con = duckdb.connect()  # Nova conex√£o para esta thread
    resultado = con.sql(f"SELECT {thread_id} AS thread_id, 42 * {thread_id} AS calculo").fetchall()
    print(f"Thread {thread_id}: {resultado}")
    con.close()

# Criar e executar 3 threads
print("‚úÖ Boa pr√°tica - cada thread com sua conex√£o:")
threads = []
for i in range(1, 4):
    t = threading.Thread(target=boa_pratica, args=(i,))
    threads.append(t)
    t.start()

# Aguardar todas as threads
for t in threads:
    t.join()

print("\n‚úì Todas as threads completaram com sucesso!")

### ‚ùå EVITAR: Compartilhar conex√£o entre threads

**N√£o fa√ßa isso em produ√ß√£o!** Demonstra√ß√£o apenas educacional.

## 9. Queries Encadeadas

DuckDB permite referenciar resultados de queries anteriores.

### 9.1 Exemplo B√°sico

In [None]:
import duckdb

# Primeira query armazena resultado em r1
r1 = duckdb.sql("SELECT 42 AS i, 'DuckDB' AS nome")

# Segunda query referencia r1
print("Resultado original (r1):")
r1.show()

print("\nQuery encadeada usando r1:")
duckdb.sql("SELECT i * 2 AS dobro, nome || ' √© √≥timo!' AS mensagem FROM r1").show()

print("\n‚úì Queries encadeadas executadas!")

### 9.2 M√∫ltiplas Queries Encadeadas

In [None]:
# Query 1: Criar dataset
vendas = duckdb.sql("""
    SELECT * FROM (
        VALUES 
        ('Janeiro', 1000),
        ('Fevereiro', 1500),
        ('Mar√ßo', 1200),
        ('Abril', 1800)
    ) AS t(mes, valor)
""")

print("Vendas originais:")
vendas.show()

# Query 2: Adicionar meta
com_meta = duckdb.sql("SELECT mes, valor, valor * 1.1 AS meta FROM vendas")

print("\nVendas com meta (+10%):")
com_meta.show()

# Query 3: Calcular status
print("\nVendas vs Meta:")
duckdb.sql("""
    SELECT 
        mes,
        valor,
        meta,
        CASE 
            WHEN valor >= meta THEN '‚úì Atingiu'
            ELSE '‚úó N√£o atingiu'
        END AS status
    FROM com_meta
""").show()

print("\n‚úì Pipeline de queries encadeadas completo!")

## 10. Instala√ß√£o e Uso de Extens√µes

DuckDB suporta extens√µes para funcionalidades adicionais.

### Reposit√≥rios Dispon√≠veis:
- **core**: Extens√µes oficiais do DuckDB
- **community**: Extens√µes da comunidade

### 10.1 Listar Extens√µes Dispon√≠veis

In [None]:
import duckdb

con = duckdb.connect()

# Listar extens√µes dispon√≠veis
print("Extens√µes Dispon√≠veis (primeiras 10):")
con.sql("""
    SELECT extension_name, installed, loaded, description
    FROM duckdb_extensions()
    LIMIT 10
""").show()

con.close()

### 10.2 Instalar Extens√£o da Comunidade

Exemplo com extens√£o H3 (geoespacial)

In [None]:
import duckdb

con = duckdb.connect()

try:
    # Instalar extens√£o H3 do reposit√≥rio community
    print("Instalando extens√£o H3...")
    con.install_extension("h3", repository="community")
    
    # Carregar extens√£o
    print("Carregando extens√£o H3...")
    con.load_extension("h3")
    
    print("\n‚úì Extens√£o H3 instalada e carregada!")
    
    # Testar extens√£o (se instalou com sucesso)
    print("\nTestando fun√ß√£o H3:")
    con.sql("SELECT h3_cell_to_lat_lng('85283473fffffff') AS coordenadas").show()
    
except Exception as e:
    print(f"Nota: {e}")
    print("(Extens√µes podem requerer permiss√µes adicionais ou configura√ß√£o)")

con.close()

### 10.3 Extens√µes Core Comuns

In [None]:
con = duckdb.connect()

# Exemplos de extens√µes core √∫teis
extensoes_uteis = [
    ('httpfs', 'Ler arquivos via HTTP/HTTPS/S3'),
    ('json', 'Trabalhar com JSON'),
    ('parquet', 'Ler/escrever Parquet'),
    ('postgres_scanner', 'Consultar PostgreSQL'),
    ('sqlite_scanner', 'Consultar SQLite'),
    ('excel', 'Ler arquivos Excel')
]

print("Extens√µes Core √öteis:")
print("=" * 60)
for nome, desc in extensoes_uteis:
    print(f"  {nome:20} - {desc}")

con.close()
print("\n‚úì Use install_extension('nome') para instalar!")

## 11. Permitir Extens√µes N√£o Assinadas

‚ö†Ô∏è **ATEN√á√ÉO**: Use apenas em ambientes de desenvolvimento!

Para extens√µes n√£o assinadas ou de terceiros.

In [None]:
import duckdb

# Permitir extens√µes n√£o assinadas
con_unsigned = duckdb.connect(config={"allow_unsigned_extensions": "true"})

print("‚ö†Ô∏è  Extens√µes n√£o assinadas permitidas!")
print("")
print("Importante:")
print("  ‚úì Use apenas em desenvolvimento")
print("  ‚úó N√ÉO use em produ√ß√£o")
print("  ‚úì Verifique a origem das extens√µes")
print("  ‚úó Cuidado com seguran√ßa")

# Verificar configura√ß√£o
config = con_unsigned.sql("SELECT current_setting('allow_unsigned_extensions') AS config").fetchall()
print(f"\nConfigura√ß√µes: allow_unsigned_extensions = {config[0][0]}")

con_unsigned.close()

## üéØ Resumo do Cap√≠tulo

Neste cap√≠tulo, exploramos:

1. ‚úÖ **Instala√ß√£o** simples via pip
2. ‚úÖ **Queries diretas** com `duckdb.sql()`
3. ‚úÖ **Conex√µes em mem√≥ria** (r√°pidas e tempor√°rias)
4. ‚úÖ **Conex√µes persistentes** com arquivos
5. ‚úÖ **Context managers** (boas pr√°ticas)
6. ‚úÖ **Configura√ß√µes b√°sicas** (threads, mem√≥ria)
7. ‚úÖ **Configura√ß√µes avan√ßadas** (m√∫ltiplas op√ß√µes)
8. ‚úÖ **Multi-threading** (uma conex√£o por thread)
9. ‚úÖ **Queries encadeadas** (reuso de resultados)
10. ‚úÖ **Extens√µes** (funcionalidades extras)
11. ‚úÖ **Seguran√ßa** (extens√µes n√£o assinadas)

### üîë Pontos-Chave:
- DuckDB √© **leve e r√°pido**
- Suporta **mem√≥ria e arquivo**
- **Altamente configur√°vel**
- **Rico ecossistema** de extens√µes
- **Thread-safe** com uso correto

### üìö Pr√≥ximo Cap√≠tulo:
Importa√ß√£o e Exporta√ß√£o de CSV!

## üßπ Limpeza (Opcional)

In [None]:
import os

# Remover arquivo de teste
if os.path.exists("file.db"):
    os.remove("file.db")
    print("‚úì Arquivo 'file.db' removido")
else:
    print("Arquivo 'file.db' n√£o encontrado")