# CapÃ­tulo 01: IntroduÃ§Ã£o ao DuckDB

DuckDB Ã© um banco de dados SQL analÃ­tico otimizado para anÃ¡lise OLAP, funcionando in-process sem necessidade de servidor externo. Ideal para ciÃªncia de dados, pipelines ETL e anÃ¡lise de grandes volumes de dados.

## ðŸ“¦ InstalaÃ§Ã£o e ConfiguraÃ§Ã£o Inicial

InstalaÃ§Ã£o das dependÃªncias necessÃ¡rias para trabalhar com DuckDB e extensÃ£o Delta.

In [None]:
# InstalaÃ§Ã£o de dependÃªncias
%pip install duckdb deltalake pandas pyarrow -q

## ðŸ”§ Setup DuckDB com FunÃ§Ãµes UtilitÃ¡rias

CriaÃ§Ã£o de funÃ§Ãµes helper para instalaÃ§Ã£o segura de extensÃµes.

In [None]:
import duckdb
import importlib.util

def has_module(name):
    """Verifica se mÃ³dulo Python estÃ¡ instalado"""
    return importlib.util.find_spec(name) is not None

def safe_install_ext(con, ext_name):
    """Instala e carrega extensÃ£o DuckDB de forma segura"""
    try:
        con.execute(f"INSTALL {ext_name}")
        con.execute(f"LOAD {ext_name}")
        print(f"âœ“ ExtensÃ£o '{ext_name}' carregada com sucesso")
        return True
    except Exception as e:
        print(f"âš  Falha ao carregar '{ext_name}': {e}")
        return False

# Criar conexÃ£o em memÃ³ria
con = duckdb.connect(database=':memory:')
print(f"DuckDB versÃ£o: {duckdb.__version__}")

## ðŸ“Š Exemplo 1: AnÃ¡lise de CSV

Leitura e anÃ¡lise de arquivo CSV com agregaÃ§Ãµes bÃ¡sicas.

In [None]:
# Analisar arquivo CSV com agregaÃ§Ãµes
result = con.execute("""
    SELECT
        region,
        AVG(sales) as avg_sales,
        COUNT(*) as total_orders
    FROM read_csv('sales_data.csv')
    GROUP BY region
    ORDER BY avg_sales DESC
""").fetchall()

print("Vendas por RegiÃ£o:")
for row in result:
    print(f"  {row[0]}: mÃ©dia ${row[1]:.2f}, {row[2]} pedidos")

## ðŸ“¤ Exemplo 2: TransformaÃ§Ã£o e ExportaÃ§Ã£o

Filtrar dados JSON e exportar para formato Parquet.

In [None]:
# Transformar JSON para Parquet com filtro
con.execute("""
    COPY (
        SELECT * 
        FROM read_json('input.json')
        WHERE date >= '2024-01-01'
    ) TO 'output.parquet' (FORMAT PARQUET)
""")

print("âœ“ Dados transformados e exportados para output.parquet")

## ðŸ”„ Exemplo 3: Trabalhando com Delta Lake

AnÃ¡lise avanÃ§ada de tabelas Delta com agregaÃ§Ãµes e exportaÃ§Ã£o.

In [None]:
# AnÃ¡lise complexa em tabela Delta
result = con.execute("""
    -- 1. Criar view sobre dados Delta
    CREATE OR REPLACE VIEW sales AS
    SELECT * FROM delta_scan('./delta_tables/sales');

    -- 2. AnÃ¡lise agregada por mÃªs e categoria
    SELECT
        DATE_TRUNC('month', order_date) as month,
        product_category,
        SUM(revenue) as total_revenue,
        AVG(revenue) as avg_revenue,
        COUNT(DISTINCT customer_id) as unique_customers
    FROM sales
    WHERE order_date >= '2024-01-01'
    GROUP BY 1, 2
    HAVING SUM(revenue) > 10000
    ORDER BY 1 DESC, 3 DESC
""").fetchall()

print("ðŸ“Š Vendas por MÃªs e Categoria:")
for row in result:
    print(f"  {row[0]} - {row[1]}: ${row[2]:,.2f} ({row[4]} clientes)")

In [None]:
# Exportar resultados para formato Parquet com compressÃ£o
con.execute("""
    COPY (
        SELECT * FROM sales 
        WHERE region = 'North America'
    ) TO 'na_sales.parquet' (FORMAT PARQUET, COMPRESSION ZSTD)
""")

print("âœ“ Dados exportados com compressÃ£o ZSTD")

# Capitulo 01 Introducao Ao Duckdb

Notebook gerado automaticamente a partir do cÃ³digo fonte python.
