# Cap√≠tulo 04 - Trabalhando com Parquet

Este notebook explora o formato Parquet, um formato colunar otimizado para grandes volumes de dados, amplamente usado em an√°lise de dados e data lakes.

## üìö T√≥picos Abordados:
1. Introdu√ß√£o ao Formato Parquet
2. Instala√ß√£o e Prepara√ß√£o
3. Leitura de Arquivos Parquet
4. Exporta√ß√£o para Parquet
5. Compress√£o em Parquet
6. Particionamento de Dados
7. Schema e Metadados
8. Performance: Parquet vs CSV
9. Parquet com M√∫ltiplos Arquivos
10. Convers√£o CSV ‚Üí Parquet
11. Boas Pr√°ticas e Otimiza√ß√µes

## 1. Introdu√ß√£o ao Formato Parquet

### O que √© Parquet?
- **Formato colunar**: Armazena dados por coluna, n√£o por linha
- **Compress√£o eficiente**: Economiza espa√ßo e aumenta velocidade
- **Otimizado para leitura**: Perfeito para an√°lise de dados
- **Compat√≠vel**: Usado por Spark, Pandas, DuckDB, etc.

### Vantagens sobre CSV:
- ‚úÖ **Menor tamanho** (compress√£o autom√°tica)
- ‚úÖ **Leitura mais r√°pida** (formato colunar)
- ‚úÖ **Preserva tipos de dados** (sem convers√µes)
- ‚úÖ **Metadados inclu√≠dos** (schema embutido)
- ‚úÖ **Suporta dados complexos** (nested structures)

## 2. Instala√ß√£o e Prepara√ß√£o

In [None]:
# Instalar depend√™ncias
%pip install duckdb pandas pyarrow -q
print("‚úì Pacotes instalados!")

In [None]:
import duckdb
import pandas as pd
import os

print(f"DuckDB vers√£o: {duckdb.__version__}")
print(f"Pandas vers√£o: {pd.__version__}")
print("\n‚úì Imports realizados!")

## 3. Leitura de Arquivos Parquet

### 3.1 Criar Dados de Teste e Exportar como Parquet

In [None]:
# Criar conex√£o
con = duckdb.connect()

# Criar dados de exemplo e salvar como Parquet
con.sql("""
    COPY (
        SELECT 
            i AS id,
            'Usuario_' || i AS nome,
            20 + (i % 50) AS idade,
            CASE (i % 5)
                WHEN 0 THEN 'S√£o Paulo'
                WHEN 1 THEN 'Rio de Janeiro'
                WHEN 2 THEN 'Belo Horizonte'
                WHEN 3 THEN 'Bras√≠lia'
                ELSE 'Curitiba'
            END AS cidade,
            (i % 10 + 1) * 1000.0 AS salario,
            (i % 2 = 0) AS ativo
        FROM range(1, 1001) t(i)
    ) TO 'example.parquet'
""")

print("‚úì Arquivo 'example.parquet' criado!")
print(f"Tamanho: {os.path.getsize('example.parquet'):,} bytes")

### 3.2 Ler com `read_parquet()`

In [None]:
# Ler Parquet como Relation
rel = duckdb.read_parquet("example.parquet")

print("Tipo do objeto:", type(rel))
print("\nPrimeiras 5 linhas:")
rel.limit(5).show()

print("\n‚úì Parquet lido com sucesso!")

### 3.3 Query SQL Direta

In [None]:
# Query direta no arquivo Parquet
print("Consulta SQL direta:")
result = duckdb.sql("SELECT * FROM 'example.parquet' LIMIT 10")
result.show()

print("\n‚úì Query executada!")

### 3.4 Filtros e Agrega√ß√µes

In [None]:
# Filtros
print("Pessoas com sal√°rio > 7000:")
duckdb.sql("""
    SELECT nome, idade, cidade, salario
    FROM 'example.parquet'
    WHERE salario > 7000
    ORDER BY salario DESC
    LIMIT 10
""").show()

# Agrega√ß√µes por cidade
print("\nEstat√≠sticas por cidade:")
duckdb.sql("""
    SELECT 
        cidade,
        COUNT(*) AS total,
        AVG(idade) AS idade_media,
        AVG(salario) AS salario_medio,
        SUM(CASE WHEN ativo THEN 1 ELSE 0 END) AS ativos
    FROM 'example.parquet'
    GROUP BY cidade
    ORDER BY total DESC
""").show()

### 3.5 Converter para DataFrame

In [None]:
# Converter para Pandas
df = duckdb.read_parquet("example.parquet").df()

print("DataFrame criado:")
print(df.head())
print(f"\nShape: {df.shape}")
print(f"Colunas: {df.columns.tolist()}")
print(f"\nTipos de dados:")
print(df.dtypes)

## 4. Exporta√ß√£o para Parquet

### 4.1 Exporta√ß√£o B√°sica

In [None]:
# Criar tabela tempor√°ria
con.sql("""
    CREATE OR REPLACE TABLE usuarios AS
    SELECT * FROM 'example.parquet' WHERE idade >= 30
""")

# Exportar usando write_parquet()
result = con.sql("SELECT * FROM usuarios")
result.write_parquet("usuarios_30plus.parquet")

print("‚úì Arquivo 'usuarios_30plus.parquet' criado!")
print(f"Tamanho: {os.path.getsize('usuarios_30plus.parquet'):,} bytes")

# Verificar conte√∫do
print("\nPrimeiras linhas do arquivo exportado:")
duckdb.sql("SELECT * FROM 'usuarios_30plus.parquet' LIMIT 5").show()

### 4.2 Exporta√ß√£o com COPY TO

In [None]:
# Usar COPY TO (mais controle)
con.sql("""
    COPY (
        SELECT cidade, COUNT(*) AS total, AVG(salario) AS salario_medio
        FROM usuarios
        GROUP BY cidade
    ) TO 'resumo_cidades.parquet' (FORMAT parquet)
""")

print("‚úì Arquivo 'resumo_cidades.parquet' criado!")

# Verificar
print("\nConte√∫do:")
duckdb.sql("SELECT * FROM 'resumo_cidades.parquet'").show()

## 5. Compress√£o em Parquet

Parquet suporta diferentes algoritmos de compress√£o.

### 5.1 Algoritmos Dispon√≠veis

In [None]:
# Testar diferentes compress√µes
compressoes = ['uncompressed', 'snappy', 'gzip', 'zstd']

print("Compara√ß√£o de compress√µes:\n")
print(f"{'Compress√£o':<15} {'Tamanho (bytes)':<20} {'Economia'}")
print("=" * 50)

for comp in compressoes:
    arquivo = f'test_{comp}.parquet'
    
    con.sql(f"""
        COPY (
            SELECT * FROM 'example.parquet'
        ) TO '{arquivo}' (FORMAT parquet, COMPRESSION {comp})
    """)
    
    tamanho = os.path.getsize(arquivo)
    
    if comp == 'uncompressed':
        tamanho_original = tamanho
        economia = "-"
    else:
        economia = f"{(1 - tamanho/tamanho_original)*100:.1f}%"
    
    print(f"{comp:<15} {tamanho:>15,}     {economia}")

print("\n‚úì Compara√ß√£o conclu√≠da!")

### 5.2 Recomenda√ß√µes de Compress√£o

- **SNAPPY**: Mais r√°pido, compress√£o moderada (padr√£o)
- **GZIP**: Compress√£o melhor, mais lento
- **ZSTD**: Melhor equil√≠brio (recomendado)
- **Uncompressed**: Apenas para testes

## 6. Particionamento de Dados

Particionar dados melhora performance em grandes volumes.

### 6.1 Criar Dados Particionados

In [None]:
# Criar diret√≥rio
os.makedirs('dados_particionados', exist_ok=True)

# Particionar por cidade
con.sql("""
    COPY (
        SELECT * FROM 'example.parquet'
    ) TO 'dados_particionados' 
    (FORMAT parquet, PARTITION_BY (cidade))
""")

print("‚úì Dados particionados criados!\n")

# Listar parti√ß√µes
print("Parti√ß√µes criadas:")
for root, dirs, files in os.walk('dados_particionados'):
    for file in files:
        caminho = os.path.join(root, file)
        tamanho = os.path.getsize(caminho)
        print(f"  {caminho}: {tamanho:,} bytes")

### 6.2 Ler Dados Particionados

In [None]:
# Ler todos os arquivos particionados
print("Lendo dados particionados:")
duckdb.sql("""
    SELECT cidade, COUNT(*) AS total
    FROM 'dados_particionados/**/*.parquet'
    GROUP BY cidade
    ORDER BY cidade
""").show()

print("\n‚úì DuckDB l√™ automaticamente parti√ß√µes!")

### 6.3 Filtro de Parti√ß√£o (Partition Pruning)

In [None]:
# Consulta que usa apenas uma parti√ß√£o
print("Consulta com filtro de parti√ß√£o:")
duckdb.sql("""
    SELECT nome, idade, salario
    FROM 'dados_particionados/**/*.parquet'
    WHERE cidade = 'S√£o Paulo'
    LIMIT 5
""").show()

print("\n‚úì DuckDB l√™ apenas a parti√ß√£o necess√°ria!")

## 7. Schema e Metadados

### 7.1 Inspecionar Schema

In [None]:
# Ver schema do arquivo Parquet
print("Schema do arquivo:")
duckdb.sql("DESCRIBE SELECT * FROM 'example.parquet'").show()

# Estat√≠sticas das colunas
print("\nEstat√≠sticas:")
duckdb.sql("""
    SELECT 
        COUNT(*) AS total_linhas,
        COUNT(DISTINCT cidade) AS cidades_distintas,
        MIN(idade) AS idade_min,
        MAX(idade) AS idade_max,
        MIN(salario) AS salario_min,
        MAX(salario) AS salario_max
    FROM 'example.parquet'
""").show()

### 7.2 Metadados do Parquet

In [None]:
# Informa√ß√µes sobre o arquivo Parquet
print("Metadados do arquivo Parquet:")
duckdb.sql("""
    SELECT 
        file_name,
        row_group_id,
        row_group_num_rows,
        total_compressed_size
    FROM parquet_metadata('example.parquet')
    LIMIT 5
""").show()

print("\n‚úì Metadados lidos!")

## 8. Performance: Parquet vs CSV

### 8.1 Criar Arquivos de Teste

In [None]:
# Criar dataset grande
con.sql("""
    CREATE OR REPLACE TABLE dataset_grande AS
    SELECT 
        i AS id,
        'Nome_' || i AS nome,
        20 + (i % 60) AS idade,
        'Cidade_' || (i % 100) AS cidade,
        (i % 20 + 1) * 500.0 AS valor,
        DATE '2024-01-01' + INTERVAL (i % 365) DAY AS data,
        (i % 2 = 0) AS flag
    FROM range(1, 100001) t(i)
""")

# Exportar como CSV e Parquet
con.sql("COPY dataset_grande TO 'benchmark.csv' (HEADER)")
con.sql("COPY dataset_grande TO 'benchmark.parquet'")

# Comparar tamanhos
tamanho_csv = os.path.getsize('benchmark.csv')
tamanho_parquet = os.path.getsize('benchmark.parquet')

print("Compara√ß√£o de tamanho (100k linhas):")
print(f"CSV:     {tamanho_csv:>10,} bytes ({tamanho_csv/1024/1024:.2f} MB)")
print(f"Parquet: {tamanho_parquet:>10,} bytes ({tamanho_parquet/1024/1024:.2f} MB)")
print(f"\nEconomia: {(1 - tamanho_parquet/tamanho_csv)*100:.1f}%")

### 8.2 Benchmark de Leitura

In [None]:
import time

# Teste CSV
start = time.time()
result_csv = duckdb.sql("""
    SELECT cidade, COUNT(*), AVG(valor)
    FROM 'benchmark.csv'
    WHERE idade > 40
    GROUP BY cidade
""").fetchall()
time_csv = time.time() - start

# Teste Parquet
start = time.time()
result_parquet = duckdb.sql("""
    SELECT cidade, COUNT(*), AVG(valor)
    FROM 'benchmark.parquet'
    WHERE idade > 40
    GROUP BY cidade
""").fetchall()
time_parquet = time.time() - start

print("Benchmark: Agrega√ß√£o em 100k linhas")
print("=" * 45)
print(f"CSV:     {time_csv*1000:>8.2f}ms")
print(f"Parquet: {time_parquet*1000:>8.2f}ms")
print(f"\nParquet √© {time_csv/time_parquet:.1f}x mais r√°pido!")

### 8.3 Benchmark de Leitura Seletiva (Proje√ß√£o)

In [None]:
# Ler apenas 2 colunas (formato colunar brilha aqui!)
print("Leitura seletiva (apenas 2 de 7 colunas):\n")

# CSV - precisa ler tudo
start = time.time()
result_csv = duckdb.sql("SELECT idade, valor FROM 'benchmark.csv'").fetchall()
time_csv = time.time() - start

# Parquet - l√™ apenas as colunas necess√°rias
start = time.time()
result_parquet = duckdb.sql("SELECT idade, valor FROM 'benchmark.parquet'").fetchall()
time_parquet = time.time() - start

print(f"CSV:     {time_csv*1000:>8.2f}ms")
print(f"Parquet: {time_parquet*1000:>8.2f}ms")
print(f"\nParquet √© {time_csv/time_parquet:.1f}x mais r√°pido!")
print("\nüí° Formato colunar s√≥ l√™ as colunas necess√°rias!")

## 9. Parquet com M√∫ltiplos Arquivos

### 9.1 Criar M√∫ltiplos Arquivos

In [None]:
# Criar diret√≥rio
os.makedirs('vendas_parquet', exist_ok=True)

# Criar arquivos para diferentes meses
meses = ['jan', 'fev', 'mar', 'abr']
for i, mes in enumerate(meses, 1):
    con.sql(f"""
        COPY (
            SELECT 
                j AS id,
                '{mes}' AS mes,
                'Produto_' || (j % 20) AS produto,
                (j % 100 + 10) * 5.0 AS valor
            FROM range({(i-1)*50 + 1}, {i*50 + 1}) t(j)
        ) TO 'vendas_parquet/vendas_{mes}.parquet'
    """)

print("‚úì Arquivos Parquet criados:")
for arquivo in os.listdir('vendas_parquet'):
    tamanho = os.path.getsize(f'vendas_parquet/{arquivo}')
    print(f"  - {arquivo}: {tamanho:,} bytes")

### 9.2 Ler Todos os Arquivos

In [None]:
# Glob pattern para ler m√∫ltiplos Parquet
print("Agrega√ß√£o em m√∫ltiplos arquivos:")
duckdb.sql("""
    SELECT 
        mes,
        COUNT(*) AS total_vendas,
        SUM(valor) AS valor_total,
        AVG(valor) AS valor_medio,
        MIN(valor) AS valor_min,
        MAX(valor) AS valor_max
    FROM 'vendas_parquet/*.parquet'
    GROUP BY mes
    ORDER BY mes
""").show()

print("\n‚úì Todos os arquivos processados em uma query!")

## 10. Convers√£o CSV ‚Üí Parquet

### 10.1 Convers√£o Simples

In [None]:
# Criar CSV de exemplo
csv_data = """id,produto,preco,quantidade
1,Notebook,3500.00,5
2,Mouse,50.00,100
3,Teclado,150.00,50
4,Monitor,800.00,20
5,Webcam,200.00,30
"""

with open('produtos.csv', 'w') as f:
    f.write(csv_data)

# Converter para Parquet
duckdb.sql("""
    COPY (
        SELECT * FROM 'produtos.csv'
    ) TO 'produtos.parquet'
""")

# Comparar tamanhos
csv_size = os.path.getsize('produtos.csv')
parquet_size = os.path.getsize('produtos.parquet')

print("Convers√£o CSV ‚Üí Parquet:")
print(f"CSV:     {csv_size:,} bytes")
print(f"Parquet: {parquet_size:,} bytes")
print(f"Economia: {(1 - parquet_size/csv_size)*100:.1f}%")

# Verificar dados
print("\nDados convertidos:")
duckdb.sql("SELECT * FROM 'produtos.parquet'").show()

### 10.2 Convers√£o em Lote

In [None]:
# Criar m√∫ltiplos CSVs
os.makedirs('csv_origem', exist_ok=True)
os.makedirs('parquet_destino', exist_ok=True)

for i in range(1, 4):
    con.sql(f"""
        COPY (
            SELECT 
                j AS id,
                'Item_' || j AS nome,
                (j * 10.5) AS valor
            FROM range({(i-1)*20 + 1}, {i*20 + 1}) t(j)
        ) TO 'csv_origem/dados_{i}.csv' (HEADER)
    """)

print("‚úì CSVs criados:")
for arquivo in os.listdir('csv_origem'):
    print(f"  - {arquivo}")

# Converter todos para Parquet (sem particionamento complexo)
print("\nConvertendo...")
duckdb.sql("""
    COPY (
        SELECT * FROM 'csv_origem/*.csv'
    ) TO 'parquet_destino/dados_convertidos.parquet' (FORMAT parquet)
""")

print("\n‚úì Convers√£o conclu√≠da!")
print("\nArquivos Parquet criados:")
for root, dirs, files in os.walk('parquet_destino'):
    for file in files:
        caminho = os.path.join(root, file)
        tamanho = os.path.getsize(caminho)
        print(f"  - {caminho}: {tamanho:,} bytes")

## 11. Boas Pr√°ticas e Otimiza√ß√µes

### üìä Dicas de Uso:

1. **Use Parquet para dados anal√≠ticos**: Ideal para data lakes e an√°lise
2. **Particione dados grandes**: Melhora performance em queries filtradas
3. **Escolha compress√£o ZSTD**: Melhor equil√≠brio velocidade/tamanho
4. **Aproveite formato colunar**: SELECT apenas colunas necess√°rias
5. **Evite muitos arquivos pequenos**: Combine em arquivos maiores
6. **Use para dados imut√°veis**: Parquet n√£o √© para dados que mudam frequentemente

### 11.1 Exemplo Otimizado

In [None]:
# ‚ùå N√£o Otimizado
# df = pd.read_csv('grande.csv')
# df_filtrado = df[df['valor'] > 1000][['id', 'nome', 'valor']]

# ‚úÖ Otimizado com Parquet
df_otimizado = duckdb.sql("""
    SELECT id, nome, valor
    FROM 'benchmark.parquet'
    WHERE valor > 5000
    LIMIT 10
""").df()

print("Consulta otimizada:")
print(df_otimizado)

print("\n‚úì Parquet + proje√ß√£o de colunas + filtro = m√°xima efici√™ncia!")

### 11.2 Quando Usar Parquet vs CSV

| Caracter√≠stica | CSV | Parquet |
|---------------|-----|--------|
| **Tamanho** | Grande | Pequeno (comprimido) |
| **Velocidade leitura** | Lento | Muito r√°pido |
| **Leitura seletiva** | L√™ tudo | L√™ apenas colunas necess√°rias |
| **Tipos de dados** | Texto (precisa converter) | Preserva tipos |
| **Compatibilidade** | Universal | Requer bibliotecas |
| **Edi√ß√£o manual** | F√°cil (texto) | Imposs√≠vel |
| **Uso recomendado** | Dados pequenos, interoperabilidade | Dados grandes, an√°lise |

### Recomenda√ß√£o:
- üìÑ **Use CSV** para: Dados pequenos, troca de dados, edi√ß√£o manual
- üìä **Use Parquet** para: Data lakes, an√°lise de grandes volumes, armazenamento eficiente

## üéØ Resumo do Cap√≠tulo

Neste cap√≠tulo, exploramos:

1. ‚úÖ **Introdu√ß√£o ao Parquet** - formato colunar otimizado
2. ‚úÖ **Leitura** com `read_parquet()` e SQL direto
3. ‚úÖ **Exporta√ß√£o** com m√∫ltiplas op√ß√µes
4. ‚úÖ **Compress√£o** (SNAPPY, GZIP, ZSTD)
5. ‚úÖ **Particionamento** para melhor performance
6. ‚úÖ **Schema e metadados** embutidos
7. ‚úÖ **Performance** superior ao CSV
8. ‚úÖ **M√∫ltiplos arquivos** com glob patterns
9. ‚úÖ **Convers√£o** CSV ‚Üí Parquet
10. ‚úÖ **Boas pr√°ticas** e otimiza√ß√µes

### üîë Pontos-Chave:
- Parquet √© **muito mais r√°pido e compacto** que CSV
- Formato **colunar** permite leitura seletiva
- **Preserva tipos** de dados e metadados
- Ideal para **data lakes** e an√°lise
- **Particionamento** melhora performance

### üìö Pr√≥ximo Cap√≠tulo:
Importa√ß√£o e Exporta√ß√£o de JSON!

## üßπ Limpeza (Opcional)

In [None]:
import shutil

# Arquivos
arquivos = [
    'example.parquet', 'usuarios_30plus.parquet', 'resumo_cidades.parquet',
    'test_uncompressed.parquet', 'test_snappy.parquet', 'test_gzip.parquet', 'test_zstd.parquet',
    'benchmark.csv', 'benchmark.parquet', 'produtos.csv', 'produtos.parquet'
]

for arquivo in arquivos:
    if os.path.exists(arquivo):
        os.remove(arquivo)
        print(f"‚úì Removido: {arquivo}")

# Diret√≥rios
diretorios = ['dados_particionados', 'vendas_parquet', 'csv_origem', 'parquet_destino']
for dir in diretorios:
    if os.path.exists(dir):
        shutil.rmtree(dir)
        print(f"‚úì Diret√≥rio '{dir}' removido")

print("\n‚úì Limpeza conclu√≠da!")