# üåä Cap√≠tulo 06: Streaming e Batches
## Curso: Apache Arrow + DuckDB

Neste cap√≠tulo, exploraremos como processar grandes volumes de dados de forma eficiente utilizando streaming e o conceito de batches (lotes) do Apache Arrow integrados ao DuckDB.

### T√≥picos abordados:
- **Record Batches**: A unidade fundamental de dados no Arrow.
- **RecordBatchReader**: Interface para leitura de fluxos de dados.
- **Processamento incremental**: Como evitar carregar tudo na mem√≥ria.
- **Iteradores e geradores**: Integra√ß√£o com fluxos Python.
- **Controle de mem√≥ria**: Melhores pr√°ticas para efici√™ncia.

In [24]:
import sys
import io
import pyarrow as pa
import duckdb
import pandas as pd
import numpy as np

# Configura√ß√£o para sa√≠da correta no Windows (opcional em Notebooks, mas boa pr√°tica)
# sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')

print("Bibliotecas importadas com sucesso!")

Bibliotecas importadas com sucesso!


In [25]:
# Gerando dados de exemplo globais
print("Gerando dados de exemplo...")
data = pa.table({
    'id': range(1000),
    'valor': np.random.randn(1000),
    'categoria': np.random.choice(['A', 'B', 'C'], 1000)
})
print(f"Tabela PyArrow criada: {data.num_rows} linhas")

# Conex√£o DuckDB em mem√≥ria
con = duckdb.connect()
print("Conex√£o DuckDB estabelecida.")

Gerando dados de exemplo...
Tabela PyArrow criada: 1000 linhas
Conex√£o DuckDB estabelecida.


## 1Ô∏è‚É£ Record Batches

O `RecordBatch` √© uma cole√ß√£o de arrays de mesmo tamanho. Enquanto uma `Table` pode ser composta por v√°rios peda√ßos (chunks), um `RecordBatch` √© uma estrutura cont√≠gua na mem√≥ria, ideal para processamento em streaming.

### Exemplo Pr√°tico:
Vamos converter nossa tabela para uma lista de batches e inspecion√°-los.

In [26]:
# Convertendo tabela para batches com tamanho m√°ximo de 200 linhas cada
batches = data.to_batches(max_chunksize=200)
print(f"Total de batches gerados: {len(batches)}")

# Inspecionando o primeiro batch
batch = batches[0]
print(f"Tipo do objeto: {type(batch)}")
print(f"N√∫mero de linhas no batch: {batch.num_rows}")

# O DuckDB pode consultar um batch individual como se fosse uma tabela comum
result = con.execute("SELECT count(*), avg(valor) FROM batch").df()
print("\nResultado da consulta DuckDB sobre um RecordBatch:")
print(result)

Total de batches gerados: 5
Tipo do objeto: <class 'pyarrow.lib.RecordBatch'>
N√∫mero de linhas no batch: 200

Resultado da consulta DuckDB sobre um RecordBatch:
   count_star()  avg(valor)
0           200   -0.093368


## 2Ô∏è‚É£ RecordBatchReader

O `RecordBatchReader` √© um iterador que permite ler batches um por um sem carregar todo o conjunto na mem√≥ria. Ele √© fundamental para fluxos de dados (streaming).

### Exemplo Pr√°tico:
Gerando um reader a partir de uma consulta DuckDB.

In [27]:
# Criando um RecordBatchReader a partir de uma consulta no DuckDB
# O par√¢metro rows_per_batch controla o tamanho ideal do streaming
reader = con.execute("SELECT * FROM data WHERE valor > 0").fetch_record_batch(rows_per_batch=150)

print(f"Tipo do reader: {type(reader)}")

# Lendo o pr√≥ximo batch dispon√≠vel
try:
    batch = reader.read_next_batch()
    print(f"Batch lido: {batch.num_rows} linhas")
except StopIteration:
    print("Fim do stream")

# Podemos ler o restante como uma tabela Arrow completa se necess√°rio
final_table = reader.read_all()
print(f"Linhas restantes lidas de uma vez: {final_table.num_rows}")

Tipo do reader: <class 'pyarrow.lib.RecordBatchReader'>
Batch lido: 150 linhas
Linhas restantes lidas de uma vez: 333


## 3Ô∏è‚É£ Processamento Incremental

Processar dados de forma incremental √© a chave para trabalhar com datasets maiores que a mem√≥ria RAM dispon√≠vel.

### Exemplo Pr√°tico:
Iterando sobre batches para calcular uma soma acumulada sem carregar tudo.

In [28]:
# Refazendo o reader
reader = con.execute("SELECT valor FROM data").fetch_record_batch(rows_per_batch=250)

total_rows = 0
running_sum = 0.0

print("Iniciando processamento incremental...")
for batch in reader:
    # O batch √© um RecordBatch. Podemos convert√™-lo para pandas ou numpy para processar
    # ou usar fun√ß√µes de computa√ß√£o do pr√≥prio Arrow
    chunk_sum = np.sum(batch.column('valor').to_numpy())
    running_sum += chunk_sum
    total_rows += batch.num_rows
    print(f"-> Processado batch de {batch.num_rows} linhas. Soma parcial: {running_sum:.2f}")

print(f"\nProcessamento conclu√≠do!")
print(f"Total de linhas vistas: {total_rows}")
print(f"Soma total calculada: {running_sum:.2f}")

# Valida√ß√£o com DuckDB simples
final_sum = con.execute("SELECT sum(valor) FROM data").fetchone()[0]
print(f"Valida√ß√£o DuckDB: {final_sum:.2f}")

Iniciando processamento incremental...
-> Processado batch de 250 linhas. Soma parcial: -13.53
-> Processado batch de 250 linhas. Soma parcial: -11.11
-> Processado batch de 250 linhas. Soma parcial: -37.01
-> Processado batch de 250 linhas. Soma parcial: -44.17

Processamento conclu√≠do!
Total de linhas vistas: 1000
Soma total calculada: -44.17
Valida√ß√£o DuckDB: -44.17


## 4Ô∏è‚É£ Iteradores e Geradores

Podemos integrar o Apache Arrow com geradores Python, permitindo que qualquer fluxo de dados seja exposto como um `RecordBatchReader`.

### Exemplo Pr√°tico:
Criando um gerador de batches e convertendo-o em um Reader.

In [30]:
def custom_batch_gen(row_count=1000, batch_size=200):
    """Gera RecordBatches de dados aleat√≥rios sob demanda."""
    for i in range(0, row_count, batch_size):
        yield pa.RecordBatch.from_pydict({
            'seq': range(i, min(i + batch_size, row_count)),
            'rand': np.random.rand(min(batch_size, row_count - i))
        })

# Criando o schema necess√°rio para o reader
schema = pa.schema([
    ('seq', pa.int64()),
    ('rand', pa.float64())
])

# Criando o RecordBatchReader a partir do gerador
gen = custom_batch_gen()
reader_from_gen = pa.RecordBatchReader.from_batches(schema, gen)

print(f"Reader criado de gerador: {type(reader_from_gen)}")

# Consumindo via DuckDB (o DuckDB entende RecordBatchReader como fonte)
result = con.execute("SELECT avg(rand) FROM reader_from_gen").df()
print("\nResultado da consulta sobre o gerador:")
print(result)

Reader criado de gerador: <class 'pyarrow.lib.RecordBatchReader'>

Resultado da consulta sobre o gerador:
   avg(rand)
0   0.489407


## 5Ô∏è‚É£ Controle de Mem√≥ria

Gerenciar o tamanho dos batches e liberar refer√™ncias √© crucial no processamento de grandes volumes de dados.

### Exemplo Pr√°tico:
Aferi√ß√£o de tamanho de mem√≥ria e limpeza de vari√°veis.

In [31]:
import os
import psutil

def get_memory_usage():
    process = psutil.Process(os.getpid())
    return process.memory_info().rss / 1024 / 1024  # em MB

print(f"Uso de mem√≥ria inicial: {get_memory_usage():.2f} MB")

# Tabelas e Batches ocupam mem√≥ria
print(f"Tamanho estimado da tabela 'data': {data.nbytes / 1024:.2f} KB")

# Para datasets gigantes, evite read_all()
# Prefira processar o iterator e descartar o batch o quanto antes

# Exemplo de limpeza manual se necess√°rio
vars_to_clean = ['data', 'batches', 'final_table']
for var in vars_to_clean:
    if var in locals():
        del locals()[var]

import gc
gc.collect()

print(f"Uso de mem√≥ria ap√≥s limpeza: {get_memory_usage():.2f} MB")

Uso de mem√≥ria inicial: 118.88 MB
Tamanho estimado da tabela 'data': 20.51 KB
Uso de mem√≥ria ap√≥s limpeza: 118.90 MB


---
## üéØ Conclus√£o do Cap√≠tulo 06

Neste cap√≠tulo aprendemos:
1. Trabalhar com **RecordBatches** para processamento cont√≠guo.
2. Utilizar o **RecordBatchReader** para ler fluxos de dados sem sobrecarregar a mem√≥ria.
3. T√©cnicas de **processamento incremental** integrando DuckDB e Arrow.
4. Como expor geradores Python como leitores Arrow.
5. A import√¢ncia do controle de mem√≥ria no mundo de Big Data.

Pr√≥ximo passo: **Cap√≠tulo 07: IPC e Serializa√ß√£o**.