# Cap√≠tulo 10 - Casos de Uso e Melhores Pr√°ticas

## üéì Conclus√£o do Curso

Chegamos ao final da nossa jornada **DuckDB + Iceberg**.
Come√ßamos configurando um ambiente local, aprendemos a ler e escrever dados, exploramos features avan√ßadas como **Time Travel** e **Schema Evolution**, e finalmente migramos para um ambiente de nuvem simulado com **MinIO**.

Neste √∫ltimo cap√≠tulo, vamos resumir as **Melhores Pr√°ticas** e discutir **Arquitetura**.

## üèÜ Melhores Pr√°ticas

### 1. Particionamento (Hidden Partitioning)
Evite particionar por colunas de alta cardinalidade (ex: `user_id`, `timestamp_preciso`).
Prefira as transforma√ß√µes do Iceberg:
*   `days(timestamp)`
*   `months(timestamp)`
*   `bucket(coluna, N)` -> √ìtimo para distribuir dados uniformemente.

A grande vantagem do Iceberg √© que **voc√™ consulta a coluna original**, e ele descobre a parti√ß√£o sozinho (Hidden Partitioning).

### 2. Manuten√ß√£o (Compaction & Cleaning)
O Iceberg resolve o problema dos arquivos pequenos ("small files problem") gerados por streaming, mas cria um d√©bito de manuten√ß√£o.
*   Agende jobs peri√≥dicos de `rewrite_data_files` (Compacta√ß√£o).
*   Configure `expire_snapshots` para n√£o guardar hist√≥rico infinito (custo de storage).

### 3. Catalog Choice
Para produ√ß√£o em AWS: Use **AWS Glue Catalog**.
Para produ√ß√£o Agn√≥stica/On-Premise: Use **REST Catalog** (Project Nessie, Gravitino ou Tabular).
Evite usar FileSystem direto (Hadoop/S3FileIO sem cat√°logo robusto) em ambientes com concorr√™ncia massiva.

## üèóÔ∏è Casos de Uso Comuns

### CDC (Change Data Capture)
Iceberg suporta `MERGE INTO`, permitindo aplicar upserts (inserts + updates + deletes) vindos de bancos transacionais (Postgres/MySQL) via Debezium/Kafka.
Isso cria um **Lakehouse Transactional**.

### LGPD / GDPR (Right to be Forgotten)
Diferente de Data Lakes tradicionais (onde deletar um registro num arquivo CSV/Parquet exige reescrever o arquivo inteiro manualmente), o Iceberg permite deletar linhas espec√≠ficas.
Com `expire_snapshots`, voc√™ garante que a vers√£o antiga com o dado sens√≠vel foi de fato eliminada fisicamente.

## üèÅ Exemplo Final: Conectando Tudo

Vamos fazer uma leitura final no nosso ambiente **S3 (MinIO)** para confirmar que nossa arquitetura "Cloud" est√° est√°vel.

In [None]:
import pyiceberg
from pyiceberg.catalog.sql import SqlCatalog
import s3fs
import pandas as pd
import warnings

# Suprimir avisos de SSL inseguro (comum em dev local)
warnings.filterwarnings('ignore')

# Configura√ß√£o Cloud (Simulada)
S3_ENDPOINT = "http://localhost:9000"
S3_ACCESS_KEY = "admin"
S3_SECRET_KEY = "password"
BUCKET_NAME = "warehouse"

# Conectando ao Cat√°logo S3 (criado no Cap 09)
try:
    catalog = SqlCatalog(
        "minio_catalog",
        **{
            "uri": "sqlite:///iceberg_warehouse/s3_catalog.db",
            "warehouse": f"s3://{BUCKET_NAME}/iceberg",
            "s3.endpoint": S3_ENDPOINT,
            "s3.access-key-id": S3_ACCESS_KEY,
            "s3.secret-access-key": S3_SECRET_KEY,
        }
    )
    
    # Carregar tabela
    tbl = catalog.load_table("s3_sales_db.cloud_sales")
    print(f"‚úÖ Conex√£o estabelecida com sucesso!")
    print(f"üìç Tabela: {tbl.location()}")
    print(f"üî¢ Snapshots Atuais: {len(tbl.snapshots())}")
    
    # Leitura Final
    df = tbl.scan().to_pandas()
    print("\nüìä Dados no Lakehouse:")
    display(df.head())
    
except Exception as e:
    print(f"‚ö†Ô∏è Erro ao conectar (Execute o Cap 09 primeiro): {e}")

print("\nüöÄ Parab√©ns! Voc√™ concluiu a trilha DuckDB + Iceberg.")