# Cap√≠tulo 07 - Manuten√ß√£o e Otimiza√ß√£o

## üßπ Objetivo

Tabelas Iceberg acumulam "lixo" (arquivos de dados antigos, snapshots expirados, metadados obsoletos) ao longo do tempo.
Para manter a performance e reduzir custos de storage, precisamos de rotinas de manuten√ß√£o.

Neste cap√≠tulo vamos explorar:
1.  **Expire Snapshots**: Remover vers√µes antigas e liberar espa√ßo em disco.
2.  **Rewrite Data Files (Compaction)**: Compactar muitos arquivos pequenos em poucos arquivos grandes.
3.  **Remove Orphan Files**: Limpar arquivos que n√£o s√£o referenciados por nenhum snapshot.

## üîß Requisitos

- Configura√ß√£o autom√°tica inclu√≠da neste notebook.
- Se a tabela `default.sales` n√£o existir, ser√° criada com dados de exemplo.
- Se j√° existir, ser√° validada e complementada se necess√°rio.

In [9]:
import pyiceberg
from pyiceberg.catalog.sql import SqlCatalog
from pyiceberg.schema import Schema
from pyiceberg.types import NestedField, StringType, LongType, DoubleType, TimestampType
import duckdb
import pandas as pd
import pyarrow as pa
import os
import time
from datetime import datetime, timedelta
from pyiceberg.exceptions import NoSuchNamespaceError

# Configura√ß√£o Paths
WAREHOUSE_PATH = './iceberg_warehouse'
CATALOG_DB = f"{WAREHOUSE_PATH}/catalog.db"

# Garantir diret√≥rio
os.makedirs(WAREHOUSE_PATH, exist_ok=True)

# Configurar cat√°logo
catalog = SqlCatalog(
    "default",
    **{
        "type": "sql",
        "uri": f"sqlite:///{CATALOG_DB}",
        "warehouse": f"file://{os.path.abspath(WAREHOUSE_PATH)}",
    }
)

def setup_environment(catalog):
    """Garante que a tabela e os dados necess√°rios existem para a aula."""
    table_name = "default.sales"
    namespace = "default"

    # Criar namespace se n√£o existir
    try:
        catalog.create_namespace(namespace)
        print(f"‚úÖ Namespace '{namespace}' criado.")
    except Exception:
        pass
    
    # 1. Definir Schema
    schema = Schema(
        NestedField(1, "id", LongType(), required=True),
        NestedField(2, "created_at", TimestampType(), required=True),
        NestedField(3, "product_name", StringType(), required=False),
        NestedField(4, "amount", DoubleType(), required=False),
        NestedField(5, "quantity", LongType(), required=False),
        NestedField(6, "category", StringType(), required=False)
    )

    try:
        try:
            tbl = catalog.load_table(table_name)
            print(f"‚úÖ Tabela existente encontrada: {table_name}")
            
            # Verificar se tem coluna category
            fields = [f.name for f in tbl.schema().fields]
            if "category" not in fields:
                print("‚ö†Ô∏è Coluna 'category' ausente. Adicionando...")
                with tbl.update_schema() as update:
                    update.add_column("category", StringType())
                print("‚úÖ Coluna 'category' adicionada.")

        except Exception:
            print(f"‚ö†Ô∏è Tabela n√£o encontrada. Criando {table_name}...")
            tbl = catalog.create_table(table_name, schema)
            print(f"‚úÖ Tabela criada.")

        # 2. Gerar Hist√≥rico (Snapshots)
        print("üîç Verificando hist√≥rico de snapshots...")
        if len(tbl.snapshots()) < 3:
            print("‚ö†Ô∏è Hist√≥rico insuficiente. Gerando dados de teste...")
            
            # Schema expl√≠cito do PyArrow para garantir compatibilidade (campos required/non-null)
            pa_schema = pa.schema([
                ('id', pa.int64(), False), # False = Not Nullable
                ('created_at', pa.timestamp('us'), False), # False = Not Nullable
                ('product_name', pa.string()),
                ('amount', pa.float64()),
                ('quantity', pa.int64()),
                ('category', pa.string())
            ])
            
            for i in range(3):
                df = pd.DataFrame({
                    'id': range(i*10, i*10 + 5),
                    'created_at': [datetime.now()] * 5,
                    'product_name': [f'Product_{k}' for k in range(5)],
                    'amount': [100.0 + k for k in range(5)],
                    'quantity': [1] * 5,
                    'category': ['Electronics' if k % 2 == 0 else 'Books' for k in range(5)]
                })
                df['created_at'] = df['created_at'].astype('datetime64[us]')
                
                # Usar schema expl√≠cito na convers√£o
                pa_table = pa.Table.from_pandas(df, schema=pa_schema)
                tbl.append(pa_table)
                print(f"   -> Snapshot {i+1} criado.")
                time.sleep(1) 
        
        print(f"‚úÖ Ambiente pronto! Total de snapshots: {len(tbl.snapshots())}")
        return tbl
        
    except Exception as e:
        print(f"‚ùå Erro fatal no setup: {e}")
        raise e

# Executar Setup
tbl = setup_environment(catalog)
print(f"Schema atual:\n{tbl.schema()}")

‚úÖ Tabela existente encontrada: default.sales
üîç Verificando hist√≥rico de snapshots...
‚ö†Ô∏è Hist√≥rico insuficiente. Gerando dados de teste...
   -> Snapshot 1 criado.
   -> Snapshot 2 criado.
   -> Snapshot 3 criado.
‚úÖ Ambiente pronto! Total de snapshots: 3
Schema atual:
table {
  1: id: required long
  2: created_at: required timestamp
  3: product_name: optional string
  4: amount: optional double
  5: quantity: optional long
  6: category: optional string
}


## 1. Analisando Snapshots

Cada opera√ß√£o de escrita (append, overwrite, update schema) cria um novo snapshot.
Vamos listar o hist√≥rico atual.

In [17]:
import pandas as pd

def list_snapshots(table):
    snapshots = table.snapshots()
    data = []
    for s in snapshots:
        ts = datetime.fromtimestamp(s.timestamp_ms / 1000)
        data.append({
            "snapshot_id": s.snapshot_id,
            "timestamp": ts,
            "operation": s.summary.get("operation", "unknown"),
            "records": s.summary.get("added-records", "0")
        })
    return pd.DataFrame(data).sort_values("timestamp")

df_snaps = list_snapshots(tbl)
print(f"Total de snapshots: {len(df_snaps)}")
df_snaps

Total de snapshots: 5


Unnamed: 0,snapshot_id,timestamp,operation,records
0,458005602930949974,2026-01-22 18:50:40.787,Operation.APPEND,5.0
1,6407515911490158060,2026-01-22 18:50:41.856,Operation.APPEND,5.0
2,3509319127170459358,2026-01-22 18:50:42.969,Operation.APPEND,5.0
3,2007133789407081121,2026-01-22 18:51:48.356,Operation.DELETE,
4,8774728470651936363,2026-01-22 18:51:48.443,Operation.APPEND,15.0


## 2. Expire Snapshots (Limpando o Hist√≥rico)

Para liberar espa√ßo, removemos snapshots antigos que n√£o s√£o mais necess√°rios para Time Travel.
Isso remove a refer√™ncia no metadata. (Obs: A remo√ß√£o f√≠sica dos arquivos √≥rf√£os √© um passo subsequente, geralmente feito via `remove_orphan_files`, mas aqui focaremos na limpeza do metadata).

Vamos definir uma data de corte. Tudo anterior a essa data ser√° marcado para expira√ß√£o.

> **Nota**: O PyIceberg executa isso atualizando o arquivo de metadados (`metadata.json`). A exclus√£o f√≠sica dos arquivos de dados antigos depende da implementa√ß√£o do Catalog/IO (em S3/Cloud geralmente funciona bem, localmente o suporte varia).

In [None]:
### ‚ö†Ô∏è Nota sobre Expire Snapshots

Atualmente, o **PyIceberg** fornece suporte robusto para Leitura, Escrita e Evolu√ß√£o de Metadados.
Entretanto, a API de Manuten√ß√£o (`expire_snapshots`, `remove_orphan_files`) ainda est√° em desenvolvimento ativo.

Em ambientes de produ√ß√£o integrados, essa limpeza costuma ser feita via procedimentos do **Spark** ou **Trino**:
```sql
-- Exemplo em Spark/Trino
CALL catalog.system.expire_snapshots(table => 'default.sales', older_than => TIMESTAMP '...');
```

O PyIceberg permite gerenciar ramos e tags via `manage_snapshots()`, mas a limpeza final de metadata/arquivos ainda n√£o est√° exposta no objeto `Table`.
Manteremos este t√≥pico como conceitual por enquanto.

---
Vamos focar no que conseguimos fazer localmente: **Otimizar a estrutura f√≠sica dos dados (Compaction/Rewrite)**.

Tentando expirar snapshots anteriores a: 2026-01-22 18:50:42.969000
Opera√ß√£o n√£o suportada ou erro: 'Table' object has no attribute 'expire_snapshots'


## 3. Otimiza√ß√£o via Particionamento

Uma das maiores otimiza√ß√µes em Big Data √© o **Partition Pruning**.
O Iceberg permite evoluir o esquema de particionamento (Partition Evolution) sem reescrever a tabela imediatamente.

Vamos alterar a tabela para ser particionada por m√™s do campo `timestamp` (se existir) ou por `category`.
Como adicionamos `category` no cap√≠tulo anterior, vamos usar esse campo se dispon√≠vel, ou `quantity` (bucket) se n√£o.
Vou assumir que o campo `category` existe (criado no Cap 06). Caso n√£o exista (se o usu√°rio pulou), usamos outro.

### Verificando Schema
Vamos checar se temos `category` ou uma coluna de data `date_sale`. Temos `timestamp` no dataset original.
No cap 06 adicionamos `category`.
Vamos adicionar uma spec de parti√ß√£o: `identity(category)`.
Isso vai separar fisicamente os arquivos por categoria.

In [13]:
try:
    # Adicionando particionamento por 'category'
    # Se 'category' for null, ficar√° numa pasta default.
    # Nota: Dados antigos CONTINUAM n√£o particionados at√© serem reescritos.
    
    # Verificando se campo existe
    schema_fields = [f.name for f in tbl.schema().fields]
    if 'category' in schema_fields:
        print("Adicionando parti√ß√£o por 'category'...")
        with tbl.update_spec() as update:
            update.add_identity("category")
        print("Spec de parti√ß√£o atualizada!")
    else:
        print("Campo 'category' n√£o encontrado. Adicione via Cap 06 ou use outro campo.")
        
    print(f"Nova Spec:\n{tbl.spec()}")

except Exception as e:
    print(f"Erro ao atualizar spec (talvez j√° particionado?): {e}")

Adicionando parti√ß√£o por 'category'...
Spec de parti√ß√£o atualizada!
Nova Spec:
[
  1000: category: identity(6)
]


## 4. Rewrite Data Files (Compacta√ß√£o e Reorganiza√ß√£o)

Como ativamos o particionamento agora, os dados antigos **ainda est√£o na estrutura antiga** (sem pastas de parti√ß√£o).
Para aplicar a nova estrutura e otimizar o tamanho dos arquivos (Compacta√ß√£o), precisamos reescrever os dados.

Como o PyIceberg (ainda) n√£o possui um motor de compacta√ß√£o distribu√≠do nativo (como Spark), faremos uma **Compacta√ß√£o L√≥gica** via `overwrite`:
1. Lemos todos os dados atuais.
2. Reescrevemos para a tabela. O writer do PyIceberg detectar√° a nova `Partition Spec` e organizar√° os arquivos fisicamente.

> **Cuidado**: Em produ√ß√£o com petabytes, use Spark/Trino procedures (`rewrite_data_files`). Para datasets que cabem na mem√≥ria/disco local, essa abordagem funciona.

In [15]:
from pyiceberg.expressions import AlwaysTrue

# 1. Ler dados atuais para mem√≥ria
# (Em produ√ß√£o, far√≠amos isso em batches ou usar√≠amos Spark)
arrow_data = tbl.scan().to_arrow()
print(f"Lendo {len(arrow_data)} registros...")

# 2. Executar Overwrite (Substitui√ß√£o Total)
# Isso deleta logicamente os arquivos antigos e escreve novos j√° organizados pelas parti√ß√µes
if len(arrow_data) > 0:
    print("Reescrevendo dados (Compacta√ß√£o + Particionamento)...")
    tbl.overwrite(arrow_data, overwrite_filter=AlwaysTrue())
    print("Sucesso!")
else:
    print("Tabela vazia.")

Lendo 15 registros...
Reescrevendo dados (Compacta√ß√£o + Particionamento)...
Sucesso!


## 5. Verifica√ß√£o da Estrutura F√≠sica

Vamos verificar se os novos arquivos foram escritos nos diret√≥rios de parti√ß√£o (`category=...`).
Faremos isso inspecionando o plano de scan.

In [16]:
scan = tbl.scan()
# plan_files() retorna um generator de FileScanTask
tasks = list(scan.plan_files())

print(f"Total de arquivos de dados: {len(tasks)}")
print("-" * 50)
for i, task in enumerate(tasks):
    # Pegando o caminho relativo para facilitar leitura
    full_path = task.file.file_path
    relative = full_path.split("iceberg_warehouse")[-1] if "iceberg_warehouse" in full_path else full_path
    print(f"Arquivo {i+1}: ...{relative}")
    # Se particionamento funcionou, veremos 'category=Nome' no caminho

# Conclus√£o
print("\nSe voc√™ v√™ pastas como 'category=...' no caminho, o Particionamento funcionou!")
print(f"Tipo de opera√ß√£o no √∫ltimo snapshot: {tbl.current_snapshot().summary.get('operation')}")

Total de arquivos de dados: 2
--------------------------------------------------
Arquivo 1: .../default/sales/data/category=Electronics/00000-0-bd56202a-7fca-428a-be21-b6004d20e794.parquet
Arquivo 2: .../default/sales/data/category=Books/00000-1-bd56202a-7fca-428a-be21-b6004d20e794.parquet

Se voc√™ v√™ pastas como 'category=...' no caminho, o Particionamento funcionou!
Tipo de opera√ß√£o no √∫ltimo snapshot: Operation.APPEND
