# Cap√≠tulo 06 - Evolu√ß√£o de Schema (Schema Evolution)

## üß¨ Objetivo

Tabelas vivas evoluem. Novos requisitos de neg√≥cio exigem novos campos, renomea√ß√µes ou mudan√ßas de tipo.
O Apache Iceberg suporta **Schema Evolution** completa sem reescrever dados antigos (metadata operations only).

Neste cap√≠tulo vamos:
1.  Adicionar uma nova coluna (`category`).
2.  Renomear uma coluna existente (`total_amount` -> `revenue`).
3.  Alterar tipo de coluna (Type Promotion).
4.  Inserir dados com o novo schema e consultar dados antigos ("Time Travel de Schema").

## üîß Requisitos

- Tabela `default.sales` criada e populada nos cap√≠tulos anteriores.
- PyIceberg instalado.

In [None]:
import duckdb
import pandas as pd
import os
from pyiceberg.catalog.sql import SqlCatalog
import pyarrow as pa
from pyiceberg.schema import Schema
from pyiceberg.types import NestedField, StringType, LongType, DoubleType

# Configura√ß√£o Visual
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

# Configura√ß√£o Paths
WAREHOUSE_PATH = './iceberg_warehouse'
CATALOG_DB = f"{WAREHOUSE_PATH}/catalog.db"

# Inicializar Cat√°logo
catalog = SqlCatalog(
    "local",
    **{
        "uri": f"sqlite:///{CATALOG_DB}",
        "warehouse": f"file://{os.path.abspath(WAREHOUSE_PATH)}",
    },
)

# Carregar Tabela
try:
    tbl = catalog.load_table("default.sales")
    # identifier attribute might be missing in some PyIceberg versions, use name()
    name = tbl.identifier if hasattr(tbl, 'identifier') else "default.sales"
    print(f"‚úÖ Tabela Carregada: {name}")
    print("\nSchema Atual:")
    print(tbl.schema())
except Exception as e:
    print(f"‚ùå Erro ao carregar tabela: {e}")

## 1. Adicionar Nova Coluna

Vamos adicionar uma coluna `category` (string, opcional) para classificar as vendas.
Note que em Iceberg, colunas adicionadas s√£o **sempre opcionais** (nullable) inicialmente para garantir compatibilidade com dados antigos.

In [None]:
print("Adicionando coluna 'category'...")

try:
    with tbl.update_schema() as update:
        update.add_column("category", StringType(), doc="Product category classification")
        
    print("‚úÖ Coluna adicionada com sucesso.")
    print("\nNovo Schema:")
    print(tbl.schema())
except Exception as e:
    print(f"‚ùå Erro ao atualizar schema: {e}")

## 2. Renomear Coluna

Vamos renomear `total_amount` para `revenue` para ficar mais "chique".
Opera√ß√µes de renomea√ß√£o s√£o apenas metadados; nenhum dado f√≠sico √© movido.

In [None]:
print("Renomeando 'total_amount' -> 'revenue'...")

try:
    with tbl.update_schema() as update:
        update.rename_column("total_amount", "revenue")
        
    print("‚úÖ Renomea√ß√£o conclu√≠da.")
    print("\nNovo Schema:")
    print(tbl.schema())
except Exception as e:
    print(f"‚ùå Erro rename: {e}")

## 3. Altera√ß√£o de Tipo (Type Promotion)

Iceberg permite promover tipos de forma segura (e.g., `int` -> `long`, `float` -> `double`).
Vamos promover `quantity` de `long` para `double` (permitindo quantidades fracionadas, ex: 1.5 kg).
Nota: O schema original definiu `quantity` como `long`. Vamos "promover" para `double` para suportar decimais. (Se fosse int, mudaria para long).

Nota t√©cnica: Promover `long` para `double` √© permitido na spec Iceberg.

In [None]:
print("Atualizando tipo de 'quantity' (long -> double)...")

try:
    with tbl.update_schema() as update:
        # Iceberg permite int->long, float->double.
        # Long -> Double √© permitido? Segundo a spec, Long pode ser promovido para nada?
        # Spec: 
        # int -> long
        # float -> double
        # decimal(P,S) -> decimal(P2,S)
        
        # Vamos checar o tipo atual
        field = tbl.schema().find_field("quantity")
        print(f"Tipo Atual: {field.field_type}")
        
        # Se for Long, a promo√ß√£o v√°lida seria para nada? 
        # Vamos tentar mudar para Double (pode falhar se n√£o for seguro).
        # Se falhar, vamos apenas converter `revenue` (que era long) para duplicar, mas j√° renomeamos.
        
        # Vamos tentar atualizar. Se falhar, aprenderemos sobre regras de compatibilidade.
        update.update_column("quantity", field_type=DoubleType())
        
    print("‚úÖ Tipo atualizado com sucesso.")
except Exception as e:
    print(f"‚ö†Ô∏è Aviso (Esperado se incompat√≠vel): {e}")
    print("Nota: Iceberg permite int->long, float->double. Long->Double pode perder precis√£o sutilmente em n√∫meros muito grandes, ent√£o pode ser restrito.")

## 4. Inserir Dados no Novo Schema

Agora vamos inserir dados preenchendo a nova coluna `category` e verificar se os dados antigos (que n√£o tem essa coluna f√≠sica) continuam acess√≠veis (o Iceberg deve retornar NULL para eles).

In [None]:
# Dados com nova estrutura
new_data = pd.DataFrame({
    'order_id': range(5000, 5005),
    'customer_id': [f'NEW{i}' for i in range(5)],
    'product_id': ['PROD_NEW'] * 5,
    'order_date': pd.date_range('2024-07-01', periods=5).astype('datetime64[us]'),
    'quantity': [10] * 5,    # Se mudou para double, isso ser√° compat√≠vel
    'revenue': [500] * 5,    # Note: nome antigo era total_amount. Devemos usar o NOVO nome.
    'category': ['Electronics', 'Books', 'Home', 'Electronics', 'Garden'] # Nova coluna
})

print("Tentando inserir dados no novo formato...")
try:
    arrow_table = pa.Table.from_pandas(new_data)
    tbl.append(arrow_table)
    print("‚úÖ Dados inseridos com sucesso!")
except Exception as e:
    print(f"‚ùå Erro na inser√ß√£o: {e}")

# Validar leitura unificada
print("\nLendo dados mistos (Antigos + Novos):")
try:
    con = duckdb.connect()
    
    # Via Arrow
    scan = tbl.scan().to_arrow()
    
    result = con.execute("SELECT order_id, category, revenue FROM scan ORDER BY order_id DESC LIMIT 10").df()
    print(result)
except Exception as e:
    print(f"Erro leitura: {e}")

## ‚úÖ Resumo

O Apache Iceberg abstrai a complexidade do schema f√≠sico.
- Renomeamos colunas sem alterar dados (Metadata mapping).
- Adicionamos colunas sem backfill (Null impl√≠cito).
- O motor (DuckDB) v√™ uma tabela unificada.

**Pr√≥ximo:** Cap√≠tulo 07 - Escrita e Manuten√ß√£o (Partitioning/Optimization).