# Cap√≠tulo 01 - Introdu√ß√£o ao Apache Iceberg

## üìö O que √© Apache Iceberg?

Apache Iceberg √© um **formato de tabela aberto** para grandes datasets anal√≠ticos.

### üéØ Principais Caracter√≠sticas:

**1. Schema Evolution** - Adicione, remova ou renomeie colunas sem reescrever dados

**2. Partition Evolution** - Mude o particionamento sem reprocessar dados

**3. Time Travel** - Consulte vers√µes anteriores dos dados

**4. ACID Transactions** - Garantias transacionais completas

**5. Performance** - Predicate pushdown eficiente

Neste notebook vamos:
1. Criar uma tabela Iceberg com PyIceberg
2. Ler dados com DuckDB
3. Explorar a estrutura de metadados

## 1. Setup e Imports

In [None]:
import duckdb
import os
import shutil
import pandas as pd
from pyiceberg.catalog import load_catalog
import pyarrow as pa

print(f"DuckDB: {duckdb.__version__}")
print(f"Pandas: {pd.__version__}")
print(f"PyArrow: {pa.__version__}")
print("\n‚úì Imports completos!")

In [None]:
def safe_install_ext(con, ext_name):
    """Instala e carrega extens√£o DuckDB."""
    try:
        con.install_extension(ext_name)
        con.load_extension(ext_name)
        print(f"‚úì Extension '{ext_name}' carregada")
        return True
    except Exception as e:
        print(f"‚úó Falha: {e}")
        return False

print("‚úì Helper definida")

In [None]:
print("üöÄ Cap√≠tulo 01: Apache Iceberg")
print("="*50)

## 2. Criar Warehouse

In [None]:
WAREHOUSE_PATH = "./iceberg_warehouse"

if os.path.exists(WAREHOUSE_PATH):
    shutil.rmtree(WAREHOUSE_PATH)
    print("‚úì Diret√≥rio removido")

os.makedirs(WAREHOUSE_PATH, exist_ok=True)
print(f"‚úì Warehouse: {os.path.abspath(WAREHOUSE_PATH)}")

## 3. Criar Catalog

In [None]:
print("üì¶ Criando Catalog...")

catalog = load_catalog(
    "local", 
    **{
        "type": "sql", 
        "uri": f"sqlite:///{WAREHOUSE_PATH}/catalog.db",
        "warehouse": f"file://{os.path.abspath(WAREHOUSE_PATH)}"
    }
)

print("‚úì Catalog criado (SQL/SQLite)")

## 4. Criar Namespace

In [None]:
print("üìÅ Criando namespace...")

try:
    catalog.create_namespace("default")
    print("‚úì Namespace 'default' criado")
except:
    print("‚ö†Ô∏è  Namespace j√° existe")

print(f"Namespaces: {catalog.list_namespaces()}")

## 5. Criar Tabela

In [None]:
print("üìä Preparando dados...")

df_pandas = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['A', 'B', 'C']
})

print(df_pandas)

df_arrow = pa.Table.from_pandas(df_pandas)
print(f"\n‚úì Arrow Table criada")
print(f"Schema: {df_arrow.schema}")

In [None]:
print("üî® Criando tabela...")

# Dropar tabela se existe
try:
    catalog.drop_table("default.my_table")
    print("‚úì Tabela antiga removida")
except:
    pass

table = catalog.create_table(
    "default.my_table",
    schema=df_arrow.schema,
)

print(f"‚úì Tabela: default.my_table")
print(f"Nome: {table.name()}")
print(f"Schema: {table.schema()}")

In [None]:
print("üíæ Inserindo dados...")
print("‚ö†Ô∏è  Nota: PyIceberg append() tem incompatibilidade com PyArrow 15.0.0")
print("‚ö†Ô∏è  Erro: store_decimal_as_integer n√£o suportado")

try:
    table.append(df_arrow)

    print("‚úì Dados inseridos!")
    print(f"\nLocation: {table.location}")

except Exception as e:

    print(f"‚úó Erro ao inserir: {str(e)[:100]}...")    
    print("\nüí° Solu√ß√£o: Downgrade PyArrow ou use pyiceberg.io directly")

## 6. Explorar Estrutura

In [None]:
tables = catalog.list_tables("default")
print(f"Tabelas: {tables}")

In [None]:
print("üîç Procurando metadata...")

search_path = os.path.join(WAREHOUSE_PATH, "default", "my_table", "metadata")
metadata_file = None

if os.path.exists(search_path):
    files = [f for f in os.listdir(search_path) if f.endswith(".metadata.json")]
    if files:
        files.sort()
        metadata_file = os.path.join(search_path, files[-1])
        print(f"‚úì Metadata: {metadata_file}")
    else:
        print("‚úó Nenhum metadata.json")
else:
    print(f"‚úó Diret√≥rio n√£o existe")

## 7. Ler com DuckDB

In [None]:
print("ü¶Ü Configurando DuckDB...")

con = duckdb.connect()
iceberg_loaded = safe_install_ext(con, "iceberg")
safe_install_ext(con, "parquet")

In [None]:
print("üìñ Lendo com DuckDB...")

if iceberg_loaded and metadata_file:
    try:
        result = con.execute(f"SELECT * FROM iceberg_scan('{metadata_file}')").df()
        print("‚úì Query executada!")
        print("\nResultado:")
        print(result)
    except Exception as e:
        print(f"‚úó Erro: {e}")
else:
    print("‚úó Iceberg ou metadata n√£o dispon√≠vel")

## 8. Estrutura de Diret√≥rios

In [None]:
print("üìÅ Estrutura do Warehouse:")
print("="*50)

for root, dirs, files in os.walk(WAREHOUSE_PATH):
    level = root.replace(WAREHOUSE_PATH, '').count(os.sep)
    indent = ' ' * 2 * level
    print(f"{indent}{os.path.basename(root)}/")
    subindent = ' ' * 2 * (level + 1)
    for file in files[:10]:  # Limitar a 10 arquivos
        print(f"{subindent}{file}")

## ‚úÖ Resumo

**Aprendemos:**
1. Apache Iceberg - formato de tabela avan√ßado
2. PyIceberg - criar tabelas
3. DuckDB - ler com `iceberg_scan()`
4. Estrutura do warehouse

**Pr√≥ximo:** Cap√≠tulo 02 - Instala√ß√£o e Configura√ß√£o

In [None]:
print("\n" + "="*50)
print("‚úÖ CAP√çTULO 01 CONCLU√çDO!")
print("="*50)

# Cap√≠tulo 01: Introdu√ß√£o ao Apache Iceberg

Este notebook apresenta conceitos fundamentais do Apache Iceberg integrado com DuckDB.

**Objetivo:** Entender o que √© Iceberg e realizar an√°lises b√°sicas em tabelas Iceberg.

**Conte√∫do:**
- Instala√ß√£o e configura√ß√£o inicial
- Conceitos b√°sicos de Iceberg
- Primeira query em tabela Iceberg

## 3. Primeira Query em Tabela Iceberg

Vamos criar uma conex√£o e fazer uma query exemplo (nota: o caminho da tabela deve ser ajustado para seu ambiente).

## 2. O que √© Apache Iceberg?

**Apache Iceberg** √© um formato de tabela aberto para dados anal√≠ticos de larga escala que oferece:

- **Time Travel**: Consultar dados hist√≥ricos
- **Schema Evolution**: Modificar schema sem reescrever dados
- **ACID Transactions**: Garantias transacionais
- **Particionamento Eficiente**: Otimiza√ß√£o autom√°tica de queries

**DuckDB + Iceberg** = An√°lise SQL r√°pida em tabelas Iceberg, sem precisar de Spark!

In [None]:
# Importar bibliotecas e fun√ß√£o auxiliar
import duckdb
import importlib.util


def has_module(name):
    """Verifica se um m√≥dulo Python est√° dispon√≠vel"""
    return importlib.util.find_spec(name) is not None


def safe_install_ext(con, ext_name):
    """Instala e carrega extens√£o DuckDB com tratamento de erros"""
    try:
        con.execute(f"INSTALL {ext_name}")
        con.execute(f"LOAD {ext_name}")
        print(f"‚úÖ Extens√£o '{ext_name}' instalada e carregada com sucesso")
        return True
    except Exception as e:
        print(f"‚ö†Ô∏è  Aviso: Falha ao instalar/carregar {ext_name}: {e}")
        return False


print("Fun√ß√µes auxiliares carregadas!")

In [None]:
# Instalar DuckDB se necess√°rio
import sys
!{sys.executable} -m pip install -q duckdb pyarrow

## 1. Instala√ß√£o e Configura√ß√£o Inicial

Primeiro, vamos instalar as depend√™ncias necess√°rias e carregar a extens√£o Iceberg.

In [None]:
# Criar conex√£o e instalar extens√£o Iceberg
con = duckdb.connect()
safe_install_ext(con, "iceberg")

# Exemplo de query em tabela Iceberg
# NOTA: Ajuste o caminho para uma tabela Iceberg real em seu ambiente
try:
    result = con.execute("""
        SELECT category, sum(revenue) as total_revenue
        FROM iceberg_scan('s3://bucket/sales')
        GROUP BY category
        LIMIT 10
    """).df()
    
    print("‚úÖ Query executada com sucesso!")
    print(result)
except Exception as e:
    print(f"‚ÑπÔ∏è  Exemplo demonstrativo - ajuste o caminho da tabela Iceberg")
    print(f"Erro: {e}")

## 4. Pr√≥ximos Passos

Neste cap√≠tulo voc√™ aprendeu:
- ‚úÖ Como instalar e configurar DuckDB com Iceberg
- ‚úÖ Conceitos b√°sicos do Apache Iceberg
- ‚úÖ Estrutura b√°sica de queries em tabelas Iceberg

**Pr√≥ximo:** Cap√≠tulo 02 - Instala√ß√£o e Configura√ß√£o detalhada