# Compacta√ß√£o de Dados com Apache Iceberg

Este notebook demonstra como realizar compacta√ß√£o de dados no Apache Iceberg, uma opera√ß√£o essencial para manter performance e otimizar o armazenamento em data lakes.

## Contexto e Objetivos:

### Problema dos Arquivos Pequenos:
- **Fragmenta√ß√£o**: M√∫ltiplas inser√ß√µes criam muitos arquivos pequenos
- **Performance**: Overhead de metadados e I/O ineficiente
- **Custos**: Maior n√∫mero de opera√ß√µes de leitura
- **Escalabilidade**: Degrada√ß√£o com crescimento dos dados

### Benef√≠cios da Compacta√ß√£o:
- **Performance**: Menos arquivos = menos overhead de I/O
- **Efici√™ncia**: Melhor compress√£o e utiliza√ß√£o de recursos
- **Manuten√ß√£o**: Redu√ß√£o de metadados e complexidade
- **Custos**: Otimiza√ß√£o de armazenamento e processamento

### Estrat√©gias de Compacta√ß√£o:
1. **Rewrite Data Files**: Reorganiza√ß√£o completa dos arquivos
2. **Bin Packing**: Agrupamento eficiente de arquivos pequenos
3. **Z-Order**: Otimiza√ß√£o para queries com m√∫ltiplas dimens√µes
4. **Expire Snapshots**: Limpeza de vers√µes antigas

## Setup do Ambiente

In [1]:
# Para o Spark se estiver rodando
try:
    spark.stop()
except:
    pass

# Configura√ß√£o do Spark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/opt/spark-3.3.0-bin-hadoop3"

import findspark
findspark.init('/opt/spark-3.3.0-bin-hadoop3')

from pyspark.sql import SparkSession

# Sess√£o Spark
spark = SparkSession.builder \
    .appName("IcebergCompaction") \
    .config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions") \
    .config("spark.sql.catalog.hadoop_catalog", "org.apache.iceberg.spark.SparkCatalog") \
    .config("spark.sql.catalog.hadoop_catalog.type", "hadoop") \
    .config("spark.sql.catalog.hadoop_catalog.warehouse", "file:///home/tavares/warehouse") \
    .config("spark.sql.default.catalog", "hadoop_catalog") \
    .config("spark.hadoop.fs.defaultFS", "file:///") \
    .getOrCreate()

print(f"Warehouse configurado para: {spark.conf.get('spark.sql.catalog.hadoop_catalog.warehouse')}")

Warehouse configurado para: file:///home/tavares/warehouse


## 1. Cria√ß√£o da Tabela de Exemplo

Vamos criar uma tabela que ser√° usada para demonstrar os conceitos de compacta√ß√£o.

In [2]:
# Exclui se existir
spark.sql("DROP TABLE IF EXISTS hadoop_catalog.default.vendas")

# Cria a tabela Vendas
spark.sql("""
    CREATE TABLE hadoop_catalog.default.vendas (
        id INT,
        produto STRING,
        quantidade INT,
        preco DOUBLE,
        data_venda DATE
    )
    USING iceberg
""")

DataFrame[]

## 2. Simula√ß√£o do Problema - Criando Arquivos Pequenos

Vamos simular um cen√°rio comum onde m√∫ltiplas inser√ß√µes pequenas criam fragmenta√ß√£o de arquivos. Cada inser√ß√£o individual criar√° um arquivo separado, demonstrando o problema que a compacta√ß√£o resolve.

In [3]:
# Inserir dados em lotes pequenos para criar v√°rios arquivos
# Simulando inser√ß√µes frequentes de sistemas transacionais

# 10 Lotes de Dados (cada um criar√° um arquivo separado)
for i in range(1, 11):
    spark.sql(f"""
        INSERT INTO hadoop_catalog.default.vendas VALUES
        ({i}, 'Produto {i}', {i * 2}, {i * 10.0}, DATE('2024-11-{i:02d}'))
    """)

print("10 inser√ß√µes individuais realizadas - cada uma criou um arquivo separado")

10 inser√ß√µes individuais realizadas - cada uma criou um arquivo separado


## 3. An√°lise do Estado Antes da Compacta√ß√£o

Vamos analisar quantos arquivos foram criados e como os dados est√£o distribu√≠dos.

In [4]:
# Analisar arquivos antes da compacta√ß√£o
print("=== ANTES DA COMPACTA√á√ÉO ===")

# Contar arquivos √∫nicos
df_files_before = spark.sql("""
    SELECT
        COUNT(*) AS registros,
        input_file_name() AS arquivo
    FROM hadoop_catalog.default.vendas
    GROUP BY input_file_name()
""")

print("Distribui√ß√£o de registros por arquivo:")
df_files_before.show(truncate=False)

num_arquivos_antes = df_files_before.count()
total_registros = spark.sql("SELECT COUNT(*) as total FROM hadoop_catalog.default.vendas").collect()[0][0]

print(f"\nResumo:")
print(f"- N√∫mero total de arquivos: {num_arquivos_antes}")
print(f"- Total de registros: {total_registros}")
print(f"- M√©dia de registros por arquivo: {total_registros / num_arquivos_antes:.1f}")

=== ANTES DA COMPACTA√á√ÉO ===
Distribui√ß√£o de registros por arquivo:
+---------+-------------------------------------------------------------------------------------------------------------+
|registros|arquivo                                                                                                      |
+---------+-------------------------------------------------------------------------------------------------------------+
|1        |file:/home/tavares/warehouse/default/vendas/data/00000-3-baf6144c-28f4-42d3-a539-b15ca2ef849e-0-00001.parquet|
|1        |file:/home/tavares/warehouse/default/vendas/data/00000-9-ed871109-12af-460e-a995-0cb706b055aa-0-00001.parquet|
|1        |file:/home/tavares/warehouse/default/vendas/data/00000-7-61eacd63-16fd-423c-a00d-30b039dc3c86-0-00001.parquet|
|1        |file:/home/tavares/warehouse/default/vendas/data/00000-1-47ecbacb-9403-4475-85db-92b80dcedd3c-0-00001.parquet|
|1        |file:/home/tavares/warehouse/default/vendas/data/00000-0-6acfa4

## 4. Verifica√ß√£o de Informa√ß√µes dos Arquivos

Vamos usar as tabelas de metadados do Iceberg para obter informa√ß√µes detalhadas sobre os arquivos.

In [5]:
# Informa√ß√µes detalhadas dos arquivos usando metadados Iceberg
print("=== INFORMA√á√ïES DOS ARQUIVOS (METADADOS ICEBERG) ===")

spark.sql("""
    SELECT 
        file_path,
        file_format,
        record_count,
        file_size_in_bytes,
        ROUND(file_size_in_bytes / 1024.0, 2) as file_size_kb
    FROM hadoop_catalog.default.vendas.files
    ORDER BY file_path
""").show(truncate=False)

# Estat√≠sticas agregadas
spark.sql("""
    SELECT 
        COUNT(*) as total_files,
        SUM(record_count) as total_records,
        AVG(record_count) as avg_records_per_file,
        SUM(file_size_in_bytes) as total_size_bytes,
        AVG(file_size_in_bytes) as avg_file_size_bytes
    FROM hadoop_catalog.default.vendas.files
""").show()

=== INFORMA√á√ïES DOS ARQUIVOS (METADADOS ICEBERG) ===
+-------------------------------------------------------------------------------------------------------------+-----------+------------+------------------+------------+
|file_path                                                                                                    |file_format|record_count|file_size_in_bytes|file_size_kb|
+-------------------------------------------------------------------------------------------------------------+-----------+------------+------------------+------------+
|file:/home/tavares/warehouse/default/vendas/data/00000-0-6acfa4a5-c43d-485f-9001-2e431b0da094-0-00001.parquet|PARQUET    |1           |1393              |1.36        |
|file:/home/tavares/warehouse/default/vendas/data/00000-1-47ecbacb-9403-4475-85db-92b80dcedd3c-0-00001.parquet|PARQUET    |1           |1393              |1.36        |
|file:/home/tavares/warehouse/default/vendas/data/00000-2-18cb0dc8-7683-4a5d-bead-e967d9e32da2-0-000

## 5. Executando a Compacta√ß√£o

Agora vamos executar a compacta√ß√£o usando o procedimento `rewrite_data_files` do Iceberg. Esta opera√ß√£o reorganizar√° os arquivos pequenos em arquivos maiores e mais eficientes.

In [6]:
# Configurar tamanho m√°ximo de registros por arquivo
spark.conf.set("spark.sql.files.maxRecordsPerFile", 1000)

print("Executando compacta√ß√£o...")

# Compacta√ß√£o com procedimento 'rewrite_data_files'
result = spark.sql("""
    CALL hadoop_catalog.system.rewrite_data_files(
        table => 'default.vendas'
    )
""")

# Mostrar resultado da compacta√ß√£o
print("\nResultado da compacta√ß√£o:")
result.show()

print("Compacta√ß√£o conclu√≠da!")

Executando compacta√ß√£o...

Resultado da compacta√ß√£o:
+--------------------------+----------------------+---------------------+
|rewritten_data_files_count|added_data_files_count|rewritten_bytes_count|
+--------------------------+----------------------+---------------------+
|                        10|                     1|                13934|
+--------------------------+----------------------+---------------------+

Compacta√ß√£o conclu√≠da!


## 6. An√°lise do Estado Ap√≥s a Compacta√ß√£o

Vamos verificar como a compacta√ß√£o afetou a estrutura dos arquivos.

In [7]:
# Analisar arquivos ap√≥s a compacta√ß√£o
print("=== AP√ìS A COMPACTA√á√ÉO ===")

df_files_after = spark.sql("""
    SELECT
        COUNT(*) AS registros,
        input_file_name() AS arquivo
    FROM hadoop_catalog.default.vendas
    GROUP BY input_file_name()
""")

print("Nova distribui√ß√£o de registros por arquivo:")
df_files_after.show(truncate=False)

num_arquivos_depois = df_files_after.count()
total_registros_depois = spark.sql("SELECT COUNT(*) as total FROM hadoop_catalog.default.vendas").collect()[0][0]

print(f"\nResumo ap√≥s compacta√ß√£o:")
print(f"- N√∫mero total de arquivos: {num_arquivos_depois}")
print(f"- Total de registros: {total_registros_depois}")
print(f"- M√©dia de registros por arquivo: {total_registros_depois / num_arquivos_depois:.1f}")

print(f"\nMelhoria:")
print(f"- Redu√ß√£o de arquivos: {num_arquivos_antes} ‚Üí {num_arquivos_depois} ({((num_arquivos_antes - num_arquivos_depois) / num_arquivos_antes * 100):.1f}% redu√ß√£o)")
print(f"- Dados preservados: {total_registros == total_registros_depois}")

=== AP√ìS A COMPACTA√á√ÉO ===
Nova distribui√ß√£o de registros por arquivo:
+---------+--------------------------------------------------------------------------------------------------------------+
|registros|arquivo                                                                                                       |
+---------+--------------------------------------------------------------------------------------------------------------+
|10       |file:/home/tavares/warehouse/default/vendas/data/00000-19-24e176cf-8bbd-40b1-b4df-35fc392418d6-0-00001.parquet|
+---------+--------------------------------------------------------------------------------------------------------------+


Resumo ap√≥s compacta√ß√£o:
- N√∫mero total de arquivos: 1
- Total de registros: 10
- M√©dia de registros por arquivo: 10.0

Melhoria:
- Redu√ß√£o de arquivos: 10 ‚Üí 1 (90.0% redu√ß√£o)
- Dados preservados: True


## 7. Verifica√ß√£o dos Snapshots

A compacta√ß√£o cria um novo snapshot. Vamos verificar o hist√≥rico de snapshots.

In [8]:
# Verificar snapshots criados
print("=== HIST√ìRICO DE SNAPSHOTS ===")

spark.sql("""
    SELECT 
        snapshot_id,
        committed_at,
        operation,
        summary
    FROM hadoop_catalog.default.vendas.snapshots 
    ORDER BY committed_at
""").show(truncate=False)

print("\nObserve que a compacta√ß√£o criou um novo snapshot com opera√ß√£o 'replace'")

=== HIST√ìRICO DE SNAPSHOTS ===
+-------------------+-----------------------+---------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|snapshot_id        |committed_at           |operation|summary                                                                                                                                                                                                                                                                                                                                                             

## 8. Limpeza de Snapshots Antigos

Ap√≥s a compacta√ß√£o, podemos limpar snapshots antigos para liberar espa√ßo em disco. Esta opera√ß√£o remove arquivos que n√£o s√£o mais referenciados.

In [9]:
# Limpeza de snapshots antigos
print("Executando limpeza de snapshots antigos...")

# Manter apenas o √∫ltimo snapshot
cleanup_result = spark.sql("""
    CALL hadoop_catalog.system.expire_snapshots(
        table => 'default.vendas',
        retain_last => 1
    )
""")

print("\nResultado da limpeza:")
cleanup_result.show()

print("Limpeza conclu√≠da! Arquivos antigos foram removidos.")

Executando limpeza de snapshots antigos...

Resultado da limpeza:
+------------------------+-----------------------------------+-----------------------------------+----------------------------+----------------------------+------------------------------+
|deleted_data_files_count|deleted_position_delete_files_count|deleted_equality_delete_files_count|deleted_manifest_files_count|deleted_manifest_lists_count|deleted_statistics_files_count|
+------------------------+-----------------------------------+-----------------------------------+----------------------------+----------------------------+------------------------------+
|                       0|                                  0|                                  0|                           0|                           0|                             0|
+------------------------+-----------------------------------+-----------------------------------+----------------------------+----------------------------+--------------------------

## 9. Verifica√ß√£o Final

Vamos fazer uma verifica√ß√£o final para confirmar que os dados est√£o √≠ntegros e a estrutura foi otimizada.

In [10]:
# Verifica√ß√£o final dos dados
print("=== VERIFICA√á√ÉO FINAL ===")

# Dados ainda est√£o corretos?
print("Dados na tabela:")
spark.sql("SELECT * FROM hadoop_catalog.default.vendas ORDER BY id").show()

# Informa√ß√µes finais dos arquivos
print("\nInforma√ß√µes finais dos arquivos:")
spark.sql("""
    SELECT 
        COUNT(*) as total_files,
        SUM(record_count) as total_records,
        AVG(record_count) as avg_records_per_file,
        ROUND(SUM(file_size_in_bytes) / 1024.0, 2) as total_size_kb,
        ROUND(AVG(file_size_in_bytes) / 1024.0, 2) as avg_file_size_kb
    FROM hadoop_catalog.default.vendas.files
""").show()

# Snapshots restantes
print("\nSnapshots restantes ap√≥s limpeza:")
spark.sql("""
    SELECT 
        snapshot_id,
        committed_at,
        operation
    FROM hadoop_catalog.default.vendas.snapshots 
    ORDER BY committed_at
""").show(truncate=False)

=== VERIFICA√á√ÉO FINAL ===
Dados na tabela:
+---+----------+----------+-----+----------+
| id|   produto|quantidade|preco|data_venda|
+---+----------+----------+-----+----------+
|  1| Produto 1|         2| 10.0|2024-11-01|
|  2| Produto 2|         4| 20.0|2024-11-02|
|  3| Produto 3|         6| 30.0|2024-11-03|
|  4| Produto 4|         8| 40.0|2024-11-04|
|  5| Produto 5|        10| 50.0|2024-11-05|
|  6| Produto 6|        12| 60.0|2024-11-06|
|  7| Produto 7|        14| 70.0|2024-11-07|
|  8| Produto 8|        16| 80.0|2024-11-08|
|  9| Produto 9|        18| 90.0|2024-11-09|
| 10|Produto 10|        20|100.0|2024-11-10|
+---+----------+----------+-----+----------+


Informa√ß√µes finais dos arquivos:
+-----------+-------------+--------------------+-------------+----------------+
|total_files|total_records|avg_records_per_file|total_size_kb|avg_file_size_kb|
+-----------+-------------+--------------------+-------------+----------------+
|          1|           10|                10.0|

## Resumo dos Benef√≠cios da Compacta√ß√£o

### Resultados Demonstrados:

1. **Redu√ß√£o de Arquivos**: De 10 arquivos pequenos para 1 arquivo otimizado
2. **Preserva√ß√£o de Dados**: Todos os registros mantidos intactos
3. **Melhoria de Performance**: Menos overhead de I/O e metadados
4. **Otimiza√ß√£o de Armazenamento**: Melhor compress√£o e utiliza√ß√£o de espa√ßo

### Opera√ß√µes de Manuten√ß√£o Iceberg:

- ‚úÖ **rewrite_data_files**: Compacta√ß√£o de arquivos pequenos
- ‚úÖ **expire_snapshots**: Limpeza de vers√µes antigas
- üîÑ **rewrite_manifests**: Otimiza√ß√£o de manifests
- üîÑ **remove_orphan_files**: Remo√ß√£o de arquivos √≥rf√£os

### Estrat√©gias de Compacta√ß√£o:

1. **Autom√°tica**: Configurar triggers baseados em m√©tricas
2. **Peri√≥dica**: Jobs schedulados (di√°rio, semanal)
3. **Baseada em Eventos**: Ap√≥s grandes cargas de dados
4. **Condicional**: Quando n√∫mero de arquivos excede threshold

### Considera√ß√µes para Produ√ß√£o:

- **Timing**: Executar durante janelas de baixa utiliza√ß√£o
- **Recursos**: Compacta√ß√£o pode ser intensiva em CPU/I/O
- **Monitoramento**: Acompanhar m√©tricas de arquivos e performance
- **Backup**: Manter snapshots cr√≠ticos antes da limpeza
- **Testes**: Validar integridade ap√≥s compacta√ß√£o

### M√©tricas de Monitoramento:

- N√∫mero de arquivos por tabela
- Tamanho m√©dio dos arquivos
- Tempo de execu√ß√£o de queries
- Utiliza√ß√£o de armazenamento
- Frequ√™ncia de compacta√ß√£o necess√°ria