# üì• Pipeline de Ingest√£o CDC - Upcell

Este notebook implementa o pipeline de ingest√£o de dados CDC (Change Data Capture) do S3 para o Bronze no Databricks.

## üéØ Objetivo
- **Full-load**: Carga inicial completa das tabelas
- **CDC**: Ingest√£o incremental com opera√ß√µes Insert, Update e Delete
- **Delta Lake**: Merge at√¥mico na camada Bronze

## üìã Requisitos
- Tabelas no S3: `s3://meudatalake-raw/upcell/`
- Cat√°logo: `bronze.upcell`
- Coluna de controle: `DtAtualizacao` (presente em todos os arquivos)

In [0]:
import delta

## 1Ô∏è‚É£ Importa√ß√µes e Setup

In [0]:
spark.catalog.clearCache()

In [0]:
# Teste: Visualizar arquivos CDC dispon√≠veis
df_test = spark.read.format("parquet").load(f"/Volumes/raw/upcell/cdc/transacoes/")
print(f"Total de registros CDC: {df_test.count()}")
print(f"Colunas: {df_test.columns}")
display(df_test.limit(5))

In [0]:
def table_exists(catalog, database, table):
    count = (spark.sql(f"SHOW TABLES IN `{catalog}`.`{database}`")
               .filter(f"database = '{database}' AND tableName = '{table}'")
               .count())
    return count == 1

In [0]:
catalog = "bronze"
schema = "upcell"
tablename = "transacoes"
id_field = "IdTransacao"
timefield = "DtAtualizacao"

## 2Ô∏è‚É£ Configura√ß√£o da Tabela

Defina a tabela que ser√° processada e os campos de controle.

In [0]:
# Carga inicial: Cria tabela Delta a partir do full-load
if not table_exists(catalog, schema, tablename):
    print(f"‚ö†Ô∏è  Tabela {catalog}.{schema}.{tablename} N√ÉO existe. Criando a partir do full-load...")

    # L√™ full-load (j√° tem DtAtualizacao!)
    df_full = spark.read.format("parquet").load(f"/Volumes/raw/upcell/full-load/{tablename}")
    
    print(f"üìä Total de registros no full-load: {df_full.count():,}")

    # Cria tabela Delta
    (df_full.coalesce(1)
            .write
            .format("delta")
            .mode("overwrite")
            .saveAsTable(f"{catalog}.{schema}.{tablename}"))
    
    print(f"‚úÖ Tabela {catalog}.{schema}.{tablename} criada com sucesso!")
    
else:
    print(f"‚úÖ Tabela {catalog}.{schema}.{tablename} j√° existe. Pular para o CDC merge.")

## 3Ô∏è‚É£ Full-Load (Carga Inicial)

Se a tabela n√£o existe, cria a partir dos dados de full-load.

In [0]:
# Processa CDC: Deduplica e pega apenas o registro mais recente por chave
print("üì• Carregando dados CDC...")

(spark.read
    .format("parquet")
    .load(f"/Volumes/raw/upcell/cdc/{tablename}")
    .createOrReplaceTempView(f"view_{tablename}"))

# Query para pegar apenas o √∫ltimo registro de cada chave
query = f"""
    SELECT *  
    FROM view_{tablename}
    QUALIFY ROW_NUMBER() OVER(PARTITION BY {id_field} ORDER BY {timefield} DESC) = 1
"""

df_cdc_unique = spark.sql(query)

print(f"üìä Total de registros CDC √∫nicos: {df_cdc_unique.count():,}")
print(f"üìã Opera√ß√µes no CDC:")
df_cdc_unique.groupBy("op").count().display()

print("\nüîç Sample de registros CDC:")
df_cdc_unique.display()

## 4Ô∏è‚É£ Processamento CDC

Carrega arquivos CDC, deduplica e prepara para o merge.

In [0]:
bronze = delta.DeltaTable.forName(spark, f"{catalog}.{schema}.{tablename}")
bronze


In [0]:
# üìä ANTES DO MERGE: Captura estat√≠sticas atuais
print("=" * 60)
print("üìä ESTAT√çSTICAS ANTES DO MERGE")
print("=" * 60)

# Contagem total antes
count_before = spark.sql(f"SELECT COUNT(*) as total FROM {catalog}.{schema}.{tablename}").collect()[0]['total']
print(f"\n‚úÖ Total de registros ANTES: {count_before:,}")

# Detalhes da tabela antes
details_before = spark.sql(f"DESCRIBE DETAIL {catalog}.{schema}.{tablename}").select("numFiles", "sizeInBytes").collect()[0]
print(f"üìÅ Arquivos: {details_before['numFiles']}")
print(f"üíæ Tamanho: {details_before['sizeInBytes']:,} bytes ({details_before['sizeInBytes'] / (1024*1024):.2f} MB)")

# √öltima atualiza√ß√£o antes
last_update_before = spark.sql(f"""
    SELECT MAX(DtAtualizacao) as ultima_atualizacao 
    FROM {catalog}.{schema}.{tablename}
""").collect()[0]['ultima_atualizacao']
print(f"üïê √öltima atualiza√ß√£o: {last_update_before}")

print("\n" + "=" * 60)

In [0]:
# Merge CDC na tabela Delta Bronze
print("üîÑ Executando merge CDC na tabela Bronze...")

bronze = delta.DeltaTable.forName(spark, f"{catalog}.{schema}.{tablename}")

(bronze.alias("b") 
  .merge(df_cdc_unique.alias("d"), f"b.{id_field} = d.{id_field}") 
  .whenMatchedDelete(condition = "d.op = 'D'")           # Delete se op = 'D'
  .whenMatchedUpdateAll(condition = "d.op = 'U'")        # Update se op = 'U'
  .whenNotMatchedInsertAll(condition = "d.op = 'I'")     # Insert se op = 'I'
  .execute()
)

print("‚úÖ Merge CDC executado com sucesso!")

# üìä DEPOIS DO MERGE: Captura estat√≠sticas atualizadas
print("\n" + "=" * 60)
print("üìä ESTAT√çSTICAS DEPOIS DO MERGE")
print("=" * 60)

# Contagem total depois
count_after = spark.sql(f"SELECT COUNT(*) as total FROM {catalog}.{schema}.{tablename}").collect()[0]['total']
print(f"\n‚úÖ Total de registros DEPOIS: {count_after:,}")

# Detalhes da tabela depois
details_after = spark.sql(f"DESCRIBE DETAIL {catalog}.{schema}.{tablename}").select("numFiles", "sizeInBytes").collect()[0]
print(f"üìÅ Arquivos: {details_after['numFiles']}")
print(f"üíæ Tamanho: {details_after['sizeInBytes']:,} bytes ({details_after['sizeInBytes'] / (1024*1024):.2f} MB)")

# √öltima atualiza√ß√£o depois
last_update_after = spark.sql(f"""
    SELECT MAX(DtAtualizacao) as ultima_atualizacao 
    FROM {catalog}.{schema}.{tablename}
""").collect()[0]['ultima_atualizacao']
print(f"üïê √öltima atualiza√ß√£o: {last_update_after}")

# üîÑ COMPARA√á√ÉO: Calcula diferen√ßas
print("\n" + "=" * 60)
print("üîÑ COMPARA√á√ÉO: ANTES vs DEPOIS")
print("=" * 60)

diff_records = count_after - count_before
diff_size = details_after['sizeInBytes'] - details_before['sizeInBytes']
diff_files = details_after['numFiles'] - details_before['numFiles']

print(f"\nüìä Diferen√ßa de registros: {diff_records:+,} ({'+' if diff_records >= 0 else ''}{(diff_records/count_before*100):.2f}%)")
print(f"üíæ Diferen√ßa de tamanho: {diff_size:+,} bytes ({diff_size / (1024*1024):+.2f} MB)")
print(f"üìÅ Diferen√ßa de arquivos: {diff_files:+}")

print("\n" + "=" * 60)

## 5Ô∏è‚É£ Merge CDC na Tabela Delta

Aplica as opera√ß√µes de Insert, Update e Delete na camada Bronze.

In [0]:
# Valida√ß√£o 1: Contagem total de registros
total = spark.sql(f"SELECT COUNT(*) as total FROM {catalog}.{schema}.{tablename}").collect()[0]['total']
print(f"üìä Total de registros na tabela Bronze: {total:,}")

# Valida√ß√£o 2: Verificar se DtAtualizacao est√° presente
sample = spark.sql(f"SELECT * FROM {catalog}.{schema}.{tablename} LIMIT 5")
print(f"\n‚úÖ Colunas da tabela: {sample.columns}")
sample.display()

In [0]:
# Valida√ß√£o 3: Verificar hist√≥rico de vers√µes Delta
print("üìú Hist√≥rico de vers√µes da tabela Delta:\n")
spark.sql(f"DESCRIBE HISTORY {catalog}.{schema}.{tablename}").select(
    "version", 
    "timestamp", 
    "operation", 
    "operationMetrics"
).display()

In [0]:
display(
    spark.sql(
        """
        SELECT 
            DATE(DtAtualizacao) as data_atualizacao,
            COUNT(*) as total_registros,
            MIN(DtAtualizacao) as primeira_atualizacao,
            MAX(DtAtualizacao) as ultima_atualizacao
        FROM bronze.upcell.transacao_produto
        GROUP BY DATE(DtAtualizacao)
        ORDER BY data_atualizacao DESC
        """
    )
)

### üéØ Pr√≥ximos Passos:

1. **Executar para outras tabelas**: Altere a vari√°vel `tablename` para processar:
   - `clientes`
   - `produtos`
   - `transacoes`

2. **Agendar execu√ß√£o**: Configure um Job no Databricks para rodar periodicamente

3. **Otimizar tabela**: Execute `OPTIMIZE` e `VACUUM` periodicamente:
   ```sql
   OPTIMIZE bronze.upcell.transacao_produto;
   VACUUM bronze.upcell.transacao_produto RETAIN 168 HOURS;
   ```

4. **Monitorar**: Use `DESCRIBE HISTORY` para acompanhar vers√µes

## 6Ô∏è‚É£ Valida√ß√£o Final

Consulta a tabela Bronze para validar os dados.

---

## üìö Refer√™ncia: Opera√ß√µes CDC

| Opera√ß√£o | C√≥digo | Descri√ß√£o | A√ß√£o no Merge |
|----------|--------|-----------|---------------|
| **Insert** | `I` | Novo registro | `whenNotMatchedInsertAll()` |
| **Update** | `U` | Registro atualizado | `whenMatchedUpdateAll()` |
| **Delete** | `D` | Registro deletado | `whenMatchedDelete()` |

### üîç Como Funciona o QUALIFY:

```sql
QUALIFY ROW_NUMBER() OVER(PARTITION BY {id_field} ORDER BY {timefield} DESC) = 1
```

- **PARTITION BY**: Agrupa por chave prim√°ria
- **ORDER BY DESC**: Ordena pelo timestamp (mais recente primeiro)
- **ROW_NUMBER() = 1**: Pega apenas o registro mais recente de cada chave

### ‚úÖ Checklist de Valida√ß√£o:

- [ ] Full-load executado com sucesso
- [ ] CDC processado sem erros
- [ ] Merge aplicado corretamente
- [ ] Contagem de registros confere
- [ ] Coluna `DtAtualizacao` presente em todos os registros