# üéØ Configura√ß√£o de Trigger: Table Update (Atualiza√ß√£o de Tabela)

Este notebook demonstra como configurar um **Lakeflow Job** com trigger do tipo **Table Update** para processar automaticamente a camada silver quando a tabela bronze √© atualizada.

## üìã Objetivo

Criar um job que executa automaticamente o pipeline **bronze_to_silver** (deduplica√ß√£o + join) sempre que a tabela `claims` na camada bronze for atualizada.

## üîÑ Fluxo do Trigger Table Update

1. **Monitoramento**: O Lakeflow Jobs monitora a tabela `${catalog}.${schema_bronze}.claims`
2. **Detec√ß√£o**: Quando novos dados s√£o inseridos/atualizados na tabela
3. **Disparo**: O job √© automaticamente executado
4. **Processamento**: 
   - Task 1: Deduplica claims (`01_deduplicate_claims.py`)
   - Task 2: Cria tabela enriched (`02_join_tables_create.sql`)
   - Task 3: Calcula m√©tricas (`03_join_tables_metrics.sql`)
   - Task 4: Mostra amostra (`04_join_tables_sample.sql`)

## üìù Pr√©-requisitos

- ‚úÖ Cat√°logo e schemas criados
- ‚úÖ Tabela `claims` na camada bronze j√° existe
- ‚úÖ Scripts bronze_to_silver dispon√≠veis


## üõ†Ô∏è Passo 1: Criar o Job no Lakeflow Jobs

1. Acesse **Lakeflow Jobs** no menu lateral do Databricks
2. Clique em **Create Job**
3. Configure o nome: `bronze_to_silver_table_update`
4. Adicione **4 Tasks** sequenciais


## üìÇ Passo 2: Configurar as Tasks

### Task 1: Deduplica√ß√£o (Python)

**Task Name:** `deduplicate_claims`

**Task Type:** `Python script`

**Source:** `/Workspace/.../aula_05/bronze_to_silver/01_deduplicate_claims.py`

**Parameters:**
- `catalog` = `smart_claims_dev`
- `schema_bronze` = `01_bronze`
- `schema_silver` = `02_silver`

---

### Task 2: Criar Tabela Enriched (SQL)

**Task Name:** `create_enriched_table`

**Task Type:** `SQL script`

**Source:** `/Workspace/.../aula_05/bronze_to_silver/02_join_tables_create.sql`

**Parameters:**
- `catalog` = `smart_claims_dev`
- `schema_bronze` = `01_bronze`
- `schema_silver` = `02_silver`

**Depends on:** `deduplicate_claims`

---

### Task 3: M√©tricas (SQL)

**Task Name:** `calculate_metrics`

**Task Type:** `SQL script`

**Source:** `/Workspace/.../aula_05/bronze_to_silver/03_join_tables_metrics.sql`

**Parameters:**
- `catalog` = `smart_claims_dev`
- `schema_silver` = `02_silver`

**Depends on:** `create_enriched_table`

---

### Task 4: Amostra (SQL)

**Task Name:** `show_sample`

**Task Type:** `SQL script`

**Source:** `/Workspace/.../aula_05/bronze_to_silver/04_join_tables_sample.sql`

**Parameters:**
- `catalog` = `smart_claims_dev`
- `schema_silver` = `02_silver`

**Depends on:** `create_enriched_table` (pode executar em paralelo com Task 3)


## ‚ö° Passo 3: Configurar o Trigger Table Update

### No painel de configura√ß√£o do Job:

1. V√° para a se√ß√£o **Triggers**
2. Clique em **Add trigger**
3. Selecione **Table update**

### Configura√ß√µes do Trigger:

**Trigger Type:** `Table update`

**Table to monitor:** 
```
smart_claims_dev.01_bronze.claims
```

**Update type:**
- ‚úÖ **INSERT** - Dispara quando novos dados s√£o inseridos
- ‚úÖ **UPDATE** - Dispara quando dados s√£o atualizados
- ‚úÖ **DELETE** - Dispara quando dados s√£o deletados
- (Recomendado: marcar apenas INSERT para este caso)

**Wait for completion:** 
- ‚úÖ Marque esta op√ß√£o para evitar execu√ß√µes concorrentes

**Min time between triggers (seconds):**
- Exemplo: `300` (5 minutos)
- Evita m√∫ltiplas execu√ß√µes se houver muitas atualiza√ß√µes r√°pidas


## üß™ Passo 4: Testar o Trigger

### Simular atualiza√ß√£o da tabela bronze:

Execute o c√≥digo abaixo para inserir novos dados na tabela `claims` e disparar o trigger:


In [None]:
# Simular atualiza√ß√£o da tabela bronze
# Este c√≥digo insere novos dados na tabela claims para disparar o trigger

from pyspark.sql import Row
from datetime import datetime

catalog = "smart_claims_dev"
schema_bronze = "01_bronze"
table = f"{catalog}.{schema_bronze}.claims"

# Criar dados de teste
test_data = [
    Row(
        claim_no=f"TEST_{datetime.now().strftime('%Y%m%d_%H%M%S')}",
        policy_no="POL_TEST_001",
        claim_date="2024-01-15",
        months_as_customer=12,
        injury=0,
        property=1000,
        vehicle=5000,
        total=6000,
        collision_type="Rear-end",
        number_of_vehicles_involved=2,
        age=35,
        insured_relationship="Self",
        license_issue_date="2010-01-01",
        date="2024-01-15",
        hour=14,
        type="Collision",
        severity="Medium",
        number_of_witnesses=1,
        suspicious_activity="No"
    )
]

# Criar DataFrame e inserir na tabela
test_df = spark.createDataFrame(test_data)
test_df.write.mode("append").saveAsTable(table)

print(f"‚úÖ Dados de teste inseridos na tabela: {table}")
print(f"üìä O job deve ser disparado automaticamente em alguns segundos!")
print(f"üîç Verifique o status do job em: Lakeflow Jobs > bronze_to_silver_table_update")


## üìä Passo 5: Monitorar Execu√ß√µes

### Verificar execu√ß√µes do job:

1. Acesse **Lakeflow Jobs** > `bronze_to_silver_table_update`
2. Veja o hist√≥rico de execu√ß√µes na aba **Runs**
3. Cada execu√ß√£o mostra:
   - **Trigger:** Table update
   - **Tabela monitorada:** `smart_claims_dev.01_bronze.claims`
   - **Status de cada task:** Success, Failed, ou Running
   - **Tempo total de execu√ß√£o**

### Verificar resultados:

Execute o c√≥digo abaixo para verificar se os dados foram processados corretamente:


In [None]:
# Verificar se os dados foram processados na camada silver

catalog = "smart_claims_dev"
schema_silver = "02_silver"

# Verificar tabela deduplicada
dedup_table = f"{catalog}.{schema_silver}.claims_dedup"
dedup_count = spark.table(dedup_table).count()
print(f"üìä Total de registros em {dedup_table}: {dedup_count}")

# Verificar tabela enriched
enriched_table = f"{catalog}.{schema_silver}.claims_enriched"
enriched_count = spark.table(enriched_table).count()
print(f"üìä Total de registros em {enriched_table}: {enriched_count}")

# Mostrar amostra
print("\nüîç Amostra dos dados enriched:")
spark.table(enriched_table).select(
    "claim_no", "customer_name", "borough", "MAKE", "MODEL", "claim_total", "severity"
).show(5, truncate=False)


## ‚úÖ Vantagens do Trigger Table Update

- ‚úÖ **Pipeline automatizado**: Bronze ‚Üí Silver executa automaticamente
- ‚úÖ **Sincroniza√ß√£o**: Dados silver sempre atualizados quando bronze muda
- ‚úÖ **Efici√™ncia**: S√≥ executa quando h√° mudan√ßas reais
- ‚úÖ **Confiabilidade**: Evita dados desatualizados na camada silver

## ‚ö†Ô∏è Considera√ß√µes Importantes

- O trigger monitora a tabela continuamente
- M√∫ltiplas atualiza√ß√µes podem disparar m√∫ltiplas execu√ß√µes
- Use `Min time between triggers` para evitar sobrecarga
- Configure depend√™ncias corretas entre tasks
- Considere usar **Delta Live Tables (DLT)** para pipelines mais complexos
