# üéØ Configura√ß√£o de Trigger: File Arrival (Chegada de Arquivo)

Este notebook demonstra como configurar um **Lakeflow Job** com trigger do tipo **File Arrival** para ingest√£o autom√°tica quando novos arquivos chegam no volume.

## üìã Objetivo

Criar um job que executa automaticamente a ingest√£o de `claims*.csv` sempre que um novo arquivo √© detectado no diret√≥rio `/Volumes/{catalog}/00_landing/sql_server/`.

## üîÑ Fluxo do Trigger File Arrival

1. **Monitoramento**: O Lakeflow Jobs monitora o diret√≥rio especificado
2. **Detec√ß√£o**: Quando um novo arquivo `claims*.csv` √© adicionado ao volume
3. **Disparo**: O job √© automaticamente executado
4. **Processamento**: O script `ingestion_claim.py` processa todos os arquivos `claims*.csv`

## üìù Pr√©-requisitos

- ‚úÖ Cat√°logo e schemas criados
- ‚úÖ Volume `00_landing` configurado
- ‚úÖ Script `ingestion_claim.py` dispon√≠vel em `source_to_bronze/`


## üõ†Ô∏è Passo 1: Criar o Job no Lakeflow Jobs

1. Acesse **Lakeflow Jobs** no menu lateral do Databricks
2. Clique em **Create Job**
3. Configure o nome: `ingestion_claims_file_arrival`
4. Adicione uma **Task** do tipo **Python Script**


## üìÇ Passo 2: Configurar a Task

### Configura√ß√µes da Task:

**Task Name:** `ingest_claims`

**Task Type:** `Python script`

**Source:** `Workspace file`
- Caminho: `/Workspace/Users/{seu_usuario}/trilha_databricks/aula_05/source_to_bronze/ingestion_claim.py`
- Ou use: `File path` e navegue at√© o arquivo

**Parameters (Task Variables):**
- `catalog` = `smart_claims_dev`
- `schema` = `01_bronze`


## ‚ö° Passo 3: Configurar o Trigger File Arrival

### No painel de configura√ß√£o do Job:

1. V√° para a se√ß√£o **Triggers**
2. Clique em **Add trigger**
3. Selecione **File arrival**

### Configura√ß√µes do Trigger:

**Trigger Type:** `File arrival`

**Path to monitor:** 
```
/Volumes/smart_claims_dev/00_landing/sql_server/
```

**File pattern:** 
```
claims*.csv
```

**Wait for completion:** 
- ‚úÖ Marque esta op√ß√£o se quiser que o job aguarde a conclus√£o antes de processar novos arquivos
- √ötil para evitar execu√ß√µes concorrentes

**Min time between triggers (seconds):**
- Exemplo: `60` (aguarda 60 segundos entre execu√ß√µes)
- Evita m√∫ltiplas execu√ß√µes se v√°rios arquivos chegarem ao mesmo tempo


## üß™ Passo 4: Testar o Trigger

### Simular chegada de arquivo:

Execute o c√≥digo abaixo para simular a adi√ß√£o de um novo arquivo no volume:


In [None]:
# Simular chegada de novo arquivo
# Este c√≥digo cria um arquivo CSV de teste no volume

import os
from datetime import datetime

catalog = "smart_claims_dev"
volume_path = f"/Volumes/{catalog}/00_landing/sql_server/"

# Criar um arquivo de teste com timestamp
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
test_file = f"{volume_path}claims_test_{timestamp}.csv"

# Exemplo de dados de teste
test_data = """claim_no,policy_no,claim_date,months_as_customer,injury,property,vehicle,total
TEST001,POL001,2024-01-15,12,0,1000,5000,6000"""

# Escrever arquivo (simula chegada de novo arquivo)
with open(test_file, "w") as f:
    f.write(test_data)

print(f"‚úÖ Arquivo de teste criado: {test_file}")
print(f"üìä O job deve ser disparado automaticamente em alguns segundos!")
print(f"üîç Verifique o status do job em: Lakeflow Jobs > ingestion_claims_file_arrival")


## üìä Passo 5: Monitorar Execu√ß√µes

### Verificar execu√ß√µes do job:

1. Acesse **Lakeflow Jobs** > `ingestion_claims_file_arrival`
2. Veja o hist√≥rico de execu√ß√µes na aba **Runs**
3. Cada execu√ß√£o mostra:
   - **Trigger:** File arrival
   - **Arquivo detectado:** Nome do arquivo que disparou o job
   - **Status:** Success, Failed, ou Running
   - **Tempo de execu√ß√£o**

### Verificar logs:

- Clique em uma execu√ß√£o para ver logs detalhados
- Verifique se todos os arquivos `claims*.csv` foram processados
- Confirme que a tabela `smart_claims_dev.01_bronze.claims` foi atualizada


## ‚úÖ Vantagens do Trigger File Arrival

- ‚úÖ **Automa√ß√£o completa**: N√£o precisa executar manualmente
- ‚úÖ **Tempo real**: Processa dados assim que chegam
- ‚úÖ **Efici√™ncia**: S√≥ executa quando h√° novos arquivos
- ‚úÖ **Confiabilidade**: Evita perda de dados por atraso no processamento

## ‚ö†Ô∏è Considera√ß√µes Importantes

- O trigger monitora o diret√≥rio continuamente
- M√∫ltiplos arquivos podem disparar m√∫ltiplas execu√ß√µes
- Use `Min time between triggers` para evitar sobrecarga
- O padr√£o glob `claims*.csv` processa TODOS os arquivos correspondentes a cada execu√ß√£o
