# ü•â Camada Bronze ‚Äî Ingest√£o Open Brewery com Auto Loader

Este notebook implementa a camada **Bronze** da arquitetura **Medallion** no Databricks utilizando:

- Auto Loader (cloudFiles)
- Unity Catalog Volumes
- Delta Lake
- Streaming incremental com checkpoint

O objetivo da Bronze √© armazenar os dados **exatamente como chegam da origem**, sem qualquer transforma√ß√£o.


## üì• Origem dos dados

O Databricks Community Edition n√£o permite chamadas externas para APIs.

Por isso, os dados da Open Brewery API s√£o coletados externamente e enviados para um Volume do Unity Catalog: `/Volumes/bees-teste-jp/default/landing/openbrewery/`

C√≥digo usado para coletar do dados:

```python
import requests
import json

all_data = []
page = 1

while True:
    url = f"https://api.openbrewerydb.org/v1/breweries?page={page}&per_page=200"
    resp = requests.get(url)
    data = resp.json()
    
    if not data:
        break
        
    all_data.extend(data)
    page += 1

print(len(all_data))

with open("breweries_raw.json", "w") as f:
    json.dump(all_data, f)

from google.colab import files
files.download("breweries_raw.json")`
```



Cada execu√ß√£o da API gera um novo arquivo JSON nessa pasta.

Isso simula um cen√°rio real de Data Lake, onde arquivos chegam em uma √°rea de *landing*.



## üöÄ Por que usar Auto Loader?

Em vez de usar `spark.read.json`, utilizamos o **Auto Loader**:

`spark.readStream.format("cloudFiles")`

Vantagens:

- Processa apenas arquivos novos (incremental)
- Mant√©m estado via checkpoint
- Suporta evolu√ß√£o de schema
- Escal√°vel para grandes volumes de arquivos

## üìñ Leitura de JSON com `multiLine=true`

O JSON da Open Brewery vem no formato de **array √∫nico**:

[
  {...},
  {...}
]

O Spark por padr√£o espera **um JSON por linha**.

Por isso utilizamos:

`.option("multiLine", "true")`




## üèóÔ∏è C√≥digo de leitura da Bronze


In [0]:
df_bronze = (
    spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "json")
    .option("multiLine", "true")
    .option("cloudFiles.schemaLocation", "/Volumes/bees-teste-jp/default/checkpoints/openbrewery_schema")
    .load("/Volumes/bees-teste-jp/default/landing/openbrewery/")
)


## üíæ Escrita na tabela Delta Bronze

Os dados s√£o escritos em uma tabela Delta utilizando streaming.

O `checkpointLocation` √© o que garante que:

- O Auto Loader saiba quais arquivos j√° foram ingeridos
- O streaming possa continuar de onde parou

## ‚è±Ô∏è Uso do `trigger(availableNow=True)`

Esse modo executa o streaming como um **batch inteligente**:

- Processa todos os arquivos novos dispon√≠veis
- Finaliza a execu√ß√£o
- Mant√©m o estado salvo no checkpoint

Na pr√≥xima execu√ß√£o, apenas novos arquivos ser√£o lidos.


In [0]:
(df_bronze.writeStream
    .format("delta")
    .option("checkpointLocation", "/Volumes/bees-teste-jp/default/checkpoints/openbrewery_checkpoint")
    .trigger(availableNow=True)
    .toTable("`bees-teste-jp`.default.bronze_openbrewery")
)


In [0]:
%sql
SELECT COUNT(*) FROM `bees-teste-jp`.default.bronze_openbrewery