# ü•à Camada Silver: Refino e Padroniza√ß√£o

Nesta etapa, transformamos os dados brutos da camada **Bronze** em uma tabela otimizada e confi√°vel. O objetivo √© garantir que os dados estejam limpos, tipados e prontos para o consumo anal√≠tico.

### üõ†Ô∏è Transforma√ß√µes Aplicadas:
* **üßπ Limpeza e Padroniza√ß√£o**: Remo√ß√£o de espa√ßos em branco com `TRIM()` e normaliza√ß√£o dos tipos de cervejaria para letras min√∫sculas com `LOWER()`.
* **üìê Tipagem Forte (Casting)**: Convers√£o de IDs para `STRING` e coordenadas geogr√°ficas para `DOUBLE` para garantir precis√£o nos c√°lculos.
* **üõ°Ô∏è Qualidade de Dados**: Implementa√ß√£o de filtros para garantir que registros sem identificador √∫nico (`id`) n√£o sigam no pipeline.
* **üìç Localiza√ß√£o**: Uso de `COALESCE()` para garantir que a coluna de estado/prov√≠ncia nunca seja nula, facilitando o agrupamento posterior.

In [0]:
USE CATALOG `bees-teste-jp`;
USE SCHEMA default;

In [0]:
CREATE OR REPLACE TEMPORARY VIEW vw_openbrewery_silver_prep AS
SELECT 
    CAST(id AS STRING) AS brewery_id,
    TRIM(name) AS name,
    LOWER(brewery_type) AS brewery_type,
    city,
    COALESCE(state_province, 'Unknown') AS state_province, 
    country,
    CAST(longitude AS DOUBLE) AS longitude,
    CAST(latitude AS DOUBLE) AS latitude,
    from_utc_timestamp(current_timestamp(), 'America/Sao_Paulo') AS updated_at
FROM bronze_openbrewery
WHERE id IS NOT NULL;

# üìÇ Persist√™ncia e Resili√™ncia do Pipeline

Para atender aos requisitos do Arquiteto, a camada Silver utiliza o formato **Delta Lake** (colunar) e uma estrat√©gia de carga inteligente.

### üíé Diferenciais da Implementa√ß√£o:
* **üìå Particionamento**: A tabela √© fisicamente particionada por `state_province`, otimizando a performance de consultas por localiza√ß√£o.
* **üîÑ Idempot√™ncia com MERGE**: Utilizamos a opera√ß√£o de `MERGE` em vez de um simples `INSERT`. Isso garante que o pipeline possa ser reexecutado sem duplicar dados em caso de falhas.
* **üîç Deduplica√ß√£o**: Atrav√©s da fun√ß√£o `ROW_NUMBER()`, garantimos que apenas a vers√£o mais recente de cada registro seja persistida na tabela final.
* **‚è±Ô∏è Auditoria**: Inclus√£o de um timestamp de atualiza√ß√£o (`updated_at`) para monitorar o frescor dos dados.

In [0]:
CREATE TABLE IF NOT EXISTS silver_openbrewery (
    brewery_id STRING,
    name STRING,
    brewery_type STRING,
    city STRING,
    state_province STRING,
    country STRING,
    longitude DOUBLE,
    latitude DOUBLE,
    updated_at TIMESTAMP
)
USING DELTA
PARTITIONED BY (state_province);

MERGE INTO silver_openbrewery AS target
USING (
    SELECT * FROM (
        SELECT *, ROW_NUMBER() OVER(PARTITION BY brewery_id ORDER BY updated_at DESC) as rn
        FROM vw_openbrewery_silver_prep
    ) WHERE rn = 1
) AS source
ON target.brewery_id = source.brewery_id

WHEN MATCHED THEN
  UPDATE SET 
    target.name = source.name,
    target.brewery_type = source.brewery_type,
    target.city = source.city,
    target.state_province = source.state_province,
    target.country = source.country,
    target.longitude = source.longitude,
    target.latitude = source.latitude,
    target.updated_at = source.updated_at

WHEN NOT MATCHED THEN
  INSERT (
    brewery_id, 
    name, 
    brewery_type, 
    city, 
    state_province, 
    country, 
    longitude, 
    latitude, 
    updated_at
  )
  VALUES (
    source.brewery_id, 
    source.name, 
    source.brewery_type, 
    source.city, 
    source.state_province, 
    source.country, 
    source.longitude, 
    source.latitude, 
    source.updated_at
  );