#  Pipeline Silver ‚Äî Pedidos (Delta Lake)

üë®‚Äçüíª **Autor:** Lucas Sousa Santos Oliveira**  
üéØ **Objetivo:** Refino, padroniza√ß√£o, governan√ßa e **carga incremental robusta** de dados de *Pedidos* para consumo anal√≠tico e downstream (Camada Gold).

---

## üåü O que voc√™ vai encontrar neste README

- **Por que Silver?**: o papel da camada no Data Lakehouse  
- **UPSERT com `MERGE INTO`** (destaque): por que √© mais robusto que `APPEND + deduplica√ß√£o`  
- **CTEs + LEFT JOIN**: legibilidade, organiza√ß√£o e preserva√ß√£o total de pedidos  
- **Documenta√ß√£o (governan√ßa)**: coment√°rios em tabela/colunas para usu√°rios finais  
- **Boas pr√°ticas**: particionamento, Z-ORDER, VACUUM, idempot√™ncia, schema evolution  
- **Exemplos de c√≥digo**: SQL e PySpark prontos para uso

---

## üéØ Miss√£o da Camada Silver

A **Silver** transforma o *raw* da Bronze em dados **limpos, padronizados e governados**, prontos para consumo.  
No caso de *Pedidos*, as entregas-chave s√£o:

- üßπ **Qualidade**: deduplica√ß√£o por `PedidoID`, filtragem de chaves nulas, padroniza√ß√£o de nomes/tipos.  
- üõ° **Governan√ßa**: documenta√ß√£o (coment√°rios), metadados e *lineage* expl√≠citos.  
- üîÅ **Incrementalidade robusta**: **UPSERT com `MERGE INTO`** para atualizar/insertar sem retrabalho.  
- ‚ö° **Performance**: Repartition + `OPTIMIZE ZORDER` + `VACUUM` no Delta Lake.  

---

## üß≠ Vis√£o de Arquitetura

```mermaid
flowchart TD
    A[ü•â Bronze.Pedidos] --> B[üßπ Limpeza & Padroniza√ß√£o via CTEs]
    B --> C[üîó LEFT JOIN com Estabelecimentos]
    C --> D[üß† Enriquecimento & Metadados]
    D --> E[üîÅ MERGE INTO Silver (UPSERT)]
    E --> F[üõ° Coment√°rios e Cat√°logo / Metastore]
    F --> G[‚öôÔ∏è OPTIMIZE + Z-ORDER + VACUUM]
    G --> H[ü•á Pronto para Gold & BI]
```

---

## üîÅ Por que **MERGE INTO (UPSERT)** √© superior ao `APPEND + deduplica√ß√£o`?

| Crit√©rio                     | `APPEND + deduplica√ß√£o posterior`                 | **MERGE INTO (UPSERT)** üöÄ |
|-----------------------------|---------------------------------------------------|----------------------------|
| **Consist√™ncia**            | Risco de *races* e duplicatas tempor√°rias         | **ACID**: insere/atualiza at√¥mico |
| **Custo de processamento**  | Dedup a cada execu√ß√£o aumenta custo                | Processa somente mudan√ßas   |
| **Simplicidade**            | Fluxo com m√∫ltiplas etapas de corre√ß√£o            | Uma √∫nica opera√ß√£o declarativa |
| **Idempot√™ncia**            | Dif√≠cil de garantir em reprocessos                | Nativamente idempotente     |
| **Escalabilidade**          | Degrada com volume                                | Escala melhor               |

> **Conclus√£o**: `MERGE INTO` √© a abordagem **profissional** para cargas incrementais no Delta Lake.

---

## üß© CTEs + LEFT JOIN (legibilidade e preserva√ß√£o de pedidos)

**CTEs** (Common Table Expressions) tornam o pipeline **mais leg√≠vel e modular**.  
O **LEFT JOIN** garante que **todos os pedidos da Bronze** sejam preservados **mesmo sem correspond√™ncia** na dimens√£o/estabelecimentos (campos do estabelecimento ficam nulos).

```sql
-- üëá Exemplo SQL completo usando CTEs + LEFT JOIN e MERGE INTO (UPSERT)

WITH bronze_pedidos AS (
  SELECT
    PedidoID,
    EstabelecimentoID,
    Produto,
    CAST(quantidade_vendida AS INT) AS QuantidadeVendida,
    CAST(Preco_Unitario AS DECIMAL(18,2)) AS PrecoUnitario,
    CAST(data_venda AS DATE)            AS DataVenda,
    data_ingestao
  FROM delta.`dbfs:/FileStore/Ampev/tables/bronze/pedidos`
  WHERE PedidoID IS NOT NULL AND TRIM(PedidoID) != ''
),

bronze_estabelecimentos AS (
  SELECT
    EstabelecimentoID,
    Nome   AS NomeEstabelecimento,
    Local  AS LocalEstabelecimento
  FROM delta.`dbfs:/FileStore/Ampev/tables/bronze/estabelecimentos`
),

pedidos_enriquecidos AS (
  SELECT
    p.PedidoID,
    p.EstabelecimentoID,
    p.Produto,
    p.QuantidadeVendida,
    p.PrecoUnitario,
    p.DataVenda,
    e.NomeEstabelecimento,
    e.LocalEstabelecimento,
    current_timestamp() AS data_processamento
  FROM bronze_pedidos p
  LEFT JOIN bronze_estabelecimentos e
    ON p.EstabelecimentoID = e.EstabelecimentoID     -- LEFT JOIN preserva todos os pedidos
)

MERGE INTO silver.pedidos AS tgt
USING pedidos_enriquecidos AS src
ON tgt.PedidoID = src.PedidoID
WHEN MATCHED THEN UPDATE SET
  tgt.EstabelecimentoID   = src.EstabelecimentoID,
  tgt.Produto             = src.Produto,
  tgt.QuantidadeVendida   = src.QuantidadeVendida,
  tgt.PrecoUnitario       = src.PrecoUnitario,
  tgt.DataVenda           = src.DataVenda,
  tgt.NomeEstabelecimento = src.NomeEstabelecimento,
  tgt.LocalEstabelecimento= src.LocalEstabelecimento,
  tgt.data_processamento  = src.data_processamento
WHEN NOT MATCHED THEN INSERT *
;
```

> ‚úÖ *Boas pr√°ticas aplicadas*: CTEs nomeadas, *typing* expl√≠cito, enriquecimento controlado, **UPSERT transacional**.

---

## üóíÔ∏è Governan√ßa: **Documenta√ß√£o com Coment√°rios** (Tabela & Colunas)

Documentar a tabela e suas colunas √© **crucial** para analistas e cientistas de dados entenderem **origem, prop√≥sito e estrutura**.  
Use **coment√°rios** diretamente no cat√°logo (Metastore).

```sql
-- Cria√ß√£o (ou garantia) da tabela Silver com coment√°rios completos
CREATE TABLE IF NOT EXISTS silver.pedidos (
  PedidoID              STRING  COMMENT 'Identificador √∫nico do pedido (chave de neg√≥cio)',
  EstabelecimentoID     STRING  COMMENT 'Chave do estabelecimento de origem do pedido',
  Produto               STRING  COMMENT 'Descri√ß√£o do produto vendido',
  QuantidadeVendida     INT     COMMENT 'Quantidade de itens vendidos no pedido',
  PrecoUnitario         DECIMAL(18,2) COMMENT 'Pre√ßo unit√°rio do produto (BRL)',
  DataVenda             DATE    COMMENT 'Data da venda no fuso padr√£o do Lakehouse',
  NomeEstabelecimento   STRING  COMMENT 'Nome do estabelecimento associado (pode ser nulo)',
  LocalEstabelecimento  STRING  COMMENT 'Localiza√ß√£o do estabelecimento (pode ser nulo)',
  data_processamento    TIMESTAMP COMMENT 'Timestamp do processamento na Silver (auditoria)'
)
USING DELTA
LOCATION 'dbfs:/FileStore/Ampev/tables/silver/pedidos'
COMMENT 'Fato de Pedidos (Silver): dados limpos, padronizados, documentados e prontos para consumo anal√≠tico.'
TBLPROPERTIES (
  'quality' = 'silver',
  'owner'   = 'dados@empresa.com',
  'pii'     = 'false'
);

-- Exemplo de documenta√ß√£o adicional (quando a tabela j√° existe)
COMMENT ON TABLE silver.pedidos IS 'Fato de Pedidos (Silver) ‚Äî refinado a partir da Bronze, com UPSERT via MERGE.';
COMMENT ON COLUMN silver.pedidos.QuantidadeVendida IS 'Quantidade de itens; sempre inteiro >= 0';
```

> üß≠ **Dica**: `DESCRIBE EXTENDED silver.pedidos` exibe os coment√°rios no Metastore.

---

## üß™ PySpark (equivalente) ‚Äî leitura, enriquecimento e UPSERT

```python
from pyspark.sql.functions import current_timestamp, col
from delta.tables import DeltaTable

bronze_pedidos = spark.read.format("delta").load("dbfs:/FileStore/Ampev/tables/bronze/pedidos")
bronze_estabs  = spark.read.format("delta").load("dbfs:/FileStore/Ampev/tables/bronze/estabelecimentos")

# Limpeza/typing b√°sico
bronze_pedidos = (
    bronze_pedidos
      .dropDuplicates(["PedidoID"])
      .filter("PedidoID IS NOT NULL AND TRIM(PedidoID) != ''")
      .withColumn("QuantidadeVendida", col("quantidade_vendida").cast("int"))
      .withColumn("PrecoUnitario", col("Preco_Unitario").cast("decimal(18,2)"))
      .withColumnRenamed("data_venda", "DataVenda")
      .select("PedidoID","EstabelecimentoID","Produto","QuantidadeVendida","PrecoUnitario","DataVenda")
)

# LEFT JOIN para preservar todos os pedidos
enriquecido = (
    bronze_pedidos.alias("p")
    .join(bronze_estabs.selectExpr(
        "EstabelecimentoID",
        "Nome as NomeEstabelecimento",
        "Local as LocalEstabelecimento"
    ).alias("e"), on=col("p.EstabelecimentoID")==col("e.EstabelecimentoID"), how="left")
    .withColumn("data_processamento", current_timestamp())
)

silver_path = "dbfs:/FileStore/Ampev/tables/silver/pedidos"
if DeltaTable.isDeltaTable(spark, silver_path):
    tgt = DeltaTable.forPath(spark, silver_path)
    (tgt.alias("tgt")
        .merge(enriquecido.alias("src"), "tgt.PedidoID = src.PedidoID")
        .whenMatchedUpdateAll()
        .whenNotMatchedInsertAll()
        .execute())
else:
    (enriquecido.write.format("delta")
        .option("mergeSchema", "true")
        .mode("overwrite")
        .save(silver_path))
```

---

## ‚öôÔ∏è Otimiza√ß√£o & Manuten√ß√£o (Delta Lake)

```sql
OPTIMIZE silver.pedidos ZORDER BY (PedidoID);
VACUUM silver.pedidos RETAIN 168 HOURS;
```

- `OPTIMIZE + ZORDER`: melhora leitura por `PedidoID` (arquivos compactados & localizar r√°pido).  
- `VACUUM`: remove arquivos √≥rf√£os; reduz custo; mant√©m hist√≥rico controlado.

---

## ‚úÖ Checklist de *Production-Readiness*

- [x] **UPSERT transacional** com `MERGE INTO` (idempot√™ncia e ACID)  
- [x] **CTEs + LEFT JOIN** para legibilidade e preserva√ß√£o total de pedidos  
- [x] **Documenta√ß√£o**: coment√°rios em tabela/colunas no cat√°logo  
- [x] **Schema evolution** habilitado (`mergeSchema`)  
- [x] **Particionamento & Repartition** para escrita/consulta eficientes  
- [x] **OPTIMIZE + ZORDER + VACUUM** aplicados  
- [x] **Pronto para Gold/BI** com sem√¢ntica clara e governan√ßa

---

## üß† Conclus√£o

Este pipeline Silver evidencia **senioridade de engenharia de dados**:  
- Utiliza **MERGE INTO (UPSERT)** como estrat√©gia **profissional** de incrementalidade.  
- Aplica **CTEs e LEFT JOIN** para modularidade e **preserva√ß√£o total** da base de pedidos.  
- Implementa **governan√ßa de dados** com **coment√°rios** e metadados √∫teis a usu√°rios finais.  
- Garante **performance** e **custo-efici√™ncia** com *Delta Lake best practices*.  

> **Resultado**: dados **limpos, documentados e prontos** para an√°lises de alto impacto na camada Gold.