A ideia √© criar um pipeline **realista**, mas did√°tico ‚Äî com **camadas Bronze ‚Üí Silver ‚Üí Gold (Fato e Dimens√£o)** ‚Äî usando **Databricks + Spark**.

## üíæ 1Ô∏è‚É£ Cen√°rio proposto

Vamos simular uma pipeline de **vendas de e-commerce** ‚Äî um cl√°ssico e √≥timo exemplo para aprendizado.

**Fonte (arquivo de entrada):**

* Um arquivo CSV de **pedidos de compra** contendo transa√ß√µes brutas exportadas do sistema de vendas.

### üßæ Exemplo de arquivo (`orders_raw.csv`)

| order_id | order_date | customer_id | product_id | quantity | unit_price | country   | payment_method | status    |
| -------- | ---------- | ----------- | ---------- | -------- | ---------- | --------- | -------------- | --------- |
| 1001     | 2024-05-10 | C001        | P001       | 2        | 150.00     | Brazil    | Credit Card    | Delivered |
| 1002     | 2024-05-11 | C002        | P002       | 1        | 80.00      | Argentina | PIX            | Cancelled |
| 1003     | 2024-05-11 | C001        | P003       | 3        | 50.00      | Brazil    | Credit Card    | Delivered |
| 1004     | 2024-05-12 | C003        | P001       | 1        | 150.00     | Chile     | Debit Card     | Delivered |

## ‚öôÔ∏è 2Ô∏è‚É£ Objetivos da Pipeline

| Camada     | Objetivo                 | Descri√ß√£o                                                                       |
| ---------- | ------------------------ | ------------------------------------------------------------------------------- |
| **Bronze** | Ingest√£o                 | Ingerir o arquivo *raw*, armazenar sem transforma√ß√£o (data lake).               |
| **Silver** | Limpeza e enriquecimento | Tratar nulos, tipos, normalizar pa√≠ses, calcular `total_price`.                 |
| **Gold**   | Modelagem dimensional    | Criar tabelas **Dimens√£o** (Cliente, Produto, Tempo, Pa√≠s) e **Fato** (Vendas). |

## üß± 3Ô∏è‚É£ Estrutura de pastas no Data Lake

```
/mnt/datalake/
    ‚îú‚îÄ‚îÄ bronze/
    ‚îÇ     ‚îî‚îÄ‚îÄ orders/
    ‚îú‚îÄ‚îÄ silver/
    ‚îÇ     ‚îî‚îÄ‚îÄ orders_clean/
    ‚îî‚îÄ‚îÄ gold/
          ‚îú‚îÄ‚îÄ dim_customer/
          ‚îú‚îÄ‚îÄ dim_product/
          ‚îú‚îÄ‚îÄ dim_date/
          ‚îú‚îÄ‚îÄ dim_country/
          ‚îî‚îÄ‚îÄ fact_sales/
```

## üí° 4Ô∏è‚É£ Transforma√ß√µes esperadas

### üî∏ Bronze

* Leitura direta do CSV.
* Armazenar em formato **Delta** (`bronze.orders`).

```python
df_bronze = (
    spark.read.option("header", True)
    .csv("/mnt/raw/orders_raw.csv")
)
df_bronze.write.format("delta").mode("overwrite").save("/mnt/datalake/bronze/orders")
```

### üî∏ Silver

Limpezas e enriquecimentos:

* Converter tipos (`quantity` ‚Üí int, `unit_price` ‚Üí float).
* Normalizar `country` e `status`.
* Criar campo `total_price = quantity * unit_price`.
* Filtrar apenas `status = 'Delivered'`.

```python
from pyspark.sql.functions import col, upper, trim, when

df_silver = (
    df_bronze
    .withColumn("quantity", col("quantity").cast("int"))
    .withColumn("unit_price", col("unit_price").cast("double"))
    .withColumn("total_price", col("quantity") * col("unit_price"))
    .withColumn("country", trim(upper(col("country"))))
    .filter(col("status") == "Delivered")
)
df_silver.write.format("delta").mode("overwrite").save("/mnt/datalake/silver/orders_clean")
```

## üß© 5Ô∏è‚É£ Modelagem Dimensional (Camada Gold)

### üéØ Fato e Dimens√µes

| Tabela          | Chave        | Descri√ß√£o               |
| --------------- | ------------ | ----------------------- |
| **Fato_Vendas** | `sk_venda`   | M√©tricas das transa√ß√µes |
| **Dim_Cliente** | `sk_cliente` | Clientes √∫nicos         |
| **Dim_Produto** | `sk_produto` | Produtos √∫nicos         |
| **Dim_Tempo**   | `sk_data`    | Datas de venda          |
| **Dim_Pais**    | `sk_pais`    | Pa√≠ses padronizados     |

---

### üßÆ Dimens√µes

#### üßç Dim_Cliente

| Campo       | Tipo   |
| ----------- | ------ |
| sk_cliente  | INT    |
| customer_id | STRING |

#### üì¶ Dim_Produto

| Campo      | Tipo   |
| ---------- | ------ |
| sk_produto | INT    |
| product_id | STRING |
| unit_price | DOUBLE |

#### üìÖ Dim_Tempo

| Campo      | Tipo |
| ---------- | ---- |
| sk_data    | INT  |
| order_date | DATE |
| ano        | INT  |
| mes        | INT  |
| dia        | INT  |

#### üåé Dim_Pais

| Campo   | Tipo   |
| ------- | ------ |
| sk_pais | INT    |
| country | STRING |

---

### üí∞ Fato_Vendas

| Campo       | Tipo   | Descri√ß√£o   |
| ----------- | ------ | ----------- |
| sk_venda    | INT    | PK          |
| sk_cliente  | INT    | FK cliente  |
| sk_produto  | INT    | FK produto  |
| sk_data     | INT    | FK data     |
| sk_pais     | INT    | FK pa√≠s     |
| quantity    | INT    | Quantidade  |
| total_price | DOUBLE | Valor total |

## ü™Ñ 6Ô∏è‚É£ C√≥digo exemplo - Cria√ß√£o das dimens√µes e fato

```python
from pyspark.sql.functions import monotonically_increasing_id, year, month, dayofmonth

# Carregar camada Silver
df_silver = spark.read.format("delta").load("/mnt/datalake/silver/orders_clean")

# Dimens√µes
dim_cliente = df_silver.select("customer_id").distinct().withColumn("sk_cliente", monotonically_increasing_id())
dim_produto = df_silver.select("product_id", "unit_price").distinct().withColumn("sk_produto", monotonically_increasing_id())
dim_pais = df_silver.select("country").distinct().withColumn("sk_pais", monotonically_increasing_id())
dim_data = (
    df_silver.select("order_date")
    .distinct()
    .withColumn("ano", year("order_date"))
    .withColumn("mes", month("order_date"))
    .withColumn("dia", dayofmonth("order_date"))
    .withColumn("sk_data", monotonically_increasing_id())
)

# Fato
df_fact = (
    df_silver
    .join(dim_cliente, "customer_id", "left")
    .join(dim_produto, ["product_id", "unit_price"], "left")
    .join(dim_pais, "country", "left")
    .join(dim_data, "order_date", "left")
    .select(
        "sk_cliente", "sk_produto", "sk_pais", "sk_data",
        "quantity", "total_price"
    )
)

# Escrita Gold
dim_cliente.write.format("delta").mode("overwrite").save("/mnt/datalake/gold/dim_customer")
dim_produto.write.format("delta").mode("overwrite").save("/mnt/datalake/gold/dim_product")
dim_pais.write.format("delta").mode("overwrite").save("/mnt/datalake/gold/dim_country")
dim_data.write.format("delta").mode("overwrite").save("/mnt/datalake/gold/dim_date")
df_fact.write.format("delta").mode("overwrite").save("/mnt/datalake/gold/fact_sales")
```

## ‚úÖ 7Ô∏è‚É£ Poss√≠veis Requisitos Extras

Voc√™ pode adicionar para deixar o projeto mais completo:

| Tipo                   | Requisito                                                    |
| ---------------------- | ------------------------------------------------------------ |
| **Qualidade de dados** | Implementar checagem de nulos e logs de rejei√ß√£o             |
| **Particionamento**    | `partitionBy("ano","mes")` em tabelas gold                   |
| **Agendamento**        | Executar via **Job do Databricks** diariamente               |
| **Monitoramento**      | Criar uma tabela de controle de ingest√£o (`metadata_ingest`) |
| **Alertas**            | Enviar erro no Slack/Teams quando a ingest√£o falhar          |
