# üìò Documenta√ß√£o da Camada Bronze ‚Äì Notebook de Ingest√£o

Este notebook realiza a **extra√ß√£o de dados do banco PostgreSQL** hospedado no Azure e grava as tabelas na **camada Bronze** do Data Lake em formato Delta. Abaixo est√£o as a√ß√µes executadas:

---

## üîπ Configura√ß√£o da Conex√£o
- Defini√ß√£o da **URL JDBC** para conex√£o com o banco PostgreSQL (`jdbc:postgresql://.../vendas?sslmode=require`).  
- Cria√ß√£o de um dicion√°rio `connection_properties` contendo:
  - Usu√°rio (`user`)  
  - Senha (`password`)  
  - Driver (`org.postgresql.Driver`)  

---

## üîπ Extra√ß√£o de Dados (Leitura via Spark)
Foram extra√≠das as seguintes tabelas do schema `public` no PostgreSQL:

- **Clientes** ‚Üí `df_clientes`  
- **Produtos** ‚Üí `df_produtos`  
- **Pedidos** ‚Üí `df_pedido`  
- **Itens_Pedido** ‚Üí `df_itens_pedido`  

Cada DataFrame foi exibido com `display()` para valida√ß√£o.

---

## üîπ Persist√™ncia na Camada Bronze
Os DataFrames foram gravados em formato **Delta** na camada Bronze, utilizando `.write.format("delta").mode("append").saveAsTable(...)`.

- `df_clientes` ‚Üí `bronze.vendas_clientes`  
- `df_produtos` ‚Üí `bronze.vendas_produtos`  
- `df_pedido` ‚Üí `bronze.vendas_pedidos`  
- `df_itens_pedido` ‚Üí `bronze.vendas_itens__pedidos`  

---

## üéØ Objetivo da Camada Bronze
- Armazenar os dados **brutos** vindos do sistema transacional (PostgreSQL).  
- Garantir **persist√™ncia confi√°vel** em formato Delta para futuras transforma√ß√µes.  
- Servir como base para a constru√ß√£o das camadas **Silver** e **Gold** dentro da arquitetura **Medallion**.  


In [0]:
jdbc_url = (
    "jdbc:postgresql://azuremaniezzijp.postgres.database.azure.com:5432/vendas"
    "?sslmode=require"
)

# OBSERVA√á√ÉO : NA URL SEMPRE LEMBRE DE COLOCAR O BANCO DE DADOS NO FINAL DA URL

connection_properties = {
    "user": "PgAdminJp",
    "password": "Morango99*",
    "driver": "org.postgresql.Driver"
}






In [0]:

# Extraindo tabela Clientes do banco postgres


df_clientes = spark.read.jdbc(
    url=jdbc_url,
    table="public.clientes",
    properties=connection_properties
)

display(df_clientes)


# Extraindo tabela Produtos do banco postgres

df_produtos = spark.read.jdbc(
    url=jdbc_url,
    table="public.produtos",
    properties=connection_properties
)

display(df_produtos)



# Extraindo tabela Pedidos do banco postgres

df_pedido = spark.read.jdbc(
    url=jdbc_url,
    table="public.pedido",
    properties=connection_properties
)


display(df_pedido)

# Extraindo tabela Itens_Pedidos do banco postgres

df_itens_pedido = spark.read.jdbc(
    url=jdbc_url,
    table="public.itens_pedido",
    properties=connection_properties
)

display(df_itens_pedido)

df_clientes.write \
    .format("delta") \
    .mode("append") \
    .saveAsTable("bronze.vendas_clientes")


df_produtos.write \
    .format("delta") \
    .mode("append") \
    .saveAsTable("bronze.vendas_produtos")


df_pedido.write \
    .format("delta") \
    .mode("append") \
    .saveAsTable("bronze.vendas_pedidos")


df_itens_pedido.write \
    .format("delta") \
    .mode("append") \
    .saveAsTable("bronze.vendas_itens__pedidos")






# Auditoria de Cargas na Camada Bronze

## Objetivo
Este notebook implementa um mecanismo de **auditoria** para rastrear cargas de dados na camada Bronze da arquitetura Medallion.

## ‚öôÔ∏è Funcionamento
- Ap√≥s cada ingest√£o de tabela (Clientes, Produtos, Pedidos, Itens_Pedido), o notebook cria registros de auditoria.  
- Cada registro cont√©m:
  - **tabela**: nome da tabela carregada.  
  - **ingestion_time**: data e hora da carga.  
  - **destino**: nome da tabela Bronze onde os dados foram gravados.  

## Implementa√ß√£o
- Usa `datetime.now()` para capturar o hor√°rio da ingest√£o.  
- Cria uma lista de `Row` com os metadados de cada carga.  
- Converte em um DataFrame Spark (`audit_df`).  
- Grava os registros na tabela **`bronze.audit_log`** em formato Delta, com `.mode("append")` para manter o hist√≥rico.




In [0]:
from datetime import datetime
from pyspark.sql import Row

# Cria log de auditoria
log_data = [
    Row(
        tabela="clientes",
        ingestion_time=datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
        destino="bronze.vendas_clientes"
    ),
    Row(
        tabela="produtos",
        ingestion_time=datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
        destino="bronze.vendas_produtos"
    ),
    Row(
        tabela="pedido",
        ingestion_time=datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
        destino="bronze.vendas_pedidos"
    ),
    Row(
        tabela="itens_pedido",
        ingestion_time=datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
        destino="bronze.vendas_itens__pedidos"
    )
]

audit_df = spark.createDataFrame(log_data)

audit_df.write \
    .format("delta") \
    .mode("append") \
    .saveAsTable("bronze.audit_log")
