## 📐 Gerar Diagrama Entidade-Relacionamento (DER) com dbdiagram.io

### Passo a passo:
1. Acesse o site: [https://dbdiagram.io](https://dbdiagram.io)
2. Clique em **"New Diagram"** ou faça login se necessário.
3. No editor da esquerda, cole o seguinte código em formato **DBML**.
4. O diagrama será gerado automaticamente na área à direita.
5. Você pode exportar como imagem ou compartilhar com sua turma.

👇 **Código DBML para colar no dbdiagram.io:**

## 🗂️ Modelo Relacional em DBML (dbdiagram.io)

```dbml
Table Clientes {
  id_cliente int [pk]
  nome varchar
  email varchar
}

Table TipoProdutos {
  id_tipo int [pk]
  descricao varchar
}

Table Produtos {
  id_produto int [pk]
  nome varchar
  preco decimal
  id_tipo int [ref: > TipoProdutos.id_tipo, unique]
}

Table Pedidos {
  id_pedido int [pk]
  data_pedido date
  id_cliente int [ref: > Clientes.id_cliente]
}

Table ItensPedido {
  id_pedido int [ref: > Pedidos.id_pedido]
  id_produto int [ref: > Produtos.id_produto]
  quantidade int
  indexes {
    (id_pedido, id_produto) [pk]
  }
}


## 🖼️ Diagrama Entidade-Relacionamento (DER)

Abaixo está o diagrama visual gerado com base nas tabelas definidas:

![DER Relacional](der-relacional.png)


## 🏗️ Modelo Dimensional em DBML – Diagrama DW (dimensões e fato)

```dbml
Table dim_cliente {
  id_cliente int [pk]
  nome varchar
  idade int
  cidade varchar
}

Table dim_produto {
  id_produto int [pk]
  nome_produto varchar
  categoria varchar
  preco decimal
}

Table fato_pedidos {
  id_pedido int [pk]
  id_cliente int [ref: > dim_cliente.id_cliente]
  id_produto int [ref: > dim_produto.id_produto]
  data_pedido date
  quantidade int
  valor_total decimal
}

Table dim_data {
  id_data int [pk]
  data date
  ano int
  mes int
  dia int
  dia_semana varchar
  nome_mes varchar
}

Table dim_regiao {
  id_regiao int [pk]
  nome_regiao varchar
  estado varchar
  cidade varchar
}


## 🖼️ Diagrama Entidade-Relacionamento (DER)

Abaixo está o diagrama visual gerado com base nas tabelas definidas:

![DER Relacional](der-dw.png)

# 📘 Passo a Passo: Configuração do PostgreSQL na AWS RDS

## 1. Criar instância RDS com PostgreSQL (Free Tier)

1. Acesse o console AWS → [https://console.aws.amazon.com/rds/](https://console.aws.amazon.com/rds/)
2. Clique em **Criar banco de dados**
3. Selecione:
   - **Tipo de banco:** PostgreSQL
   - **Modelo de uso:** Free Tier
   - **Versão:** PostgreSQL 15 (ou mais recente)
   - **Identificador da instância:** `bd-relacional`
   - **Usuário:** `postgres`
   - **Senha:** crie uma senha segura
4. Tipo de instância: `db.t3.micro`
5. Armazenamento: 20 GB (SSD General Purpose)
6. **Acesso público:** Habilitado (Sim)
7. Clique em **Criar banco de dados**

## 2. Liberar o IP na VPC / Grupo de Segurança (Security Group)

1. Vá para **EC2 > Grupos de Segurança**
2. Encontre o grupo associado à instância RDS
3. Clique em **Editar regras de entrada**
4. Adicione uma nova regra:
   - Tipo: `PostgreSQL`
   - Porta: `5432`
   - Origem: `Seu IP` (ou `0.0.0.0/0` temporariamente para teste – cuidado com isso em produção)
5. Salve as alterações.

✅ Agora o acesso externo ao banco estará liberado para seu IP.

## 3. Copie o Endpoint da RDS

1. Volte ao RDS > Banco de dados > `bd-relacional`
2. Copie o valor do campo **Endpoint** (algo como `bd-relacional.xxxxxx.us-east-1.rds.amazonaws.com`)
3. Use esse endpoint no notebook para se conectar com o PostgreSQL

# Aula Prática – Banco Relacional

In [None]:
#Instalar bibliotecas necessarias

%pip install sqlalchemy psycopg2-binary pandas

In [None]:
# Usando versão binária para evitar erros de compilação
import pandas as pd
from sqlalchemy import create_engine, text


## Conectando ao PostgreSQL (RDS ou local)

In [None]:
# substitua pelos seus dados
usuario = "postgres"
senha = "Fiap#2025"
host = "postgres-db.cu4mvwwdzs1u.us-east-1.rds.amazonaws.com"
porta = 5432
banco = "db_relacional"

# Cria a engine de conexão
engine = create_engine(f"postgresql+psycopg2://{usuario}:{senha}@{host}:{porta}/{banco}")


In [None]:
def test_connection(engine):
    try:
        with engine.connect() as connection:
            # Testa a versão do PostgreSQL
            result = connection.execute(text("SELECT version();"))
            versao = result.fetchone()
            print("✅ Conectado com sucesso:", versao[0])

            # Lista as tabelas no schema público
            result = connection.execute(text("""
                SELECT table_name
                FROM information_schema.tables
                WHERE table_schema = 'public';
            """))
            tabelas = result.fetchall()
            print("📄 Tabelas no banco:")
            for tabela in tabelas:
                print("  -", tabela[0])

    except Exception as e:
        print("❌ Erro ao executar comandos:", e)


In [None]:
test_connection(engine)

## Criação do Modelo Relacional (Clientes, Produtos, Tipos, Pedidos, Itens)

In [None]:
# Lista de comandos individuais
ddl_commands = [
    """
    CREATE TABLE IF NOT EXISTS tipos_produto (
      id_tipo SERIAL PRIMARY KEY,
      nome_tipo VARCHAR(50) NOT NULL
    );
    """,
    """
    CREATE TABLE IF NOT EXISTS produtos (
      id_produto SERIAL PRIMARY KEY,
      nome_produto VARCHAR(100) NOT NULL,
      preco DECIMAL(10,2) NOT NULL,
      id_tipo INT REFERENCES tipos_produto(id_tipo)
    );
    """,
    """
    CREATE TABLE IF NOT EXISTS clientes (
      id_cliente SERIAL PRIMARY KEY,
      nome VARCHAR(100) NOT NULL,
      email VARCHAR(100),
      telefone VARCHAR(20), 
      cidade VARCHAR(100) NOT NULL, 
      estado VARCHAR(2) NOT NULL
    );
    """,
    """
    CREATE TABLE IF NOT EXISTS pedidos (
      id_pedido SERIAL PRIMARY KEY,
      data_pedido DATE NOT NULL,
      status VARCHAR(20) NOT NULL,
      id_cliente INT NOT NULL REFERENCES clientes(id_cliente)
    );
    """,
    """
    CREATE TABLE IF NOT EXISTS itens_pedido (
    id_item SERIAL PRIMARY KEY,
    id_pedido INT NOT NULL,
    id_produto INT NOT NULL,
    quantidade INT NOT NULL,
    preco_unitario DECIMAL(10,2) NOT NULL,
    CONSTRAINT fk_pedido FOREIGN KEY (id_pedido) REFERENCES pedidos(id_pedido) ON DELETE CASCADE,
    CONSTRAINT fk_produto FOREIGN KEY (id_produto) REFERENCES produtos(id_produto) ON DELETE CASCADE
    );

    """
]

# Executar comandos um a um
with engine.begin() as conn:
    for cmd in ddl_commands:
        conn.execute(text(cmd))

print("✅ Tabelas criadas com sucesso!")


In [None]:
with engine.connect() as conn:
    result = conn.execute(text("SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';"))
    for row in result:
        print(row[0])

## 🔍 1. Verificar Chaves Primárias

In [None]:
df_pks = pd.read_sql_query("""
SELECT 
    kcu.table_schema,
    kcu.table_name,
    kcu.column_name,
    tc.constraint_name
FROM information_schema.table_constraints tc
JOIN information_schema.key_column_usage kcu
  ON tc.constraint_name = kcu.constraint_name
WHERE tc.constraint_type = 'PRIMARY KEY'
  AND kcu.table_schema = 'public';
""", con=engine)

df_pks.head(10)


## 🔗 2. Verificar Chaves Estrangeiras e Relacionamentos

In [None]:
df_fks = pd.read_sql_query("""
SELECT 
    tc.table_name AS tabela_origem,
    kcu.column_name AS coluna_origem,
    ccu.table_name AS tabela_referenciada,
    ccu.column_name AS coluna_referenciada
FROM information_schema.table_constraints AS tc
JOIN information_schema.key_column_usage AS kcu
  ON tc.constraint_name = kcu.constraint_name
JOIN information_schema.constraint_column_usage AS ccu
  ON ccu.constraint_name = tc.constraint_name
WHERE tc.constraint_type = 'FOREIGN KEY'
  AND tc.table_schema = 'public';
""", con=engine)

df_fks.head()


## ✅ Consulta combinada (visão geral dos relacionamentos)



In [None]:
df_relacionamentos = pd.read_sql_query("""
SELECT 
  tc.constraint_name,
  tc.table_name AS origem,
  kcu.column_name AS coluna_origem,
  ccu.table_name AS destino,
  ccu.column_name AS coluna_destino
FROM information_schema.table_constraints AS tc
JOIN information_schema.key_column_usage AS kcu
  ON tc.constraint_name = kcu.constraint_name
JOIN information_schema.constraint_column_usage AS ccu
  ON ccu.constraint_name = tc.constraint_name
WHERE tc.constraint_type = 'FOREIGN KEY'
ORDER BY origem;
""", con=engine)

df_relacionamentos.head()


## Inserção de dados simulados

In [None]:
insert_script = """

-- Tipos de produto
INSERT INTO TipoProdutos (descricao) VALUES 
('Medicamento'), ('Suplemento') 
ON CONFLICT DO NOTHING;

-- Produtos
INSERT INTO Produtos (nome, preco, id_tipo) VALUES 
('Paracetamol', 19.99, 1),
('Vitamina C', 29.99, 2) 
ON CONFLICT DO NOTHING;

-- Clientes
INSERT INTO Clientes (nome, email) VALUES 
('Carlos Silva', 'carlos@email.com'),
('Ana Souza', 'ana@email.com') 
ON CONFLICT DO NOTHING;

-- Pedidos
INSERT INTO Pedidos (data_pedido, id_cliente) VALUES 
('2025-06-01', 1),
('2025-06-02', 2) 
ON CONFLICT DO NOTHING;

-- Itens de pedido
INSERT INTO ItensPedido (id_pedido, id_produto, quantidade) VALUES 
(1, 1, 2),
(1, 2, 1),
(2, 2, 3)
ON CONFLICT DO NOTHING;
"""

# Executar os inserts via SQLAlchemy
with engine.connect() as connection:
    connection.execute(text(insert_script))
    print("✅ Dados inseridos com sucesso (com proteção contra duplicatas).")


In [None]:
# 2. Lista de arquivos a serem executados (ordem importa por causa das FKs)
sql_files = [
    "sql/aula4/clientes.sql",
    "sql/aula4/tipos_produto.sql",
    "sql/aula4/produtos.sql",
    "sql/aula4/pedidos.sql",
    "sql/aula4/itens_pedido.sql"
]

# 3. Executar cada arquivo SQL
with engine.begin() as conn:
    for file_path in sql_files:
        with open(file_path, "r", encoding="utf-8") as file:
            sql_content = file.read()
            conn.execute(text(sql_content))
            print(f"✅ Executado: {file_path.split('/')[-1]}")

## Consulta com JOIN para análise de vendas

In [None]:
df = pd.read_sql_query("""
SELECT 
  c.nome AS cliente,
  p.data_pedido,
  pr.nome AS produto,
  pr.preco,
  t.descricao AS tipo_produto,
  ip.quantidade,
  (pr.preco * ip.quantidade) AS total_venda
FROM ItensPedido ip
JOIN Pedidos p ON ip.id_pedido = p.id_pedido
JOIN Clientes c ON p.id_cliente = c.id_cliente
JOIN Produtos pr ON ip.id_produto = pr.id_produto
JOIN TipoProdutos t ON pr.id_tipo = t.id_tipo;
""", con=engine)

df.head()


## Geração de Dashboard com Plotly

In [None]:
import plotly.express as px

fig = px.bar(df, x="cliente", y="total_venda", color="produto", 
             title="Total de Vendas por Cliente e Produto")
fig.show()


## ✅ Script para deletar todas as tabelas (com SQLAlchemy)

Script SQL completo para deletar todas as tabelas na ordem correta, respeitando os relacionamentos (constraints).

---

### 🧠 Observações importantes:

  - O `CASCADE` garante que todas as dependências (FKs) sejam eliminadas junto com a tabela.**
  - Para deletar o banco de dados, você precisa:**
  - Estar conectado a outro banco, como `postgres`.
  - Ter permissões de superusuário ou ser o dono do banco.


In [None]:
drop_script = """
DROP TABLE IF EXISTS itens_pedido CASCADE;
DROP TABLE IF EXISTS pedidos CASCADE;
DROP TABLE IF EXISTS produtos CASCADE;
DROP TABLE IF EXISTS clientes CASCADE;
DROP TABLE IF EXISTS tipos_produto CASCADE;
"""

# Forma correta de usar raw_connection
conn = engine.raw_connection()
try:
    cursor = conn.cursor()
    cursor.execute(drop_script)
    conn.commit()
    print("🗑️ Todas as tabelas foram deletadas com sucesso.")
finally:
    cursor.close()
    conn.close()


## Encerrando conexão do Banco de Dados

In [None]:
cursor.close()
conn.close()

# Aula Prática – Data Warehouse e Data Lake na AWS

![DW](arq-dw.png)

### 🔹 Modelo Dimensional (Star Schema)

🧱 Criação das Tabelas Dimensão e Fato

In [None]:
from sqlalchemy import text

ddl_dim_fato = """
-- Criação das tabelas do modelo dimensional

CREATE TABLE IF NOT EXISTS dim_cliente (
  id_cliente INT PRIMARY KEY,
  nome VARCHAR(100),
  idade INT,
  cidade VARCHAR(100)
);

CREATE TABLE IF NOT EXISTS dim_produto (
  id_produto INT PRIMARY KEY,
  nome_produto VARCHAR(100),
  categoria VARCHAR(50),
  preco DECIMAL(10,2)
);

CREATE TABLE IF NOT EXISTS fato_pedidos (
  id_pedido INT PRIMARY KEY,
  id_cliente INT REFERENCES dim_cliente(id_cliente),
  id_produto INT REFERENCES dim_produto(id_produto),
  data_pedido DATE,
  quantidade INT,
  valor_total DECIMAL(10,2)
);
"""

# Executar criação e inserção
with engine.connect() as connection:
    connection.execute(text(ddl_dim_fato))
    print("✅ Tabelas dimensionais criadas com sucesso!")


✅ Inserção na tabela dimensão

In [None]:
inserts_dim = """
-- Inserção nas tabelas de dimensão

INSERT INTO dim_cliente VALUES
(1, 'Carlos Silva', 35, 'São Paulo'),
(2, 'Ana Souza', 28, 'Rio de Janeiro'),
(3, 'Marcos Lima', 42, 'Belo Horizonte')
ON CONFLICT (id_cliente) DO NOTHING;

INSERT INTO dim_produto VALUES
(1001, 'Vitamina C', 'Suplementos', 29.99),
(1002, 'Paracetamol', 'Medicamentos', 19.99),
(1003, 'Protetor Solar', 'Beleza', 39.99)
ON CONFLICT (id_produto) DO NOTHING;
"""

# Executar criação e inserção
with engine.connect() as connection:
    connection.execute(text(inserts_dim))
    print("✅ Tabelas dimensionais populadas com sucesso!")

⚠️ Obs. importante: o uso de ON CONFLICT (id_cliente) DO NOTHING exige que os campos estejam marcados como PRIMARY KEY (o que já está), garantindo que a inserção seja idempotente.

✅ Inserção na tabela fato_pedidos

In [None]:
insert_fato = """
INSERT INTO fato_pedidos VALUES
(101, 1, 1001, '2025-02-10', 2, 59.98),
(102, 2, 1002, '2025-02-11', 1, 19.99),
(103, 3, 1003, '2025-02-12', 3, 119.97)
ON CONFLICT (id_pedido) DO NOTHING;
"""

with engine.connect() as connection:
    connection.execute(text(insert_fato))
    print("✅ Fatos inseridos com sucesso na tabela fato_pedidos.")

✅ Notas:

O ON CONFLICT (id_pedido) DO NOTHING garante que o script pode ser executado mais de uma vez sem erro, evitando duplicidade.

Certifique-se de que a tabela fato_pedidos já existe e está corretamente relacionada às tabelas dim_cliente e dim_produto.

### 🧠 Observação sobre ItensPedido no Modelo Dimensional

No modelo dimensional (**Data Warehouse**), não é obrigatório manter tabelas como `ItensPedido` — que são comuns no modelo relacional — porque as **tabelas fato já são desenhadas para representar os eventos de negócio com a granularidade desejada**.

Ou seja, no DW é comum que a tabela fato (`fato_pedidos`) já registre diretamente cada produto comprado em um pedido, eliminando a necessidade de uma tabela intermediária como no modelo relacional.


### 🎯 O que muda no DW (Data Warehouse)

---

#### ✅ No modelo relacional (OLTP):

Você tem:

- `Pedidos`: representa o pedido (cabeçalho)
- `ItensPedido`: representa cada produto do pedido (detalhe)
- `Produtos`: catálogo dos itens

🔁 Relacionamento **N:M** → precisa da tabela intermediária `ItensPedido`

---

#### ✅ No modelo dimensional (DW/OLAP):

Você quer analisar **fatos (eventos)** como:

- Vendas realizadas
- Produtos vendidos
- Clientes que compraram
- Datas de pedidos

➡️ Nesse caso, você cria uma **tabela fato com granularidade de item**, ou seja:  
**cada linha da `fato_pedidos` representa uma combinação de produto + pedido + cliente.**

✔️ Ou seja, a tabela `fato_pedidos` **já incorpora o papel da `ItensPedido`**.

---

### 🔄 Comparando OLTP vs DW

| Modelo Relacional (OLTP)    | Modelo Dimensional (DW)                   |
|-----------------------------|-------------------------------------------|
| `Pedidos` + `ItensPedido`   | `fato_pedidos` com granularidade de item  |
| `Produtos`, `Clientes`      | `dim_produto`, `dim_cliente`              |
| Normalização (3FN)          | Desnormalização controlada                |
| Evita redundância           | Otimiza performance de leitura            |

---

### 🧠 Conclusão:

Você **não precisa da `ItensPedido` no DW**.

A tabela `fato_pedidos`, com colunas como `id_cliente`, `id_produto`, `data_pedido`, `quantidade` e `valor_total`, **já representa cada item comprado de forma analítica e otimizada para consulta.**


# 💧 Introdução ao Data Lake

O **Data Lake** é uma arquitetura de armazenamento de dados que permite armazenar grandes volumes de dados em seus formatos brutos e variados — estruturados, semi-estruturados e não estruturados — de forma centralizada, escalável e econômica.

Diferente de um Data Warehouse, que exige esquemas bem definidos no momento da ingestão (schema-on-write), o Data Lake adota o paradigma **schema-on-read**, permitindo maior flexibilidade para cientistas de dados, engenheiros e analistas explorarem os dados conforme suas necessidades.

---

## ✅ Características principais:

- Armazena dados em grande escala, com baixo custo (ex: Amazon S3, Azure Data Lake)
- Suporta dados brutos: JSON, CSV, imagens, vídeos, logs, IoT, entre outros
- Possui camadas lógicas como: **Raw**, **Cleansed**, **Curated**
- Permite múltiplos consumidores de dados (BI, IA, machine learning, APIs)

---

## 🧭 Visão Geral da Arquitetura de um Data Lake

![Arquitetura de Data Lake](ard-dl.png)

---

## 🧠 Benefícios do Data Lake

- Centralização de dados corporativos
- Flexibilidade para armazenar qualquer tipo de dado
- Facilidade de integração com ferramentas analíticas (Spark, Athena, Glue, Databricks)
- Apoio à cultura Data-Driven e democratização do acesso aos dados


## 📦 Formatos de Arquivo em Data Lake e Lakehouse

Em ambientes de dados modernos, o **formato de armazenamento** impacta diretamente o desempenho, compressão, custo e usabilidade dos dados. Abaixo estão os formatos mais comuns usados no contexto de Data Lake e Lakehouse:

---

### 📄 CSV (Comma-Separated Values)

- **Tipo:** Texto plano
- **Características:**
  - Leitura universal (compatível com Excel, pandas, SQL, etc)
  - Fácil de inspecionar visualmente
- **Desvantagens:**
  - Sem compressão nativa
  - Não suporta tipos complexos (array, struct)
  - Consome mais espaço
- **Recomendado para:** ingestão inicial, pequenos conjuntos de dados, exportações simples

---

### 📘 Parquet

- **Tipo:** Colunar, binário
- **Características:**
  - Compactação eficiente
  - Leitura seletiva de colunas (ideal para consultas analíticas)
  - Suporte a esquema e tipos complexos
- **Desvantagens:**
  - Não é legível diretamente por humanos
- **Recomendado para:** Data Lake analítico, tabelas intermediárias no Lakehouse, grandes volumes de dados

---

### 📗 ORC (Optimized Row Columnar)

- **Tipo:** Colunar, binário (muito usado com Hive)
- **Características:**
  - Alta compactação e performance em queries
  - Metadados embutidos no arquivo
- **Desvantagens:**
  - Otimizado principalmente para o ecossistema Hadoop (Hive, Impala)
- **Recomendado para:** ambientes Hadoop, grandes volumes em clusters Hive

---

### 💠 Delta (Delta Lake Format)

- **Tipo:** Extensão do Parquet com controle de transações (ACID)
- **Características:**
  - Histórico de versões dos dados
  - Suporte a atualizações, deletes e merge (tipo banco de dados)
  - Compatível com Apache Spark
- **Desvantagens:**
  - Requer engine com suporte a Delta (ex: Spark, Databricks, EMR com Delta)
- **Recomendado para:** Lakehouse, pipelines com camadas Bronze/Silver/Gold, governança e qualidade de dados

---

### ✅ Resumo: Quando usar cada formato

| Formato  | Leitura Humana | Compactação | Tipagem | Transações ACID | Quando Usar                      |
|----------|----------------|-------------|---------|------------------|----------------------------------|
| CSV      | ✅              | ❌          | ❌      | ❌               | Simples, exportações manuais     |
| Parquet  | ❌              | ✅          | ✅      | ❌               | Consultas analíticas, Data Lake  |
| ORC      | ❌              | ✅          | ✅      | ❌               | Hadoop/Hive/Impala               |
| Delta    | ❌              | ✅          | ✅      | ✅               | Lakehouse, atualizações e merges |



## 📦 Formatos de Arquivo em Data Lake e Lakehouse

---

### 🧠 O que é "Tipagem"?

**Tipagem** refere-se à capacidade do formato de arquivo armazenar **tipos de dados estruturados** de forma explícita, como:

- `string`, `integer`, `float`, `boolean`
- e até estruturas complexas como `array`, `map`, `struct`

Formatos com **tipagem forte** permitem leitura otimizada, validação de schema e compatibilidade com engines analíticas como Spark, Hive, Athena, BigQuery.

---

### ✅ Comparativo dos principais formatos

| Formato  | Leitura Humana | Compactação | Tipagem | Suporta ACID | Benefícios Principais                                           | Contras / Limitações                                     |
|----------|----------------|-------------|---------|--------------|------------------------------------------------------------------|-----------------------------------------------------------|
| **CSV**  | ✅ Sim          | ❌ Não       | ❌ Não   | ❌ Não        | Leitura universal, fácil de gerar, visualmente simples          | Sem compressão, sem schema, fácil de quebrar com dados sujos |
| **Parquet** | ❌ Não       | ✅ Alta      | ✅ Sim   | ❌ Não        | Leitura colunar eficiente, ótimo para analytics, compressão forte | Não é legível diretamente, sem suporte a updates          |
| **ORC**  | ❌ Não          | ✅ Alta      | ✅ Sim   | ❌ Não        | Compactação superior, muito usado com Hive                      | Menos compatível fora do ecossistema Hadoop               |
| **Delta** | ❌ Não         | ✅ Alta      | ✅ Sim   | ✅ Sim        | Histórico de versões, suporta UPDATE/DELETE/MERGE, confiável    | Requer engine compatível (Spark, Databricks, EMR)         |

---

### 🎯 Quando usar cada um?

- **CSV**: Ideal para ingestão inicial, exportação manual, integração com Excel e fontes legadas
- **Parquet**: Melhor escolha para Data Lake analítico (consultas com filtros e agregações)
- **ORC**: Ideal em ecossistemas Hadoop com Hive ou Impala
- **Delta**: Formato ideal para arquitetura Lakehouse (Bronze/Silver/Gold), pipelines confiáveis e versionamento de dados

---

### 🔁 Exemplo prático:

- Use **CSV** para uploads manuais e coleta de dados simples.
- Converta para **Parquet** assim que possível para eficiência.
- Evolua para **Delta** se precisar de:
  - Atualizações nos dados
  - Controle de versões
  - Qualidade e governança com ACID


## 💧 Passo a Passo: Implementando com Data Lake e Lakehouse

---

### 🪣 1. Data Lake – Armazenamento bruto no Amazon S3

No Data Lake, armazenamos os arquivos em formato bruto (CSV, JSON, Parquet) em um bucket no Amazon S3, organizando em camadas por pastas.

#### ✅ Exemplo de estrutura de pastas no S3:

s3://meu-datalake/raw/clientes/

s3://meu-datalake/raw/produtos/

s3://meu-datalake/raw/pedidos/


#### ✅ Exemplo de arquivos:

**clientes.csv**
```csv
id_cliente,nome,idade,cidade
1,Carlos Silva,35,São Paulo
2,Ana Souza,28,Rio de Janeiro
3,Marcos Lima,42,Belo Horizonte


**produtos.json**

```json
[
  {
    "id_produto": 1001,
    "nome_produto": "Vitamina C",
    "categoria": "Suplementos",
    "preco": 29.99
  },
  {
    "id_produto": 1002,
    "nome_produto": "Paracetamol",
    "categoria": "Medicamentos",
    "preco": 19.99
  },
  {
    "id_produto": 1003,
    "nome_produto": "Protetor Solar",
    "categoria": "Beleza",
    "preco": 39.99
  }
]


**pedidos.csv**

```csv
id_pedido,id_cliente,id_produto,data_pedido,quantidade,valor_total
101,1,1001,2025-02-10,2,59.98
102,2,1002,2025-02-11,1,19.99
103,3,1003,2025-02-12,3,119.97


## 🔐 Passo a Passo: Configurar Credenciais da AWS Academy

Este guia mostra como configurar corretamente as credenciais temporárias fornecidas pela **AWS Academy** (via Learner Lab) para uso com `boto3` e AWS CLI.

---

### 🧩 Etapa 1 – Acessar o AWS Academy Learner Lab

1. Acesse: [https://lab.awsacademy.com/](https://lab.awsacademy.com/)
2. Faça login com sua conta AWS Academy
3. Inicie o laboratório (por exemplo, *Learner Lab Environment*)
4. Clique em **"AWS Details"** ou **"Show AWS CLI credentials"**

---

### 🔑 Etapa 2 – Copiar as credenciais temporárias

Você verá 3 valores importantes:

```text
AWS_ACCESS_KEY_ID=AKIA...
AWS_SECRET_ACCESS_KEY=abcd1234...
AWS_SESSION_TOKEN=FQoGZXIvYXdzE...
``````

### ⚠️ Essas credenciais expiram em até 4 horas, então devem ser usadas apenas durante a sessão ativa.

## 🪣 Criando Bucket no S3 e Estrutura para Data Lake (AWS Academy)

Este passo a passo mostra como criar um bucket no S3 usando o SDK da AWS (`boto3`) diretamente no notebook, testar a conexão e estruturar pastas para um Data Lake.

---

### ✅ Pré-requisitos

Antes de começar, certifique-se de que:

- A **biblioteca `boto3`** está instalada
- Sua conta AWS Academy está **configurada com `aws configure`**

#### Instalar `boto3` (se necessário)

```bash
pip install boto3


### ✅ 1. Criar o bucket e testar conexão com a AWS


In [None]:
import boto3
from botocore.exceptions import ClientError


# Configuração da sessão AWS
session = boto3.Session(
    aws_access_key_id="ASIA4HYRRT2A467HLD5S",
    aws_secret_access_key="tdt6xTT1AV7l4LGnDsoe/NAko+hkHpLg266g1K17",
    aws_session_token="IQoJb3JpZ2luX2VjENz//////////wEaCXVzLXdlc3QtMiJHMEUCIQCdThcUsa7HqVHAFDncr5NwJX2d/vSdesZxb2K2K7PGFAIgDOGWz5vcIHPHcDY46JHXSpYwzkLgMbQUZ8zM0UJhlNAqvgIItf//////////ARAAGgw4NDEzMTM1MjUzNzciDAUwGTYS5VS0e49ijiqSAv0XP5n/fkyeqVP8hRNQTNea9owYJB73gCyVCBp46x2HTP/9mftVGy9v0RV6XEZ9RC+QUMV1bCEQYi3+WRoA9cQ6j/hyP3ywFpofYJYXjR6NQAQ/x/MQiRjYwvvABt5rgX2G6EWSGaGvvttj8ZmnEbkrQJZM54er7O29MHdKzo3iulJzviFZFsb+L+3BdoDFDqfHkFOY00Z4oBaUaYls/+SGYWYTe09T0eOApFAi7ZRcR0NxkjKJ9OwNmYh9Nomha04pUU0UU1H6qlTN80oic2EbhE0qUJU1ML8MFO/maixaokYv2q9rti7+xsA7brDxaVitQN9/dTFHOXh3DoRXjTMRXArI4tSWZXvstZG498tvddQwnM6ewgY6nQHIFuwIPGiHK/eOREnoAm4wkH1wQxOQFJg3EUXRbHNgFMPcyZ3f9EUekIbPEzWt7qsrhvgI132KHCj83B6eh8HfJvtJXg7uR84mU6phht+M5GPyFWN5AWWeeEprlSEz0AknVsxBWnwrGN/oB5mz2UqfX0doRSfYOPHnP+z8JAveZkDwZ9UvrQNJojrL1dEaXsOVyoOcBq5kXd6DX+ng"
)

# Cria cliente do S3
s3 = session.client("s3")
print(s3.list_buckets())


# Nome do bucket (deve ser único globalmente)
bucket_name = "aula-data-lake"


# Testa a conexão com a conta AWS
try:
    sts = boto3.client("sts")
    identity = sts.get_caller_identity()
    print(f"✅ Conectado à conta AWS: {identity['Account']} com ARN: {identity['Arn']}")
except Exception as e:
    print("❌ Falha ao conectar na conta AWS:", e)

In [None]:
# Tenta criar o bucket
try:
    s3.create_bucket(
        Bucket=bucket_name,
        CreateBucketConfiguration={'LocationConstraint': boto3.session.Session().region_name}
    )
    print(f"✅ Bucket '{bucket_name}' criado com sucesso.")
except ClientError as e:
    if e.response['Error']['Code'] == 'BucketAlreadyOwnedByYou':
        print(f"ℹ️ Bucket '{bucket_name}' já existe e pertence à sua conta.")
    else:
        print("❌ Erro ao criar bucket:", e)

### ✅ 2. Criar pastas (prefixos) para o Data Lake

In [None]:
# Prefixos simulando pastas
pastas = [
    "raw/clientes/.keep",
    "raw/produtos/.keep",
    "raw/pedidos/.keep",
    "bronze/clientes/.keep",
    "bronze/produtos/.keep",
    "bronze/pedidos/.keep",
    "silver/pedidos_enriquecidos/.keep",
    "gold/vendas_por_cidade/.keep"
]

# Enviar arquivos vazios para criar a estrutura
for pasta in pastas:
    s3.put_object(Bucket=bucket_name, Key=pasta, Body=b"")
    print(f"📂 Criado: s3://{bucket_name}/{pasta}")

### 🧪 3. Verificar a estrutura criada no bucket

In [None]:
response = s3.list_objects_v2(Bucket=bucket_name, Prefix="", Delimiter="/")

print("📁 Estrutura inicial do bucket:")
for content in response.get("Contents", []):
    print(" -", content['Key'])


### ✅ Leitura com PySpark (modo Data Lake):

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("LakehouseExample") \
    .getOrCreate()

### ✅ Leitura com PySpark (modo Data Lake):

In [None]:
df_clientes = spark.read.csv("s3://meu-datalake/raw/clientes/", header=True, inferSchema=True)
df_produtos = spark.read.json("s3://meu-datalake/raw/produtos/")
df_pedidos = spark.read.csv("s3://meu-datalake/raw/pedidos/", header=True, inferSchema=True)

### 🏠 Modelo Lakehouse com Camadas Bronze, Silver e Gold

No modelo **Lakehouse**, os dados passam por camadas **Bronze**, **Silver** e **Gold**, com uso do formato **Delta** para garantir **controle de versão** e **transações ACID** (Atomicidade, Consistência, Isolamento e Durabilidade).

Essa estrutura permite combinar a flexibilidade do Data Lake com a governança e a confiabilidade de um Data Warehouse.

---

## ✅ Estrutura no S3 com Delta Lake

```text
s3://meu-lakehouse/bronze/clientes/
s3://meu-lakehouse/bronze/produtos/
s3://meu-lakehouse/bronze/pedidos/

s3://meu-lakehouse/silver/clientes_limpos/
s3://meu-lakehouse/silver/pedidos_enriquecidos/

s3://meu-lakehouse/gold/vendas_por_cidade/

# 🏠 Exemplo de Lakehouse na AWS – Passo a Passo

Este exemplo mostra como implementar um **Lakehouse** com arquitetura de camadas (Bronze, Silver, Gold), utilizando serviços da **AWS** e o formato **Delta Lake**.

---

## 🔧 Ferramentas Utilizadas

| Componente         | Serviço AWS                        |
|--------------------|-------------------------------------|
| Armazenamento      | Amazon S3                           |
| Processamento      | AWS Glue ou Amazon EMR (com Spark)  |
| Consultas SQL      | Amazon Athena (com Apache Iceberg) ou Spark SQL |
| Dashboard          | Amazon QuickSight (ou Streamlit)    |
| Formato dos dados  | Delta Lake (.delta)                 |

---

## 📂 Estrutura de Diretórios no S3 – Lakehouse

Abaixo está a organização recomendada do bucket no Amazon S3 para um Lakehouse com camadas **Bronze**, **Silver** e **Gold**:

```text
s3://meu-lakehouse/
├── bronze/
│   ├── clientes/
│   ├── produtos/
│   └── pedidos/
├── silver/
│   ├── clientes_limpos/
│   ├── pedidos_enriquecidos/
└── gold/
    └── vendas_por_cidade/



---

## ✅ Etapa 1: Ingestão na Camada Bronze

Armazene os dados brutos no S3, diretamente de arquivos CSV, JSON ou APIs externas.




In [None]:
# Exemplo com PySpark
df_clientes = spark.read.csv("s3://origem-dados/clientes.csv", header=True, inferSchema=True)
df_clientes.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/bronze/clientes")

df_produtos = spark.read.json("s3://origem-dados/produtos.json")
df_produtos.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/bronze/produtos")

df_pedidos = spark.read.json("s3://origem-dados/pedidos.csv", header=True, inferSchema=True)
df_pedidos.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/bronze/pedidos")

## ✅ Etapa 2: Transformação na Camada Silver

Nesta camada, os dados são **filtrados, deduplicados e integrados**.  
É onde aplicamos as **regras de negócio** e os **relacionamentos entre dimensões**, como:

- Clientes
- Produtos
- Pedidos

O objetivo da Silver Layer é transformar os dados brutos da Bronze em dados estruturados e prontos para análises mais confiáveis nas camadas analíticas (Gold).


In [None]:
df_bronze_clientes = spark.read.format("delta").load("s3://meu-lakehouse/bronze/clientes")
df_bronze_produtos = spark.read.format("delta").load("s3://meu-lakehouse/bronze/produtos")
df_bronze_pedidos = spark.read.format("delta").load("s3://meu-lakehouse/bronze/pedidos")

df_enriquecido = df_bronze_pedidos \
    .join(df_bronze_clientes, "id_cliente") \
    .join(df_bronze_produtos, "id_produto")

df_enriquecido.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/silver/pedidos_enriquecidos")


## ✅ Etapa 3: Agregação na Camada Gold

Na camada **Gold**, criamos **datasets agregados e otimizados** para consumo analítico.

Essa camada é voltada para ferramentas de BI, dashboards e relatórios executivos, com foco em:

- Performance de leitura
- Agregações pré-processadas
- Estrutura de fácil entendimento por usuários de negócio

Exemplos de uso:

- Vendas por cidade
- Total de pedidos por cliente
- Faturamento por categoria de produto


In [None]:
from pyspark.sql.functions import sum, count

df_gold = df_enriquecido.groupBy("cidade").agg(
    sum("valor_total").alias("vendas_totais"),
    count("id_pedido").alias("qtd_pedidos")
)

df_gold.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/gold/vendas_por_cidade")


## 📊 Etapa 4: Visualização com QuickSight ou Streamlit

---

### 🅰️ QuickSight

- Configure um **Data Catalog** usando o **AWS Glue**.
- Crie uma **tabela externa** apontando para os arquivos `.delta`.
- Importe a tabela `vendas_por_cidade` no QuickSight.
- Crie gráficos interativos e dashboards com base nesses dados.

---

### 🅱️ Streamlit (exemplo simples com Plotly)

In [None]:
import pandas as pd
import plotly.express as px

df = spark.read.format("delta").load("s3://meu-lakehouse/gold/vendas_por_cidade").toPandas()
fig = px.bar(df, x="cidade", y="vendas_totais", title="Vendas por Cidade")
fig.show()

## ✅ Conclusão

A arquitetura **Lakehouse** com camadas **Bronze → Silver → Gold** permite:

- 📂 Organizar os dados por **nível de maturidade**
- 🔄 Realizar **transformações estruturadas e seguras**
- 📜 Suportar **versionamento, auditoria e governança** com Delta Lake
- 🧠 Combinar o melhor do **Data Lake** (flexibilidade) com o **Data Warehouse** (consistência e controle)

Essa abordagem é ideal para pipelines modernos, escaláveis e confiáveis, permitindo análises em tempo real e integração com múltiplas ferramentas de BI.
