## üìê Gerar Diagrama Entidade-Relacionamento (DER) com dbdiagram.io

### Passo a passo:
1. Acesse o site: [https://dbdiagram.io](https://dbdiagram.io)
2. Clique em **"New Diagram"** ou fa√ßa login se necess√°rio.
3. No editor da esquerda, cole o seguinte c√≥digo em formato **DBML**.
4. O diagrama ser√° gerado automaticamente na √°rea √† direita.
5. Voc√™ pode exportar como imagem ou compartilhar com sua turma.

üëá **C√≥digo DBML para colar no dbdiagram.io:**

## üóÇÔ∏è Modelo Relacional em DBML (dbdiagram.io)

```dbml
Table Clientes {
  id_cliente int [pk]
  nome varchar
  email varchar
}

Table TipoProdutos {
  id_tipo int [pk]
  descricao varchar
}

Table Produtos {
  id_produto int [pk]
  nome varchar
  preco decimal
  id_tipo int [ref: > TipoProdutos.id_tipo, unique]
}

Table Pedidos {
  id_pedido int [pk]
  data_pedido date
  id_cliente int [ref: > Clientes.id_cliente]
}

Table ItensPedido {
  id_pedido int [ref: > Pedidos.id_pedido]
  id_produto int [ref: > Produtos.id_produto]
  quantidade int
  indexes {
    (id_pedido, id_produto) [pk]
  }
}


## üñºÔ∏è Diagrama Entidade-Relacionamento (DER)

Abaixo est√° o diagrama visual gerado com base nas tabelas definidas:

![DER Relacional](der-relacional.png)


## üèóÔ∏è Modelo Dimensional em DBML ‚Äì Diagrama DW (dimens√µes e fato)

```dbml
Table dim_cliente {
  id_cliente int [pk]
  nome varchar
  idade int
  cidade varchar
}

Table dim_produto {
  id_produto int [pk]
  nome_produto varchar
  categoria varchar
  preco decimal
}

Table fato_pedidos {
  id_pedido int [pk]
  id_cliente int [ref: > dim_cliente.id_cliente]
  id_produto int [ref: > dim_produto.id_produto]
  data_pedido date
  quantidade int
  valor_total decimal
}

Table dim_data {
  id_data int [pk]
  data date
  ano int
  mes int
  dia int
  dia_semana varchar
  nome_mes varchar
}

Table dim_regiao {
  id_regiao int [pk]
  nome_regiao varchar
  estado varchar
  cidade varchar
}


## üñºÔ∏è Diagrama Entidade-Relacionamento (DER)

Abaixo est√° o diagrama visual gerado com base nas tabelas definidas:

![DER Relacional](der-dw.png)

# üìò Passo a Passo: Configura√ß√£o do PostgreSQL na AWS RDS

## 1. Criar inst√¢ncia RDS com PostgreSQL (Free Tier)

1. Acesse o console AWS ‚Üí [https://console.aws.amazon.com/rds/](https://console.aws.amazon.com/rds/)
2. Clique em **Criar banco de dados**
3. Selecione:
   - **Tipo de banco:** PostgreSQL
   - **Modelo de uso:** Free Tier
   - **Vers√£o:** PostgreSQL 15 (ou mais recente)
   - **Identificador da inst√¢ncia:** `bd-relacional`
   - **Usu√°rio:** `postgres`
   - **Senha:** crie uma senha segura
4. Tipo de inst√¢ncia: `db.t3.micro`
5. Armazenamento: 20 GB (SSD General Purpose)
6. **Acesso p√∫blico:** Habilitado (Sim)
7. Clique em **Criar banco de dados**

## 2. Liberar o IP na VPC / Grupo de Seguran√ßa (Security Group)

1. V√° para **EC2 > Grupos de Seguran√ßa**
2. Encontre o grupo associado √† inst√¢ncia RDS
3. Clique em **Editar regras de entrada**
4. Adicione uma nova regra:
   - Tipo: `PostgreSQL`
   - Porta: `5432`
   - Origem: `Seu IP` (ou `0.0.0.0/0` temporariamente para teste ‚Äì cuidado com isso em produ√ß√£o)
5. Salve as altera√ß√µes.

‚úÖ Agora o acesso externo ao banco estar√° liberado para seu IP.

## 3. Copie o Endpoint da RDS

1. Volte ao RDS > Banco de dados > `bd-relacional`
2. Copie o valor do campo **Endpoint** (algo como `bd-relacional.xxxxxx.us-east-1.rds.amazonaws.com`)
3. Use esse endpoint no notebook para se conectar com o PostgreSQL

# Aula Pr√°tica ‚Äì Banco Relacional

In [None]:
#Instalar bibliotecas necessarias

%pip install sqlalchemy psycopg2-binary pandas

In [None]:
# Usando vers√£o bin√°ria para evitar erros de compila√ß√£o
import pandas as pd
from sqlalchemy import create_engine, text


## Conectando ao PostgreSQL (RDS ou local)

In [None]:
# substitua pelos seus dados
usuario = "postgres"
senha = "Fiap#2025"
host = "postgres-db.cu4mvwwdzs1u.us-east-1.rds.amazonaws.com"
porta = 5432
banco = "db_relacional"

# Cria a engine de conex√£o
engine = create_engine(f"postgresql+psycopg2://{usuario}:{senha}@{host}:{porta}/{banco}")


In [None]:
def test_connection(engine):
    try:
        with engine.connect() as connection:
            # Testa a vers√£o do PostgreSQL
            result = connection.execute(text("SELECT version();"))
            versao = result.fetchone()
            print("‚úÖ Conectado com sucesso:", versao[0])

            # Lista as tabelas no schema p√∫blico
            result = connection.execute(text("""
                SELECT table_name
                FROM information_schema.tables
                WHERE table_schema = 'public';
            """))
            tabelas = result.fetchall()
            print("üìÑ Tabelas no banco:")
            for tabela in tabelas:
                print("  -", tabela[0])

    except Exception as e:
        print("‚ùå Erro ao executar comandos:", e)


In [None]:
test_connection(engine)

## Cria√ß√£o do Modelo Relacional (Clientes, Produtos, Tipos, Pedidos, Itens)

In [None]:
# Lista de comandos individuais
ddl_commands = [
    """
    CREATE TABLE IF NOT EXISTS tipos_produto (
      id_tipo SERIAL PRIMARY KEY,
      nome_tipo VARCHAR(50) NOT NULL
    );
    """,
    """
    CREATE TABLE IF NOT EXISTS produtos (
      id_produto SERIAL PRIMARY KEY,
      nome_produto VARCHAR(100) NOT NULL,
      preco DECIMAL(10,2) NOT NULL,
      id_tipo INT REFERENCES tipos_produto(id_tipo)
    );
    """,
    """
    CREATE TABLE IF NOT EXISTS clientes (
      id_cliente SERIAL PRIMARY KEY,
      nome VARCHAR(100) NOT NULL,
      email VARCHAR(100),
      telefone VARCHAR(20), 
      cidade VARCHAR(100) NOT NULL, 
      estado VARCHAR(2) NOT NULL
    );
    """,
    """
    CREATE TABLE IF NOT EXISTS pedidos (
      id_pedido SERIAL PRIMARY KEY,
      data_pedido DATE NOT NULL,
      status VARCHAR(20) NOT NULL,
      id_cliente INT NOT NULL REFERENCES clientes(id_cliente)
    );
    """,
    """
    CREATE TABLE IF NOT EXISTS itens_pedido (
    id_item SERIAL PRIMARY KEY,
    id_pedido INT NOT NULL,
    id_produto INT NOT NULL,
    quantidade INT NOT NULL,
    preco_unitario DECIMAL(10,2) NOT NULL,
    CONSTRAINT fk_pedido FOREIGN KEY (id_pedido) REFERENCES pedidos(id_pedido) ON DELETE CASCADE,
    CONSTRAINT fk_produto FOREIGN KEY (id_produto) REFERENCES produtos(id_produto) ON DELETE CASCADE
    );

    """
]

# Executar comandos um a um
with engine.begin() as conn:
    for cmd in ddl_commands:
        conn.execute(text(cmd))

print("‚úÖ Tabelas criadas com sucesso!")


In [None]:
with engine.connect() as conn:
    result = conn.execute(text("SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';"))
    for row in result:
        print(row[0])

## üîç 1. Verificar Chaves Prim√°rias

In [None]:
df_pks = pd.read_sql_query("""
SELECT 
    kcu.table_schema,
    kcu.table_name,
    kcu.column_name,
    tc.constraint_name
FROM information_schema.table_constraints tc
JOIN information_schema.key_column_usage kcu
  ON tc.constraint_name = kcu.constraint_name
WHERE tc.constraint_type = 'PRIMARY KEY'
  AND kcu.table_schema = 'public';
""", con=engine)

df_pks.head(10)


## üîó 2. Verificar Chaves Estrangeiras e Relacionamentos

In [None]:
df_fks = pd.read_sql_query("""
SELECT 
    tc.table_name AS tabela_origem,
    kcu.column_name AS coluna_origem,
    ccu.table_name AS tabela_referenciada,
    ccu.column_name AS coluna_referenciada
FROM information_schema.table_constraints AS tc
JOIN information_schema.key_column_usage AS kcu
  ON tc.constraint_name = kcu.constraint_name
JOIN information_schema.constraint_column_usage AS ccu
  ON ccu.constraint_name = tc.constraint_name
WHERE tc.constraint_type = 'FOREIGN KEY'
  AND tc.table_schema = 'public';
""", con=engine)

df_fks.head()


## ‚úÖ Consulta combinada (vis√£o geral dos relacionamentos)



In [None]:
df_relacionamentos = pd.read_sql_query("""
SELECT 
  tc.constraint_name,
  tc.table_name AS origem,
  kcu.column_name AS coluna_origem,
  ccu.table_name AS destino,
  ccu.column_name AS coluna_destino
FROM information_schema.table_constraints AS tc
JOIN information_schema.key_column_usage AS kcu
  ON tc.constraint_name = kcu.constraint_name
JOIN information_schema.constraint_column_usage AS ccu
  ON ccu.constraint_name = tc.constraint_name
WHERE tc.constraint_type = 'FOREIGN KEY'
ORDER BY origem;
""", con=engine)

df_relacionamentos.head()


## Inser√ß√£o de dados simulados

In [None]:
insert_script = """

-- Tipos de produto
INSERT INTO TipoProdutos (descricao) VALUES 
('Medicamento'), ('Suplemento') 
ON CONFLICT DO NOTHING;

-- Produtos
INSERT INTO Produtos (nome, preco, id_tipo) VALUES 
('Paracetamol', 19.99, 1),
('Vitamina C', 29.99, 2) 
ON CONFLICT DO NOTHING;

-- Clientes
INSERT INTO Clientes (nome, email) VALUES 
('Carlos Silva', 'carlos@email.com'),
('Ana Souza', 'ana@email.com') 
ON CONFLICT DO NOTHING;

-- Pedidos
INSERT INTO Pedidos (data_pedido, id_cliente) VALUES 
('2025-06-01', 1),
('2025-06-02', 2) 
ON CONFLICT DO NOTHING;

-- Itens de pedido
INSERT INTO ItensPedido (id_pedido, id_produto, quantidade) VALUES 
(1, 1, 2),
(1, 2, 1),
(2, 2, 3)
ON CONFLICT DO NOTHING;
"""

# Executar os inserts via SQLAlchemy
with engine.connect() as connection:
    connection.execute(text(insert_script))
    print("‚úÖ Dados inseridos com sucesso (com prote√ß√£o contra duplicatas).")


In [None]:
# 2. Lista de arquivos a serem executados (ordem importa por causa das FKs)
sql_files = [
    "sql/aula4/clientes.sql",
    "sql/aula4/tipos_produto.sql",
    "sql/aula4/produtos.sql",
    "sql/aula4/pedidos.sql",
    "sql/aula4/itens_pedido.sql"
]

# 3. Executar cada arquivo SQL
with engine.begin() as conn:
    for file_path in sql_files:
        with open(file_path, "r", encoding="utf-8") as file:
            sql_content = file.read()
            conn.execute(text(sql_content))
            print(f"‚úÖ Executado: {file_path.split('/')[-1]}")

## Consulta com JOIN para an√°lise de vendas

In [None]:
df = pd.read_sql_query("""
SELECT 
  c.nome AS cliente,
  p.data_pedido,
  pr.nome AS produto,
  pr.preco,
  t.descricao AS tipo_produto,
  ip.quantidade,
  (pr.preco * ip.quantidade) AS total_venda
FROM ItensPedido ip
JOIN Pedidos p ON ip.id_pedido = p.id_pedido
JOIN Clientes c ON p.id_cliente = c.id_cliente
JOIN Produtos pr ON ip.id_produto = pr.id_produto
JOIN TipoProdutos t ON pr.id_tipo = t.id_tipo;
""", con=engine)

df.head()


## Gera√ß√£o de Dashboard com Plotly

In [None]:
import plotly.express as px

fig = px.bar(df, x="cliente", y="total_venda", color="produto", 
             title="Total de Vendas por Cliente e Produto")
fig.show()


## ‚úÖ Script para deletar todas as tabelas (com SQLAlchemy)

Script SQL completo para deletar todas as tabelas na ordem correta, respeitando os relacionamentos (constraints).

---

### üß† Observa√ß√µes importantes:

  - O `CASCADE` garante que todas as depend√™ncias (FKs) sejam eliminadas junto com a tabela.**
  - Para deletar o banco de dados, voc√™ precisa:**
  - Estar conectado a outro banco, como `postgres`.
  - Ter permiss√µes de superusu√°rio ou ser o dono do banco.


In [None]:
drop_script = """
DROP TABLE IF EXISTS itens_pedido CASCADE;
DROP TABLE IF EXISTS pedidos CASCADE;
DROP TABLE IF EXISTS produtos CASCADE;
DROP TABLE IF EXISTS clientes CASCADE;
DROP TABLE IF EXISTS tipos_produto CASCADE;
"""

# Forma correta de usar raw_connection
conn = engine.raw_connection()
try:
    cursor = conn.cursor()
    cursor.execute(drop_script)
    conn.commit()
    print("üóëÔ∏è Todas as tabelas foram deletadas com sucesso.")
finally:
    cursor.close()
    conn.close()


## Encerrando conex√£o do Banco de Dados

In [None]:
cursor.close()
conn.close()

# Aula Pr√°tica ‚Äì Data Warehouse e Data Lake na AWS

![DW](arq-dw.png)

### üîπ Modelo Dimensional (Star Schema)

üß± Cria√ß√£o das Tabelas Dimens√£o e Fato

In [None]:
from sqlalchemy import text

ddl_dim_fato = """
-- Cria√ß√£o das tabelas do modelo dimensional

CREATE TABLE IF NOT EXISTS dim_cliente (
  id_cliente INT PRIMARY KEY,
  nome VARCHAR(100),
  idade INT,
  cidade VARCHAR(100)
);

CREATE TABLE IF NOT EXISTS dim_produto (
  id_produto INT PRIMARY KEY,
  nome_produto VARCHAR(100),
  categoria VARCHAR(50),
  preco DECIMAL(10,2)
);

CREATE TABLE IF NOT EXISTS fato_pedidos (
  id_pedido INT PRIMARY KEY,
  id_cliente INT REFERENCES dim_cliente(id_cliente),
  id_produto INT REFERENCES dim_produto(id_produto),
  data_pedido DATE,
  quantidade INT,
  valor_total DECIMAL(10,2)
);
"""

# Executar cria√ß√£o e inser√ß√£o
with engine.connect() as connection:
    connection.execute(text(ddl_dim_fato))
    print("‚úÖ Tabelas dimensionais criadas com sucesso!")


‚úÖ Inser√ß√£o na tabela dimens√£o

In [None]:
inserts_dim = """
-- Inser√ß√£o nas tabelas de dimens√£o

INSERT INTO dim_cliente VALUES
(1, 'Carlos Silva', 35, 'S√£o Paulo'),
(2, 'Ana Souza', 28, 'Rio de Janeiro'),
(3, 'Marcos Lima', 42, 'Belo Horizonte')
ON CONFLICT (id_cliente) DO NOTHING;

INSERT INTO dim_produto VALUES
(1001, 'Vitamina C', 'Suplementos', 29.99),
(1002, 'Paracetamol', 'Medicamentos', 19.99),
(1003, 'Protetor Solar', 'Beleza', 39.99)
ON CONFLICT (id_produto) DO NOTHING;
"""

# Executar cria√ß√£o e inser√ß√£o
with engine.connect() as connection:
    connection.execute(text(inserts_dim))
    print("‚úÖ Tabelas dimensionais populadas com sucesso!")

‚ö†Ô∏è Obs. importante: o uso de ON CONFLICT (id_cliente) DO NOTHING exige que os campos estejam marcados como PRIMARY KEY (o que j√° est√°), garantindo que a inser√ß√£o seja idempotente.

‚úÖ Inser√ß√£o na tabela fato_pedidos

In [None]:
insert_fato = """
INSERT INTO fato_pedidos VALUES
(101, 1, 1001, '2025-02-10', 2, 59.98),
(102, 2, 1002, '2025-02-11', 1, 19.99),
(103, 3, 1003, '2025-02-12', 3, 119.97)
ON CONFLICT (id_pedido) DO NOTHING;
"""

with engine.connect() as connection:
    connection.execute(text(insert_fato))
    print("‚úÖ Fatos inseridos com sucesso na tabela fato_pedidos.")

‚úÖ Notas:

O ON CONFLICT (id_pedido) DO NOTHING garante que o script pode ser executado mais de uma vez sem erro, evitando duplicidade.

Certifique-se de que a tabela fato_pedidos j√° existe e est√° corretamente relacionada √†s tabelas dim_cliente e dim_produto.

### üß† Observa√ß√£o sobre ItensPedido no Modelo Dimensional

No modelo dimensional (**Data Warehouse**), n√£o √© obrigat√≥rio manter tabelas como `ItensPedido` ‚Äî que s√£o comuns no modelo relacional ‚Äî porque as **tabelas fato j√° s√£o desenhadas para representar os eventos de neg√≥cio com a granularidade desejada**.

Ou seja, no DW √© comum que a tabela fato (`fato_pedidos`) j√° registre diretamente cada produto comprado em um pedido, eliminando a necessidade de uma tabela intermedi√°ria como no modelo relacional.


### üéØ O que muda no DW (Data Warehouse)

---

#### ‚úÖ No modelo relacional (OLTP):

Voc√™ tem:

- `Pedidos`: representa o pedido (cabe√ßalho)
- `ItensPedido`: representa cada produto do pedido (detalhe)
- `Produtos`: cat√°logo dos itens

üîÅ Relacionamento **N:M** ‚Üí precisa da tabela intermedi√°ria `ItensPedido`

---

#### ‚úÖ No modelo dimensional (DW/OLAP):

Voc√™ quer analisar **fatos (eventos)** como:

- Vendas realizadas
- Produtos vendidos
- Clientes que compraram
- Datas de pedidos

‚û°Ô∏è Nesse caso, voc√™ cria uma **tabela fato com granularidade de item**, ou seja:  
**cada linha da `fato_pedidos` representa uma combina√ß√£o de produto + pedido + cliente.**

‚úîÔ∏è Ou seja, a tabela `fato_pedidos` **j√° incorpora o papel da `ItensPedido`**.

---

### üîÑ Comparando OLTP vs DW

| Modelo Relacional (OLTP)    | Modelo Dimensional (DW)                   |
|-----------------------------|-------------------------------------------|
| `Pedidos` + `ItensPedido`   | `fato_pedidos` com granularidade de item  |
| `Produtos`, `Clientes`      | `dim_produto`, `dim_cliente`              |
| Normaliza√ß√£o (3FN)          | Desnormaliza√ß√£o controlada                |
| Evita redund√¢ncia           | Otimiza performance de leitura            |

---

### üß† Conclus√£o:

Voc√™ **n√£o precisa da `ItensPedido` no DW**.

A tabela `fato_pedidos`, com colunas como `id_cliente`, `id_produto`, `data_pedido`, `quantidade` e `valor_total`, **j√° representa cada item comprado de forma anal√≠tica e otimizada para consulta.**


# üíß Introdu√ß√£o ao Data Lake

O **Data Lake** √© uma arquitetura de armazenamento de dados que permite armazenar grandes volumes de dados em seus formatos brutos e variados ‚Äî estruturados, semi-estruturados e n√£o estruturados ‚Äî de forma centralizada, escal√°vel e econ√¥mica.

Diferente de um Data Warehouse, que exige esquemas bem definidos no momento da ingest√£o (schema-on-write), o Data Lake adota o paradigma **schema-on-read**, permitindo maior flexibilidade para cientistas de dados, engenheiros e analistas explorarem os dados conforme suas necessidades.

---

## ‚úÖ Caracter√≠sticas principais:

- Armazena dados em grande escala, com baixo custo (ex: Amazon S3, Azure Data Lake)
- Suporta dados brutos: JSON, CSV, imagens, v√≠deos, logs, IoT, entre outros
- Possui camadas l√≥gicas como: **Raw**, **Cleansed**, **Curated**
- Permite m√∫ltiplos consumidores de dados (BI, IA, machine learning, APIs)

---

## üß≠ Vis√£o Geral da Arquitetura de um Data Lake

![Arquitetura de Data Lake](ard-dl.png)

---

## üß† Benef√≠cios do Data Lake

- Centraliza√ß√£o de dados corporativos
- Flexibilidade para armazenar qualquer tipo de dado
- Facilidade de integra√ß√£o com ferramentas anal√≠ticas (Spark, Athena, Glue, Databricks)
- Apoio √† cultura Data-Driven e democratiza√ß√£o do acesso aos dados


## üì¶ Formatos de Arquivo em Data Lake e Lakehouse

Em ambientes de dados modernos, o **formato de armazenamento** impacta diretamente o desempenho, compress√£o, custo e usabilidade dos dados. Abaixo est√£o os formatos mais comuns usados no contexto de Data Lake e Lakehouse:

---

### üìÑ CSV (Comma-Separated Values)

- **Tipo:** Texto plano
- **Caracter√≠sticas:**
  - Leitura universal (compat√≠vel com Excel, pandas, SQL, etc)
  - F√°cil de inspecionar visualmente
- **Desvantagens:**
  - Sem compress√£o nativa
  - N√£o suporta tipos complexos (array, struct)
  - Consome mais espa√ßo
- **Recomendado para:** ingest√£o inicial, pequenos conjuntos de dados, exporta√ß√µes simples

---

### üìò Parquet

- **Tipo:** Colunar, bin√°rio
- **Caracter√≠sticas:**
  - Compacta√ß√£o eficiente
  - Leitura seletiva de colunas (ideal para consultas anal√≠ticas)
  - Suporte a esquema e tipos complexos
- **Desvantagens:**
  - N√£o √© leg√≠vel diretamente por humanos
- **Recomendado para:** Data Lake anal√≠tico, tabelas intermedi√°rias no Lakehouse, grandes volumes de dados

---

### üìó ORC (Optimized Row Columnar)

- **Tipo:** Colunar, bin√°rio (muito usado com Hive)
- **Caracter√≠sticas:**
  - Alta compacta√ß√£o e performance em queries
  - Metadados embutidos no arquivo
- **Desvantagens:**
  - Otimizado principalmente para o ecossistema Hadoop (Hive, Impala)
- **Recomendado para:** ambientes Hadoop, grandes volumes em clusters Hive

---

### üí† Delta (Delta Lake Format)

- **Tipo:** Extens√£o do Parquet com controle de transa√ß√µes (ACID)
- **Caracter√≠sticas:**
  - Hist√≥rico de vers√µes dos dados
  - Suporte a atualiza√ß√µes, deletes e merge (tipo banco de dados)
  - Compat√≠vel com Apache Spark
- **Desvantagens:**
  - Requer engine com suporte a Delta (ex: Spark, Databricks, EMR com Delta)
- **Recomendado para:** Lakehouse, pipelines com camadas Bronze/Silver/Gold, governan√ßa e qualidade de dados

---

### ‚úÖ Resumo: Quando usar cada formato

| Formato  | Leitura Humana | Compacta√ß√£o | Tipagem | Transa√ß√µes ACID | Quando Usar                      |
|----------|----------------|-------------|---------|------------------|----------------------------------|
| CSV      | ‚úÖ              | ‚ùå          | ‚ùå      | ‚ùå               | Simples, exporta√ß√µes manuais     |
| Parquet  | ‚ùå              | ‚úÖ          | ‚úÖ      | ‚ùå               | Consultas anal√≠ticas, Data Lake  |
| ORC      | ‚ùå              | ‚úÖ          | ‚úÖ      | ‚ùå               | Hadoop/Hive/Impala               |
| Delta    | ‚ùå              | ‚úÖ          | ‚úÖ      | ‚úÖ               | Lakehouse, atualiza√ß√µes e merges |



## üì¶ Formatos de Arquivo em Data Lake e Lakehouse

---

### üß† O que √© "Tipagem"?

**Tipagem** refere-se √† capacidade do formato de arquivo armazenar **tipos de dados estruturados** de forma expl√≠cita, como:

- `string`, `integer`, `float`, `boolean`
- e at√© estruturas complexas como `array`, `map`, `struct`

Formatos com **tipagem forte** permitem leitura otimizada, valida√ß√£o de schema e compatibilidade com engines anal√≠ticas como Spark, Hive, Athena, BigQuery.

---

### ‚úÖ Comparativo dos principais formatos

| Formato  | Leitura Humana | Compacta√ß√£o | Tipagem | Suporta ACID | Benef√≠cios Principais                                           | Contras / Limita√ß√µes                                     |
|----------|----------------|-------------|---------|--------------|------------------------------------------------------------------|-----------------------------------------------------------|
| **CSV**  | ‚úÖ Sim          | ‚ùå N√£o       | ‚ùå N√£o   | ‚ùå N√£o        | Leitura universal, f√°cil de gerar, visualmente simples          | Sem compress√£o, sem schema, f√°cil de quebrar com dados sujos |
| **Parquet** | ‚ùå N√£o       | ‚úÖ Alta      | ‚úÖ Sim   | ‚ùå N√£o        | Leitura colunar eficiente, √≥timo para analytics, compress√£o forte | N√£o √© leg√≠vel diretamente, sem suporte a updates          |
| **ORC**  | ‚ùå N√£o          | ‚úÖ Alta      | ‚úÖ Sim   | ‚ùå N√£o        | Compacta√ß√£o superior, muito usado com Hive                      | Menos compat√≠vel fora do ecossistema Hadoop               |
| **Delta** | ‚ùå N√£o         | ‚úÖ Alta      | ‚úÖ Sim   | ‚úÖ Sim        | Hist√≥rico de vers√µes, suporta UPDATE/DELETE/MERGE, confi√°vel    | Requer engine compat√≠vel (Spark, Databricks, EMR)         |

---

### üéØ Quando usar cada um?

- **CSV**: Ideal para ingest√£o inicial, exporta√ß√£o manual, integra√ß√£o com Excel e fontes legadas
- **Parquet**: Melhor escolha para Data Lake anal√≠tico (consultas com filtros e agrega√ß√µes)
- **ORC**: Ideal em ecossistemas Hadoop com Hive ou Impala
- **Delta**: Formato ideal para arquitetura Lakehouse (Bronze/Silver/Gold), pipelines confi√°veis e versionamento de dados

---

### üîÅ Exemplo pr√°tico:

- Use **CSV** para uploads manuais e coleta de dados simples.
- Converta para **Parquet** assim que poss√≠vel para efici√™ncia.
- Evolua para **Delta** se precisar de:
  - Atualiza√ß√µes nos dados
  - Controle de vers√µes
  - Qualidade e governan√ßa com ACID


## üíß Passo a Passo: Implementando com Data Lake e Lakehouse

---

### ü™£ 1. Data Lake ‚Äì Armazenamento bruto no Amazon S3

No Data Lake, armazenamos os arquivos em formato bruto (CSV, JSON, Parquet) em um bucket no Amazon S3, organizando em camadas por pastas.

#### ‚úÖ Exemplo de estrutura de pastas no S3:

s3://meu-datalake/raw/clientes/

s3://meu-datalake/raw/produtos/

s3://meu-datalake/raw/pedidos/


#### ‚úÖ Exemplo de arquivos:

**clientes.csv**
```csv
id_cliente,nome,idade,cidade
1,Carlos Silva,35,S√£o Paulo
2,Ana Souza,28,Rio de Janeiro
3,Marcos Lima,42,Belo Horizonte


**produtos.json**

```json
[
  {
    "id_produto": 1001,
    "nome_produto": "Vitamina C",
    "categoria": "Suplementos",
    "preco": 29.99
  },
  {
    "id_produto": 1002,
    "nome_produto": "Paracetamol",
    "categoria": "Medicamentos",
    "preco": 19.99
  },
  {
    "id_produto": 1003,
    "nome_produto": "Protetor Solar",
    "categoria": "Beleza",
    "preco": 39.99
  }
]


**pedidos.csv**

```csv
id_pedido,id_cliente,id_produto,data_pedido,quantidade,valor_total
101,1,1001,2025-02-10,2,59.98
102,2,1002,2025-02-11,1,19.99
103,3,1003,2025-02-12,3,119.97


## üîê Passo a Passo: Configurar Credenciais da AWS Academy

Este guia mostra como configurar corretamente as credenciais tempor√°rias fornecidas pela **AWS Academy** (via Learner Lab) para uso com `boto3` e AWS CLI.

---

### üß© Etapa 1 ‚Äì Acessar o AWS Academy Learner Lab

1. Acesse: [https://lab.awsacademy.com/](https://lab.awsacademy.com/)
2. Fa√ßa login com sua conta AWS Academy
3. Inicie o laborat√≥rio (por exemplo, *Learner Lab Environment*)
4. Clique em **"AWS Details"** ou **"Show AWS CLI credentials"**

---

### üîë Etapa 2 ‚Äì Copiar as credenciais tempor√°rias

Voc√™ ver√° 3 valores importantes:

```text
AWS_ACCESS_KEY_ID=AKIA...
AWS_SECRET_ACCESS_KEY=abcd1234...
AWS_SESSION_TOKEN=FQoGZXIvYXdzE...
``````

### ‚ö†Ô∏è Essas credenciais expiram em at√© 4 horas, ent√£o devem ser usadas apenas durante a sess√£o ativa.

## ü™£ Criando Bucket no S3 e Estrutura para Data Lake (AWS Academy)

Este passo a passo mostra como criar um bucket no S3 usando o SDK da AWS (`boto3`) diretamente no notebook, testar a conex√£o e estruturar pastas para um Data Lake.

---

### ‚úÖ Pr√©-requisitos

Antes de come√ßar, certifique-se de que:

- A **biblioteca `boto3`** est√° instalada
- Sua conta AWS Academy est√° **configurada com `aws configure`**

#### Instalar `boto3` (se necess√°rio)

```bash
pip install boto3


### ‚úÖ 1. Criar o bucket e testar conex√£o com a AWS


In [None]:
import boto3
from botocore.exceptions import ClientError


# Configura√ß√£o da sess√£o AWS
session = boto3.Session(
    aws_access_key_id="ASIA4HYRRT2A467HLD5S",
    aws_secret_access_key="tdt6xTT1AV7l4LGnDsoe/NAko+hkHpLg266g1K17",
    aws_session_token="IQoJb3JpZ2luX2VjENz//////////wEaCXVzLXdlc3QtMiJHMEUCIQCdThcUsa7HqVHAFDncr5NwJX2d/vSdesZxb2K2K7PGFAIgDOGWz5vcIHPHcDY46JHXSpYwzkLgMbQUZ8zM0UJhlNAqvgIItf//////////ARAAGgw4NDEzMTM1MjUzNzciDAUwGTYS5VS0e49ijiqSAv0XP5n/fkyeqVP8hRNQTNea9owYJB73gCyVCBp46x2HTP/9mftVGy9v0RV6XEZ9RC+QUMV1bCEQYi3+WRoA9cQ6j/hyP3ywFpofYJYXjR6NQAQ/x/MQiRjYwvvABt5rgX2G6EWSGaGvvttj8ZmnEbkrQJZM54er7O29MHdKzo3iulJzviFZFsb+L+3BdoDFDqfHkFOY00Z4oBaUaYls/+SGYWYTe09T0eOApFAi7ZRcR0NxkjKJ9OwNmYh9Nomha04pUU0UU1H6qlTN80oic2EbhE0qUJU1ML8MFO/maixaokYv2q9rti7+xsA7brDxaVitQN9/dTFHOXh3DoRXjTMRXArI4tSWZXvstZG498tvddQwnM6ewgY6nQHIFuwIPGiHK/eOREnoAm4wkH1wQxOQFJg3EUXRbHNgFMPcyZ3f9EUekIbPEzWt7qsrhvgI132KHCj83B6eh8HfJvtJXg7uR84mU6phht+M5GPyFWN5AWWeeEprlSEz0AknVsxBWnwrGN/oB5mz2UqfX0doRSfYOPHnP+z8JAveZkDwZ9UvrQNJojrL1dEaXsOVyoOcBq5kXd6DX+ng"
)

# Cria cliente do S3
s3 = session.client("s3")
print(s3.list_buckets())


# Nome do bucket (deve ser √∫nico globalmente)
bucket_name = "aula-data-lake"


# Testa a conex√£o com a conta AWS
try:
    sts = boto3.client("sts")
    identity = sts.get_caller_identity()
    print(f"‚úÖ Conectado √† conta AWS: {identity['Account']} com ARN: {identity['Arn']}")
except Exception as e:
    print("‚ùå Falha ao conectar na conta AWS:", e)

In [None]:
# Tenta criar o bucket
try:
    s3.create_bucket(
        Bucket=bucket_name,
        CreateBucketConfiguration={'LocationConstraint': boto3.session.Session().region_name}
    )
    print(f"‚úÖ Bucket '{bucket_name}' criado com sucesso.")
except ClientError as e:
    if e.response['Error']['Code'] == 'BucketAlreadyOwnedByYou':
        print(f"‚ÑπÔ∏è Bucket '{bucket_name}' j√° existe e pertence √† sua conta.")
    else:
        print("‚ùå Erro ao criar bucket:", e)

### ‚úÖ 2. Criar pastas (prefixos) para o Data Lake

In [None]:
# Prefixos simulando pastas
pastas = [
    "raw/clientes/.keep",
    "raw/produtos/.keep",
    "raw/pedidos/.keep",
    "bronze/clientes/.keep",
    "bronze/produtos/.keep",
    "bronze/pedidos/.keep",
    "silver/pedidos_enriquecidos/.keep",
    "gold/vendas_por_cidade/.keep"
]

# Enviar arquivos vazios para criar a estrutura
for pasta in pastas:
    s3.put_object(Bucket=bucket_name, Key=pasta, Body=b"")
    print(f"üìÇ Criado: s3://{bucket_name}/{pasta}")

### üß™ 3. Verificar a estrutura criada no bucket

In [None]:
response = s3.list_objects_v2(Bucket=bucket_name, Prefix="", Delimiter="/")

print("üìÅ Estrutura inicial do bucket:")
for content in response.get("Contents", []):
    print(" -", content['Key'])


### ‚úÖ Leitura com PySpark (modo Data Lake):

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("LakehouseExample") \
    .getOrCreate()

### ‚úÖ Leitura com PySpark (modo Data Lake):

In [None]:
df_clientes = spark.read.csv("s3://meu-datalake/raw/clientes/", header=True, inferSchema=True)
df_produtos = spark.read.json("s3://meu-datalake/raw/produtos/")
df_pedidos = spark.read.csv("s3://meu-datalake/raw/pedidos/", header=True, inferSchema=True)

### üè† Modelo Lakehouse com Camadas Bronze, Silver e Gold

No modelo **Lakehouse**, os dados passam por camadas **Bronze**, **Silver** e **Gold**, com uso do formato **Delta** para garantir **controle de vers√£o** e **transa√ß√µes ACID** (Atomicidade, Consist√™ncia, Isolamento e Durabilidade).

Essa estrutura permite combinar a flexibilidade do Data Lake com a governan√ßa e a confiabilidade de um Data Warehouse.

---

## ‚úÖ Estrutura no S3 com Delta Lake

```text
s3://meu-lakehouse/bronze/clientes/
s3://meu-lakehouse/bronze/produtos/
s3://meu-lakehouse/bronze/pedidos/

s3://meu-lakehouse/silver/clientes_limpos/
s3://meu-lakehouse/silver/pedidos_enriquecidos/

s3://meu-lakehouse/gold/vendas_por_cidade/

# üè† Exemplo de Lakehouse na AWS ‚Äì Passo a Passo

Este exemplo mostra como implementar um **Lakehouse** com arquitetura de camadas (Bronze, Silver, Gold), utilizando servi√ßos da **AWS** e o formato **Delta Lake**.

---

## üîß Ferramentas Utilizadas

| Componente         | Servi√ßo AWS                        |
|--------------------|-------------------------------------|
| Armazenamento      | Amazon S3                           |
| Processamento      | AWS Glue ou Amazon EMR (com Spark)  |
| Consultas SQL      | Amazon Athena (com Apache Iceberg) ou Spark SQL |
| Dashboard          | Amazon QuickSight (ou Streamlit)    |
| Formato dos dados  | Delta Lake (.delta)                 |

---

## üìÇ Estrutura de Diret√≥rios no S3 ‚Äì Lakehouse

Abaixo est√° a organiza√ß√£o recomendada do bucket no Amazon S3 para um Lakehouse com camadas **Bronze**, **Silver** e **Gold**:

```text
s3://meu-lakehouse/
‚îú‚îÄ‚îÄ bronze/
‚îÇ   ‚îú‚îÄ‚îÄ clientes/
‚îÇ   ‚îú‚îÄ‚îÄ produtos/
‚îÇ   ‚îî‚îÄ‚îÄ pedidos/
‚îú‚îÄ‚îÄ silver/
‚îÇ   ‚îú‚îÄ‚îÄ clientes_limpos/
‚îÇ   ‚îú‚îÄ‚îÄ pedidos_enriquecidos/
‚îî‚îÄ‚îÄ gold/
    ‚îî‚îÄ‚îÄ vendas_por_cidade/



---

## ‚úÖ Etapa 1: Ingest√£o na Camada Bronze

Armazene os dados brutos no S3, diretamente de arquivos CSV, JSON ou APIs externas.




In [None]:
# Exemplo com PySpark
df_clientes = spark.read.csv("s3://origem-dados/clientes.csv", header=True, inferSchema=True)
df_clientes.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/bronze/clientes")

df_produtos = spark.read.json("s3://origem-dados/produtos.json")
df_produtos.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/bronze/produtos")

df_pedidos = spark.read.json("s3://origem-dados/pedidos.csv", header=True, inferSchema=True)
df_pedidos.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/bronze/pedidos")

## ‚úÖ Etapa 2: Transforma√ß√£o na Camada Silver

Nesta camada, os dados s√£o **filtrados, deduplicados e integrados**.  
√â onde aplicamos as **regras de neg√≥cio** e os **relacionamentos entre dimens√µes**, como:

- Clientes
- Produtos
- Pedidos

O objetivo da Silver Layer √© transformar os dados brutos da Bronze em dados estruturados e prontos para an√°lises mais confi√°veis nas camadas anal√≠ticas (Gold).


In [None]:
df_bronze_clientes = spark.read.format("delta").load("s3://meu-lakehouse/bronze/clientes")
df_bronze_produtos = spark.read.format("delta").load("s3://meu-lakehouse/bronze/produtos")
df_bronze_pedidos = spark.read.format("delta").load("s3://meu-lakehouse/bronze/pedidos")

df_enriquecido = df_bronze_pedidos \
    .join(df_bronze_clientes, "id_cliente") \
    .join(df_bronze_produtos, "id_produto")

df_enriquecido.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/silver/pedidos_enriquecidos")


## ‚úÖ Etapa 3: Agrega√ß√£o na Camada Gold

Na camada **Gold**, criamos **datasets agregados e otimizados** para consumo anal√≠tico.

Essa camada √© voltada para ferramentas de BI, dashboards e relat√≥rios executivos, com foco em:

- Performance de leitura
- Agrega√ß√µes pr√©-processadas
- Estrutura de f√°cil entendimento por usu√°rios de neg√≥cio

Exemplos de uso:

- Vendas por cidade
- Total de pedidos por cliente
- Faturamento por categoria de produto


In [None]:
from pyspark.sql.functions import sum, count

df_gold = df_enriquecido.groupBy("cidade").agg(
    sum("valor_total").alias("vendas_totais"),
    count("id_pedido").alias("qtd_pedidos")
)

df_gold.write.format("delta").mode("overwrite").save("s3://meu-lakehouse/gold/vendas_por_cidade")


## üìä Etapa 4: Visualiza√ß√£o com QuickSight ou Streamlit

---

### üÖ∞Ô∏è QuickSight

- Configure um **Data Catalog** usando o **AWS Glue**.
- Crie uma **tabela externa** apontando para os arquivos `.delta`.
- Importe a tabela `vendas_por_cidade` no QuickSight.
- Crie gr√°ficos interativos e dashboards com base nesses dados.

---

### üÖ±Ô∏è Streamlit (exemplo simples com Plotly)

In [None]:
import pandas as pd
import plotly.express as px

df = spark.read.format("delta").load("s3://meu-lakehouse/gold/vendas_por_cidade").toPandas()
fig = px.bar(df, x="cidade", y="vendas_totais", title="Vendas por Cidade")
fig.show()

## ‚úÖ Conclus√£o

A arquitetura **Lakehouse** com camadas **Bronze ‚Üí Silver ‚Üí Gold** permite:

- üìÇ Organizar os dados por **n√≠vel de maturidade**
- üîÑ Realizar **transforma√ß√µes estruturadas e seguras**
- üìú Suportar **versionamento, auditoria e governan√ßa** com Delta Lake
- üß† Combinar o melhor do **Data Lake** (flexibilidade) com o **Data Warehouse** (consist√™ncia e controle)

Essa abordagem √© ideal para pipelines modernos, escal√°veis e confi√°veis, permitindo an√°lises em tempo real e integra√ß√£o com m√∫ltiplas ferramentas de BI.
