# üîç An√°lise de Dados da Camada Gold com SQL em Python

Neste notebook, vamos carregar os dados do bucket S3 usando `pandas` e realizar an√°lises utilizando SQL com `duckdb`. Ser√£o realizadas opera√ß√µes de sele√ß√£o, filtros, agrupamentos e joins sobre a camada gold particionada por `anomesdia`.

In [11]:
import pandas as pd
import duckdb

# DuckDB ‚Äì Banco de Dados Anal√≠tico Embutido

O **DuckDB** √© um **banco de dados anal√≠tico embutido (embedded analytical database)**, projetado para ser leve, r√°pido e f√°cil de usar diretamente em aplica√ß√µes locais ‚Äî especialmente em ambientes **Python, R, SQL CLI** ou notebooks (como Jupyter).

---

## ü¶Ü O que √© o DuckDB?

O DuckDB √© como um **SQLite para an√°lise de dados**:

- ‚úÖ Roda localmente, **sem servidor**
- ‚úÖ Usa **arquitetura columnar** (ideal para leitura e agrega√ß√£o de grandes volumes de dados)
- ‚úÖ √â otimizado para consultas **OLAP** (anal√≠ticas), diferente de bancos voltados para transa√ß√µes (**OLTP**)

---

## üîç Principais Caracter√≠sticas

| Caracter√≠stica                | Detalhes                                                                 |
|------------------------------|--------------------------------------------------------------------------|
| ‚öôÔ∏è **Embutido (Embedded)**   | Roda dentro do seu script/app, como o SQLite                             |
| üß† **SQL padr√£o**             | Sintaxe SQL moderna e compat√≠vel                                         |
| üíæ **Columnar**               | Armazena e processa dados em colunas, como o formato Parquet             |
| üßÆ **Desempenho anal√≠tico**   | Excelente para `SELECT`, `JOIN`, `GROUP BY`, `FILTER` em grandes datasets|
| üîó **Integra√ß√µes f√°ceis**     | Funciona com CSV, Parquet, Pandas, Arrow, SQLite, entre outros           |
| üì¶ **Sem depend√™ncias externas** | Um √∫nico bin√°rio leve, sem necessidade de instala√ß√£o complexa         |
| üíª **Plataformas**            | Compat√≠vel com Linux, macOS, Windows e Jupyter Notebooks                 |


# üß© Tipos de Comandos SQL (Categorias)

| Tipo | Nome                     | Fun√ß√£o Principal                         | Exemplos                              |
|------|--------------------------|------------------------------------------|----------------------------------------|
| DDL  | Data Definition Language | Defini√ß√£o da estrutura do banco de dados | `CREATE`, `ALTER`, `DROP`, `TRUNCATE` |
| DML  | Data Manipulation Language | Manipula√ß√£o dos dados nas tabelas      | `SELECT`, `INSERT`, `UPDATE`, `DELETE` |
| DCL  | Data Control Language     | Controle de permiss√µes e seguran√ßa      | `GRANT`, `REVOKE`                      |
| TCL  | Transaction Control Language | Controle de transa√ß√µes (confirma√ß√£o e revers√£o) | `COMMIT`, `ROLLBACK`, `SAVEPOINT` |

---

## üîß 1. DDL ‚Äì *Data Definition Language*

Usada para **criar ou modificar a estrutura** do banco (tabelas, colunas, √≠ndices, etc).

| Comando        | Fun√ß√£o                                             |
|----------------|----------------------------------------------------|
| `CREATE TABLE` | Cria uma nova tabela                               |
| `ALTER TABLE`  | Altera a estrutura de uma tabela existente         |
| `DROP TABLE`   | Exclui uma tabela                                  |
| `TRUNCATE TABLE` | Remove todos os dados da tabela (sem log)       |

### üß† Exemplo:

```sql
CREATE TABLE clientes (
    id INT PRIMARY KEY,
    nome VARCHAR(100),
    email VARCHAR(100)
);


In [None]:
# Cria√ß√£o da tabela tempor√°ria com uma consulta
duckdb.sql("""
    CREATE TEMP TABLE top_clientes AS
    SELECT id_cliente, SUM(valor_total) AS total_gasto
    FROM 'dados/vendas.parquet'
    GROUP BY id_cliente
    ORDER BY total_gasto DESC
    LIMIT 10
""")

# Consulta usando a tabela tempor√°ria
df = duckdb.sql("SELECT * FROM top_clientes").df()

## üì¶ 2. DML ‚Äì *Data Manipulation Language*

Usada para **inserir, consultar, alterar e excluir dados** nas tabelas.

| Comando     | Fun√ß√£o                        |
|-------------|-------------------------------|
| SELECT      | Consulta dados                 |
| INSERT INTO | Insere novos registros         |
| UPDATE      | Atualiza registros existentes  |
| DELETE      | Remove registros               |

### üß† Exemplo:

```sql
INSERT INTO clientes (id, nome, email) VALUES (1, 'Ana', 'ana@email.com');

SELECT * FROM clientes;

UPDATE clientes SET nome = 'Ana Silva' WHERE id = 1;

DELETE FROM clientes WHERE id = 1;


## üîê 3. DCL ‚Äì *Data Control Language*

Usada para **gerenciar permiss√µes** no banco de dados.

| Comando | Fun√ß√£o             |
|---------|--------------------|
| GRANT   | Concede permiss√µes |
| REVOKE  | Revoga permiss√µes  |

### üß† Exemplo:

```sql
GRANT SELECT ON clientes TO usuario1;
REVOKE SELECT ON clientes FROM usuario1;


## üîÑ 4. TCL ‚Äì *Transaction Control Language*

Usada para **gerenciar transa√ß√µes**, garantindo atomicidade e consist√™ncia.

| Comando   | Fun√ß√£o                                                          |
|-----------|-----------------------------------------------------------------|
| COMMIT    | Confirma a transa√ß√£o                                            |
| ROLLBACK  | Cancela a transa√ß√£o                                             |
| SAVEPOINT | Define um ponto de salvamento para poss√≠vel rollback parcial   |

### üß† Exemplo:

```sql
BEGIN;
UPDATE contas SET saldo = saldo - 100 WHERE id = 1;
UPDATE contas SET saldo = saldo + 100 WHERE id = 2;
COMMIT;



## üìù Conclus√£o

| Categoria | DuckDB Suporta? | Observa√ß√£o                         |
|-----------|------------------|------------------------------------|
| DDL       | ‚úÖ Sim           | Totalmente suportado              |
| DML       | ‚úÖ Sim           | Totalmente suportado              |
| DCL       | ‚ùå N√£o           | DuckDB n√£o gerencia usu√°rios      |
| TCL       | ‚ö†Ô∏è Parcial       | Suporta transa√ß√µes simples        |


## üí° Dica Extra: Ordem natural de execu√ß√£o

Em um sistema real, a sequ√™ncia geralmente √©:

1. **Criar as tabelas (DDL)**
2. **Inserir dados (DML)**
3. **Gerenciar permiss√µes (DCL)**
4. **Garantir integridade via transa√ß√µes (TCL)**


---

# ‚úÖ Exemplo: Lendo um arquivo Parquet no DuckDB e usando SQL

## üìÅ Suponha que voc√™ tem um arquivo:

```bash
dados/clientes.parquet



## üí° Leitura e consulta direta no Python:

```python

import duckdb

### Conecta ao banco (em mem√≥ria ou para arquivo .duckdb)
conn = duckdb.connect()

### Consulta direta no Parquet (sem precisar criar tabela antes)
query = """
SELECT nome, email
FROM 'dados/clientes.parquet'
WHERE nome LIKE 'A%'
"""

resultado = conn.execute(query).fetchdf()
print(resultado) """

---

## üõ†Ô∏è Criando uma TABELA a partir do Parquet (DDL + DML)

Se voc√™ quiser transformar em uma tabela interna:

```python

## Cria uma tabela a partir do Parquet
conn.execute("""
CREATE TABLE clientes AS
SELECT * FROM 'dados/clientes.parquet'
""")

# Agora voc√™ pode fazer DML
conn.execute("SELECT COUNT(*) FROM clientes").fetchall()


---

## üìå Dicas √∫teis

| Tarefa                            | Comando                                                   |
|----------------------------------|------------------------------------------------------------|
| Listar colunas                   | `PRAGMA table_info('clientes')`                           |
| Ver 5 primeiras linhas           | `SELECT * FROM clientes LIMIT 5`                          |
| Criar Parquet a partir da tabela | `COPY clientes TO 'clientes_novo.parquet' (FORMAT 'parquet')` |



## üìà Benef√≠cios do DuckDB com Parquet

‚úÖ Leitura lazy e muito r√°pida  
‚úÖ Sem precisar importar tudo para RAM  
‚úÖ Ideal para an√°lises locais em grandes datasets  
‚úÖ Sintaxe SQL completa para filtrar, agregar, transformar


## üí° Quando usar o DuckDB?

Use o **DuckDB** quando voc√™ precisa de:

- ‚úÖ Processar dados **locais** de forma r√°pida e anal√≠tica
- ‚úÖ Evitar a complexidade de configurar um PostgreSQL, Redshift, BigQuery, etc.
- ‚úÖ Fazer **an√°lises em arquivos Parquet/CSV** sem subir para a nuvem
- ‚úÖ Trabalhar com dados em **Pandas ou Polars**, mas utilizando **SQL puro**

---

## üÜö Compara√ß√£o ampliada de bancos para an√°lise

| Banco         | Modelo         | Nuvem        | Gerenciado | Pre√ßo estimado            | Uso t√≠pico                                 |
|---------------|----------------|--------------|------------|----------------------------|---------------------------------------------|
| **DuckDB**    | Anal√≠tico local| ‚ùå Local      | ‚ùå N√£o      | Gratuito (embutido)        | An√°lises locais, data science, notebooks    |
| **SQLite**    | Transacional   | ‚ùå Local      | ‚ùå N√£o      | Gratuito                   | Aplica√ß√µes mobile, desktop, prot√≥tipos      |
| **PostgreSQL**| OLTP/OLAP      | ‚úÖ Opcional   | ‚ö†Ô∏è Parcial | Gratuito local ou R$~200+/m (em nuvem) | Web apps, BI, aplica√ß√µes transacionais     |
| **BigQuery**  | Anal√≠tico cloud| ‚úÖ Google Cloud | ‚úÖ Sim   | Paga por consulta e armazenamento | Data Lake, Big Data, an√°lises massivas     |
| **Amazon RDS**| OLTP/OLAP      | ‚úÖ AWS        | ‚úÖ Sim      | R$~100 a R$1000+/m          | Bancos relacionais gerenciados na nuvem     |


## üìå M√£o na massa

## Executando UPDATE, DELETE e TRUNCATE

### üöß Altera√ß√µes em arquivos Parquet com DuckDB

DuckDB n√£o permite `UPDATE` ou `DELETE` diretamente em arquivos Parquet.  

Manipular dados em arquivos **Parquet** diretamente com comandos como `UPDATE` e `DELETE` **n√£o √© suportado nativamente**, porque o formato Parquet √© **imut√°vel** (colunar, otimizado para leitura e n√£o para escrita em n√≠vel de linha).

Mas existem estrat√©gias e ferramentas para contornar isso, dependendo do seu stack de tecnologia.

---

üß† **Conceito: Parquet √© _read-optimized_**

- O Parquet **n√£o foi projetado para atualiza√ß√µes linha a linha**.
- Ele √© **√≥timo para leitura e compress√£o**, mas para atualizar dados, √© necess√°rio **reescrever o arquivo**.

Para isso, vamos seguir os seguintes passos:

1. Crie uma tabela tempor√°ria ou persistente a partir do Parquet.
2. Execute os comandos SQL (`UPDATE`, `DELETE`, `TRUNCATE`) nessa tabela.
3. Salve a tabela modificada de volta para um novo arquivo Parquet.

1. üõ†Ô∏è Criar tabela tempor√°ria a partir de Parquet

In [None]:
# Prefixos S3 (j√° montado com s3fs configurado)
GOLD_PREFIX = 's3://aula-data-lake/gold/'

# Lendo os dados Parquet da camada Gold
fato_vendas = pd.read_parquet(GOLD_PREFIX + 'fato_vendas/')
vendas_por_cliente = pd.read_parquet(GOLD_PREFIX + 'vendas_por_cliente/')
vendas_por_tipo = pd.read_parquet(GOLD_PREFIX + 'vendas_por_tipo/')

In [None]:
duckdb.sql("""
    CREATE TABLE vendas_temp AS 
    SELECT * FROM fato_vendas
""")

In [None]:

# Monta a query como string Python
query = f"""
    CREATE TABLE vendas_temp AS 
    SELECT * FROM '{GOLD_PREFIX}fato_vendas/*.parquet'
"""

# Executa a query
duckdb.sql(query)

2. ‚úèÔ∏è Exemplo de UPDATE

In [None]:
duckdb.sql("""
    SELECT DISTINCT status FROM vendas_temp
""")

In [None]:
duckdb.sql("""
    BEGIN TRANSACTION;
    UPDATE vendas_temp
    SET status = 'Cancelado'
    WHERE status = 'PENDENTE'
""")

In [None]:
duckdb.sql("""
    ROLLBACK;
""")

In [None]:
duckdb.sql("""
    BEGIN TRANSACTION;
    UPDATE vendas_temp
    SET status = 'PENDENTE'
    WHERE status = 'Cancelado';
    COMMIT;    
""")

In [None]:
duckdb.sql("""
    SELECT DISTINCT status FROM vendas_temp 
    --WHERE status = 'Cancelado'
""")

In [None]:
duckdb.sql("""
    COMMIT;    
""")

3. üóëÔ∏è Exemplo de DELETE

In [None]:
duckdb.sql("""
    SELECT *
    FROM vendas_temp
    --WHERE preco_unitario < 40
""")

In [None]:
duckdb.sql("""
    DELETE FROM vendas_temp
    WHERE preco_unitario < 40
""")

4. üö® Exemplo de TRUNCATE (equivalente a apagar tudo)

In [None]:
duckdb.sql("DELETE FROM vendas_temp")
# ou, equivalente:
# duckdb.sql("TRUNCATE TABLE vendas_temp")

üíæ Salvar de volta para Parquet ap√≥s as altera√ß√µes

In [None]:
duckdb.sql("""
    COPY vendas_temp TO 'caminho/novo/fato_vendas_limpo.parquet' (FORMAT PARQUET)
""")

In [None]:
%pip install duckdb

## 1. üßæ Sele√ß√£o de Dados
üìù Exibindo as primeiras linhas da tabela de fatos de vendas para inspe√ß√£o inicial.

In [None]:
duckdb.sql("SELECT * FROM fato_vendas LIMIT 5")

In [None]:
duckdb.sql("DESCRIBE fato_vendas")

In [None]:
duckdb.sql("SELECT * FROM vendas_por_tipo LIMIT 5")

In [None]:
duckdb.sql("DESCRIBE vendas_por_tipo")

In [None]:
duckdb.sql("SELECT * FROM vendas_por_tipo LIMIT 5")

In [None]:
duckdb.sql("DESCRIBE vendas_por_cliente")

üìù Top 5 clientes que mais compraram em valor total.

In [None]:
duckdb.sql('''
SELECT 
    id_cliente, 
    nome, 
    ROUND(valor_total_comprado) valor_total_comprado
FROM vendas_por_cliente 
ORDER BY valor_total_comprado DESC 
LIMIT 5;''')

Top 5 tipos de produto mais vendidos em valor.

In [None]:
duckdb.sql('''SELECT nome_tipo, total_vendido FROM vendas_por_tipo ORDER BY total_vendido DESC LIMIT 5;''')

# 2. üîç Fun√ß√µes e Operadores no WHERE ‚Äì DuckDB

A cl√°usula `WHERE` √© usada para **filtrar linhas** com base em condi√ß√µes. Abaixo est√£o os operadores e fun√ß√µes mais comuns em `WHERE`, com exemplos pr√°ticos no DuckDB.

---

## ‚úÖ Operadores de Compara√ß√£o

| Operador | Descri√ß√£o                  | Exemplo DuckDB                               |
|----------|----------------------------|----------------------------------------------|
| =        | Igual                      | `WHERE idade = 30`                           |
| != ou <> | Diferente                  | `WHERE cidade <> 'S√£o Paulo'`               |
| >        | Maior que                  | `WHERE salario > 3000`                       |
| <        | Menor que                  | `WHERE idade < 25`                           |
| >=       | Maior ou igual             | `WHERE idade >= 18`                          |
| <=       | Menor ou igual             | `WHERE idade <= 60`                          |

---

## üß† L√≥gicos

| Operador | Descri√ß√£o             | Exemplo DuckDB                                           |
|----------|------------------------|----------------------------------------------------------|
| AND      | Todas as condi√ß√µes     | `WHERE idade > 18 AND cidade = 'S√£o Paulo'`             |
| OR       | Uma ou outra           | `WHERE idade < 18 OR salario < 2000`                    |
| NOT      | Nega√ß√£o l√≥gica         | `WHERE NOT (cidade = 'S√£o Paulo')`                      |

---

## üß™ Operadores especiais

### IN

Verifica se um valor est√° dentro de uma lista:

```sql
SELECT * FROM clientes
WHERE cidade IN ('S√£o Paulo', 'Campinas', 'Santos');


---

## üîÑ BETWEEN

Verifica se um valor est√° entre dois limites (inclusive):

```sql
SELECT * FROM vendas
WHERE data BETWEEN DATE '2024-01-01' AND DATE '2024-01-31';


---

## üî§ LIKE (com curingas)

Faz correspond√™ncia parcial de strings:

| Padr√£o | Significado                      |
|--------|----------------------------------|
| `%`    | Qualquer sequ√™ncia de caracteres |
| `_`    | Um √∫nico caractere               |

```sql
SELECT * FROM clientes
WHERE nome LIKE 'A%';  -- Come√ßa com A

SELECT * FROM clientes
WHERE email LIKE '%@gmail.com'; -- Termina com @gmail.com


---

## ‚ùì IS NULL / IS NOT NULL

Verifica valores nulos (ausentes):

```sql
SELECT * FROM clientes
WHERE telefone IS NULL;

SELECT * FROM clientes
WHERE telefone IS NOT NULL;


---

## üßÆ Fun√ß√µes num√©ricas e de texto no WHERE

```sql
SELECT * FROM produtos
WHERE LOWER(categoria) = 'eletr√¥nicos';

SELECT * FROM clientes
WHERE LENGTH(nome) > 10;

SELECT * FROM pedidos
WHERE EXTRACT(YEAR FROM data_pedido) = 2024;


Selecionando todas as vendas feitas no dia `20250101` com valor acima de 100 reais.

In [None]:
duckdb.sql("""
SELECT * 
FROM fato_vendas 
WHERE anomesdia = '20250101' AND valor_total_item > 100
LIMIT 10
""")

Clientes com mais de 3 pedidos realizados.

In [None]:
duckdb.sql('''SELECT nome, num_pedidos FROM vendas_por_cliente WHERE num_pedidos > 3;''')

Clientes que compraram entre R$100 e R$500 no total.

In [None]:
duckdb.sql('''SELECT nome, valor_total_comprado FROM vendas_por_cliente WHERE valor_total_comprado BETWEEN 100 AND 500;''')

## 3. üìä Agrega√ß√µes
üìù Total vendido por dia (anomesdia), ordenando pelo maior faturamento.

In [None]:
duckdb.sql("""
SELECT anomesdia, ROUND(SUM(valor_total_item), 2) AS faturamento_total
FROM fato_vendas
GROUP BY anomesdia
ORDER BY faturamento_total DESC
LIMIT 10
""")

üìä **Tipos de Agrega√ß√µes em SQL**

üî¢ **1. Agrega√ß√µes Num√©ricas (estat√≠sticas b√°sicas)**

| Fun√ß√£o SQL           | Descri√ß√£o               |
|----------------------|--------------------------|
| `SUM()`              | Soma dos valores         |
| `AVG()`              | M√©dia aritm√©tica         |
| `MIN()`              | Valor m√≠nimo             |
| `MAX()`              | Valor m√°ximo             |
| `COUNT()`            | Contagem de registros    |
| `VAR()` / `VAR_SAMP()`      | Vari√¢ncia               |
| `STDDEV()` / `STDDEV_SAMP()`| Desvio padr√£o          |


üìù N√∫mero total de clientes e o valor m√©dio comprado.

üìä **Exemplos de Agrega√ß√µes Num√©ricas em SQL usando DuckDB**

| Fun√ß√£o SQL                    | Exemplo (DuckDB SQL)                                                         | Tabela               | Explica√ß√£o                                                                 |
|------------------------------|------------------------------------------------------------------------------|----------------------|----------------------------------------------------------------------------|
| `SUM()`                      | `SELECT SUM(valor_total_item) FROM fato_vendas;`                             | `fato_vendas`        | Soma total de todos os itens vendidos.                                     |
| `AVG()`                      | `SELECT AVG(preco_unitario) FROM fato_vendas;`                               | `fato_vendas`        | Pre√ßo m√©dio unit√°rio dos produtos.                                         |
| `MIN()`                      | `SELECT MIN(valor_total_comprado) FROM vendas_por_cliente;`                  | `vendas_por_cliente` | Valor m√≠nimo gasto por um cliente.                                         |
| `MAX()`                      | `SELECT MAX(total_vendido) FROM vendas_por_tipo;`                            | `vendas_por_tipo`    | Valor m√°ximo vendido entre os tipos de produto.                            |
| `COUNT()`                    | `SELECT COUNT(DISTINCT id_pedido) FROM fato_vendas;`                         | `fato_vendas`        | N√∫mero de pedidos distintos registrados.                                   |
| `VAR_SAMP()` (ou `VAR_POP()`)| `SELECT VAR_SAMP(quantidade) FROM fato_vendas;`                              | `fato_vendas`        | Vari√¢ncia amostral da quantidade de itens por linha de pedido.             |
| `STDDEV_SAMP()`              | `SELECT STDDEV_SAMP(num_pedidos) FROM vendas_por_cliente;`                   | `vendas_por_cliente` | Desvio padr√£o do n√∫mero de pedidos por cliente.                            |


In [None]:
# Soma total de itens vendidos
duckdb.sql("SELECT SUM(valor_total_item) AS soma_total FROM fato_vendas")

In [None]:
# Pre√ßo m√©dio unit√°rio dos produtos
duckdb.sql("SELECT AVG(preco_unitario) AS preco_medio FROM fato_vendas").df()

In [None]:
# Valor m√≠nimo gasto por um cliente
duckdb.sql("SELECT MIN(valor_total_comprado) AS valor_minimo FROM vendas_por_cliente")

In [None]:
# Valor m√°ximo vendido entre os tipos de produto
duckdb.sql("SELECT MAX(total_vendido) AS valor_maximo FROM vendas_por_tipo")

In [None]:
# N√∫mero de pedidos distintos
duckdb.sql("SELECT COUNT(DISTINCT id_pedido) AS pedidos_unicos FROM fato_vendas")

In [None]:
# Vari√¢ncia amostral da quantidade de itens
duckdb.sql("SELECT VAR_SAMP(quantidade) AS variancia_quantidade FROM fato_vendas")

In [None]:
# Desvio padr√£o do n√∫mero de pedidos por cliente
duckdb.sql("SELECT STDDEV_SAMP(num_pedidos) AS desvio_padrao_pedidos FROM vendas_por_cliente")

In [None]:
# Varia√ß√µes de vari√¢ncia e desvio padr√£o: amostral (VAR_SAMP(), STDDEV_SAMP()) e populacional (VAR_POP(), STDDEV_POP()), 
# aplicadas ao campo quantidade da tabela fato_vendas:

duckdb.sql("""
SELECT
    VAR_SAMP(quantidade)     AS variancia_amostral,
    VAR_POP(quantidade)      AS variancia_populacional,
    STDDEV_SAMP(quantidade)  AS desvio_padrao_amostral,
    STDDEV_POP(quantidade)   AS desvio_padrao_populacional
FROM fato_vendas
""")


## üìä GROUP BY e ORDER BY no SQL

### üß© GROUP BY ‚Äì Agrupamento de Dados

O `GROUP BY` √© usado para **agrupar linhas que possuem os mesmos valores** em colunas espec√≠ficas. Ele √© geralmente utilizado com fun√ß√µes de agrega√ß√£o como:

- `SUM()` ‚Äì soma
- `AVG()` ‚Äì m√©dia
- `COUNT()` ‚Äì contagem
- `MAX()` ‚Äì valor m√°ximo
- `MIN()` ‚Äì valor m√≠nimo

üîç **Exemplo: Total gasto por cliente**

```sql
SELECT id_cliente, SUM(valor_total) AS total_gasto
FROM vendas
GROUP BY id_cliente;


In [None]:
duckdb.sql("""
SELECT
    nome_tipo,
    COUNT(*) AS total_registros,
    AVG(quantidade) AS media_quantidade,
    VAR_SAMP(quantidade) AS variancia_amostral,
    VAR_POP(quantidade)  AS variancia_populacional,
    STDDEV_SAMP(quantidade) AS desvio_padrao_amostral,
    STDDEV_POP(quantidade)  AS desvio_padrao_populacional
FROM fato_vendas
GROUP BY nome_tipo
""").df()

---

## ‚úÖ Combinando os dois

√â comum combinar `GROUP BY` e `ORDER BY` para **agrupar os dados** e depois **ordenar os resultados agregados**:

```sql
SELECT cidade, COUNT(*) AS num_vendas
FROM vendas
GROUP BY cidade
ORDER BY num_vendas DESC;


### üîΩ Sobre `DESC` e `ASC`

- **ASC (Ascending)** ‚Äì ordena de forma **crescente** (menor para maior).  
  √â o comportamento padr√£o, mesmo que voc√™ n√£o escreva explicitamente.

- **DESC (Descending)** ‚Äì ordena de forma **decrescente** (maior para menor),  
  muito √∫til para visualizar os "top resultados".



‚úÖ **Estat√≠sticas agrupadas por tipo de produto (nome_tipo)**

In [None]:
duckdb.sql("""
SELECT
    nome_tipo,
    COUNT(*) AS total_registros,
    AVG(quantidade) AS media_quantidade,
    VAR_SAMP(quantidade) AS variancia_amostral,
    VAR_POP(quantidade)  AS variancia_populacional,
    STDDEV_SAMP(quantidade) AS desvio_padrao_amostral,
    STDDEV_POP(quantidade)  AS desvio_padrao_populacional
FROM fato_vendas
GROUP BY nome_tipo
ORDER BY total_registros DESC
""").df()

üîé **O que esse SELECT retorna:**

| Coluna                      | Significado                                                        |
|-----------------------------|---------------------------------------------------------------------|
| `nome_tipo`                 | Categoria do produto                                               |
| `total_registros`           | Quantidade de linhas (itens) daquele tipo                          |
| `media_quantidade`          | Quantidade m√©dia vendida por linha para aquele tipo                |
| `variancia_amostral`        | Dispers√£o amostral da quantidade                                   |
| `variancia_populacional`    | Dispers√£o populacional da quantidade                               |
| `desvio_padrao_amostral`    | Raiz da vari√¢ncia amostral                                         |
| `desvio_padrao_populacional`| Raiz da vari√¢ncia populacional                                     |


## üß† Entendendo o uso do `HAVING` em SQL

### üìå O que √© `HAVING`?

A cl√°usula `HAVING` √© usada para **filtrar os resultados de uma agrega√ß√£o** feita com `GROUP BY`.  
Enquanto o `WHERE` filtra **linhas individuais antes da agrega√ß√£o**, o `HAVING` filtra **grupos ap√≥s a agrega√ß√£o**.


### üîÑ Diferen√ßa entre `WHERE` e `HAVING`

| Cl√°usula | Quando √© aplicada          | Usada com agrega√ß√µes? |
|----------|----------------------------|------------------------|
| `WHERE`  | Antes do `GROUP BY`         | ‚ùå N√£o (linhas simples) |
| `HAVING` | Depois do `GROUP BY`        | ‚úÖ Sim                  |



### ‚úÖ Exemplo pr√°tico com `HAVING`

```sql
SELECT nome_tipo, AVG(quantidade) AS media
FROM fato_vendas
GROUP BY nome_tipo
HAVING AVG(quantidade) > 5;


üîç **Explica√ß√£o:**

- Agrupa os dados por `nome_tipo`.
- Calcula a m√©dia da `quantidade` para cada grupo.
- Retorna apenas os grupos onde a m√©dia √© maior que 5.



üí° **Quando usar `HAVING`?**  
Use `HAVING` quando:

- Voc√™ est√° usando `GROUP BY`.
- Precisa filtrar os grupos com base em fun√ß√µes de agrega√ß√£o (`SUM`, `AVG`, `COUNT`, etc).


üö´ **Exemplo incorreto:**

```sql
SELECT nome_tipo, AVG(quantidade)
FROM fato_vendas
WHERE AVG(quantidade) > 5  -- ‚ùå ERRO!
GROUP BY nome_tipo;

üõë **N√£o √© permitido usar fun√ß√µes de agrega√ß√£o em `WHERE`. Use `HAVING`.**

üìù **Resumo:**

- `WHERE`: filtra **linhas** antes da agrega√ß√£o.
- `HAVING`: filtra **grupos** depois da agrega√ß√£o.
- S√≥ use `HAVING` se estiver fazendo `GROUP BY`.

‚úÖ **Exemplo: GROUP BY com HAVING no DuckDB**



In [None]:
duckdb.sql("""
SELECT
    nome_tipo,
    COUNT(*) AS total_itens,
    AVG(quantidade) AS media_quantidade
FROM fato_vendas
GROUP BY nome_tipo
HAVING AVG(quantidade) > 5
ORDER BY media_quantidade DESC
""").df()

## 4. ü§ù Join entre Fato e Dimens√£o Cliente

## ‚úÖ Passos para criar tabela dim_cliente

1. Ler a tabela Parquet original  
2. Criar a dimens√£o com `id_cliente` e `nome` (sem duplicatas)  
3. Salvar como novo arquivo Parquet


In [None]:
%pip install boto3==1.34.96 botocore==1.34.96 s3fs==2024.3.1 fsspec==2024.3.1

In [None]:
import duckdb  # Banco de dados anal√≠tico embutido que permite executar SQL sobre arquivos locais e S3

import pandas as pd  # Biblioteca para manipula√ß√£o e an√°lise de dados em DataFrames

import pyarrow as pa  # Apache Arrow: usado para representar dados em mem√≥ria de forma eficiente (colunar)

import pyarrow.dataset as ds  # Importa o m√≥dulo de datasets do PyArrow, que permite escrever dados em m√∫ltiplos formatos (como Parquet) com mais controle, incluindo particionamento e uso de sistemas de arquivos como S3

import s3fs  # Biblioteca que permite interagir com buckets S3 como se fossem sistemas de arquivos locais


In [None]:
DIM_PREFIX = "s3://aula-data-lake/dim/"

# 1. L√™ os dados com DuckDB e gera o DataFrame pandas
query = f"""
    SELECT DISTINCT id_cliente, nome as nome_cliente
    FROM vendas_por_cliente
"""

dim_cliente_df = duckdb.sql(query).df()

dim_cliente_df.to_parquet(DIM_PREFIX + 'dim_cliente/', index=False)


In [None]:
dim_cliente = pd.read_parquet(DIM_PREFIX + 'dim_cliente/')

In [None]:
duckdb.sql("""
SELECT *
FROM dim_cliente
ORDER BY 1
--LIMIT 10
""")

An√°lise de clientes que mais compraram.

In [None]:
duckdb.sql("""
SELECT c.id_cliente, c.nome, c.valor_total_comprado, c.num_pedidos
FROM vendas_por_cliente c
ORDER BY valor_total_comprado DESC
LIMIT 10
""")

## üîó O que √© um `JOIN` em SQL?

`JOIN` √© uma opera√ß√£o em SQL que permite **combinar dados de duas ou mais tabelas** com base em uma condi√ß√£o l√≥gica, normalmente uma chave em comum (como `id_cliente`, `id_produto`, etc).

√â uma das ferramentas mais poderosas para an√°lise de dados relacionais, pois permite reunir informa√ß√µes que est√£o distribu√≠das em diferentes tabelas.

---

## ü§ù Tipos de `JOIN` mais comuns

![Tipos de JOIN](img/joins.png)

### 1. `INNER JOIN` ‚Äì Interse√ß√£o

Retorna apenas os registros que **t√™m correspond√™ncia em ambas as tabelas**.

üîç **Usado quando** voc√™ s√≥ quer registros que existem em ambas as tabelas.


In [17]:
print(f'Quantidade de linhas e colunas da tabela fato_vendas')
print(fato_vendas.shape)
print("---------------------------------------------------------------------------------------------------------------")
print(f'Quantidade de linhas e colunas da tabela vendas_por_cliente')
print(vendas_por_cliente.shape)

Quantidade de linhas e colunas da tabela fato_vendas
(300, 19)
---------------------------------------------------------------------------------------------------------------
Quantidade de linhas e colunas da tabela vendas_por_cliente
(51, 4)


In [29]:
# Executa as instru√ß√µes de DROP e CREATE (sem retorno)
duckdb.sql("""
    DROP TABLE IF EXISTS fato_vendas_temp;
    DROP TABLE IF EXISTS vendas_por_cliente_temp;

    CREATE TABLE vendas_por_cliente_temp AS 
    SELECT * FROM vendas_por_cliente LIMIT 40;
""")

# Agora faz a leitura da tabela e envia para DataFrame
vendas_por_cliente_temp = duckdb.sql("SELECT * FROM vendas_por_cliente_temp").df()


In [30]:
print(f'Quantidade de linhas e colunas da tabela vendas_por_cliente_tmp')
print(vendas_por_cliente_temp.shape)

Quantidade de linhas e colunas da tabela vendas_por_cliente_tmp
(40, 4)


In [None]:
duckdb.sql('''
SELECT 
    LEFT(CAST(f.anomesdia AS VARCHAR), 6) anomes, 
    c.nome as nome_cliente, 
    ROUND(SUM(f.valor_total_item),2) AS total
FROM fato_vendas f
INNER JOIN dim_cliente c ON f.id_cliente = c.id_cliente
GROUP BY 
    LEFT(CAST(f.anomesdia AS VARCHAR), 6), 
    c.nome
ORDER BY 
    1 DESC,
    2 DESC
LIMIT 10
''')

In [31]:
duckdb.sql('''
SELECT f.anomesdia, c.nome as nome_cliente, f.valor_total_item as vl_total
FROM fato_vendas f
JOIN vendas_por_cliente_temp c ON f.id_cliente = c.id_cliente
''')

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ anomesdia ‚îÇ nome_cliente  ‚îÇ      vl_total      ‚îÇ
‚îÇ   int32   ‚îÇ    varchar    ‚îÇ       double       ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ              32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ             423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ              32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ             423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ              32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ             423.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ            2470.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ             137.48 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ             111.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ            24

---

### 2. `LEFT JOIN` (ou `LEFT OUTER JOIN`) ‚Äì Todos da esquerda

Retorna **todos os registros da tabela da esquerda** e os correspondentes da direita.  
Onde n√£o houver correspond√™ncia, os campos da tabela da direita v√™m como `NULL`.

üîç **Usado quando** voc√™ quer manter todos os clientes, mesmo que n√£o tenham vendas.

In [32]:
duckdb.sql('''
SELECT f.anomesdia, c.nome as nome_cliente, f.valor_total_item as vl_total
FROM fato_vendas f
LEFT JOIN vendas_por_cliente_temp c ON f.id_cliente = c.id_cliente
''')

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ anomesdia ‚îÇ nome_cliente  ‚îÇ vl_total ‚îÇ
‚îÇ   int32   ‚îÇ    varchar    ‚îÇ  double  ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ    32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ   423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ    32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ   423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ    32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ   423.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ  2470.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ   137.48 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ   111.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ  2470.35 ‚îÇ
‚îÇ      ¬∑    ‚îÇ  ¬∑            ‚îÇ      ¬∑   ‚îÇ
‚îÇ      ¬∑    ‚îÇ  ¬∑            ‚îÇ      ¬∑   ‚îÇ
‚îÇ      ¬∑    ‚îÇ  ¬∑            ‚îÇ      ¬∑   ‚îÇ
‚îÇ  20250509 

---

### 3. `RIGHT JOIN` (ou `RIGHT OUTER JOIN`) ‚Äì Todos da direita

Retorna **todos os registros da tabela da direita** e os correspondentes da esquerda.  
Onde n√£o houver correspond√™ncia, os campos da esquerda v√™m como `NULL`.

üîç **Menos comum que o `LEFT JOIN`**, mas √∫til quando a tabela de refer√™ncia principal est√° √† direita.

In [33]:
duckdb.sql('''
SELECT f.anomesdia, c.nome as nome_cliente, f.valor_total_item as vl_total
FROM fato_vendas f
RIGHT JOIN vendas_por_cliente_temp c ON f.id_cliente = c.id_cliente
''')

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ anomesdia ‚îÇ nome_cliente  ‚îÇ      vl_total      ‚îÇ
‚îÇ   int32   ‚îÇ    varchar    ‚îÇ       double       ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ              32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ             423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ              32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ             423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ              32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ             423.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ            2470.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ             137.48 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ             111.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ            24

---

### 4. `FULL JOIN` (ou `FULL OUTER JOIN`) ‚Äì Uni√£o total

Retorna **todos os registros de ambas as tabelas**, combinando os correspondentes.  
Onde n√£o houver correspond√™ncia, os campos da outra tabela ser√£o `NULL`.

üîç **√ötil para** identificar registros que existem apenas em uma das tabelas.

In [34]:
duckdb.sql('''
SELECT f.anomesdia, c.nome as nome_cliente, f.valor_total_item as vl_total
FROM fato_vendas f
FULL OUTER JOIN vendas_por_cliente_temp c ON f.id_cliente = c.id_cliente
''')

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ anomesdia ‚îÇ nome_cliente  ‚îÇ vl_total ‚îÇ
‚îÇ   int32   ‚îÇ    varchar    ‚îÇ  double  ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ    32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ   423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ    32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ   423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ    32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yuri Teixeira ‚îÇ   423.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ  2470.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ   137.48 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ   111.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Thiago Castro ‚îÇ  2470.35 ‚îÇ
‚îÇ      ¬∑    ‚îÇ  ¬∑            ‚îÇ      ¬∑   ‚îÇ
‚îÇ      ¬∑    ‚îÇ  ¬∑            ‚îÇ      ¬∑   ‚îÇ
‚îÇ      ¬∑    ‚îÇ  ¬∑            ‚îÇ      ¬∑   ‚îÇ
‚îÇ  20250509 

---

### 5. `CROSS JOIN` ‚Äì Produto cartesiano

O `CROSS JOIN` combina **cada linha da tabela A com todas as linhas da tabela B**.  
Ele **n√£o precisa de uma condi√ß√£o de jun√ß√£o (`ON`)**, e o resultado ser√° um **produto cartesiano**.

üìå **Exemplo pr√°tico:**  
Se a tabela `fato_vendas` tiver 100 linhas e `vendas_por_cliente` tiver 50 linhas,  
o `CROSS JOIN` retornar√° **5.000 combina√ß√µes** (100 √ó 50).

üîç **Use com cuidado.** Ideal para gerar combina√ß√µes entre conjuntos de dados pequenos.

In [42]:
duckdb.sql('''
SELECT count(*) AS total_registros
FROM fato_vendas f
CROSS JOIN vendas_por_cliente_temp c
LIMIT 1000
''')

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ total_registros ‚îÇ
‚îÇ      int64      ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ           12000 ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò

In [41]:
duckdb.sql('''
SELECT 
    f.anomesdia, 
    c.nome AS nome_cliente, 
    f.valor_total_item AS vl_total
FROM fato_vendas f
CROSS JOIN vendas_por_cliente_temp c
LIMIT 400
''')

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ anomesdia ‚îÇ  nome_cliente  ‚îÇ vl_total ‚îÇ
‚îÇ   int32   ‚îÇ    varchar     ‚îÇ  double  ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ  20240620 ‚îÇ Yago Novaes    ‚îÇ    32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yago Novaes    ‚îÇ   423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yago Novaes    ‚îÇ    32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yago Novaes    ‚îÇ   423.35 ‚îÇ
‚îÇ  20240620 ‚îÇ Yago Novaes    ‚îÇ    32.64 ‚îÇ
‚îÇ  20240620 ‚îÇ Yago Novaes    ‚îÇ   423.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Yago Novaes    ‚îÇ  2470.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Yago Novaes    ‚îÇ   137.48 ‚îÇ
‚îÇ  20240624 ‚îÇ Yago Novaes    ‚îÇ   111.35 ‚îÇ
‚îÇ  20240624 ‚îÇ Yago Novaes    ‚îÇ  2470.35 ‚îÇ
‚îÇ      ¬∑    ‚îÇ      ¬∑         ‚îÇ      ¬∑   ‚îÇ
‚îÇ      ¬∑    ‚îÇ      ¬∑         ‚îÇ      ¬∑   ‚îÇ
‚îÇ      ¬∑    ‚îÇ      ¬∑         ‚îÇ      ¬∑

### üîç O que esse `CROSS JOIN` faz:

- Para **cada venda (`f`)**, ele combina com **cada cliente (`c`)**, mesmo que n√£o estejam relacionados.
- `LIMIT 100` foi adicionado no exemplo para evitar um volume excessivo de linhas.

### üö´ Quando **n√£o** usar `CROSS JOIN`:

- Quando voc√™ **deseja unir tabelas com base em um relacionamento**, como:

```sql
f.id_cliente = c.id_cliente


---

### üìù Dica pr√°tica

| Tipo de JOIN   | Inclui registros de...           | NULLs poss√≠veis em...             |
|----------------|----------------------------------|-----------------------------------|
| `INNER JOIN`   | Ambas as tabelas                 | Nenhuma                           |
| `LEFT JOIN`    | Tabela da esquerda               | Tabela da direita                 |
| `RIGHT JOIN`   | Tabela da direita                | Tabela da esquerda                |
| `FULL JOIN`    | Ambas (todos os registros)       | Ambas                             |
| `CROSS JOIN`   | Produto cartesiano               | Nenhuma (mas volume alto)         |

---

### üí¨ Em resumo

> `JOIN` √© essencial para integrar tabelas e montar consultas completas em bancos relacionais.  
> Escolher o tipo certo de `JOIN` depende da l√≥gica de neg√≥cio e da an√°lise que voc√™ quer realizar.

---

# üî∑ O que √© DeltaTable?

## üìå Conceito

`DeltaTable` √© o formato de armazenamento criado pelo **Delta Lake**, que adiciona **transa√ß√µes ACID, versionamento e atualiza√ß√µes** ao formato **Parquet**.

Ele combina a **performance do Parquet** com recursos de **banco de dados transacional**, tornando poss√≠vel fazer `UPDATE`, `DELETE`, `MERGE` e `UPSERT` diretamente em dados armazenados no Data Lake.

---

## üß© Estrutura de uma Delta Table

Uma Delta Table √© composta por:

- Arquivos **Parquet**: onde os dados reais est√£o armazenados.
- Pasta `_delta_log/`: cont√©m os **logs de transa√ß√µes**, esquema da tabela e versionamento.

> üìÅ Exemplo de estrutura:

fato_vendas_delta/  
‚îú‚îÄ‚îÄ part-00001.parquet  
‚îú‚îÄ‚îÄ part-00002.parquet  
‚îî‚îÄ‚îÄ _delta_log/  
    ‚îú‚îÄ‚îÄ 00000000000000000000.json  
    ‚îú‚îÄ‚îÄ 00000000000000000001.json  
    ‚îî‚îÄ‚îÄ ...



---

## üß† Por que usar DeltaTable?

| Recurso                     | Parquet | DeltaTable |
|----------------------------|---------|------------|
| Leitura colunar r√°pida     | ‚úÖ      | ‚úÖ          |
| Escrita transacional (ACID)| ‚ùå      | ‚úÖ          |
| `UPDATE` / `DELETE`        | ‚ùå      | ‚úÖ          |
| Time travel (vers√µes)      | ‚ùå      | ‚úÖ          |
| Schema evolution           | ‚ùå      | ‚úÖ          |

---

## ‚ú® Benef√≠cios do DeltaTable

- ‚úÖ Suporte a **transa√ß√µes ACID**
- ‚úÖ Possibilidade de **atualizar e deletar dados**
- ‚úÖ **Time travel**: recuperar vers√µes anteriores
- ‚úÖ **Schema evolution**: ajustar esquema de forma autom√°tica
- ‚úÖ Compat√≠vel com ferramentas como **Spark, Databricks, Presto e AWS Athena (via lakehouse)**


## ‚úÖ Equivalentes ao DuckDB para manipular Delta Table com Spark

Aqui est√° um guia com equivalentes comuns:

| Opera√ß√£o                   | DuckDB                                       | Delta Lake (Spark)                                                  |
|----------------------------|----------------------------------------------|----------------------------------------------------------------------|
| Leitura (`SELECT`)        | `duckdb.sql("SELECT * FROM fato")`           | `spark.read.format("delta").load("s3://...")`                        |
| `UPDATE`                  | `UPDATE fato SET ...`                        | `DeltaTable.forPath(...).update(...)`                               |
| `DELETE`                  | `DELETE FROM fato WHERE ...`                 | `DeltaTable.forPath(...).delete(...)`                               |
| `TRUNCATE` (`DELETE all`) | `DELETE FROM fato`                           | `DeltaTable.forPath(...).delete("true")`                            |
| `INSERT INTO`             | `INSERT INTO fato VALUES (...)`             | `df.write.format("delta").mode("append").save(...)`                 |
| `MERGE INTO` (upsert)     | ‚ùå (n√£o suportado)                            | `DeltaTable.forPath(...).merge(...).whenMatchedUpdate().execute()` |

---

## üîß Exemplo pr√°tico com Spark + Delta Lake



In [None]:
%pip install pyspark delta-spark

In [None]:
from delta import configure_spark_with_delta_pip
from pyspark.sql import SparkSession
from delta.tables import DeltaTable

builder = SparkSession.builder \
    .appName("Delta + S3") \
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
    .config("spark.jars.packages", "org.apache.hadoop:hadoop-aws:3.3.2") \
    .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
    .config("spark.hadoop.fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider") \
    .config("spark.hadoop.fs.s3a.endpoint", "s3.amazonaws.com")

spark = configure_spark_with_delta_pip(builder).getOrCreate()


# Inicializa Spark com suporte ao Delta
spark = configure_spark_with_delta_pip(builder).getOrCreate()



In [None]:
# 2. Caminhos no S3
parquet_path = "s3a://aula-data-lake/gold/fato_vendas/anomesdia=20240620/"
delta_path = "s3://aula-data-lake/gold/fato_vendas_delta/"

# 3. Ler os dados Parquet existentes
df = spark.read.parquet(parquet_path)

df.show()

In [None]:
# 4. Escrever os dados no formato Delta
df.write.format("delta").mode("overwrite").save(delta_path)

# Carregando a Delta Table
delta_table = DeltaTable.forPath(spark, delta_path)

In [None]:
delta_table.select("*").show(10)

### ‚úèÔ∏è UPDATE: marcar pendentes como cancelado

In [None]:
delta_table.update(
    condition="status = 'PENDENTE'",
    set={"status": "'CANCELADO'"}
)

In [None]:
spark.sql(f"""
    UPDATE delta.`{delta_path}`
    SET status = 'CANCELADO'
    WHERE status = 'PENDENTE'
""")

### üóëÔ∏è DELETE: remover pre√ßos baixos

In [None]:
delta_table.delete("preco_unitario < 1")

In [None]:
spark.sql(f"""
    DELETE FROM delta.`{delta_path}`
    WHERE preco_unitario < 1
""")

### üßπ TRUNCATE: remover tudo


In [None]:
delta_table.delete("true")  # equivalente ao TRUNCATE

In [None]:
spark.sql(f"""
    DELETE FROM delta.`{delta_path}`
    WHERE true
""")

### üìä SELECT (como no DuckDB)

In [None]:
df = spark.read.format("delta").load(delta_path)
df.select("nome_produto", "quantidade").show()

### ‚ö†Ô∏è Dica: usar SQL direto no Delta com Spark

In [None]:
spark.sql(f"""
    SELECT nome_tipo, SUM(valor_total_item) 
    FROM delta.`{delta_path}`
    GROUP BY nome_tipo
""").show()


### üìù Observa√ß√£o

Voc√™ tamb√©m pode registrar a Delta Table como uma **tabela permanente no metastore** para usar nomes simples:

In [None]:
# Registrando a tabela
spark.sql(f"""
    CREATE TABLE fato_vendas_delta
    USING DELTA
    LOCATION '{delta_path}'
""")

# Agora pode fazer:
spark.sql("UPDATE fato_vendas_delta SET status = 'CANCELADO' WHERE status = 'PENDENTE'")

### ‚úÖ Conclus√£o

| Voc√™ quer...                                      | Ferramenta recomendada   |
|--------------------------------------------------|---------------------------|
| Manipular dados locais ou Parquet simples        | DuckDB ou Pandas          |
| Manipular Delta Tables com controle transacional | Spark + Delta Lake        |
