# Projeto: Pipeline de Dados e An√°lise com SQL no BigQuery

## üìñ Resumo e Introdu√ß√£o

**Projeto:** Pipeline de Dados e An√°lise com SQL no BigQuery ‚Äì Livraria DevSaber

O nosso bjetivo √© organizar os dados, analisar e gerar insights a partir dos dados de vendas da Livraria DevSaber, uma loja online fict√≠cia.

O p√∫blico-alvo desta documenta√ß√£o s√£o pessoas que n√£o possuem conhecimento pr√©vio em BigQuery ou SQL, garantindo que qualquer leitor consiga compreender o fluxo de dados, an√°lises e resultados.

**Escopo do Projeto:**
- Estruturar os dados em **tabelas normalizadas** (Clientes, Produtos, Vendas).
- Criar **views** para facilitar consultas.
- Realizar **an√°lises** em SQL (RFM, Pareto, Co-purchase, Heatmaps, Tend√™ncias de Vendas).
- Produzir **relat√≥rios visuais interativos**.
- Gerar documenta√ß√£o clara e detalhada do processo para f√°cil reutiliza√ß√£o e entendimento futuro.

**Objetivo final:** Capacitar a empresa a extrair insights estrat√©gicos sobre clientes, produtos e vendas de forma eficiente, simples e visual.


## üìë Sum√°rio do Notebook

1. [Resumo e Introdu√ß√£o](#Resumo-e-Introdu√ß√£o)
2. [Defini√ß√£o do Schema](#Defini√ß√£o-do-Schema)
3. [Ingest√£o de Dados](#Ingest√£o-de-Dados)
4. [Cria√ß√£o de Views](#Cria√ß√£o-de-Views)
5. [An√°lises](#An√°lises-Avan√ßadas)
   - RFM
   - Pareto
   - Produtos Comprados Juntos
   - Receita por M√™s
   - Heatmap de Vendas
   - Segmenta√ß√£o de Clientes
   - Previs√£o Simples
6. [Relat√≥rio Visual](#Relat√≥rio-Visual)
7. [Considera√ß√µes Finais](#Considera√ß√µes-Finais)


## üîπ Descri√ß√£o das Etapas

Neste projeto seguimos as seguintes etapas:

1. **Defini√ß√£o do Schema:** Criamos tabelas normalizadas para Clientes, Produtos e Vendas, para garantir que dados duplicados fossem evitados e mantendo integridade.

2. **Ingest√£o de Dados:** Inserimos os dados fornecidos na Livraria DevSaber usando SQL (`INSERT INTO`) no BigQuery.

3. **Cria√ß√£o de Views:** Constru√≠mos views (`vw_vendas_detalhes` e `vw_resumo_vendas`) para simplificar consultas complexas e gerar m√©tricas agregadas.

4. **An√°lises:** Aplicamos SQL para extrair insights estrat√©gicos sobre clientes, produtos e vendas.

5. **Relat√≥rio Visual:**


## üîπ Defini√ß√£o do Schema

Neste bloco criamos as tabelas normalizadas para evitar duplica√ß√£o de dados.

**Por que normalizamos?**
- Evita repeti√ß√£o de informa√ß√µes (como nome e email de clientes).
- Facilita atualiza√ß√µes futuras sem inconsist√™ncias.
- Mant√©m integridade de dados, essencial para an√°lises corretas.

-- Tabela Clientes

```sql
    CREATE TABLE IF NOT EXISTS `Livraria_DevSaber_1_10.clientes` (
    cliente_id STRING,
    nome STRING,
    email STRING,
    estado STRING
    );

````

-- Tabela Produtos

```sql
    CREATE TABLE IF NOT EXISTS `Livraria_DevSaber_1_10.produtos` (
    produto_id STRING,
    nome_produto STRING,
    categoria STRING,
    preco NUMERIC
    );

````

-- Tabela Vendas


```sql
    CREATE TABLE IF NOT EXISTS `Livraria_DevSaber_1_10.vendas` (
    venda_id STRING,
    cliente_id STRING,
    produto_id STRING,
    quantidade INT64,
    data_venda DATE
    );



## üîπ Ingest√£o de Dados


**Por que inserimos os dados?**
- Precisamos alimentar as tabelas para que possamos realizar an√°lises concretas.
- Inserir os dados manualmente via `INSERT INTO` permite controle total sobre a integridade e unicidade das informa√ß√µes.


-- Inserindo clientes √∫nicos

```sql
    INSERT INTO `Livraria_DevSaber_1_10.clientes` (cliente_id, nome, email, estado)
    VALUES
    ('C001', 'Ana Silva', 'ana.s@email.com', 'SP'),
    ('C002', 'Bruno Costa', 'b.costa@email.com', 'RJ'),
    ('C003', 'Carla Dias', 'carla.d@email.com', 'SP'),
    ('C004', 'Daniel Souza', 'daniel.s@email.com', 'MG');

````

-- Inserindo produtos


```sql
    INSERT INTO `Livraria_DevSaber_1_10.produtos` (produto_id, nome_produto, categoria, preco)
    VALUES
    ('P001','Fundamentos de SQL','Dados',60.00),
    ('P002','Duna','Fic√ß√£o Cientifica',80.50),
    ('P003','Python para Dados','Programa√ß√£o',75.00),
    ('P004','O Guia do Mochileiro','Fic√ß√£o Cientifica',42.00);

   ````

-- Inserindo vendas

```sql

    INSERT INTO `Livraria_DevSaber_1_10.vendas` (venda_id, cliente_id, produto_id, quantidade, data_venda)
    VALUES
    ('V001','C001','P001',1,'2024-01-15'),
    ('V002','C002','P002',1,'2024-01-18'),
    ('V003','C003','P003',1,'2024-02-02'),
    ('V004','C001','P002',1,'2024-02-10'),
    ('V005','C004','P001',1,'2024-02-20'),
    ('V006','C002','P004',1,'2024-03-05');


## üîπ Cria√ß√£o de Views

As **Views** no BigQuery funcionam como consultas salvas.  
Em vez de escrever SQL complexo todas as vezes, basta consultar a View como se fosse uma tabela.


### ‚úÖ Vantagens:
- **Reuso**: evita reescrever consultas longas e repetitivas.  
- **Padroniza√ß√£o**: garante que todos os analistas usem a mesma l√≥gica.  
- **Agilidade**: acelera as an√°lises, facilitando a vida do time de dados e de neg√≥cio.  
- **Abstra√ß√£o**: o usu√°rio final n√£o precisa conhecer todos os detalhes da modelagem.  


### üìå Exemplo de uso no projeto:

Criamos a View `Livraria_DevSaber_1_10.vw_vendas_detalhadas` para juntar **Clientes, Produtos e Vendas** em uma √∫nica estrutura. Ela une automaticamente os dados de **Clientes**, **Produtos** e **Vendas**, trazendo em uma √∫nica tabela todos os detalhes necess√°rios para as an√°lises do neg√≥cio.

```sql

    CREATE OR REPLACE VIEW `Livraria_DevSaber_1_10.vw_vendas_detalhes` AS
    SELECT

    v.venda_id,

    c.cliente_id,

    c.nome AS nome_cliente,

    c.email AS email_cliente,
  
    c.estado AS estado_cliente,

    p.produto_id,

    p.nome_produto,

    p.categoria AS categoria_produto,

    p.preco AS preco_produto,

    v.quantidade,

    (v.quantidade * p.preco) AS total_venda,

    v.data_venda

    FROM `Livraria_DevSaber_1_10.vendas` v

    JOIN `Livraria_DevSaber_1_10.clientes` c

    ON v.cliente_id = c.cliente_id

    JOIN `Livraria_DevSaber_1_10.produtos` p

    ON v.produto_id = p.produto_id;

`````
Assim, ao inv√©s de escrever v√°rios `JOINs`, basta rodar:

```sql
SELECT
  nome_cliente,
  estado_cliente,
  nome_produto,
  categoria_produto,
  preco_produto,
  data_venda
FROM `Livraria_DevSaber_1_10.vw_vendas_detalhadas`
WHERE estado_cliente = 'SP';

````

### Demais Views

*Essa VIEW j√° trar√° informa√ß√µes agregadas por cliente, produto, categoria e estado, facilitando criar dashboards*

```sql

CREATE OR REPLACE VIEW `Livraria_DevSaber_1_10.vw_resumo_vendas` AS
WITH resumo_cliente AS (
  SELECT
    nome_cliente,
    SUM(total_venda) AS total_gasto,
    COUNT(DISTINCT venda_id) AS num_compras,
    COUNT(DISTINCT produto_id) AS produtos_diferentes
  FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
  GROUP BY nome_cliente
),
resumo_produto AS (
  SELECT
    nome_produto,
    categoria_produto,
    SUM(quantidade) AS total_vendido,
    SUM(total_venda) AS receita_total
  FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
  GROUP BY nome_produto, categoria_produto
),
resumo_estado AS (
  SELECT
    estado_cliente,
    SUM(total_venda) AS receita_estado
  FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
  GROUP BY estado_cliente
)
SELECT
  rc.nome_cliente,
  rc.total_gasto,
  rc.num_compras,
  rc.produtos_diferentes,
  re.estado_cliente,
  rp.nome_produto,
  rp.categoria_produto,
  rp.total_vendido,
  rp.receita_total,
  re.receita_estado
FROM resumo_cliente rc
JOIN `Livraria_DevSaber_1_10.vw_vendas_detalhes` vd
  ON rc.nome_cliente = vd.nome_cliente
JOIN resumo_estado re
  ON vd.estado_cliente = re.estado_cliente
JOIN resumo_produto rp
  ON vd.nome_produto = rp.nome_produto;

````
‚û°Ô∏è A primeira view serve para an√°lises detalhadas e c√°lculos personalizados.

‚û°Ô∏è A segunda view serve para relat√≥rios r√°pidos e dashboards de gest√£o.


# üîπ An√°lises

**Por que fazemos essas an√°lises?**
- **RFM:** identifica clientes valiosos, auxiliando em marketing e fideliza√ß√£o.
- **Pareto:** mostra quais clientes ou produtos geram maior receita.
- **Co-purchase:** revela padr√µes de compra conjunta, √∫til para cross-selling.
- **Receita por m√™s:** monitora desempenho e tend√™ncias de vendas.
- **Heatmap de vendas:** identifica dias e hor√°rios de maior movimento.
- **Segmenta√ß√£o de clientes:** direciona estrat√©gias de comunica√ß√£o.
- **Previs√£o simples:** ajuda a planejar estoque e promo√ß√µes futuras.

## 1. RFM

--Rec√™ncia, Frequ√™ncia e Valor

--**Objetivo:** Identificar clientes mais valiosos e engajados.

*Segmentar clientes (VIP, Regular, Ocasional), direcionar campanhas de marketing, aumentar fideliza√ß√£o e otimizar vendas.*

```sql

WITH rfm AS (
  SELECT
    cliente_id,
    nome_cliente,
    SUM(total_venda) AS valor_total,
    COUNT(venda_id) AS frequencia,
    DATE_DIFF(DATE("2024-03-31"), MAX(data_venda), DAY) AS recencia
  FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
  GROUP BY cliente_id, nome_cliente
)
SELECT *,
  CASE
    WHEN valor_total >= 150 THEN 'VIP'
    WHEN valor_total >= 75 THEN 'Regular'
    ELSE 'Ocasional'
  END AS segmento
FROM rfm
ORDER BY valor_total DESC;


    
````
   ## 2. Pareto
-- Clientes que geram 80% da receita

--**Objetivo:** Identificar os clientes mais importantes para a receita, seguindo a regra 80/20.

*Focar esfor√ßos de marketing e reten√ß√£o nos clientes que realmente impactam a receita.*

```sql
    WITH receita_total AS (
    SELECT SUM(total_venda) AS receita_geral
    FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
    ),
    clientes_receita AS (
    SELECT
    cliente_id,
    nome_cliente,
    SUM(total_venda) AS receita_cliente
    FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
    GROUP BY cliente_id, nome_cliente
    ORDER BY receita_cliente DESC
    )
    SELECT
    c.*,
    r.receita_geral,
    SUM(c.receita_cliente) OVER (ORDER BY receita_cliente DESC ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS receita_acumulada,
    (SUM(c.receita_cliente) OVER (ORDER BY receita_cliente DESC ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)/r.receita_geral) AS percentual_acumulado
    FROM clientes_receita c
    CROSS JOIN receita_total r;

````

## 3. Co-purchase
 -- Produtos comprados juntos

 -- **Objetivo:** Identificar produtos frequentemente comprados pelo mesmo cliente.

 *Sugerir produtos complementares, aumentando vendas e ticket m√©dio.*

```sql
    SELECT
    v1.produto_id AS produto_1,
    p1.nome_produto AS nome_produto_1,
    v2.produto_id AS produto_2,
    p2.nome_produto AS nome_produto_2,
    COUNT(DISTINCT v1.cliente_id) AS qtd_clientes_compraram_juntos
    FROM `Livraria_DevSaber_1_10.vendas` v1
    JOIN `Livraria_DevSaber_1_10.vendas` v2
    ON v1.cliente_id = v2.cliente_id AND v1.produto_id < v2.produto_id
    JOIN `Livraria_DevSaber_1_10.produtos` p1 ON v1.produto_id = p1.produto_id
    JOIN `Livraria_DevSaber_1_10.produtos` p2 ON v2.produto_id = p2.produto_id
    GROUP BY produto_1, nome_produto_1, produto_2, nome_produto_2
    ORDER BY qtd_clientes_compraram_juntos DESC;

````


## 4. Receita por m√™s
--**Objetivo:** Avaliar o desempenho das vendas ao longo do tempo, identificar tend√™ncias sazonais.

*Planejamento de estoque, promo√ß√µes e campanhas de marketing de acordo com a demanda hist√≥rica.*

```sql
    SELECT
    FORMAT_DATE("%Y-%m", data_venda) AS ano_mes,
    SUM(total_venda) AS receita_total
    FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
    GROUP BY ano_mes
    ORDER BY ano_mes;

````

## 5. Heatmap de vendas
--**Objetivo:** Identificar os dias da semana com maior volume de vendas.

*Planejar promo√ß√µes e campanhas em dias estrat√©gicos de maior movimento.*

```sql
    SELECT
    EXTRACT(DAYOFWEEK FROM data_venda) AS dia_semana,
    COUNT(venda_id) AS qtd_vendas,
    SUM(total_venda) AS receita
    FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
    GROUP BY dia_semana
    ORDER BY dia_semana;

````

## 6. Segmenta√ß√£o de clientes
--**Objetivo:** Organizar clientes em grupos estrat√©gicos para a√ß√µes de marketing direcionadas.

*Criar campanhas espec√≠ficas, promo√ß√µes personalizadas e fidelizar clientes estrat√©gicos.*

```sql
    WITH rfm AS (
    SELECT
    cliente_id,
    nome_cliente,
    SUM(total_venda) AS valor_total,
    COUNT(venda_id) AS frequencia,
    DATE_DIFF(CURRENT_DATE(), MAX(data_venda), DAY) AS recencia
    FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
    GROUP BY cliente_id, nome_cliente
    )
    SELECT
    cliente_id,
    nome_cliente,
    valor_total,
    frequencia,
    recencia,
    CASE
    WHEN valor_total >= 150 THEN 'VIP'
    WHEN valor_total >= 75 THEN 'Regular'
    ELSE 'Ocasional'
    END AS segmento
    FROM rfm
    ORDER BY valor_total DESC;

````

## 7. Previs√£o simples
--M√©dia m√≥vel 3 meses

--**Objetivo:** Criar estimativa de tend√™ncias futuras de vendas para planejamento de estoque e promo√ß√µes.

*Fornece uma proje√ß√£o simples da receita futura, ajudando na tomada de decis√£o sobre estoque, marketing e promo√ß√µes.*

```sql

    WITH receita_mensal AS (
    SELECT
    FORMAT_DATE("%Y-%m", data_venda) AS ano_mes,
    SUM(total_venda) AS receita_total
    FROM `Livraria_DevSaber_1_10.vw_vendas_detalhes`
    GROUP BY ano_mes
    )
    SELECT
    ano_mes,
    receita_total,
    AVG(receita_total) OVER (ORDER BY ano_mes ROWS BETWEEN 2 PRECEDING AND CURRENT ROW) AS media_movel_3meses
    FROM receita_mensal
    ORDER BY ano_mes;