# 📊 Projeto: Implantação de DW e BI para Vendas | Livraria DevSaber

## 📌 Contexto

No contexto para o mini projeto de de pipeline de dados em SQL, vamos trabalhar com a livraria DevSaber é uma loja de vendas online onde atualmente os dados como vendas, produtos e de todos os clientes estao armazenados em planilhas distintas. Sabemos que planilhas sao uteis para pequenos volumes de dados, como a livraria tem aumentado o seu volume de vendas, agora precisar cuidar desses dados de maneira mais eficiente e ordenada.

A gestão de vendas da livraria era realizada em **planilhas**, o que gerava:
- Falta de escalabilidade  
- Riscos de integridade dos dados  
- Baixa capacidade analítica  

---

## 🎯 Objetivo
Migrar o processo para um **Data Warehouse no Google BigQuery**, garantindo **qualidade dos dados** e viabilizando **análises estratégicas**.

---

## 🛠️ Solução Implementada

- Criação de um **mini Data Warehouse** no **BigQuery**  
- Sintaxe e Nomenclatura
  - Tipos de dados ((Diferenças Chave))

      - **STRING** → TEXTO
      - **NUMERIC** → NUMEROS DECIMAIS
      - **FLOAT64** → NUMEROS DE PONTOS FLUTUANTES
      - **DATE/ DATETIME / TIMESTAMP** → DATA E HORA
      - **INT64** → NUMEROS INTEIROS

- Desenvolvimento de um **pipeline de dados completo**:  
  - **Modelagem** (definição de tabelas e relacionamentos)  
  - **Ingestão** (carregamento de dados via scripts SQL)  
  - **Análise** (consultas SQL e criação de views analíticas)  

- Estruturação de um **schema relacional** com tabelas de:
  - **Clientes**  
  - **Produtos**  
  - **Vendas**  

---

## 🚀 Stack Tecnológica e Conceitos
- **Cloud & DW:** Google BigQuery  
- **Linguagem:** SQL (DDL, DML)  
- **Princípios aplicados:**  
  - Scripts **idempotentes** (`CREATE OR REPLACE`)  
  - Relacionamentos lógicos (`JOIN`)  
  - Agregações (`SUM`, `GROUP BY`)  
  - Automação via **VIEWs**  

---

## 💡 Perguntas para a turma


- Por que uma planilha não é ideal para uma empresa que quer analisar suas vendas a fundo?

  **resposta:** 

   _Planilhas sao limitadas quando se tratam de analise do dados. Sua limitação ao conectar e organizar dados com varias tabelas dificulta a automação de consultas, a integração com ferramentas de analise de dados e a outros sistemas se tornam ineficazes. Um ponto de atenção é a segurança das planilhas, a qualquer momento podem sofrer alterações erroenas e inesperadas, aumentando o indice de erro e ineficiencia dos dados._

 - Que tipo de perguntas vocês acham que o dono da livraria gostaria de responder com esses dados?

   **resposta:**

    _1. Rankear vendas por categorias para o exercico de 2024, identificar a categoria mais vendida._ 
             
    _2. Identificar o Estado com maior e menor numero de vendas no ano de 2024._

    _3. Título de maior interesse pelos clientes no estado de RR no ano de 2023._

    _4. Idade média dos clientes por categoria._

    _5. Quais produtos tiveram maior saída._

    _6. Valor do ticket medio de compra por cliente._

    _7. Exibir apenas os titulos correspondentes a uma categoria._

 - Com base nos dados brutos, quais outras duas tabelas precisamos criar? Que colunas e tipos de dados elas teriam?

   **resposta:**

   _Se a gente tem dados brutos de vendas, normalmente eles vêm meio misturados, tipo: ID do cliente, nome do cliente, produto comprado, categoria, preço, quantidade, data da compra tudo junto numa tabela só. Pra organizar melhor (e não ficar repetindo informação à toa), a gente costuma separar em tabelas. Além da tabela de vendas, que já existe, faria sentido criar pelo menos mais duas tabelas._

 - Se o BigQuery não tem chaves estrangeiras, como garantimos que um ID_Cliente na tabela de vendas realmente existe na tabela de clientes? (Resposta: A responsabilidade é nossa, na hora de construir a consulta com o JOIN).

   **resposta:**

   _Quem tem que garantir isso somos nós, quando fazemos a consulta. Ou seja, na hora de montar o JOIN, eu junto as duas tabelas pelo ID_Cliente. Se não existir esse cliente na tabela de clientes, ele não aparece no resultado (ou aparece nulo, dependendo do tipo de JOIN que eu usar)._


- Por que é uma boa prática inserir os clientes e produtos em suas próprias tabelas antes de inserir os dados de vendas?

  **resposta:**

  _A tabela Clientes e Produtos sao tabelas que contem as chamadas _primary keys_ que podem ser os pontos de partida para as conexões de relacionamento entre as demais tabelas, principalmente para a tabela de vendas, onde contem as _foreign keys_, onde a chave de identificação de vendas carrega tbm as chaves de produtos e clientes. Sendo assim, a ordem de criação da tabela deve seguir uma ordem logica para que haja nexo na tabela de vendas._

 - Em um cenário com milhões de vendas por dia, o INSERT INTO seria a melhor abordagem?

**resposta:**
     Pode ser que nao seja a melhor opção. Para o uso de grandes volumes de dados, é indicado que seja realizada a conexão com servidores de dados.

 - Qual é a principal vantagem de usar uma VIEW em vez de simplesmente salvar o código em um arquivo de texto?

   **resposta:**   
   _Uma view economiza nos dados processados._ 

 - Se o preço de um produto mudar na tabela Produtos, o Valor_Total na VIEW será atualizado automaticamente na próxima vez que a consultarmos?

   **resposta:**
   
   _Sim. Os dados de uma `view` nao serao armazenados. Apenas a consulta. Entao, sempre que for execultada a consulta (view) salva, os dados serao carregados conforme atualização no banco de dados._


--- 


## 📦 Estrutura do Repositório
```bash
📁 livraria-devsaber-dw
 ┣ 📂 01_create_tables_bigquery.sql
 ┃ ┣ 📜 clientes.sql
 ┃ ┣ 📜 produtos.sql
 ┃ ┗ 📜 vendas.sql
 ┣ 📂 02_insert_data_bigquery.sql
 ┃ ┣ 📜 insert_clientes.sql
 ┃ ┣ 📜 insert_produtos.sql
 ┃ ┗ 📜 insert_vendas.sql
 ┣ 📂 03_analysis_and_view_bigquery.sql
 ┃ ┣ 📂 analysis
 ┃ ┃ ┣ 📜 pergunta_1_0.sql
 ┃ ┃ ┣ 📜 pergunta_1_2.sql
 ┃ ┃ ┗ 📜 pergunta_1_3.sql
 ┃ ┣ 📂 views
 ┃ ┃ ┗ 📜 vw01_vendas_detalhadas.sql
 ┗ 📜 README.md
