# [Mini Projeto] 
# Pipeline de Dados e Análise com SQL no BigQuery

## **1. Introdução**


**A Missão da Livraria DevSaber**

Contexto

O cliente é a ‘Livraria DevSaber’, uma nova loja online que fez suas primeiras vendas e, até agora, anotou tudo em uma planilha. Isso é um começo, mas para crescer, eles precisam de *insights*. Nossa missão é transformar essa planilha em um *mini data warehouse* inteligente no Google BigQuery. Vamos construir todo o pipeline de dados: desde criar a estrutura, carregar os dados, até extrair as respostas que ajudarão a livraria a entender seus negócios.”




**Perguntas para a turma:**

- _Por que uma planilha não é ideal para uma empresa que quer analisar suas vendas a fundo?_

       resposta:
            Planilhas sao limitadas quando se tratam de analise do dados. Sua limitação ao conectar e organizar dados com varias tabelas dificulta a automação de consultas, a integração com ferramentas de analise de dados e a outros sistemas se tornam ineficazes. Um ponto de atenção é a segurança das planilhas, a qualquer momento podem sofrer alterações erroenas e inesperadas, aumentando o indice de erro e ineficiencia dos dados.


- _Que tipo de perguntas vocês acham que o dono da livraria gostaria de responder com esses dados?_

      resposta:
            1. Rankear vendas por categorias em cada trimestre do ultimo exercicio para os resultados em cada estado;            

            2. Identificar periodo de menor e maior numero de vendas por estado em cada trimestre:

            3. Título de maior interesse pelos clientes no ultimo ano;

            4. Quantidade de vendas semanal. (view)


## 2. Estruturando o Armazenamento
`CREATE` `TABLE` no BigQuery

O primeiro passo em qualquer projeto de dados é construir a ‘casa’ onde os dados vão morar. No BigQuery, fazemos isso com o `CREATE` `TABLE`. Mas, diferente dos bancos de dados tradicionais, o BigQuery tem suas próprias regras de arquitetura. Ele é construído para ser incrivelmente rápido com volumes de dados gigantescos, e isso muda um pouco a forma como definimos nossas tabelas.”

**Exemplo:** O código para criar a tabela Clientes

 No BigQuery, usamos tipos de dados como STRING e INT64
        
       

          CREATE OR REPLACE TABLE `seu-projeto.seu_dataset.Clientes` 
          ( ID_Cliente INT64, 
          Nome_Cliente STRING, 
          Email_Cliente STRING, 
          Estado_Cliente STRING
          );

**Perguntas para a turma:**

- _Com base nos dados brutos, quais outras duas tabelas precisamos criar? Que colunas e tipos de dados elas teriam?_

- _Se o BigQuery não tem chaves estrangeiras, como garantimos que um `ID_Cliente` na tabela de vendas realmente existe na tabela de clientes? (Resposta: A responsabilidade é nossa, na hora de construir a consulta com o `JOIN`)._

## 3. Ingerir os Dados

`INSERT INTO`

Inserir os dados brutos fornecidos nas tabelas.

Carregar os dados da ‘planilha’  da livraria para dentro do BigQuery. Para o volume de dados do nosso projeto, o comando `INSERT INTO` é perfeito. Ele nos permite inserir os registros linha a linha, de forma clara e controlada.”

- Por que é uma boa prática inserir os clientes e produtos em suas próprias tabelas antes de inserir os dados de vendas?

      resposta: 
      A tabela Clientes e Produtos sao tabelas que contem as chamadas _primary keys_ que podem ser os pontos de partida para as conexões de relacionamento entre as demais tabelas, principalmente para a tabela de vendas, onde contem as _foreign keys_, onde a chave de identificação de vendas carrega tbm as chaves de produtos e clientes. Sendo assim, a ordem de criação da tabela deve seguir uma ordem logica para que haja nexo na tabela de vendas.


- Em um cenário com milhões de vendas por dia, o `INSERT INTO` seria a melhor abordagem?

      resposta:
      Pode ser que nao seja a melhor opção. Para o uso de grandes volumes de dados, é indicado que seja realizada a conexão com servidores de dados.

## 4. Análise de Dados
Fazendo Perguntas com `SELECT` e `JOIN`

Com os dados estruturados, agora podemos fazer perguntas de negócio e obter respostas imediatas. Usaremos tudo o que aprendemos: `SELECT` para escolher o que queremos ver, WHERE para filtrar, `JOIN` para conectar nossas tabelas e `GROUP BY` para agregar e resumir informações.

A "Livraria DevSaber", uma loja online, registrou suas primeiras vendas e precisa da sua ajuda para estruturar e analisar esses dados. Sua missão é criar um pequeno data warehouse no Google BigQuery para permitir que a empresa responda a perguntas de negócio importantes sobre seus clientes e produtos.

In [0]:
SELECT
    C.Nome_Cliente,   
    P.Nome_Produto,
    V.Data_Venda
FROM `t1engenhariadados.Grupo_10.Vendas2` AS V    -- Seleciona a tabela procipal 
JOIN `t1engenhariadados.Grupo_10.Clientes2` AS C  -- junta as vendas ao cadastro do cliente
  ON V.ID_Cliente = C.ID_Cliente
JOIN `t1engenhariadados.Grupo_10.Produtos2` AS P -- junta as vendas ao cadastro do produto
  ON V.ID_Produto = P.ID_Produto
ORDER BY V.Data_Venda;


-- o relacionamento entre as tabelas foi feito. Agora as linhas com chaves primarias correspondentes em cada tabela estao correlacionadas.

## 5. Automação e Reuso
**Criando uma `VIEW`**


Uma `VIEW` no BigQuery é como salvar uma consulta complexa com um nome simples. Ela se torna uma ‘tabela virtual’ que podemos consultar de forma muito mais fácil.

- Agora, em vez de escrever toda a consulta de `JOIN` novamente, podemos simplesmente fazer: `SELECT * FROM v_relatorio_vendas_detalhado WHERE Nome_Cliente = 'Ana Silva';`
- A `VIEW` simplifica o acesso aos dados e garante que todos na empresa usem a mesma lógica de cálculo.

**Perguntas para a turma:**

- _Qual é a principal vantagem de usar uma `VIEW` em vez de simplesmente salvar o código em um arquivo de texto?_

      resposta: Uma view economiza nos dados processados. 


- Se o preço de um produto mudar na tabela `Produtos`, o `Valor_Total` na `VIEW` será atualizado automaticamente na próxima vez que a consultarmos?

      resposta: Sim. Os dados de uma view nao serao armazenados. Apenas a consulta. Entao, sempre que for execultada a consulta (view) salva, os dados serao carregados conforme atualização no banco de dados.

## 6. Exercícios

**Missão do projeto: Criar um conjunto de scripts SQL.**

### 1. Definir o Schema
Criar as tabelas Clientes, Produtos e Vendas.

#### Criar as tabelas Clientes, Produtos e Vendas.

In [0]:
%sql

CREATE OR REPLACE TABLE `t1engenhariadados.Grupo_10.Clientes2` (
    ID_Cliente INT64,
    Nome_Cliente STRING,
    Email_Cliente STRING,
    Idade_Cliente INT64,
    Estado_Cliente STRING,
    
);

-- Tabela de Produtos
-- Armazena informações únicas de cada produto.
CREATE OR REPLACE TABLE `t1engenhariadados.Grupo_10.Produtos2` (
    ID_Produto INT64,
    Nome_Produto STRING,
    Categoria_Produto STRING,
    Preco_Produto NUMERIC
);

-- Tabela de Vendas
-- Tabela de fatos que relaciona clientes e produtos, registrando cada transação.
-- As relações com Clientes e Produtos são lógicas, mantidas pelos campos de ID.
CREATE OR REPLACE TABLE `t1engenhariadados.Grupo_10.Vendas2` (
    ID_Venda INT64,
    ID_Cliente INT64,
    ID_Produto INT64,
    Data_Venda DATE,
    Quantidade INT64
);




### 2. Ingerir os Dados
 Inserir os dados brutos fornecidos nas tabelas.

##### Inserir dados na tabela clientes  (sem duplicatas)

In [0]:

INSERT INTO `t1engenhariadados.Grupo_10.Clientes2` 
  (ID_Cliente, Nome_Cliente, Email_Cliente, Idade_Cliente,Estado_Cliente)
VALUES 
(1,'AnaSophiaTeixeira','ana.sophia.teixeira@exemplo.com',28,'RJ'),

(2,'NinaAraújo','nina.araújo@exemplo.com',42,'AC'),

(3,'EnzoCardoso','enzo.cardoso@exemplo.com',48,'RR'),

(4,'LaradaPaz','lara.da.paz@exemplo.com',37,'RJ'),

(5,'JúliaMoura','júlia.moura@exemplo.com',43,'RR'),

(6,'StellaDias','stella.dias@exemplo.com',38,'RJ'),

(7,'LuigiMoreira','luigi.moreira@exemplo.com',49,'SP'),

(8,'NathanNunes','nathan.nunes@exemplo.com',47,'SP'),

(9,'VitorHugoPires','vitor.hugo.pires@exemplo.com',58,'SP'),

(10,'JoãoLucasAlves','joão.lucas.alves@exemplo.com',46,'RR'),

(11,'BrunoGonçalves','bruno.gonçalves@exemplo.com',42,'RJ'),

(12,'PauloCavalcanti','paulo.cavalcanti@exemplo.com',22,'CE'),

(13,'AnaJúliadaCruz','ana.júlia.da.cruz@exemplo.com',51,'AM'),

(14,'GustavodaRocha','gustavo.da.rocha@exemplo.com',50,'ES'),

(15,'VicenteMonteiro','vicente.monteiro@exemplo.com',51,'AM'),

(16,'IsabellaCardoso','isabella.cardoso@exemplo.com',42,'ES'),

(17,'FernandoCostela','fernando.costela@exemplo.com',43,'MA'),

(18,'MelissaCampos','melissa.campos@exemplo.com',44,'AM'),

(19,'LaísFogaça','laís.fogaça@exemplo.com',47,'AM'),

(20,'MiguelCastro','miguel.castro@exemplo.com',28,'RJ'),

(21,'PedroLucasFarias','pedro.lucas.farias@exemplo.com',46,'AM'),

(22,'EduardoBarbosa','eduardo.barbosa@exemplo.com',48,'ES'),

(23,'GabriellyTeixeira','gabrielly.teixeira@exemplo.com',42,'RR'),

(24,'GabrielMoraes','gabriel.moraes@exemplo.com',55,'AL'),

(25,'MariaJuliaCampos','maria.julia.campos@exemplo.com',30,'SP'),

(26,'LuizOtávioAraújo','luiz.otávio.araújo@exemplo.com',52,'MG'),

(27,'AlanaSilveira','alana.silveira@exemplo.com',38,'AM'),

(28,'AnaLuizaAraújo','ana.luiza.araújo@exemplo.com',51,'MG'),

(29,'DaniloGomes','danilo.gomes@exemplo.com',42,'AM'),

(30,'BryanBarbosa','bryan.barbosa@exemplo.com',36,'ES'),

(31,'MariaClaradaMota','maria.clara.da.mota@exemplo.com',31,'SP'),

(32,'LeonardoGonçalves','leonardo.gonçalves@exemplo.com',49,'RJ'),

(33,'CecíliaCaldeira','cecília.caldeira@exemplo.com',28,'AM'),

(34,'LuizHenriqueAraújo','luiz.henrique.araújo@exemplo.com',32,'RJ'),

(35,'LuigiRocha','luigi.rocha@exemplo.com',38,'ES'),

(36,'AndréCarvalho','andré.carvalho@exemplo.com',18,'ES'),

(37,'AnaJúliaCastro','ana.júlia.castro@exemplo.com',20,'RR'),

(38,'AnaSophiaPereira','ana.sophia.pereira@exemplo.com',44,'RR'),

(39,'MariaCecíliaNovaes','maria.cecília.novaes@exemplo.com',25,'ES'),

(40,'DiegoCastro','diego.castro@exemplo.com',60,'ES'),

(41,'PietraSilva','pietra.silva@exemplo.com',50,'AC'),

(42,'AlexiaSantos','alexia.santos@exemplo.com',38,'RJ'),

(43,'HelenaNogueira','helena.nogueira@exemplo.com',26,'SP'),

(44,'SofiaFogaça','sofia.fogaça@exemplo.com',24,'AM'),

(45,'JoãoVitorNascimento','joão.vitor.nascimento@exemplo.com',42,'RJ'),

(46,'AnaBeatrizGomes','ana.beatriz.gomes@exemplo.com',26,'AM'),

(47,'IsabellyPeixoto','isabelly.peixoto@exemplo.com',39,'RR'),

(48,'DaviPires','davi.pires@exemplo.com',55,'AM'),

(49,'TheoCavalcanti','theo.cavalcanti@exemplo.com',18,'MG'),

(50,'MariaCecíliaMoura','maria.cecília.moura@exemplo.com',38,'SP')


SELECT *
FROM
`t1engenhariadados.Grupo_10.Clientes2`


##### Inserção de dados na tabela Produtos (sem duplicatas)


In [0]:

SELECT *
FROM `t1engenhariadados.Grupo_10.Produtos2` 


INSERT INTO `t1engenhariadados.Grupo_10.Produtos2` 
    (ID_Produto, Nome_Produto, Categoria_Produto, Preco_Produto)
VALUES
(950,'1984','Ficção',76.06),
(298,'O Senhor dos Anéis','Não Ficção',25.52),
(697,'Dom Quixote','Biografia',58.37),
(771,'Cem Anos de Solidão','Ciência',47.02),
(168,'O Nome do Vento','Tecnologia',85.93),
(121,'Duna','História',38.74),
(296,'Orgulho e Preconceito','Filosofia',45.4),
(376,'A Revolução dos Bichos','Autoajuda',84.47),
(548,'Sapiens: Uma Breve História da Humanidade','Ficção',81.05),
(767,'Homo Deus','Não Ficção',58.93),
(844,'Armas, Germes e Aço','Biografia',54.57),
(559,'O Gene','Ciência',82.17),
(716,'A Vida Imortal de Henrietta Lacks','Tecnologia',74.13),
(525,'O Corpo','História',21.16),
(799,'Steve Jobs','Filosofia',33.33),
(829,'Leonardo da Vinci','Autoajuda',63.91),
(319,'Minha História','Ficção',86.9),
(149,'Long Walk to Freedom','Não Ficção',38.56),
(381,'Einstein: His Life and Universe','Biografia',22.98),
(743,'Churchill: A Life','Ciência',48.42),
(107,'Uma Breve História do Tempo','Tecnologia',57.65),
(434,'O Universo Numa Casca de Noz','História',29.63),
(629,'Cosmos','Filosofia',42.3),
(488,'A Estrutura das Revoluções Científicas','Autoajuda',83.8),
(999,'Astrofísica para Apressados','Ficção',67.26),
(556,'Clean Code','Não Ficção',70.92),
(124,'The Pragmatic Programmer','Biografia',29.43),
(543,'Artificial Intelligence: A Modern Approach','Ciência',50.4),
(716,'Design Patterns','Tecnologia',25.14),
(778,'Introduction to Algorithms','História',86.28),
(188,'Guns, Germs, and Steel','Filosofia',35.66),
(701,'The Silk Roads','Autoajuda',54.63),
(754,'A People’s History of the United States','Ficção',59.57),
(514,'Postwar: A History of Europe Since 1945','Não Ficção',51.61),
(311,'The Wright Brothers','Biografia',77.71),
(499,'A República','Ciência',87.39),
(434,'Crítica da Razão Pura','Tecnologia',25.98),
(595,'Além do Bem e do Mal','História',37.14),
(714,'Meditações','Filosofia',42.73),
(714,'O Ser e o Nada','Autoajuda',24.55),
(934,'O Poder do Hábito','Ficção',48.3),
(275,'Os 7 Hábitos das Pessoas Altamente Eficazes','Não Ficção',40.81),
(823,'Como Fazer Amigos e Influenciar Pessoas','Biografia',23.46),
(624,'Mindset','Ciência',54.24),
(995,'A Sutil Arte de Ligar o F*da-se','Tecnologia',61.02);

#### Inserção de dados na tabela Vendas

In [0]:

INSERT INTO `t1engenhariadados.Grupo_10.Vendas2` 
  (ID_Venda, ID_Cliente, ID_Produto, Data_Venda, Quantidade)
VALUES
(9979,22,121,'2023-07-28',1),
(7823,24,767,'2024-03-19',5),
(9393,28,548,'2023-10-05',1),
(5224,34,381,'2023-05-13',5),
(8199,15,381,'2023-03-06',1),
(7983,14,999,'2023-02-12',5),
(7480,1,298,'2024-12-17',5),
(3496,28,697,'2023-05-20',3),
(9321,9,559,'2023-11-07',5),
(7797,31,296,'2024-02-08',2),
(1090,26,716,'2023-08-04',3),
(7374,3,548,'2023-08-08',2),
(6894,28,829,'2023-03-21',1),
(3156,9,754,'2023-08-22',2),
(6716,6,311,'2024-10-12',2),
(3986,50,629,'2023-02-24',1),
(5171,2,188,'2023-05-18',1),
(2562,47,376,'2024-09-09',5),
(2443,21,298,'2023-10-13',5),
(1755,48,934,'2023-09-26',2),
(1300,33,275,'2024-02-17',2),
(4043,33,771,'2024-05-18',10),
(4880,14,556,'2024-03-08',1),
(2034,27,701,'2023-12-01',2),
(2105,44,275,'2024-10-27',2),
(8006,20,823,'2024-09-16',1),
(1356,28,771,'2024-04-20',1),
(5603,32,543,'2024-10-10',2),
(3160,20,514,'2024-02-26',2),
(2834,14,716,'2023-07-25',3),
(8691,48,754,'2024-04-24',5),
(1952,10,629,'2024-05-05',1),
(5090,29,743,'2023-05-08',3),
(6818,33,829,'2023-06-18',1),
(9827,34,823,'2023-02-28',3),
(3142,23,124,'2024-04-28',3),
(7183,33,934,'2024-02-15',1),
(1283,25,514,'2023-07-23',2),
(5893,38,714,'2023-07-05',10),
(4817,10,311,'2023-12-02',2),
(3133,46,716,'2023-05-05',5),
(2821,28,629,'2023-03-11',2),
(7148,46,714,'2024-09-10',3),
(5913,27,778,'2024-02-13',1),
(7050,26,778,'2023-01-01',2),
(3701,29,543,'2023-03-27',5),
(3682,23,950,'2024-04-21',10),
(8797,36,999,'2023-10-26',2),
(5377,4,697,'2023-02-06',2),
(4201,32,556,'2023-04-06',1)
;

### 3. Analisar os Dados
Escrever consultas SQL para responder a perguntas de negócio.

Perguntas para serem respondidas com as consultas:

            1. Rankear vendas por categorias para o exercicio de 2024, identificar a categoria mais vendida. 
                     
            2. Identificar o Estado com maior e menor numero de vendas no ano de 2024.

            3. Título de maior interesse pelos clientes no ultimo ano em SP;

            4. Idade média dos clientes por categoria.

            5. Quais produtos tiveram baixa saída (poucas vendas) e quais tiveram alta saída;

            6. ticket medio de compra por cliente;

            7. Exibir apenas os titulos de uma categoria;

            8. recorrencia de compra dos cliente, mostrar prduto e categoria de recorrencia;

##### 1. Rankear vendas por categorias para o exercico de 2024, identificar a categoria mais vendida.



Para isso, é necessario agrupar as categorias utilizano o metodo `DISTINCT` e filtrar utilizando o `WHERE `pelo ano de 2024. Como a data esta em formato DATE, será necessario alterar o tipo para string para que seja filtrado apenas o ano de 2024.

In [0]:
SELECT 
  DISTINCT 
  Categoria_Produto,
  SUM(Total_Compra) AS Vendas_Categoria
          
FROM 
  `t1engenhariadados.Grupo_10.vw_relatorioLivraria`

-- transformando o formato data para string

WHERE
  EXTRACT(YEAR
  FROM
    Data_Venda) = 2024

GROUP BY  
  Categoria_Produto

ORDER BY 
  Vendas_Categoria DESC;


> RESPOSTA

**CATEGORIA MAIS VENDIDA: **Ficção com 1106.75 vendas realizadas no ano de 2024.****

 **RANKING DE VENDAS POR CATEGORIAS:**

        1	Ficção	1106.75
        2	Não Ficção	759.63
        3	Ciência	618.02
        4	Autoajuda	496
        5	Biografia	267.17
        6	Filosofia	261.29
        7	História	86.28

#####2. Identificar o Estado com maior e menor numero de vendas no ano de 2024.




In [0]:
SELECT DISTINCT 
    Estado_Cliente, 
  SUM(Total_Compra) AS Vendas_Estado   -- agrupa os estados e soma os valores de vendas de cada registro
FROM 
  `t1engenhariadados.Grupo_10.vw_relatorioLivraria`

WHERE
  EXTRACT (YEAR 
  FROM
    Data_Venda) = 2024

GROUP BY  
  Estado_Cliente
    
ORDER BY 
  Vendas_Estado DESC;


> RESPOSTA

**estado com maior numero de vendas :   **RR 1313.54****

   **RANKING DE VENDAS:**


      1	RR	1313.54

      2	AM	1267.71
      
      3	RJ	510.5
      
      4	AL	294.65
      
      5	SP	90.8
      
      6	ES	70.92
      
      7	MG	47.02

##### 3. Título de maior interesse pelos clientes no estado de RR no ano de 2023.

In [0]:
 -- 3. Título de maior interesse pelos clientes no estado de RR no ano de 2023
SELECT DISTINCT
      Nome_Produto, 
      SUM(Quantidade) AS Quantidade_Vendida,
      Categoria_Produto,
      Estado_Cliente
      
FROM 
  `t1engenhariadados.Grupo_10.vw_relatorioLivraria`

WHERE
  EXTRACT(YEAR FROM Data_Venda) = 2023
  AND Estado_Cliente = "SP"

GROUP BY 
  Nome_Produto, 
  Categoria_Produto, 
  Estado_Cliente

ORDER BY Categoria_Produto DESC;




> RESPOSTA




##### 4. Idade média dos clientes por categoria

In [0]:
-- idade média dos clientes por categoria

SELECT 
    p.Categoria_Produto,
    ROUND(AVG(c.Idade_Cliente), 0) AS Idade_Media,  -- ROUND() arredonda as casas decimais da media de idade
    COUNT(DISTINCT c.Idade_Cliente) AS Quantidade_Clientes,
   
  
FROM `t1engenhariadados.Grupo_10.Vendas2` v

JOIN `t1engenhariadados.Grupo_10.Clientes2`  c
  ON v.ID_Cliente = c.ID_Cliente 

JOIN `t1engenhariadados.Grupo_10.Produtos2`  p
  ON v.ID_Produto = p.ID_Produto

GROUP BY 
    p.Categoria_Produto     
ORDER BY 
      Idade_Media DESC;










##### 5. Quais produtos tiveram alta saída;


In [0]:
SELECT DISTINCT
      Nome_Produto, 
      Nome_Cliente,
      Categoria_Produto,            
      SUM(Quantidade) AS Quantidade_Vendida,
      
      
FROM 
  `t1engenhariadados.Grupo_10.vw_relatorioLivraria`


GROUP BY 
  Nome_Cliente,
  Nome_Produto, 
  Categoria_Produto
  
ORDER BY Quantidade_Vendida DESC;

##### 6. Valor do ticket medio de compra por cliente. 

In [0]:
-- 6. Valor do ticket medio de compra por cliente.

SELECT 
    c.ID_Cliente,
    c.Nome_Cliente,
    ROUND(SUM(v.Quantidade * p.Preco_Produto) /   -- soma a quantidade de produtos vendidos * o preco do produto
    COUNT(DISTINCT v.ID_Venda), 2) AS Ticket_Medio --  traz a quantidade de linhas no numero de vendas 

FROM
   `t1engenhariadados.Grupo_10.Vendas2` v

JOIN 
  `t1engenhariadados.Grupo_10.Clientes2`  c
    ON v.ID_Cliente = c.ID_Cliente  -- ROUND() arredonda as casas decimais da media de idade
   
JOIN 
  `t1engenhariadados.Grupo_10.Produtos2`  p
    ON v.ID_Produto = p.ID_Produto

GROUP BY 
    c.ID_Cliente,
    c.Nome_Cliente    

ORDER BY 
      Ticket_Medio DESC;

##### 7. Exibir apenas os titulos de uma categoria

In [0]:
-- 7. Exibir apenas os titulos correspondentes a uma categoria

SELECT *
FROM t1engenhariadados.Grupo_10.Produtos2
WHERE Categoria_Produto = 'Filosofia'

### 4. Criar uma View
Construir uma VIEW para simplificar análises futuras.

    VIEW criada para visualizar as vendas do estado de RR.

In [0]:
CREATE OR REPLACE VIEW `t1engenhariadados.Grupo_10.vw_relatorioLivraria` as

-- view para consulta de vendas no estado de RR

SELECT
    C.Nome_Cliente, 
    C.Estado_Cliente,
    V.ID_Venda,
    P.Nome_Produto,
    P.Categoria_Produto,
    P.Preco_Produto,
    V.Quantidade,   
    V.Data_Venda,
    (P.Preco_Produto * V.Quantidade) AS Total_Compra -- calcula o valor total da compra 
    
FROM 
  `t1engenhariadados.Grupo_10.Vendas2` AS V    -- Seleciona a tabela procipal 

JOIN `t1engenhariadados.Grupo_10.Clientes2` AS C  -- junta as vendas ao cadastro do cliente
  ON V.ID_Cliente = C.ID_Cliente
  
JOIN `t1engenhariadados.Grupo_10.Produtos2` AS P -- junta as vendas ao cadastro do produto
  ON V.ID_Produto = P.ID_Produto

WHERE 
  C.Estado_Cliente = 'RR'
ORDER BY 
  V.Data_Venda;

-- VISUALIZAÇÃO TABULAR DA VIEW
Select *
FROM
 `t1engenhariadados.Grupo_10.vw_relatorioLivraria`

# 2. Sugestão de README 


%md
#  Introdução

No contexto para o mini projeto de de pipeline de dados em SQL, vamos trabalhar com a  livraria DevSaber é uma loja de vendas online onde atualmente os dados como vendas, produtos e de todos os clientes estao armazenados em planilhas distintas. Sabemos que planilhas sao uteis para pequenos volumes de dados, como a livraria tem aumentado o seu volume de vendas, agora precisar cuidar desses dados de maneira mais eficiente e ordenada. 

### Objetivo

O projeto tem como objetivo transformar as planilhas de dados da Livraria DevSaber num _mini data warehouse_ inteligente no BigQuery. 
Criaremos um todo o pipeline de dados: estrututura, carregamento, e analise de algumas questões de negócio da livraria.


> 🎯 Objetivo de aprendizagem

Ao final desse projeto sabere estruturar um schema, realizar a ingetsçao de dados, construir consultas SQL analiticas, desenvolver uma view e muito mais. 


> 📊 Base de Dados


Os dados utilizados nessa análise foram abtidos das planilhas ficticias da livraria:
https://console.cloud.google.com/bigquery?ws=!1m4!1m3!3m2!1st1engenhariadados!2sGrupo_10

No dataset contem informações  sobre compras realizadas na livraria contendo data, quantidade, categorias de livros, linhas de produtos e informações de clientes.


> 🛠️ Ferramentas 

Para o projeto foi utiliazado o BigQuery para desenvolver e estruturar os dados disponibilizados para as consultas. 

> 🔬 Análise Realizada

**(INSERIR INFORMAÇÕES SOBRE PERGUNTAS ELABORADAS PARA AS CONSULTAS)**

**💡Contexto**

A livraria precisava utilizar os dados gerados atarves das vendas, produtos e clientes para levantar questões de sobre a segmentação de produtos, perfil de clientes, e principlamente porque agora precisava tomar decisões estrategicas para continuar o crescimento do negócio, totalmente baseado em numeros(dados).

Essas foram algumas perguntas feitas sobre o negocio e foram respondidas como os dados da consulta realizada: 

        1. Rankear vendas por categorias para o exercico de 2024, identificar a categoria mais vendida. 
                 
        2. Identificar o Estado com maior e menor numero de vendas no ano de 2024.

        3. Título de maior interesse pelos clientes no ultimo ano em SP;

        4. Idade média dos clientes por categoria.

        5. Quais produtos tiveram baixa saída (poucas vendas) e quais tiveram alta saída;

        6. ticket medio de compra por cliente;

        7. Exibir apenas os titulos de uma categoria;

        8. recorrencia de compra dos cliente, mostrar prduto e categoria de recorrencia;



Alem disso, alguns questionamentos foram importantes para sintetizar o conteúdo e maximizar a capacidade de aprendizado do grupo. Por isso, vamos responder algumas perguntas: 

### *Perguntas para a turma*



1. _Por que uma planilha não é ideal para uma empresa que quer analisar suas vendas a fundo?_

    resposta:

            Planilhas sao limitadas quando se tratam de analise do dados. Sua limitação ao conectar e organizar dados com varias tabelas dificulta a automação de consultas, a integração com ferramentas de analise de dados e a outros sistemas se tornam ineficazes. Um ponto de atenção é a segurança das planilhas, a qualquer momento podem sofrer alterações erroenas e inesperadas, aumentando o indice de erro e ineficiencia dos dados.


2.  _Que tipo de perguntas vocês acham que o dono da livraria gostaria de responder com esses dados?_

      resposta: (Sugestão: INSERIR INFORMAÇÕES SOBRE PERGUNTAS ELABORADAS PARA AS CONSULTAS)

            1. Rankear vendas por categorias em cada trimestre do ultimo exercicio para os resultados em cada estado;            

            2. Identificar periodo de menor e maior numero de vendas por estado em cada trimestre:

            3. Título de maior interesse pelos clientes no ultimo ano;

            4. Quantidade de vendas semanal. (view)

       

3. _Com base nos dados brutos, quais outras duas tabelas precisamos criar? Que colunas e tipos de dados elas teriam?_

      resposta:

4. _Se o BigQuery não tem chaves estrangeiras, como garantimos que um ID_Cliente na tabela de vendas realmente existe na tabela de clientes? (Resposta: A responsabilidade é nossa, na hora de construir a consulta com o JOIN)._

      resposta:



5. _Por que é uma boa prática inserir os clientes e produtos em suas próprias tabelas antes de inserir os dados de vendas?_

      resposta: 
      
            A tabela Clientes e Produtos sao tabelas que contem as chamadas _primary keys_ que podem ser os pontos de partida para as conexões de relacionamento entre as demais tabelas, principalmente para a tabela de vendas, onde contem as _foreign keys_, onde a chave de identificação de vendas carrega tbm as chaves de produtos e clientes. Sendo assim, a ordem de criação da tabela deve seguir uma ordem logica para que haja nexo na tabela de vendas.


6. _Em um cenário com milhões de vendas por dia, o `INSERT INTO` seria a melhor abordagem?_

      resposta:

            Pode ser que nao seja a melhor opção. Para o uso de grandes volumes de dados, é indicado que seja realizada a conexão com servidores de dados.


7. _Qual é a principal vantagem de usar uma `VIEW` em vez de simplesmente salvar o código em um arquivo de texto?_

      resposta: 
              
            Uma view economiza nos dados processados. 


8. _Se o preço de um produto mudar na tabela `Produtos`, o `Valor_Total` na `VIEW` será atualizado automaticamente na próxima vez que a consultarmos?_


     resposta: 

            Sim. Os dados de uma view nao serao armazenados. Apenas a consulta. Entao, sempre que for execultada a consulta (view) salva, os dados serao carregados conforme atualização no banco de dados.

