# Consultas SQL e Visualização de Dados

## Descrição

Esse notebook tem como objetivo escrever **consultas SQL** para:

- Listar o nome do produto, categoria e a soma total de vendas (Quantidade * Preço) para cada produto mostrando de forma ordenada por ordem decrescente
- Identificar os produtos que venderam menos no mês de junho de 2023 (foi pedido 2024, porém as instruções passadas para a criação do dataset foi com o periodo de dadas de 01/01/2023 a 31/12/2023)
- Irá ser utilizado o arquivo **data_clean.csv**
- Será testado e validado as consultas diretamente em um banco de dados SQLite neste notebook
- Existe um arquivo conforme solicitado chamado **consultas_sql.sql** na Pasta 2 com as Querys criadas e sua explicação lógica, o conteúdo deste arquivo é o mesmo usado neste notebook

---

### Estrutura

1. **Importando as bibliotecas:** Importação de bibliotecas utilizadas
2. **Carregar os dados para um banco de dados SQLite:** Instruções de como carregar o csv em um banco de dados temporario em memoria Ram
3. **Testando consultas:** Dividido em `Consulta 1` e `Consulta 2`
4. **Consulta 1:** Execução da query e sua saída
5. **Consulta 2:** Execução da query e sua saída
6. **Explicação lógica:** Dividido em `Consulta 1`, `Consulta 2` e `Observação`
7. **Consulta 1:** Explicação da query
8. **Consulta 2:** Explicação da query
9. **Observação:** Um lembrete sobre sintaxe

## Importando as bibliotecas

In [23]:
import sqlite3
import pandas as pd
import os

## Carregar os dados para um banco de dados SQLite

In [76]:
#Obter o caminho absoluto para evitar erros de path
file_path = os.path.abspath("data_clean.csv")
print(file_path)

C:\Users\leona\Data Science\Teste Quod\Teste_Analytics_JorladsonPatrick\Parte 2\data_clean.csv


In [78]:
#caminho do csv (aqui... resumindo o python interpreta "/" então ou vc usa um "r" para transofrmar em "raw string" para interpretar as barras como caracteres normais ou usa "\\" escolhi o r por ser mais preguiçoso e pq ta funcionando)
file_path = os.path.abspath(r"C:\Users\leona\Data Science\Teste Quod\Teste_Analytics_JorladsonPatrick\Parte 1\data_clean.csv")

#leitura do dataset
df = pd.read_csv(file_path)
df.head()

Unnamed: 0,ID,Data,Categoria,Produto,Quantidade,Preço
0,1,2023-01-01,Alimentos,Fruta,16,29.45
1,2,2023-01-02,Roupas,Cachecol,13,170.02
2,3,2023-01-04,Roupas,Vestido,3,110.22
3,4,2023-01-06,Alimentos,Chocolate,8,5.95
4,5,2023-01-08,Eletrônicos,Smart TV,4,234.18


In [154]:
#Conectar ao banco de dados SQLite na memória)
conn = sqlite3.connect(":memory:")

#Carregar o DataFrame para o banco SQLite
df.to_sql("data_clean", conn, index=False, if_exists="replace")
print("Banco de dados SQLite criado com sucesso!")

Banco de dados SQLite criado com sucesso!


## Testando as consultas

### Consulta 1: Listar o nome do produto, categoria e a soma total de vendas (Quantidade * Preço) para cada produto mostrando de forma ordenada por ordem decrescente

In [128]:
query1 = """
SELECT 
    Categoria,
    Produto,
    SUM (Quantidade * Preço) AS Total_de_Vendas
FROM 
    data_clean
GROUP BY 
    Produto
ORDER BY 
    Total_de_Vendas DESC;
"""

#Executa a consulta
resultado1 = pd.read_sql_query(query1, conn)
print(result1)

           Produto    Categoria  Total_de_Vendas
0          Teclado  Eletrônicos         50098.87
1   Fone de ouvido  Eletrônicos         28743.80
2         Smart TV  Eletrônicos         25270.40
3            Mouse  Eletrônicos         22188.15
4          Celular  Eletrônicos         17910.37
5            Luvas       Roupas         16488.44
6       Carregador  Eletrônicos         16396.59
7        Microfone  Eletrônicos         14269.56
8          Vestido       Roupas         11235.33
9         Cachecol       Roupas          8417.90
10           Tênis       Roupas          7760.36
11           Meias       Roupas          6627.04
12         Monitor  Eletrônicos          5828.30
13           Calça       Roupas          5631.97
14          Camisa       Roupas          4904.21
15         Bermuda       Roupas          3875.65
16           Fruta    Alimentos          3283.93
17          Feijão    Alimentos          2470.12
18           Arroz    Alimentos          2406.54
19            Café  

### Consulta 2: Identificar os produtos que venderam menos no mês de junho de 2023

In [122]:
query2 = """
SELECT 
    Categoria,
    Produto,
    SUM (Quantidade) AS Total_de_Quantidade
FROM 
    data_clean
WHERE 
    strftime ('%Y-%m', Data) = '2023-06'
GROUP BY 
    Produto
ORDER BY 
    Total_de_Quantidade ASC;
"""

resultado2 = pd.read_sql_query(query2, conn)
print(resultado2)

      Categoria         Produto  Total_de_Quantidade
0        Roupas          Casaco                    1
1     Alimentos          Queijo                    1
2        Roupas           Tênis                    8
3     Alimentos            Café                   12
4     Alimentos          Farofa                   12
5   Eletrônicos  Fone de ouvido                   12
6     Alimentos             Pão                   12
7   Eletrônicos        Smart TV                   13
8   Eletrônicos         Teclado                   13
9        Roupas         Bermuda                   17
10       Roupas           Meias                   17
11    Alimentos           Arroz                   18
12    Alimentos           Fruta                   18


## Explicação lógica

### Consulta 1

- O objetivo é: Calcular o total de vendas para cada produto, classificar e ordenar
- Utilizei o SELECT em Categoria, Produto pois eles precisam ser listados e criei uma coluna ao lado chamado Total_de_Vendas que é o resultado da multiplicação de Quantidade x Preço, assim cada linha vai representar o valor total de vendas por cada produto 
- o FROM é para pegar a tabela criada
- Agrupo as linhas por produto, como produto tem mais "variaveis" que categoria, é o suficiente para poder combinar as linhas do mesmo produto e os valores dentro da sua categoria
- Ordeno como pedido o total_de_Vendas de forma decrescente, para mostrar os maiores valores em cima da tabela

### Consulta 2

- O objetivo é: Identificar os produtos que venderam menos em uma determinada data
- Uso o SELECT em Categoria, Produto e crio uma outra coluna chamada Total_de_Quantidade que é a soma de todas as quantidades vendidas para cada produto dentro de sua categoria
- O From é para pegar a tabela criada
- Uso o WHERE para filtar os registros dentro da data que foi solicitada, para filtar apenas os registros realizadas no mes de junho de 2023
- Agrupo as linhas por produto pois, produto tem mais "variaveis" que "categoria", segue a mesma logica da consulta 1, terei combinado as linhas do mesmo produto e a quantidade dentro de sua categoria
- Ordeno de forma Crescente para mostrar os menores valores por cima na tabela 

### Observação

- Em Group by, nao faz diferença pro codigo colocar "Categoria, Produto" mas dizem que no PostgreSQL tem q ser assim, fica ai de aviso