In [0]:
# Importando funções
from pyspark.sql.functions import year, month, dayofmonth, dayofweek

In [0]:
# Importando a base de dados
df = spark.read.option("header", True).option("inferSchema", True).csv("/FileStore/tables/base_vendas_2024-1.csv")
df.display()

_c0,ID_Venda,Data_Venda,ID_Produto,Nome_Produto,Categoria,Preco_Unitario,ID_Filial,Nome_Filial,Cidade_Filial,Quantidade,Valor_Total
0,1,2024-04-30,68,Couve,Hortifruti,96.43,6,Supermercado 6,Rogersport,5,482.15
1,2,2024-11-20,72,Alho,Hortifruti,32.06,9,Supermercado 9,Chelseaburgh,2,64.12
2,3,2024-11-23,20,Chá Preto,Bebidas,6.52,8,Supermercado 8,Colinchester,6,39.12
3,4,2024-05-13,77,Cenoura,Hortifruti,31.47,2,Supermercado 2,Lake Deborah,1,31.47
4,5,2024-09-04,7,Cerveja Itaipava,Bebidas,27.11,6,Supermercado 6,Rogersport,10,271.1
5,6,2024-06-10,72,Alho,Hortifruti,32.06,1,Supermercado 1,East Ashley,4,128.24
6,7,2024-07-18,52,Peito de Frango,Carnes,7.99,6,Supermercado 6,Rogersport,1,7.99
7,8,2024-08-27,91,Donuts,Padaria,84.58,3,Supermercado 3,Haasmouth,6,507.48
8,9,2024-02-08,110,Pão Sírio,Padaria,86.35,3,Supermercado 3,Haasmouth,5,431.75
9,10,2024-05-02,48,Queijo Minas,Laticínios,86.99,10,Supermercado 10,Amyborough,2,173.98


In [0]:
# Verificando o schema
df.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- ID_Venda: integer (nullable = true)
 |-- Data_Venda: date (nullable = true)
 |-- ID_Produto: integer (nullable = true)
 |-- Nome_Produto: string (nullable = true)
 |-- Categoria: string (nullable = true)
 |-- Preco_Unitario: double (nullable = true)
 |-- ID_Filial: integer (nullable = true)
 |-- Nome_Filial: string (nullable = true)
 |-- Cidade_Filial: string (nullable = true)
 |-- Quantidade: integer (nullable = true)
 |-- Valor_Total: double (nullable = true)



In [0]:
# Analisando uma amostragem inicial
spark.table("base_vendas").limit(10).display()

_c0,ID_Venda,Data_Venda,ID_Produto,Nome_Produto,Categoria,Preco_Unitario,ID_Filial,Nome_Filial,Cidade_Filial,Quantidade,Valor_Total
0,1,2024-04-30,68,Couve,Hortifruti,96.43,6,Supermercado 6,Rogersport,5,482.15
1,2,2024-11-20,72,Alho,Hortifruti,32.06,9,Supermercado 9,Chelseaburgh,2,64.12
2,3,2024-11-23,20,Chá Preto,Bebidas,6.52,8,Supermercado 8,Colinchester,6,39.12
3,4,2024-05-13,77,Cenoura,Hortifruti,31.47,2,Supermercado 2,Lake Deborah,1,31.47
4,5,2024-09-04,7,Cerveja Itaipava,Bebidas,27.11,6,Supermercado 6,Rogersport,10,271.1
5,6,2024-06-10,72,Alho,Hortifruti,32.06,1,Supermercado 1,East Ashley,4,128.24
6,7,2024-07-18,52,Peito de Frango,Carnes,7.99,6,Supermercado 6,Rogersport,1,7.99
7,8,2024-08-27,91,Donuts,Padaria,84.58,3,Supermercado 3,Haasmouth,6,507.48
8,9,2024-02-08,110,Pão Sírio,Padaria,86.35,3,Supermercado 3,Haasmouth,5,431.75
9,10,2024-05-02,48,Queijo Minas,Laticínios,86.99,10,Supermercado 10,Amyborough,2,173.98


In [0]:
# Salvando os dados como uma tabela Delta e substituindo para não conflitar
df.write.format("delta").mode("overwrite").saveAsTable("base_vendas")

In [0]:
%sql
-- Distribuição de vendas por produto
SELECT Nome_Produto, COUNT(*) as Qtde
FROM base_vendas
GROUP BY Nome_Produto
ORDER BY Qtde DESC

Nome_Produto,Qtde
Alcatra,2851
Requeijão,2823
Banana Prata,2822
Pastel de Forno,2816
Pão Sírio,2815
Suco de Uva,2812
Cerveja Itaipava,2803
Croissant,2794
Iogurte Natural,2792
Cerveja Heineken,2792


In [0]:
%sql
-- Distribuição de vendas por Cidade
SELECT Cidade_Filial, COUNT(*) as Qtde
FROM base_vendas
GROUP BY Cidade_Filial
ORDER BY Qtde DESC

Cidade_Filial,Qtde
Rogersport,30223
East Danielberg,30168
Amyborough,30140
Chelseaburgh,30099
East Ashley,30058
Garyland,30024
Michelestad,29999
Lake Deborah,29813
Colinchester,29805
Haasmouth,29671


In [0]:
%sql
--Verificando se existem valores nulos
SELECT 
  COUNT(*) as Total,
  SUM(CASE WHEN Nome_Produto IS NULL THEN 1 ELSE 0 END) as Produto_Nulo,
  SUM(CASE WHEN Preco_Unitario IS NULL THEN 1 ELSE 0 END) as Preco_Nulo
FROM base_vendas

Total,Produto_Nulo,Preco_Nulo
300000,0,0


In [0]:
%sql
--Verificando duplicidade de vendas pelo ID
SELECT ID_Venda, COUNT(*) as vezes
FROM base_vendas
GROUP BY ID_Venda
HAVING vezes > 1

ID_Venda,vezes


#### Esquema Estrela (Star Schema)

Os dados serão organizados em formato estrela para otimizar as consultas analíticas.
Abaixo as tabelas serão organizadas em Dimensões e Fato.

**Tabela Fato:**
- `fato_vendas`: Tabela principal com as informações de vendas.

**Tabelas Dimensão:**
- `dim_produto`: Tabela com todos os produtos. (nome, categoria, preço unitário).
- `dim_filial`: Tabela com todas as filiais (nome, cidade).
- `dim_tempo`: Desdobramentos da data da venda (ano, mês, dia, dia da semana).

**Relacionamentos:**
- `fato_vendas.ID_Produto` → `dim_produto.ID_Produto`
- `fato_vendas.ID_Filial` → `dim_filial.ID_Filial`
- `fato_vendas.Data_Venda` → `dim_tempo.Data_Venda`

In [0]:
# Tabela principal com as vendas
fato_vendas = df.select("ID_Venda", "Data_Venda", "ID_Produto", "ID_Filial", "Quantidade", "Valor_Total")
fato_vendas.write.format("delta").mode("overwrite").saveAsTable("fato_vendas")

In [0]:
# Criando tabela com informações únicas dos produtos
dim_produto = df.select("ID_Produto", "Nome_Produto", "Categoria", "Preco_Unitario").dropDuplicates()
dim_produto.write.format("delta").mode("overwrite").saveAsTable("dim_produto")

In [0]:
# Tabela de filiais
dim_filial = df.select("ID_Filial", "Nome_Filial", "Cidade_Filial").dropDuplicates()
dim_filial.write.format("delta").mode("overwrite").saveAsTable("dim_filial")

In [0]:
# Criando dimensão temporal para facilitar as futuras análises
dim_tempo = df.select("Data_Venda").dropDuplicates() \
    .withColumn("Ano", year("Data_Venda")) \
    .withColumn("Mes", month("Data_Venda")) \
    .withColumn("Dia", dayofmonth("Data_Venda")) \
    .withColumn("Dia_Semana", dayofweek("Data_Venda"))

dim_tempo.write.format("delta").mode("overwrite").saveAsTable("dim_tempo")

#### Análises com Modelo Estrela

In [0]:
%sql
-- Top 10 produtos mais vendidos
SELECT p.Nome_Produto, SUM(f.Quantidade) AS Total_Vendido
FROM fato_vendas f
JOIN dim_produto p ON f.ID_Produto = p.ID_Produto
GROUP BY p.Nome_Produto
ORDER BY Total_Vendido DESC
LIMIT 10

Nome_Produto,Total_Vendido
Requeijão,15662
Alcatra,15630
Banana Prata,15626
Pastel de Forno,15625
Pão Sírio,15520
Queijo Cottage,15474
Bolo de Fubá,15459
Suco de Uva,15453
Torta de Frango,15387
Carne Moída,15385


In [0]:
%sql
-- Os 10 piores Produtos (baixo Giro)
SELECT p.Nome_Produto, SUM(f.Quantidade) AS Qtde
FROM fato_vendas f
JOIN dim_produto p ON f.ID_Produto = p.ID_Produto
GROUP BY p.Nome_Produto
ORDER BY Qtde ASC
LIMIT 10

Nome_Produto,Qtde
Morango,14264
Repolho Roxo,14294
Iogurte Light,14320
Chuchu,14327
Pão de Queijo,14457
Esfiha,14495
Pão de Milho,14497
Queijo Minas,14505
Manteiga,14536
Carne para Churrasco,14576


In [0]:
%sql
-- Rank de venda por filial
SELECT fl.Nome_Filial, SUM(f.Valor_Total) AS Faturamento
FROM fato_vendas f
JOIN dim_filial fl ON f.ID_Filial = fl.ID_Filial
GROUP BY fl.Nome_Filial
ORDER BY Faturamento DESC

Nome_Filial,Faturamento
Supermercado 10,8417149.13000001
Supermercado 6,8409597.410000019
Supermercado 4,8408001.680000003
Supermercado 5,8351080.990000002
Supermercado 1,8322384.230000012
Supermercado 9,8294125.070000008
Supermercado 8,8291467.230000022
Supermercado 3,8279856.830000006
Supermercado 2,8248387.21000001
Supermercado 7,8245177.23000001


Databricks visualization. Run in Databricks to view.

In [0]:
%sql
--Distribuição de venda por Mês
SELECT t.Ano, t.Mes, round(SUM(f.Valor_Total),2) AS Total_Mensal
FROM fato_vendas f
JOIN dim_tempo t ON f.Data_Venda = t.Data_Venda
GROUP BY t.Ano, t.Mes
ORDER BY t.Ano, t.Mes

Ano,Mes,Total_Mensal
2024,1,6965686.83
2024,2,6673345.84
2024,3,7073502.71
2024,4,6813427.74
2024,5,6964984.6
2024,6,6868545.14
2024,7,7046463.67
2024,8,6984200.33
2024,9,6761345.23
2024,10,7065070.53


In [0]:
%sql
-- Ticket médio por filial
SELECT fl.Nome_Filial, ROUND(SUM(f.Valor_Total) / COUNT(DISTINCT f.ID_Venda), 2) AS Ticket_Medio
FROM fato_vendas f
JOIN dim_filial fl ON f.ID_Filial = fl.ID_Filial
GROUP BY fl.Nome_Filial
ORDER BY Ticket_Medio DESC

Nome_Filial,Ticket_Medio
Supermercado 4,280.04
Supermercado 10,279.27
Supermercado 3,279.06
Supermercado 6,278.25
Supermercado 8,278.19
Supermercado 1,276.88
Supermercado 5,276.82
Supermercado 2,276.67
Supermercado 9,275.56
Supermercado 7,274.85


In [0]:
%sql
-- Distribuição de venda por Categoria
SELECT p.Categoria, ROUND(SUM(f.Valor_Total), 2) AS Faturamento
FROM fato_vendas f
JOIN dim_produto p ON f.ID_Produto = p.ID_Produto
GROUP BY p.Categoria
ORDER BY Faturamento DESC

Categoria,Faturamento
Padaria,21743346.94
Laticínios,19384820.63
Hortifruti,16005543.84
Bebidas,14755293.6
Carnes,11378222.0


Databricks visualization. Run in Databricks to view.