## 💼 Análise: Ranking dos Clientes Mais Lucrativos

Este relatório apresenta um ranking dos 10 clientes que mais contribuíram para a receita da empresa, com base na tabela de fatos `fato_vendas` integrada à dimensão `dim_cliente`.

---

### 📊 Objetivo

Identificar os clientes mais lucrativos com base no total de compras (`ReceitaTotal`), possibilitando:

- **Campanhas de fidelização** direcionadas
- **Ações de retenção** para os melhores clientes
- **Priorização no atendimento comercial**

### ✅ Benefícios para o Negócio

- **Visão estratégica** dos clientes com maior valor financeiro
- Suporte à criação de **programas de relacionamento**
- Insights para **ações comerciais personalizadas**

In [0]:
from pyspark.sql.functions import col, sum, desc, row_number, round
from pyspark.sql.window import Window

# 📁 Caminhos das tabelas Delta na camada Gold
FATO_VENDAS_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_fato_vendas"
DIM_CLIENTE_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_dim_cliente"

# 📥 Leitura das tabelas fato e dimensão
df_fato_vendas = spark.read.format("delta").load(FATO_VENDAS_PATH)
df_dim_cliente = spark.read.format("delta").load(DIM_CLIENTE_PATH)

# 📊 Agregação de receita total por cliente
df_receita_por_cliente = (
    df_fato_vendas.groupBy("CustomerID")
    .agg(round(sum("TotalAmount"), 2).alias("ReceitaTotal"))  # 🎯 Arredonda para 2 casas
)

# 🔗 Junção com a dimensão cliente
df_join = (
    df_receita_por_cliente.join(df_dim_cliente, on="CustomerID", how="inner")
)

# Define uma janela de ordenação (Window Specification) que classifica os clientes com base na receita total.
# Esta especificação será usada com funções de janela (como row_number()) para calcular rankings sem agregações 
windowSpec = Window.orderBy(desc("ReceitaTotal"))

# 🏆 Ranking + seleção final
df_ranking = (
    df_join.select(
        "CustomerID", "Name", "City", "State", "Country", "ReceitaTotal"
    )
    .dropDuplicates(["CustomerID"])  # ✅ Garante cliente único
    .withColumn("Rank", row_number().over(windowSpec))  # 🏅 Ranking decrescente
    .orderBy("Rank")
)

# 🔝 Top 10 clientes mais lucrativos
df_ranking.filter(col("Rank") <= 10).display()


CustomerID,Name,City,State,Country,ReceitaTotal,Rank
397,Dennis Spears,Lake Johnnymouth,WI,Brazil,170942.34,1
17,Gloria Mills,West Michael,RI,Tonga,167369.37,2
369,Alexa Rodriguez,Port Geraldberg,ID,Italy,166223.79,3
243,Chelsey Bauer,Clarkberg,HI,Faroe Islands,158942.97,4
174,Lindsey Miller,Ellistown,AL,Belarus,157323.51,5
208,Allison Gutierrez,Allenland,MN,San Marino,156296.13,6
320,Krystal Williams,Jessicatown,WY,Palestinian Territory,146044.98,7
182,Dr. Lee Lowery DDS,East Dustin,MD,United Kingdom,143962.38,8
334,Ronald Edwards,Lake Alyssachester,IA,Malta,143958.66,9
291,Kayla Campbell,Lake Jenniferside,WY,French Southern Territories,143074.41,10


# 📍 Análise de Regiões com Maior Volume de Vendas

## 🎯 Objetivo

Esta análise tem como objetivo identificar as **regiões (Estados e Países)** com maior volume de vendas, com base nos dados da tabela de fatos `fato_vendas` e da dimensão `dim_cliente`.

Com este insight, a empresa pode:

- Otimizar estratégias **logísticas e operacionais**
- Direcionar **esforços de marketing e vendas** para as regiões mais lucrativas
- Avaliar oportunidades de **expansão geográfica**

## 📊 Benefícios da Análise

- Melhora a **alocação de recursos comerciais**
- Ajuda na **definição de metas regionais**
- Suporte para **decisões de expansão territorial**

In [0]:
from pyspark.sql.functions import col, sum, round, desc

# 📁 Caminhos das tabelas Delta na camada Gold
FATO_VENDAS_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_fato_vendas"
DIM_CLIENTE_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_dim_cliente"

# 📥 Leitura das tabelas fato e dimensão
df_fato_vendas = spark.read.format("delta").load(FATO_VENDAS_PATH)
df_dim_cliente = spark.read.format("delta").load(DIM_CLIENTE_PATH)

# 🔗 Junção entre vendas e dados do cliente para capturar região geográfica
df_vendas_local = (
    df_fato_vendas.join(df_dim_cliente, on="CustomerID", how="inner")
)

# 📊 Agregação por Estado e País com soma da receita
df_vendas_por_regiao = (
    df_vendas_local
    .groupBy("State", "Country")
    .agg(round(sum("TotalAmount"), 2).alias("TotalVendas"))  # 🎯 2 casas decimais
    .orderBy(desc("TotalVendas"))  # 🏆 Ordena por volume de vendas
)

# 📌 Exibe os estados mais lucrativos por país
df_vendas_por_regiao.display()


State,Country,TotalVendas
RI,Tonga,35649675.81
HI,Faroe Islands,35560845.99
WI,Brazil,33333756.3
FL,San Marino,31765919.58
MN,San Marino,31102929.87
ID,Italy,30418953.57
MD,Uzbekistan,28102606.14
NH,Grenada,27604576.35
WY,French Southern Territories,27327212.31
RI,Myanmar,26962767.0


# 🔄 Análise de Produtos com Maior Rotatividade por Período

## 🎯 Objetivo

Esta análise busca identificar **quais produtos apresentam maior rotatividade (mais vendidos)** ao longo do tempo, permitindo decisões mais precisas relacionadas a:

- **Previsão de demanda**
- **Gestão de estoque**
- **Negociação com fornecedores**
- **Campanhas promocionais e reposição inteligente**

## 📈 Aplicações da Análise

- Identificar **produtos-chave** para abastecimento contínuo
- Detectar variações sazonais de consumo
- Otimizar prateleiras e layout de lojas
- Apoiar decisões de compras corporativas

In [0]:
from pyspark.sql.functions import col, sum, round, desc, date_format
from pyspark.sql.window import Window

# 📁 Caminhos para as tabelas Delta
FATO_VENDAS_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_fato_vendas"
DIM_PRODUTO_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_dim_produto"

# 📥 Leitura das tabelas
df_fato_vendas = spark.read.format("delta").load(FATO_VENDAS_PATH)
df_dim_produto = spark.read.format("delta").load(DIM_PRODUTO_PATH)

# 🗓️ Extração do período (mês/ano) a partir da OrderDate
df_vendas_periodo = df_fato_vendas.withColumn("Periodo", date_format(col("OrderDate"), "yyyy-MM"))

# 🔗 Junção com a dimensão produto
df_vendas_produtos = df_vendas_periodo.join(df_dim_produto, on="ItemID", how="inner")

# 📊 Agregação: total de quantidade vendida por produto e por período
df_rotatividade_produto = (
    df_vendas_produtos
    .groupBy("Periodo", "ItemID", "ProductName")
    .agg(round(sum("Quantity"), 2).alias("TotalVendido"))
    .orderBy("Periodo", desc("TotalVendido"))
)

# 📌 Exibição do resultado
df_rotatividade_produto.display()


Periodo,ItemID,ProductName,TotalVendido
2022-12,e0d8af68-58b8-40b6-a8fb-71a457047aef,Monitor,9
2022-12,e4dbebe6-da6d-4c63-9c39-0478e517e69c,Scanner,9
2022-12,49ce85ce-8307-4ad3-862d-dc2fab135c4e,Monitor,9
2022-12,ec54b903-f07b-47aa-b132-f481662e8217,Motherboard,9
2022-12,8ec424d3-195f-4d07-8999-f1496c090eef,Power Supply,9
2022-12,158b1eab-02e9-4a23-9016-84b9ff964fc3,Motherboard,9
2022-12,0822b96f-7ffc-4522-a01a-1199ce2771c0,USB Cable,9
2022-12,848ad90a-ea6f-4580-8d2c-491675438467,Laptop,9
2022-12,57ed5c74-c01e-4784-b646-a5b3ea8bb3d4,Graphics Card,9
2022-12,8c99fe6d-1e6e-413c-b96e-8d091a00255c,Keyboard,9


# 💰 Análise de Ticket Médio por Cliente e por Região com Ranking

## 🎯 Objetivo

Esta análise tem como finalidade identificar o **poder de compra dos clientes por região**, utilizando o ticket médio como métrica principal. O resultado ajuda a:

- 📍 Ajustar preços por localização
- 🎯 Direcionar campanhas segmentadas
- 🧠 Entender o comportamento do consumidor regionalmente
- 📦 Avaliar oportunidades de expansão

## 📈 Aplicações Práticas

- **Marketing**: campanhas focadas em regiões com maior poder aquisitivo
- **Comercial**: foco em regiões com ticket alto para novos produtos premium
- **Finanças**: avaliação do perfil de compra para precificação regional
- **Expansão**: seleção de locais com maior potencial de retorno

In [0]:
from pyspark.sql.functions import col, round, sum, countDistinct, avg, dense_rank
from pyspark.sql.window import Window
import pyspark.sql.functions as F

# 📁 Caminhos para as tabelas Delta
FATO_VENDAS_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_fato_vendas"
DIM_CLIENTE_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_dim_cliente"

# 📥 Leitura das tabelas
df_fato = spark.read.format("delta").load(FATO_VENDAS_PATH)
df_cliente = spark.read.format("delta").load(DIM_CLIENTE_PATH)

# 🔗 Junção entre fato_vendas e dim_cliente via CustomerID
df_joined = df_fato.join(df_cliente, on="CustomerID", how="inner")

# 🧮 Cálculo do ticket médio por cliente (TotalAmount / pedidos únicos)
df_ticket_cliente = (
    df_joined.groupBy("State", "Country", "CustomerID")
    .agg(round(sum("TotalAmount") / countDistinct("OrderID"), 2).alias("TicketMedioCliente"))
)

# 🧮 Cálculo do ticket médio por região
df_ticket_regiao = (
    df_ticket_cliente.groupBy("State", "Country")
    .agg(round(avg("TicketMedioCliente"), 2).alias("TicketMedioPorRegiao"))
)

# 🏅 Janela para ranking (do maior para o menor ticket médio)
windowSpec = Window.orderBy(F.desc("TicketMedioPorRegiao"))

# 🏆 Aplicando ranking
df_ranked = df_ticket_regiao.withColumn("Ranking", dense_rank().over(windowSpec))

# 📌 Exibição final ordenada pelo ranking
df_ranked.orderBy("Ranking").display()


State,Country,TicketMedioPorRegiao,Ranking
WI,Brazil,1149439.87,1
ID,Italy,1126627.91,2
AL,Belarus,1050921.05,3
MD,United Kingdom,1042287.63,4
AK,Equatorial Guinea,1024182.94,5
IA,Malta,1014254.2,6
WY,French Southern Territories,1012118.97,7
WI,Liberia,1007087.16,8
VA,Mauritania,986786.99,9
NH,Grenada,985877.73,10


# 🚫 Análise de Produtos com Maior Número de Cancelamentos

## 📊 Objetivo
Identificar quais produtos apresentaram o maior número de **cancelamentos** de pedidos, a partir da análise da tabela `fato_vendas` integrada com a dimensão `dim_produto`.

Essa informação é **crucial para ações corretivas** com fornecedores, revisão de processos logísticos ou de qualidade e ajustes na comunicação com os clientes.

---

## 🧠 Justificativa de Negócio
Cancelamentos constantes podem indicar:

- Problemas de **qualidade do produto**
- Expectativas **não atendidas** do cliente
- Falhas de **logística ou entrega**
- **Problemas na descrição** do produto no site ou aplicativo

Agir sobre esses dados reduz custos, melhora a experiência do cliente e aumenta a eficiência operacional.

## 📌 Insights Possíveis

- **Foco corretivo imediato** nos produtos com maior cancelamento
- **Negociação com fornecedores** para produtos com alta taxa de devolução
- **Ajuste de campanhas** para evitar promoções de produtos problemáticos
- Suporte à **gestão de estoque e logística reversa**

In [0]:
from pyspark.sql.functions import col, count
from pyspark.sql import functions as F

# 📁 Caminhos das tabelas Delta
FATO_VENDAS_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_fato_vendas"
DIM_PRODUTO_PATH = "abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_dim_produto"

# 📥 Leitura das tabelas
df_fato = spark.read.format("delta").load(FATO_VENDAS_PATH)
df_produto = spark.read.format("delta").load(DIM_PRODUTO_PATH)

# 🎯 Filtrar registros com status "Cancelled"
df_cancelados = df_fato.filter(F.lower(col("Status")) == "cancelled")

# 🔗 Junção com a dimensão de produtos
df_joined = df_cancelados.join(df_produto, on="ItemID", how="inner")

# 📊 Agrupar por produto e contar cancelamentos
df_produto_cancelado = (
    df_joined.groupBy("ItemID", "ProductName")
    .agg(count("*").alias("TotalCancelamentos"))
    .orderBy(col("TotalCancelamentos").desc())
)

# 👀 Exibir resultado
df_produto_cancelado.display()


ItemID,ProductName,TotalCancelamentos
85ef2099-1273-4769-80e6-619081ff4a35,Graphics Card,3
41c0c8f4-13c0-46f6-8f3a-4498085800dc,Smartwatch,3
f63cc6ca-4b8b-4502-ba3b-fa59fcbfad45,Printer,3
a41fb184-8006-4971-855b-2f083f7642f5,Headphones,3
856753d8-79bc-4279-84db-3155d761a2d6,Desk Lamp,3
a02f89f3-85ff-4e58-88eb-bf3a3001ee98,Keyboard,3
eff4fcd8-6cc5-4c42-b1e1-7653abf36378,Printer,3
3badb04a-6ca3-4f5a-867a-79805c775d6a,Printer,3
7e5540f8-8b3d-4784-936f-92cb37d29e4e,Graphics Card,3
0ec0480c-f9c8-4153-88b0-680bf12e8d2d,Monitor,3


# 🧑‍💼 Análise de Perfis de Clientes com Maior Volume de Compras

## 🎯 Objetivo
Identificar quais perfis de clientes — com base em **faixa etária (`Age`)**, **estado (`State`)** e **país (`Country`)** — são responsáveis pelo maior volume de compras da empresa.

Essa análise é essencial para **segmentar campanhas de marketing**, personalizar ofertas e entender o comportamento de compra de diferentes grupos demográficos e geográficos.

---

## 🧠 Justificativa de Negócio

Entender os perfis que mais compram permite:

- Criar **campanhas personalizadas** para públicos com alto poder de compra
- Fazer **ajustes regionais** de preços e promoções
- **Focar a expansão comercial** onde há maior retorno
- Desenvolver **ações de fidelização** mais assertivas

## 📈 Possíveis Insights

- Público de 30 a 40 anos em **grandes capitais** tem alto volume de compra
- O estado de **São Paulo (BR)** apresenta forte participação na receita
- Potencial para **expandir ações de marketing regional** e segmentar campanhas por faixa etária


In [0]:
from pyspark.sql.functions import col, round, sum as _sum, row_number
from pyspark.sql.window import Window

# 📥 Leitura das tabelas Gold
df_fato = spark.read.format("delta").load("abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_fato_vendas")
df_cliente = spark.read.format("delta").load("abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_dim_cliente")

# 🔗 Junção das tabelas pela chave CustomerID
df_joined = df_fato.join(df_cliente, on="CustomerID", how="inner")

# 📊 Agregação do volume total de compras por perfil
df_agrupado = (
    df_joined.groupBy("Age", "State", "Country")
    .agg(round(_sum("TotalAmount"), 2).alias("VolumeTotalCompras"))
)

# 🏆 Ranking por volume de compras
windowSpec = Window.orderBy(col("VolumeTotalCompras").desc())

df_ranked = (
    df_agrupado.withColumn("Ranking", row_number().over(windowSpec))
    .orderBy(col("Ranking"))
)

# 📋 Exibição do resultado
df_ranked.display()


Age,State,Country,VolumeTotalCompras,Ranking
56,RI,Tonga,35649675.81,1
29,WI,Brazil,33333756.3,2
59,MN,San Marino,31102929.87,3
21,ID,Italy,30418953.57,4
35,HI,Faroe Islands,29086563.51,5
47,NH,Grenada,27604576.35,6
36,WY,French Southern Territories,27327212.31,7
45,RI,Myanmar,26962767.0,8
66,AL,Belarus,26273026.17,9
65,MD,United Kingdom,26057190.78,10


# 📊 Análise de Participação no Faturamento por Produto

## 🎯 Objetivo

Identificar os produtos com **maior participação no faturamento total da empresa**, com base nas vendas consolidadas. Essa análise é essencial para:

- Reconhecer os **produtos mais rentáveis**;
- Otimizar o **mix de produtos**;
- Direcionar **ações de marketing e estoque**;
- Embasar **decisões estratégicas de negócios**

## 🧩 Possíveis Ações

- **Focar campanhas** nos produtos que mais faturam;
- **Reavaliar produtos com baixa participação**;
- Negociar com fornecedores dos produtos top de venda;
- Ajustar **previsões de estoque e logística**.

In [0]:
from pyspark.sql.functions import col, sum as _sum, round, desc
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number

# 📥 Leitura das tabelas Gold
df_fato = spark.read.format("delta").load("abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_fato_vendas")
df_produto = spark.read.format("delta").load("abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_dim_produto")

# 🔗 Junção entre fato_vendas e dim_produto via ItemID
df_joined = df_fato.join(df_produto, on="ItemID", how="inner")

# 💰 Agregação: faturamento total por produto
faturamento_produto = (
    df_joined.groupBy("ItemID", "ProductName")
    .agg(_sum("TotalAmount").alias("FaturamentoProduto"))
)

# 📊 Cálculo do faturamento total da empresa (valor único)
faturamento_total = faturamento_produto.agg(
    _sum("FaturamentoProduto").alias("FaturamentoTotal")
).collect()[0]["FaturamentoTotal"]

# 🧮 Cálculo da participação percentual + arredondamento de valores
df_participacao = faturamento_produto.select(
    "ItemID",
    "ProductName",
    round(col("FaturamentoProduto"), 2).alias("FaturamentoProduto"),
    round((col("FaturamentoProduto") / faturamento_total) * 100, 2).alias("ParticipacaoPercentual")
)

# 🏆 Ranking dos produtos com maior impacto no faturamento
windowSpec = Window.orderBy(desc("ParticipacaoPercentual"))

df_ranked = (
    df_participacao.withColumn("Ranking", row_number().over(windowSpec))
    .orderBy("Ranking")
)

# 📋 Exibir resultado final
df_ranked.display()


ItemID,ProductName,FaturamentoProduto,ParticipacaoPercentual,Ranking
a02f89f3-85ff-4e58-88eb-bf3a3001ee98,Keyboard,2655.57,0.01,1
7e5540f8-8b3d-4784-936f-92cb37d29e4e,Graphics Card,2650.92,0.01,2
75f8e38f-13f2-4b80-8e9f-39705f146fac,Printer,2446.83,0.01,3
e54ddbb2-a96c-4aec-8099-a8a278e4326b,Graphics Card,2835.87,0.01,4
f331f743-1fd6-4191-a42b-7e267e9a186f,Monitor,2896.95,0.01,5
50e10b8f-737a-443c-8bce-7dfcf550c450,Keyboard,2622.9,0.01,6
3eaa14a0-390d-41ea-bde4-de4f39a9820f,Desk Lamp,2840.85,0.01,7
c81e2cb9-75b4-4dda-a7e0-c1afe539ecbd,Smartwatch,2553.12,0.01,8
7ef5b411-5f1f-4bf9-83b0-51ca5d38601f,Webcam,2477.91,0.01,9
509de0a3-2d24-4800-8166-d86bd9bf6e78,Smartphone,2680.95,0.01,10


# 📦 Análise de Produtos com Alto Volume de Vendas e Baixa Receita

## 🎯 Objetivo

Identificar os produtos que, apesar de apresentarem **alto volume de vendas**, resultam em **baixa geração de receita**.

Essa análise é essencial para:

- Avaliar **rentabilidade real** por produto;
- Detectar possíveis **problemas de precificação**;
- Repensar campanhas promocionais ou políticas comerciais;
- Direcionar **negociações com fornecedores**

## 🧩 Possíveis Ações

- **Rever preço de venda** desses produtos;
- Avaliar se o custo de produção e logística compensa o volume;
- Testar **novas estratégias comerciais ou pacotes promocionais**;
- Identificar **produtos estratégicos para fidelização**, mesmo com margem menor.

In [0]:
from pyspark.sql.functions import col, sum as _sum, round, desc, asc
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number

# 📥 Leitura das tabelas Gold
df_fato = spark.read.format("delta").load("abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_fato_vendas")
df_produto = spark.read.format("delta").load("abfss://gold@dlsprojetofixo.dfs.core.windows.net/gold_dim_produto")

# 🔗 Junção entre fato_vendas e dim_produto via ItemID
df_joined = df_fato.join(df_produto, on="ItemID", how="inner")

# 🧮 Agregação: total vendido por produto
df_agg = (
    df_joined.groupBy("ItemID", "ProductName")
    .agg(
        _sum("Quantity").alias("TotalVendido"),
        _sum("TotalAmount").alias("ReceitaTotal")
    )
)

# 🎯 Arredondar valores de receita para 2 casas decimais
df_agg = df_agg.select(
    "ItemID",
    "ProductName",
    col("TotalVendido"),
    round(col("ReceitaTotal"), 2).alias("ReceitaTotal")
)

# 🧠 Lógica: produtos com alto volume mas baixa receita
# Ordenar por maior quantidade e menor receita
windowSpec = Window.orderBy(desc("TotalVendido"), asc("ReceitaTotal"))

df_ranked = (
    df_agg.withColumn("Ranking", row_number().over(windowSpec))
    .orderBy("Ranking")
)

# 📋 Exibir os principais produtos com esse comportamento
df_ranked.display()


ItemID,ProductName,TotalVendido,ReceitaTotal,Ranking
ad092ac0-13a6-4d52-87ef-91e6f1a74f5b,Router,9,30.33,1
38dfe920-1b60-4f18-8d23-a3b5609f0a48,Graphics Card,9,30.33,2
c5befeb0-8763-445c-a21b-2b0f736fb459,Charger,9,30.69,3
6bd0bb45-6e16-41ac-b905-e79a3c5e9361,Monitor,9,30.69,4
4e4dbbc5-5369-4d17-80a7-23b567e182e6,Router,9,31.11,5
6c92fbdc-3a20-4bfa-b565-7b57852308c5,Scanner,9,31.44,6
71ed8261-ab60-4642-ad32-e879e034aec1,Tablet,9,31.44,7
6d00aeeb-0f3b-4efa-92f0-0361f8e6c9ce,Motherboard,9,31.44,8
03a75287-4fa8-4d25-af28-75aff3dc1d6e,Keyboard,9,31.86,9
5de173db-2d28-4684-81ab-2507bdcd588c,Gaming Chair,9,33.18,10
