# üõçÔ∏è An√°lise de Vendas - SuperStore
## Introdu√ß√£o
Este notebook simula a an√°lise de dados de uma loja virtual que deseja entender melhor seu desempenho em vendas para melhorar suas campanhas de marketing e reposi√ß√£o de estoque, o projeto tem como foco a formula√ß√£o de perguntas orientadas por dados e limpeza de dados.

## Objetivo

O objetivo desta an√°lise √© obter insights que auxiliem as √°reas de **marketing, log√≠stica e gest√£o de estoque** da loja.
As perguntas orientadas por dados incluem:

1. "Qual √© a categoria mais vendida em cada regi√£o?"
2. "Em qual m√™s ocorrem mais vendas?"
3. "Qual √© o intervalo m√©dio entre a data de venda e a data de envio?"
4. "Qual produto √© mais comprado em cada segmento de clientes?"

Tais perguntas s√£o v√°lidas pois tem como foco o neg√≥cio.

## Carregamento e inspe√ß√£o dos dados

O conjunto de dados utilizado nesta an√°lise √© oriundo do Kaggle, e pode ser consultado pelo link: [Superstore Sales Dataset](https://www.kaggle.com/datasets/rohitsahoo/sales-forecasting?resource=download). 

Inicialmente, o dataset foi importado para o Google Sheets, onde foram aplicadas algumas melhorias visuais com o objetivo de facilitar a leitura e an√°lise dos dados, tais como:

- Adi√ß√£o de bordas em toda a tabela;
- Aplica√ß√£o de cores alternadas entre as linhas;
- Formata√ß√£o e congelamento do cabe√ßalho da planilha.

Abaixo, segue uma captura de tela da planilha j√° organizada ‚Äî tal visualiza√ß√£o √© apenas uma parte do dataset. 

![WhatsApp Image 2025-07-25 at 11.48.31.jpeg](attachment:3915dace-3ce1-4797-9919-e88d033a9f6d.jpeg)

## Limpeza dos dados

A limpeza inicial dos dados foi realizada no Google Sheets, com foco em melhorar a qualidade da base antes da an√°lise. As etapas aplicadas inclu√≠ram:

- Remo√ß√£o de linhas duplicadas;
- Padroniza√ß√£o de nomes de categorias e regi√µes;
- Corre√ß√£o de valores inconsistentes;
- Convers√£o de colunas para os tipos adequados (ex: datas como formato de data);
- Exclus√£o de registros com valores ausentes em colunas-chave.

Ap√≥s a limpeza, a planilha foi exportada como .csv e carregada no ambiente SQL para realiza√ß√£o das an√°lises.

## Cria√ß√£o de novas colunas e an√°lises iniciais

Para responder as perguntas citadas anteriormente, tornou-se necess√°rio criar algumas colunas para auxiliar a an√°lise:

1. Extra√ß√£o do m√™s na data de venda (para a pergunta n√∫mero **2**);
2. Diferen√ßa entre a data de venda e data de envio (para a pergunta n√∫mero **3**).

Utilizando o BigQuery, foram adicionadas as duas colunas, atrav√©s dos seguintes comandos:

In [None]:
-- adicionando a coluna do m√™s da venda
ALTER TABLE `neon-trilogy-461520-m7.SuperstoreSales_dataset.sales_data`
ADD COLUMN month_sale INT64;

-- alterando os valores da coluna, extraindo o m√™s da data da venda
UPDATE `neon-trilogy-461520-m7.SuperstoreSales_dataset.sales_data`
SET month_sale = EXTRACT(MONTH FROM order_date)
WHERE order_Date IS NOT NULL;

In [None]:
-- adicionando a coluna de intervalo entre a venda e o envio
ALTER TABLE `neon-trilogy-461520-m7.SuperstoreSales_dataset.sales_data`
ADD COLUMN range_days INTEGER;

-- alterando os valores da coluna, fazendo a diferen√ßa entre a data do envio e da venda
ALTER TABLE `neon-trilogy-461520-m7.SuperstoreSales_dataset.sales_data`
SET range_days = DATE_DIFF(Ship_Date, Order_Date, DAY)
WHERE Ship_Date IS NOT NULL AND Order_Date IS NOT NULL;

Dessa forma, foi poss√≠vel criar duas colunas que ir√£o auxiliar a responder as perguntas 2 e 3.

## Respostas √†s perguntas

A seguir, foi feita a an√°lise em si do conjunto de dados para responder as perguntas, as quais ser√£o respondidas em ordem.

### 1. "Qual √© a categoria mais vendida em cada regi√£o?"

Para responder a essa pergunta, foi necess√°rio executar a consulta abaixo:

In [None]:
SELECT 
  Region,
  Category,
  COUNT(*) AS total_vendas
FROM 
    `neon-trilogy-461520-m7.SuperstoreSales_dataset.sales_data`
GROUP BY 
    Region, 
    Category
ORDER BY 
    Region, 
    total_vendas DESC

Tal consulta seleciona as colunas de regi√£o do cliente, categoria do produto e contagem das categoria por regi√£o. A sa√≠da √© ordenada da maior venda de categoria a cada regi√£o. 

Dessa forma, o resultado obtido foi:

![WhatsApp Image 2025-07-25 at 19.08.42.jpeg](attachment:5a44663e-864c-45f6-8a09-1bb1ac217b2c.jpeg)

Dessa forma, pode-se observar que em todas as regi√µes a categoria que mais foi vendida foi a **Office Supplies**. Dessa forma, uma das recomenda√ß√µes para o marketing seria focar as campanhas neste ramo, e para o setor de estoque seria garantir que produtos desta categoria estejam dispon√≠veis para a venda.

### 2. "Em qual m√™s ocorrem mais vendas?"

Para responder √† pergunta sobre em que m√™s ocorrem mais vendas, √© importante compreender a estrutura do conjunto de dados.

Cada linha do dataset representa um item vendido dentro de uma venda (ou seja, um produto dentro de um pedido). Isso significa que uma √∫nica venda (Order_ID) pode conter v√°rias linhas ‚Äî uma para cada produto comprado.

Dessa forma, ao utilizar a fun√ß√£o SUM(sales), estar√≠amos calculando o valor financeiro total das vendas por m√™s. No entanto, essa m√©trica pode ser influenciada por grandes vendas pontuais, e n√£o necessariamente refletir a frequ√™ncia de vendas.

Como o objetivo da pergunta √© identificar em que m√™s h√° maior volume de vendas (em termos de n√∫mero de itens vendidos), a m√©trica mais adequada √©:

In [None]:
SELECT 
    month_sale, 
    COUNT(*) AS total_vendas
FROM 
    `neon-trilogy-461520-m7.SuperstoreSales_dataset.sales_data`
GROUP BY 
    month_sale
ORDER BY 
    total_vendas DESC

Esse c√°lculo retorna a quantidade de linhas (ou seja, de itens vendidos) por m√™s, o que nos permite observar em quais meses ocorrem mais movimenta√ß√µes de venda, independentemente do valor.

![WhatsApp Image 2025-07-25 at 19.49.46.jpeg](attachment:0d066401-e64c-4846-9a45-dba0ca065aa9.jpeg)

Dessa forma, o m√™s em que ocorre a maior quantidade de vendas √© novembro. Assim, uma sugest√£o para os gestores da loja online seria melhorar a produtividade da log√≠stica para melhor rendimento dos pedidos em sua entrega.

### 3. "Qual √© o intervalo m√©dio entre a data de venda e a data de envio?"

Para realizar a an√°lise dos dados para essa pergunta, √© necess√°rio utilizar a coluna anteriormente criada **range_days**. Dessa forma, basta selecionar a m√©dia de todas as linhas da coluna de intervalo de dias.

Assim, o c√≥digo em SQL para a consulta √©:

In [None]:
SELECT 
    ROUND(AVG(range_days), 1) AS media_dias --arredonda a m√©dia para evitar valores quebrados
FROM 
    `neon-trilogy-461520-m7.SuperstoreSales_dataset.sales_data`

Portanto, o resultado obtido foi que a m√©dia do intervalo de dias entre a compra e o envio do produto √© de **4 dias**.

Tal informa√ß√£o √© importante para a gest√£o analisar poss√≠veis melhorias e formas de garantir um intervalo menor entre a venda e o envio.

### 4. "Qual produto √© mais comprado em cada segmento de clientes?"

Essa pergunta depende das colunas **Segment, Product_Name e Sales** para ser respondida. Inicialmente, √© necess√°rio somar a quantidade de vendas e agrup√°-las por segmento e nome do produto. Ap√≥s isso, exibir os resultados de forma decrescente em rela√ß√£o √† soma de vendas e em ordem alfab√©tica por segmento. Dito isso, o c√≥digo fica:

In [None]:
SELECT 
    SUM(Sales) as Vendas, 
    Product_Name, 
    Segment, 
    RANK() OVER (PARTITION BY Segment ORDER BY SUM(Sales) DESC) as posicao --fun√ß√£o no BigQuery para ranquear as somas da venda
FROM 
    `neon-trilogy-461520-m7.SuperstoreSales_dataset.sales_data`
GROUP BY 
    Product_Name, 
    Segment
ORDER BY
    Vendas, Product_Name DESC
QUALIFY posicao = 1 -- selecionando apenas a primeira posi√ß√£o de cada segmento (maior venda)

Assim, foi poss√≠vel chegar nos seguintes resultados:

![WhatsApp Image 2025-07-31 at 22.19.06.jpeg](attachment:d3bfe91e-6204-4fed-9419-07d82aed17ac.jpeg)

Dessa forma, uma sugest√£o para o setor de marketing seria encaminhar as campanhas publicit√°rias desses produtos para os segmentos que mostram uma alta ader√™ncia.

## Conclus√£o

A partir da an√°lise dos dados reais de vendas de uma loja online, foi poss√≠vel obter insights relevantes sobre o modelo de neg√≥cio, os produtos mais vendidos e oportunidades de melhoria nos setores de marketing, log√≠stica e estoque. Com base em perguntas orientadas por dados, a explora√ß√£o e agrega√ß√£o das informa√ß√µes permitiram uma compreens√£o mais profunda do comportamento de vendas.

Esse tipo de abordagem orientada por dados √© essencial para apoiar decis√µes estrat√©gicas em cen√°rios reais, promovendo maior efici√™ncia e embasamento nas a√ß√µes adotadas.