# 💵 Descobrindo Padrões em Vendas

### 📌  Objetivo

Analisar um dataset de vendas reais para desvendar os fatores que impulsionam o desempenho ao longo do tempo, combinando análise temporal avançada, segmentação detalhada e automação, com o intuito de extrair insights acionáveis e preparar uma base robusta para modelos preditivos de Machine Learning.

### 🤔 Razão

Escolhi este projeto como o ápice da minha jornada em EDA porque vendas são o coração de muitos negócios, e entender seus padrões é um desafio real e universal. Quis ir além do básico, explorando como o tempo, os clientes e as condições afetam os resultados, e transformar dados brutos em uma história que não só informe, mas também inspire soluções práticas e tecnológicas.

## 0. Configuração Inicial

In [7]:
# Initial Setup
import pandas as pd  # Data manipulation and analysis
import numpy as np  # Numerical operations
import seaborn as sns  # Statistical visualizations
import matplotlib.pyplot as plt  # Basic plotting
import plotly.express as px  # Interactive, simple charts
import plotly.graph_objects as go  # Customized interactive visualizations

# Environment Configuration
sns.set_style("whitegrid")  # Set clean visual style for charts
plt.rcParams["figure.figsize"] = (10, 6)  # Default figure size for consistency

Para descobrir o que impulsiona, influencia e aumenta as vendas, escolhi ferramentas robustas para análise, exploração, tratamento e visualização de dados, combinadas com insights estatísticos de explorações anteriores.

## 1. Carregando e Compreendendo os Dados

In [10]:
# Reading the Superstore Sales Dataset
df = pd.read_csv("superstoresales.csv")  # Load sales data from CSV file

In [11]:
# Gathering Basic Information
df.info()  # Display dataset structure and data types

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9800 entries, 0 to 9799
Data columns (total 18 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Row ID         9800 non-null   int64  
 1   Order ID       9800 non-null   object 
 2   Order Date     9800 non-null   object 
 3   Ship Date      9800 non-null   object 
 4   Ship Mode      9800 non-null   object 
 5   Customer ID    9800 non-null   object 
 6   Customer Name  9800 non-null   object 
 7   Segment        9800 non-null   object 
 8   Country        9800 non-null   object 
 9   City           9800 non-null   object 
 10  State          9800 non-null   object 
 11  Postal Code    9789 non-null   float64
 12  Region         9800 non-null   object 
 13  Product ID     9800 non-null   object 
 14  Category       9800 non-null   object 
 15  Sub-Category   9800 non-null   object 
 16  Product Name   9800 non-null   object 
 17  Sales          9800 non-null   float64
dtypes: float

A análise inicial revelou ações necessárias:

1. Eliminar a coluna `Row ID`, redundante com o índice do Pandas, para simplificar o dataset.
2. Predominam variáveis categóricas; apenas `Postal Code` e `Sales` são numéricas, limitando estatísticas aos valores de venda e exigindo transformações em outras colunas.
3. Identifiquei 11 valores nulos em `Postal Code`, o que demanda estratégias específicas de tratamento.

In [13]:
# Getting a grasp for how the data looks like
df.head()

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,State,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales
0,1,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96
1,2,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94
2,3,CA-2017-138688,12/06/2017,16/06/2017,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,California,90036.0,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62
3,4,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775
4,5,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.368


In [14]:
df.describe()

Unnamed: 0,Row ID,Postal Code,Sales
count,9800.0,9789.0,9800.0
mean,4900.5,55273.322403,230.769059
std,2829.160653,32041.223413,626.651875
min,1.0,1040.0,0.444
25%,2450.75,23223.0,17.248
50%,4900.5,58103.0,54.49
75%,7350.25,90008.0,210.605
max,9800.0,99301.0,22638.48


## 2. Limpeza e Preparação dos Dados

## 3. Feature Engineering Temporal e Segmentada

## 4. Análise Temporal Exploratória

## 5. Segmentação e Análise de Subgrupos

## 6. Análise Bivariada e Multivariada

## 7. Pipeline de Automação

## 8. Insights

## 9. Integração com Machine Learning/Deep Learning

## 10. Conclusão e Apresentação Final