<a href="https://colab.research.google.com/github/RobsonMartins27/aurora-varejo-analytics/blob/main/analise_vendas_aurora.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. Configura√ß√£o e Importa√ß√£o de Bibliotecas

Prepara√ß√£o do ambiente de trabalho com as ferramentas necess√°rias

In [None]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

## 2. Gera√ß√£o e Carga da Base de Dados Bruta
Simula√ß√£o do ecossistema de vendas da Aurora Varejo para fins de estudo e auditoria.


In [None]:
# @title
# Configura√ß√£o de reprodutibilidade
np.random.seed(42)

# Gerando dados
n_linhas = 1000
data_inicial = datetime(2025, 1, 1)

datas = [data_inicial + timedelta(days=random.randint(0, 365)) for _ in range(n_linhas)]
categorias = ['Eletr√¥nicos', 'Moda', 'Casa', 'Beleza', 'Esportes']
vendas = np.random.normal(250, 100, n_linhas).round(2)
# Inserindo erros propositais (valores negativos)
vendas[0:10] = -50

custos = vendas * 0.6 + np.random.normal(10, 5, n_linhas)
regioes = ['Norte', 'Sul', 'Leste', 'Oeste', 'Centro-Oeste']

df_simulado = pd.DataFrame({
    'id_pedido': range(1001, 1001 + n_linhas),
    'data': datas,
    'cliente_id': [random.randint(5000, 5500) for _ in range(n_linhas)],
    'categoria': [random.choice(categorias) for _ in range(n_linhas)],
    'valor_venda': vendas,
    'custo_produto': custos,
    'regiao': [random.choice(regioes) for _ in range(n_linhas)]
})

# Salvando o arquivo
df_simulado.to_csv('vendas_aurora.csv', index=False)
print("Arquivo 'vendas_aurora.csv' gerado com sucesso!")

Arquivo 'vendas_aurora.csv' gerado com sucesso!


## 3. Explora√ß√£o e Diagn√≥stico dos Dados

An√°lise preliminar da estrutura da base, identifica√ß√£o de tipos de dados e detec√ß√£o de inconsist√™ncias (valores nulos ou negativos).


In [None]:
# @title
# Carreguei  os dados atribu√≠ndo a uma var√≠avel.
df_bruto = pd.read_csv('vendas_aurora.csv')

# EXPLORANDO OS DADOS
print("--- VIS√ÉO GERAL(PRIMEIRAS LINHAS) ---")
display(df_bruto.head())

print("--- INFORMA√á√ïES ---")
df_bruto.info()

print("--- RESUMO ESTAT√çSTICO ---")
display(df_bruto.describe())

print("--- FREQU√äNCIA POR CATEGORIA ---")
display(df_bruto['categoria'].value_counts())

print("--- RANKING DE VENDAS POR REGI√ÉO ---")
display(df_bruto['regiao'].value_counts())

--- VIS√ÉO GERAL(PRIMEIRAS LINHAS) ---


Unnamed: 0,id_pedido,data,cliente_id,categoria,valor_venda,custo_produto,regiao
0,1001,2025-03-16,5445,Moda,-50.0,-13.003223,Centro-Oeste
1,1002,2025-03-03,5192,Moda,-50.0,-15.376832,Norte
2,1003,2025-06-04,5141,Moda,-50.0,-19.701848,Centro-Oeste
3,1004,2025-07-21,5126,Moda,-50.0,-23.234684,Oeste
4,1005,2025-05-19,5500,Moda,-50.0,-16.508883,Centro-Oeste


--- INFORMA√á√ïES ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id_pedido      1000 non-null   int64  
 1   data           1000 non-null   object 
 2   cliente_id     1000 non-null   int64  
 3   categoria      1000 non-null   object 
 4   valor_venda    1000 non-null   float64
 5   custo_produto  1000 non-null   float64
 6   regiao         1000 non-null   object 
dtypes: float64(2), int64(2), object(3)
memory usage: 54.8+ KB
--- RESUMO ESTAT√çSTICO ---


Unnamed: 0,id_pedido,cliente_id,valor_venda,custo_produto
count,1000.0,1000.0,1000.0,1000.0
mean,1500.5,5254.369,248.48532,159.445373
std,288.819436,144.61617,102.09711,61.205954
min,1001.0,5000.0,-74.13,-31.78422
25%,1250.75,5129.0,182.21,119.570537
50%,1500.5,5250.5,251.28,161.984776
75%,1750.25,5381.0,314.1275,199.278338
max,2000.0,5500.0,635.27,399.909884


--- FREQU√äNCIA POR CATEGORIA ---


Unnamed: 0_level_0,count
categoria,Unnamed: 1_level_1
Esportes,230
Eletr√¥nicos,206
Moda,195
Casa,191
Beleza,178


--- FREQU√äNCIA POR REGI√ÉO ---


Unnamed: 0_level_0,count
regiao,Unnamed: 1_level_1
Oeste,209
Sul,207
Leste,200
Centro-Oeste,193
Norte,191


## 4. Auditoria de Qualidade e Relat√≥rio de Erros
Isolamento e an√°lise de registros inconsistentes para entender a origem das falhas no registro de vendas por categoria.


In [None]:
# Criando um DataFrame exclusivo para an√°lise dos erros (vendas negativas)
# Usamos .copy() para garantir que este seja um objeto independente do dado bruto
df_erros = df_bruto[df_bruto['valor_venda'] < 0].copy()

# Calculando a quantidade total de registros inconsistentes encontrados
total_erros = len(df_erros)
print(total_erros)

# Ranking de erros por categoria para identificar a origem do problema
display(df_erros['categoria'].value_counts())

14


Unnamed: 0_level_0,count
categoria,Unnamed: 1_level_1
Moda,7
Casa,3
Beleza,2
Esportes,1
Eletr√¥nicos,1


üí° Insight: Notei que a categoria 'Moda' concentra a maior parte das inconsist√™ncias (7 registros). Isso indica que o problema n√£o √© aleat√≥rio, mas pode estar no processo de checkout ou no sistema de entrada de dados espec√≠fico desse setor.

## 5. Limpeza, Tipagem e Feature Engineering
Filtragem definitiva de erros, convers√£o de tipos (datetime) e cria√ß√£o de m√©tricas de neg√≥cio como 'Lucro' e segmenta√ß√£o por per√≠odo (M√™s/Ano).


In [None]:

df_limpo = df_bruto[df_bruto['valor_venda'] > 0].copy()

print("Estat√≠sticas da coluna valor venda (p√≥s limpeza):")
display(df_limpo['valor_venda'].describe())

# - Converti a data que est√° como objeto/string para o tipo de data
df_limpo['data'] = pd.to_datetime(df_limpo['data'])

#df_limpo.info() # - Conferindo se deu certo a convers√£o

df_limpo['lucro'] = df_limpo['valor_venda'] - df_limpo['custo_produto'] # - Criando um campo de lucro.

#display(df_limpo.head()) # - Conferindo a cria√ß√£o do campo

media_lucro = df_limpo['lucro'].mean()
print(f"O lucro m√©dio por venda √© de R$ {media_lucro:.2f}")

df_limpo['ano'] = df_limpo['data'].dt.year
df_limpo['mes'] = df_limpo['data'].dt.month

display(df_limpo[['valor_venda', 'custo_produto', 'lucro','ano', 'mes']].head())

Estat√≠sticas da coluna valor venda (p√≥s limpeza):


Unnamed: 0,valor_venda
count,986.0
mean,252.643215
std,96.60271
min,2.84
25%,185.3775
50%,252.65
75%,314.79
max,635.27


O lucro m√©dio por venda √© de R$ 90.73


Unnamed: 0,valor_venda,custo_produto,lucro,ano,mes
10,203.66,138.78297,64.87703,2025,8
11,203.43,133.045998,70.384002,2025,8
12,274.2,184.896304,89.303696,2025,1
13,58.67,41.756061,16.913939,2025,12
14,77.51,65.185819,12.324181,2025,10


## 6. Exporta√ß√£o da Base Tratada para Visualiza√ß√£o
Gera√ß√£o do arquivo final saneado para consumo em ferramentas de Business Intelligence (BI).



In [None]:
df_limpo.to_csv('vendas_aurora_final.csv', index=False)

print("Arquivo gerado com sucesso!")

Arquivo gerado com sucesso!
