## Analise Exploratório EDA

Contexto: Uma empresa de e-commerce deseja entender melhor os dados de vendas dos últimos dois anos para otimizar suas campanhas de marketing, aumentar o lucro e identificar padrões de comportamento dos clientes.

Objetivo: Explorar o conjunto de dados de vendas para descobrir insights sobre o comportamento dos clientes, padrões de venda ao longo do tempo, e identificar fatores que influenciam o volume de vendas.

In [29]:
# Importando as bibliotecas
import pandas as pd
import numpy as np

#### Carregamento dos dados

In [30]:
# Importando a base de dados - Base criado com o GPT
df_vendas = pd.read_csv('tabela_vendas.csv', encoding='utf-8')
df_vendas.head(5)

Unnamed: 0,ProductID,CustomerID,ShipDate,Quantity,UnitPrice,TotalPrice,State,Region,Category,Product
0,4,13,2024-04-03,12,1621.89,19462.68,MS,Centro-Oeste,Eletroeletrônicos,Cafeteira Elétrica
1,15,13,2023-11-03,3,4084.61,12253.83,DF,Centro-Oeste,Casa e Jardim,Aspirador de Pó
2,28,27,2023-12-03,5,2541.08,12705.4,MS,Centro-Oeste,Informática,Teclado Mecânico
3,14,4,2024-07-19,20,368.17,7363.4,MS,Centro-Oeste,Eletroeletrônicos,TV 4K 55'
4,25,17,2024-07-20,12,527.37,6328.44,MG,Sudeste,Videogame,Controle DualSense


In [31]:
# Tamanha do dataset
df_vendas.shape

(500, 10)

In [32]:
# Alterando as colunas do dataset
df_vendas.columns = ['ID_Produto', 'ID_Cliente', 'Data_Envio','Quantidade', 'Preco_Unid', 'Preco_Total','Estado', 'Região', 'Categoria', 'Produto']

#### Limpeza e preparação dos dados

In [33]:
# Valores Duplicados - Contagem dos dados duplicados do dataset, retorno 500 valores false, 0 valores true
df_vendas.drop_duplicates(inplace=True)

In [34]:
# Valores Faltantes - Verificar valores nulos
df_vendas.isnull().sum()

ID_Produto     0
ID_Cliente     0
Data_Envio     0
Quantidade     0
Preco_Unid     0
Preco_Total    0
Estado         0
Região         0
Categoria      0
Produto        0
dtype: int64

In [35]:
# Outliers - Com um grafico de boxplot podemos ver como os valores estão se comportando 
df_vendas.boxplot(column=['Quantidade', 'Preco_Unid', 'Preco_Total' ])

<Axes: >

In [36]:
# Retornando as linhas com os valores maiores que 80k para verificar se eram outliers ou valores corretos
df_vendas.loc[df_vendas['Preco_Total'] > 80000]

Unnamed: 0,ID_Produto,ID_Cliente,Data_Envio,Quantidade,Preco_Unid,Preco_Total,Estado,Região,Categoria,Produto
22,48,9,2024-08-05,19,4775.22,90729.18,MG,Sudeste,Informática,Monitor Full HD
48,18,12,2024-07-22,20,4699.38,93987.6,SP,Sudeste,Eletroeletrônicos,Máquina de Lavar
64,41,7,2024-03-14,19,4830.11,91772.09,SC,Sul,Videogame,Controle DualSense
97,18,3,2024-05-07,19,4382.95,83276.05,AC,Norte,Eletroeletrônicos,Geladeira Frost Free
123,24,14,2024-06-03,20,4348.23,86964.6,RS,Sul,Casa e Jardim,Aspirador de Pó
139,2,3,2024-07-22,20,4067.92,81358.4,MS,Centro-Oeste,Casa e Jardim,Ventilador
265,44,8,2024-08-21,18,4826.64,86879.52,AC,Norte,Eletroeletrônicos,Micro-ondas
273,24,4,2023-12-28,20,4184.82,83696.4,RS,Sul,Videogame,Console PS5
325,23,6,2024-03-03,17,4957.78,84282.26,DF,Centro-Oeste,Informática,Mouse Gamer
375,15,25,2023-11-15,19,4362.19,82881.61,RS,Sul,Celulares,iPhone 14


#### Análise Descritiva

In [37]:
# Estatistica descritiva usando a funções describe() para obter uma visão rápida de contagens, médias, desvio padrão e percentis.
df_vendas.describe()

Unnamed: 0,ID_Produto,ID_Cliente,Quantidade,Preco_Unid,Preco_Total
count,500.0,500.0,500.0,500.0,500.0
mean,24.974,15.522,10.652,2446.1929,25726.7669
std,15.073678,8.688642,5.820537,1354.417056,21156.721347
min,1.0,1.0,1.0,50.92,50.92
25%,12.0,8.0,6.0,1327.285,8776.6825
50%,24.5,15.5,11.0,2363.61,20166.815
75%,39.0,23.0,16.0,3643.2775,37862.19
max,50.0,30.0,20.0,4994.95,93987.6


In [44]:
# Distribuição das variaveis - Usando estados, região e categoria
df_vendas['Estado'].value_counts()

Estado
MG    35
RS    35
MS    33
DF    31
PR    29
SC    27
ES    24
MT    24
SP    24
RJ    24
GO    22
RR    19
SE    15
CE    15
PE    14
AL    14
AM    13
PI    12
TO    12
PA    12
AP    12
RN    12
RO    11
AC     9
MA     8
BA     8
PB     6
Name: count, dtype: int64

In [45]:
df_vendas['Região'].value_counts()

Região
Centro-Oeste    110
Sudeste         107
Nordeste        104
Sul              91
Norte            88
Name: count, dtype: int64

In [43]:
df_vendas['Categoria'].value_counts()

Categoria
Celulares            114
Eletroeletrônicos    102
Informática          102
Casa e Jardim         99
Videogame             83
Name: count, dtype: int64