1. Configuração Inicial: Carregando as Bibliotecas e o Dataset

In [52]:
# Carregar as bibliotecas
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import plotly.express as px


In [53]:

# Carregar o dataset
df = pd.read_csv('vendas_eletronicos.csv')


In [54]:

# Exibir as primeiras 5 linhas para uma pré-visualização
print("Primeiras 5 linhas do dataset:")
print(df.head())


Primeiras 5 linhas do dataset:
   ID_Venda           Data_Venda                            ID_Cliente  \
0         1  2024-12-29 03:05:53  c00b3b5d-001c-449f-b337-6d10ca54c2f5   
1         2  2024-09-13 19:39:18  d5090e1c-5750-460e-8d95-0f096f200a21   
2         3  2025-07-18 13:50:46  613d34f9-2156-457b-ae15-195974c6998f   
3         4  2025-05-01 23:02:28  57d92624-48b0-4fdc-bca5-0a4121b04fd7   
4         5  2025-01-25 14:42:47  10198da6-edca-4f85-99d1-f8b8e23ea57e   

           Nome_Cliente               Email_Cliente                País  \
0      Iwona Gute-Zobel  iwona.gute-zobel@yahoo.com      Republik Korea   
1  Sig. Ricciotti Ponti      sig..ponti@outlook.com               Cipro   
2          Volkmar Ring    volkmar.ring@hotmail.com              Gambia   
3        Gonçalo Garcia    gonçalo.garcia@gmail.com  Polinésia Francesa   
4        Marina Ribeiro    marina.ribeiro@gmail.com              Zâmbia   

  Categoria_Produto                   Produto  Preço_Unitário  Quantidade

In [55]:

# Exibir informações sobre o dataset (tipos de dados, valores nulos, etc.)
print("\nInformações do dataset:")
print(df.info())


Informações do dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   ID_Venda           100000 non-null  int64  
 1   Data_Venda         100000 non-null  object 
 2   ID_Cliente         100000 non-null  object 
 3   Nome_Cliente       100000 non-null  object 
 4   Email_Cliente      100000 non-null  object 
 5   País               100000 non-null  object 
 6   Categoria_Produto  100000 non-null  object 
 7   Produto            100000 non-null  object 
 8   Preço_Unitário     100000 non-null  float64
 9   Quantidade         100000 non-null  int64  
 10  Total_Venda        100000 non-null  float64
dtypes: float64(2), int64(2), object(7)
memory usage: 8.4+ MB
None


2. Limpeza e Pré-processamento dos Dados (ETL)

In [56]:
# Converter a coluna 'Data_Venda' para o tipo datetime
df['Data_Venda'] = pd.to_datetime(df['Data_Venda'])




In [57]:
# Extrair ano e mês para análise
df['Ano'] = df['Data_Venda'].dt.year
df['Mês'] = df['Data_Venda'].dt.month




In [58]:
# Verificar se há valores ausentes (nulos) e duplicadas
print("\nContagem de valores nulos por coluna:")
print(df.isnull().sum())




Contagem de valores nulos por coluna:
ID_Venda             0
Data_Venda           0
ID_Cliente           0
Nome_Cliente         0
Email_Cliente        0
País                 0
Categoria_Produto    0
Produto              0
Preço_Unitário       0
Quantidade           0
Total_Venda          0
Ano                  0
Mês                  0
dtype: int64


In [59]:
# Verificar se há linhas duplicadas
print("\nNúmero de linhas duplicadas:")
print(df.duplicated().sum())

# Se houver duplicatas, você pode removê-las usando:
# df.drop_duplicates(inplace=True)


Número de linhas duplicadas:
0


3. Análise Exploratória de Dados (EDA)

In [63]:
# Vendas totais por mês
vendas_por_mes = df.groupby('Mês')['Total_Venda'].sum().reset_index()
fig_mes = px.line(vendas_por_mes, x='Mês', y='Total_Venda', title='Vendas Totais por Mês')
fig_mes.show()

In [64]:
# Produtos Mais Vendidos (em valor total):
top_produtos = df.groupby('Produto')['Total_Venda'].sum().nlargest(5).reset_index()
fig_prod = px.bar(top_produtos, x='Total_Venda', y='Produto', title='Top 5 Produtos por Vendas', orientation='h')
fig_prod.show()

In [68]:
# Produtos Mais Vendidos (em valor total):
top_produtos = df.groupby('Produto')['Quantidade'].sum().nlargest(5).reset_index()
fig_prod = px.bar(top_produtos, x='Quantidade', y='Produto', title='Top 5 Produtos por Quantidade', orientation='h')
fig_prod.show()

In [69]:
# Top 5 Clientes por Valor de Vendas
top_clientes = df.groupby('Nome_Cliente')['Total_Venda'].sum().nlargest(5)
print("\nTop 5 Clientes por Vendas:")
print(top_clientes)


Top 5 Clientes por Vendas:
Nome_Cliente
Vicente Silva       12488.0
Ana Beatriz Leão    12250.0
Fabiana Barros      10696.0
John Davis          10643.0
Bárbara Lima        10591.0
Name: Total_Venda, dtype: float64


In [70]:
# Ticket médio por categoria
preco_medio_categoria = df.groupby('Categoria_Produto')['Preço_Unitário'].mean().sort_values(ascending=False)
print("\nPreço Unitário Médio por Categoria:")
print(preco_medio_categoria)


Preço Unitário Médio por Categoria:
Categoria_Produto
Celulares     738.940864
Acessórios     46.441267
Name: Preço_Unitário, dtype: float64


In [None]:
# Agrupar as vendas por país
vendas_por_pais = df.groupby('País')['Total_Venda'].sum().reset_index()

# Criar o mapa de coropleto interativo
fig = px.choropleth(vendas_por_pais,
                    locations='País',
                    locationmode='country names',
                    color='Total_Venda',
                    hover_name='País',
                    color_continuous_scale=px.colors.sequential.Plasma,
                    title='Vendas Totais por País')

# Exibir o mapa
fig.show()