In [3]:
# Primeiro vamos importar os libraries que vamos usar.
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt

In [4]:
df = pd.read_csv('sales_data.csv')

In [5]:
# Vamos agora visualizar as primeiras linhas do ficheiro das vendas
df.head()

Unnamed: 0,OrderID,Date,Region,Product,Quantity,UnitPrice,TotalSales,SalesRep,PaymentMethod
0,1001,2024-04-12,Johannesburg,Impressora,3,300,900,Paulo Costa,Multicaixa
1,1002,2024-01-21,Beira,Tablet,3,250,750,Carla Nunes,Cartão
2,1003,2024-04-09,Nampula,Impressora,2,300,600,Paulo Costa,Cartão
3,1004,2024-10-20,Beira,Monitor,5,150,750,Ana Silva,Cartão
4,1005,2024-11-09,Harare,Monitor,1,150,150,Ana Silva,Transferência


In [6]:
# Agora vamos verificar as dimensoes do dataset (linhas e colunas)
df.shape

(1000, 9)

In [8]:
# E vamos verificar os tipos de dados de cada coluna
df.dtypes

OrderID                   int64
Date             datetime64[ns]
Region                   object
Product                  object
Quantity                  int64
UnitPrice                 int64
TotalSales                int64
SalesRep                 object
PaymentMethod            object
dtype: object

In [9]:
# Vamos Converter a coluna "Date" para o tipo datetime
df['Date'] = pd.to_datetime(df['Date'], errors='coerce')

In [10]:
df.dtypes

OrderID                   int64
Date             datetime64[ns]
Region                   object
Product                  object
Quantity                  int64
UnitPrice                 int64
TotalSales                int64
SalesRep                 object
PaymentMethod            object
dtype: object

In [11]:
# Vamos verificar os valores nulos de cada coluna
df.isnull().sum()

OrderID          0
Date             0
Region           0
Product          0
Quantity         0
UnitPrice        0
TotalSales       0
SalesRep         0
PaymentMethod    0
dtype: int64

In [12]:
# Antes de mais, vamos extrair ano, mês, dia, dia da semana, etc.
df['Ano'] = df['Date'].dt.year
df['Mês'] = df['Date'].dt.month
df['Dia'] = df['Date'].dt.day
df['Dia_da_Semana'] = df['Date'].dt.day_name()


In [13]:
# Vamos visualizar as estatísticas descritivas para colunas numéricas
df.describe()

Unnamed: 0,OrderID,Date,Quantity,UnitPrice,TotalSales,Ano,Mês,Dia
count,1000.0,1000,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,1500.5,2024-07-04 09:30:14.400000,3.001,376.9,1144.0,2024.0,6.617,15.499
min,1001.0,2024-01-01 00:00:00,1.0,150.0,150.0,2024.0,1.0,1.0
25%,1250.75,2024-04-06 00:00:00,2.0,250.0,487.5,2024.0,4.0,8.0
50%,1500.5,2024-07-08 12:00:00,3.0,300.0,800.0,2024.0,7.0,15.0
75%,1750.25,2024-10-02 00:00:00,4.0,400.0,1500.0,2024.0,10.0,23.0
max,2000.0,2024-12-30 00:00:00,5.0,800.0,4000.0,2024.0,12.0,31.0
std,288.819436,,1.412443,224.559161,943.986287,0.0,3.422868,8.768288


In [None]:
# Agora vamos verificar as colunas categóricas (que não tem valores numéricos)
df.select_dtypes(include='object').describe()

In [None]:
# Para as colunas categóricas, vamos verificar os valores únicos por coluna
for col in df.select_dtypes(include='object').columns:
    print(f"{col}: {df[col].nunique()} valores únicos")

## Análise da Distribuição de Vendas

In [None]:
# Distribuição de Vendas por Produtos
df.groupby('Product')['TotalSales'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Vendas por Produto')
plt.ylabel('Total de Vendas')
plt.xlabel('Produto')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Distribuição de Vendas por Região
df.groupby('Region')['TotalSales'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Vendas por Região')
plt.ylabel('Total de Vendas')
plt.xlabel('Região')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Distribuição de Vendas por Região
df.groupby('Region')['TotalSales'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Vendas por Região')
plt.ylabel('Total de Vendas')
plt.xlabel('Região')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Distribuição de Vendas por Mês
df.groupby('Mês')['TotalSales'].sum().plot(kind='line', marker='o')
plt.title('Vendas por Mês')
plt.ylabel('Total de Vendas')
plt.xlabel('Mês')
plt.grid(True)
plt.xticks(range(1,13))
plt.tight_layout()
plt.show()

In [None]:
# Distribuição de Vendas por Ano
df.groupby('Ano')['TotalSales'].sum().plot(kind='bar')
plt.title('Vendas por Ano')
plt.ylabel('Total de Vendas')
plt.xlabel('Ano')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

## Análise de Produtos Mais Vendidos, Vendedores e Regiões

In [None]:
# Produtos mais vendidos (por quantidade)
df.groupby('Product')['Quantity'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Produtos Mais Vendidos (Quantidade)')
plt.ylabel('Quantidade Vendida')
plt.xlabel('Produto')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Desempenho por vendedor
df.groupby('SalesRep')['TotalSales'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Total de Vendas por Vendedor')
plt.ylabel('Total de Vendas')
plt.xlabel('Vendedor')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## Distribuição por métodos de pagamento

In [None]:
# Distribuição por métodos de pagamento
df['PaymentMethod'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('Distribuição dos Métodos de Pagamento')
plt.ylabel('')
plt.tight_layout()
plt.show()

## Correlações Numéricas (tabela apenas)

In [None]:
# Correlação entre variáveis numéricas
correlacoes = df[['Quantity', 'UnitPrice', 'TotalSales']].corr()
print(correlacoes)

## Análise de Outliers com boxplot do matplotlib

In [None]:
# Quantidade 
plt.boxplot(df['Quantity'])
plt.title('Outliers - Quantity')
plt.ylabel('Quantidade')
plt.grid(True)
plt.show()

In [None]:
# Preço Unitário
plt.boxplot(df['UnitPrice'])
plt.title('Outliers - UnitPrice')
plt.ylabel('Preço Unitário')
plt.grid(True)
plt.show()


In [None]:
# Total de Vendas
plt.boxplot(df['TotalSales'])
plt.title('Outliers - TotalSales')
plt.ylabel('Total de Vendas')
plt.grid(True)
plt.show()


In [None]:
import os
# 1. Criar uma pasta chamada "graficos" se não existir
os.makedirs("graficos", exist_ok=True)

# 2. Gerar gráfico e guardar como imagem
df.groupby('Product')['TotalSales'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Vendas por Produto')
plt.ylabel('Total de Vendas')
plt.xlabel('Produto')
plt.xticks(rotation=45)
plt.tight_layout()

# 3. Guardar o gráfico como imagem PNG
plt.savefig("graficos/vendas_por_produto.png")

# 4. Exibir (opcional)
plt.show()


## Bloco Auxiliar para salvar gráficos

In [None]:
# AUXILIAR: Bloco de código para salvar todos os gráficos
# Grafico guardados em formato .png de alta qualidade

import os
import matplotlib.pyplot as plt

# Criar pasta "graficos" se não existir
os.makedirs("graficos", exist_ok=True)

# Função auxiliar para salvar gráfico
def salvar_grafico(nome_arquivo):
    plt.tight_layout()
    plt.savefig(f"graficos/{nome_arquivo}.png", dpi=150)
    plt.close()

# 1. Vendas por Produto
df.groupby('Product')['TotalSales'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Vendas por Produto')
plt.ylabel('Total de Vendas')
plt.xlabel('Produto')
plt.xticks(rotation=45)
salvar_grafico('vendas_por_produto')

# 2. Vendas por Região
df.groupby('Region')['TotalSales'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Vendas por Região')
plt.ylabel('Total de Vendas')
plt.xlabel('Região')
plt.xticks(rotation=45)
salvar_grafico('vendas_por_regiao')

# 3. Vendas por Mês
df.groupby('Mês')['TotalSales'].sum().plot(kind='line', marker='o')
plt.title('Vendas por Mês')
plt.ylabel('Total de Vendas')
plt.xlabel('Mês')
plt.grid(True)
plt.xticks(range(1,13))
salvar_grafico('vendas_por_mes')

# 4. Vendas por Ano
df.groupby('Ano')['TotalSales'].sum().plot(kind='bar')
plt.title('Vendas por Ano')
plt.ylabel('Total de Vendas')
plt.xlabel('Ano')
plt.xticks(rotation=0)
salvar_grafico('vendas_por_ano')

# 5. Produtos Mais Vendidos (Quantidade)
df.groupby('Product')['Quantity'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Produtos Mais Vendidos (Quantidade)')
plt.ylabel('Quantidade Vendida')
plt.xlabel('Produto')
plt.xticks(rotation=45)
salvar_grafico('produtos_mais_vendidos_quantidade')

# 6. Desempenho por Vendedor
df.groupby('SalesRep')['TotalSales'].sum().sort_values(ascending=False).plot(kind='bar')
plt.title('Total de Vendas por Vendedor')
plt.ylabel('Total de Vendas')
plt.xlabel('Vendedor')
plt.xticks(rotation=45)
salvar_grafico('vendas_por_vendedor')

# 7. Métodos de Pagamento
df['PaymentMethod'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('Distribuição dos Métodos de Pagamento')
plt.ylabel('')
salvar_grafico('metodos_de_pagamento')

# 8. Outliers - Quantity
plt.boxplot(df['Quantity'])
plt.title('Outliers - Quantity')
plt.ylabel('Quantidade')
plt.grid(True)
salvar_grafico('outliers_quantity')

# 9. Outliers - UnitPrice
plt.boxplot(df['UnitPrice'])
plt.title('Outliers - UnitPrice')
plt.ylabel('Preço Unitário')
plt.grid(True)
salvar_grafico('outliers_unitprice')

# 10. Outliers - TotalSales
plt.boxplot(df['TotalSales'])
plt.title('Outliers - TotalSales')
plt.ylabel('Total de Vendas')
plt.grid(True)
salvar_grafico('outliers_totalsales')


In [14]:
# Salvar como CSV
df.to_csv("sales_data_final.csv", index=False)
print("Dataset 'sales_data_final.csv' gerado com sucesso!")

Dataset 'sales_data_final.csv' gerado com sucesso!
