# 🧼 Limpeza de Dados de Vendas

Este script realiza a limpeza e transformação de um conjunto de dados fictícios de vendas, preparando-os para análise com ferramentas como Power BI, Excel ou Python (Pandas/Seaborn/etc).

## 📦 O que o script faz?

- Lê um arquivo `.csv` com dados de vendas
- Converte datas para o tipo correto
- Remove caracteres estranhos de colunas numéricas
- Converte preços para número (float)
- Preenche valores ausentes com padrões
- Cria uma nova coluna com o total da venda (`Quantidade * Preço`)
- Renomeia colunas para nomes padronizados
- Salva o resultado em um novo arquivo CSV limpo

---

## 📁 Arquivos

- `limpeza_vendas.py` — Script com a função `limpar_dados_vendas()`
- `vendas_ficticias.csv` — Arquivo de entrada com os dados brutos (não incluso aqui)
- `vendas_ficticias_limpo.csv` — Arquivo gerado com os dados tratados

---

## ▶️ Como usar

1. Certifique-se de ter o Python instalado
2. Instale o Pandas e NumPy se ainda não tiver:
   ```bash
   pip install pandas numpy

In [4]:
import pandas as pd
import numpy as np

In [5]:
# Lê os dados do arquivo CSV
df = pd.read_csv('vendas_ficticias.csv')

In [6]:
# Exibe as 5 primeiras linhas do DataFrame
df.head()

Unnamed: 0,ID,Produto,Categoria,Preço,Quantidade,Data_Venda,Vendedor
0,1,Produto C,Categoria 3,'27.82',19,2023-01-01,Vendedor 1
1,2,Produto A,Categoria 1,49.42,14,2023-01-02,Vendedor 3
2,3,Produto C,Categoria 3,46.79,13,2023-01-03,Vendedor 2
3,4,Produto C,Categoria 1,48.6,15,2023-01-04,Vendedor 3
4,5,Produto A,Categoria 3,62.7,16,2023-01-05,Vendedor 1


In [7]:
# Verifica o número de linhas e colunas
df.shape

(5000, 7)

In [8]:
# Mostra informações gerais sobre o DataFrame (colunas, tipos de dados, valores nulos, etc.)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   ID          5000 non-null   int64 
 1   Produto     4997 non-null   object
 2   Categoria   4999 non-null   object
 3   Preço       5000 non-null   object
 4   Quantidade  5000 non-null   int64 
 5   Data_Venda  4999 non-null   object
 6   Vendedor    4989 non-null   object
dtypes: int64(2), object(5)
memory usage: 273.6+ KB


In [9]:
# Estatísticas descritivas das colunas numéricas
df.describe()


Unnamed: 0,ID,Quantidade
count,5000.0,5000.0
mean,2500.5,10.0988
std,1443.520003,5.535772
min,1.0,1.0
25%,1250.75,5.0
50%,2500.5,10.0
75%,3750.25,15.0
max,5000.0,19.0


In [10]:
# Verifica a quantidade de valores ausentes por coluna
df.isnull().sum()


Unnamed: 0,0
ID,0
Produto,3
Categoria,1
Preço,0
Quantidade,0
Data_Venda,1
Vendedor,11


In [11]:
# Verifica a quantidade de linhas duplicadas
df.duplicated().sum()

np.int64(0)

In [12]:
# Conta a quantidade de valores únicos em cada coluna
df.nunique()

Unnamed: 0,0
ID,5000
Produto,3
Categoria,3
Preço,3842
Quantidade,19
Data_Venda,4999
Vendedor,3


In [13]:
# (Comentado) Remove linhas com valores ausentes — usado se quiser excluir dados faltantes
# df.dropna(inplace=True)

In [14]:
# Verifica novamente os valores ausentes
df.isnull().sum()

Unnamed: 0,0
ID,0
Produto,3
Categoria,1
Preço,0
Quantidade,0
Data_Venda,1
Vendedor,11


In [15]:
# Converte a coluna 'Data_Venda' para o tipo datetime
df['Data_Venda'] = pd.to_datetime(df['Data_Venda'], format='%Y-%m-%d')


In [16]:
# Verifica os tipos de dados após a conversão
df.dtypes

Unnamed: 0,0
ID,int64
Produto,object
Categoria,object
Preço,object
Quantidade,int64
Data_Venda,datetime64[ns]
Vendedor,object


In [17]:
# Remove possíveis aspas da coluna 'Preço' (tratamento de dados como string)
df['Preço'] = df['Preço'].str.replace("'", '')

In [18]:
# Visualiza os dados após limpeza
df.head()

Unnamed: 0,ID,Produto,Categoria,Preço,Quantidade,Data_Venda,Vendedor
0,1,Produto C,Categoria 3,27.82,19,2023-01-01,Vendedor 1
1,2,Produto A,Categoria 1,49.42,14,2023-01-02,Vendedor 3
2,3,Produto C,Categoria 3,46.79,13,2023-01-03,Vendedor 2
3,4,Produto C,Categoria 1,48.6,15,2023-01-04,Vendedor 3
4,5,Produto A,Categoria 3,62.7,16,2023-01-05,Vendedor 1


In [19]:
# Converte a coluna 'Preço' para tipo float
df = df.astype({'Preço': 'float64'})

In [20]:
# Confirma a conversão dos tipos de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ID          5000 non-null   int64         
 1   Produto     4997 non-null   object        
 2   Categoria   4999 non-null   object        
 3   Preço       5000 non-null   float64       
 4   Quantidade  5000 non-null   int64         
 5   Data_Venda  4999 non-null   datetime64[ns]
 6   Vendedor    4989 non-null   object        
dtypes: datetime64[ns](1), float64(1), int64(2), object(3)
memory usage: 273.6+ KB


In [21]:
# Preenche valores ausentes da coluna 'Produto' com 'Produto B'
df.Produto.fillna('Produto B', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df.Produto.fillna('Produto B', inplace=True)


In [22]:
# Preenche valores ausentes das demais colunas com valores padrão
df.Categoria.fillna('Categoria 3', inplace=True)
df.Data_Venda.fillna('2023-12-31', inplace=True)
df.Vendedor.fillna('Vendedor 1', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df.Categoria.fillna('Categoria 3', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df.Data_Venda.fillna('2023-12-31', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting va

In [23]:
# Verifica novamente os valores ausentes
df.isnull().sum()

Unnamed: 0,0
ID,0
Produto,0
Categoria,0
Preço,0
Quantidade,0
Data_Venda,0
Vendedor,0


In [24]:
# Visualiza os dados após preenchimento
df.head()

Unnamed: 0,ID,Produto,Categoria,Preço,Quantidade,Data_Venda,Vendedor
0,1,Produto C,Categoria 3,27.82,19,2023-01-01,Vendedor 1
1,2,Produto A,Categoria 1,49.42,14,2023-01-02,Vendedor 3
2,3,Produto C,Categoria 3,46.79,13,2023-01-03,Vendedor 2
3,4,Produto C,Categoria 1,48.6,15,2023-01-04,Vendedor 3
4,5,Produto A,Categoria 3,62.7,16,2023-01-05,Vendedor 1


In [25]:
# Estatísticas descritivas arredondadas (valores numéricos)
df.describe().round(1)

Unnamed: 0,ID,Preço,Quantidade,Data_Venda
count,5000.0,5000.0,5000.0,5000
mean,2500.5,55.0,10.1,2029-11-04 12:28:48
min,1.0,10.0,1.0,2023-01-01 00:00:00
25%,1250.8,33.4,5.0,2026-06-03 18:00:00
50%,2500.5,55.0,10.0,2029-11-04 12:00:00
75%,3750.2,77.3,15.0,2033-04-07 06:00:00
max,5000.0,100.0,19.0,2036-09-08 00:00:00
std,1443.5,25.9,5.5,


In [26]:
# Cria a nova coluna 'Total_Vendas' com base no cálculo de quantidade x preço
df['Total_Vendas'] = df['Quantidade'] * df['Preço']

In [27]:
# Estatísticas descritivas das colunas do tipo objeto (categóricas)
df.describe(include='object')

Unnamed: 0,Produto,Categoria,Vendedor
count,5000,5000,5000
unique,3,3,3
top,Produto A,Categoria 2,Vendedor 2
freq,1737,1707,1693


In [28]:
# Renomeia as colunas para manter um padrão de nomenclatura
df.columns = ['ID', 'Produto', 'Categoria', 'Preco', 'Quantidade', 'Data_Venda', 'Vendedor', 'Total_Vendas']

In [29]:
# Visualiza os dados com a nova coluna
df.head()

Unnamed: 0,ID,Produto,Categoria,Preco,Quantidade,Data_Venda,Vendedor,Total_Vendas
0,1,Produto C,Categoria 3,27.82,19,2023-01-01,Vendedor 1,528.58
1,2,Produto A,Categoria 1,49.42,14,2023-01-02,Vendedor 3,691.88
2,3,Produto C,Categoria 3,46.79,13,2023-01-03,Vendedor 2,608.27
3,4,Produto C,Categoria 1,48.6,15,2023-01-04,Vendedor 3,729.0
4,5,Produto A,Categoria 3,62.7,16,2023-01-05,Vendedor 1,1003.2


In [30]:
# Salva o DataFrame limpo em um novo arquivo CSV
df.to_csv('vendas_ficticias_limpo.csv', index=False)