# Tratando dados de uma planilha CSV

In [129]:
import pandas as pd
import numpy
import openpyxl
import time
from datetime import datetime

In [130]:
#lendo arquivo

vendas_df = pd.read_csv("arquivos/vendas_sujo.csv", sep=';')

# Visualizando uma amostra dos dados
vendas_df.head(20)

Unnamed: 0,Produto,Categoria,Preço,Quantidade,Cliente,DataVenda,FormaPagamento
0,HD Externo,Informática,4837.52,,,2025-02-10,pix
1,Mouse,Eletrônicos,erro,5.0,João,,cartao
2,Webcam,Informática,2835.95,5.0,Maria,2025-02-10,
3,Notebook,Informática,799.94,3.0,Ana,2025-02-10,Cartão
4,Webcam,Móveis,3747.82,,Beatriz,2025-05-20,Boleto
5,Cadeira Gamer,Móveis,4573.38,1.0,Ana,2025-01-05,Boleto
6,Fone de Ouvido,Eletrônicos,3325.49,3.0,Beatriz,2025-05-20,cartao
7,HD Externo,Acessórios,3291.28,3.0,José,2025-05-20,cartao
8,Tablet,Móveis,3556.69,,Maria,2025-01-05,PIX
9,Notebook,Informática,3045.32,,Carlos,15-04-2025,PIX


In [131]:
vendas_df = vendas_df.rename(columns={'Preço': 'Preco'})
vendas_df.head()

Unnamed: 0,Produto,Categoria,Preco,Quantidade,Cliente,DataVenda,FormaPagamento
0,HD Externo,Informática,4837.52,,,2025-02-10,pix
1,Mouse,Eletrônicos,erro,5.0,João,,cartao
2,Webcam,Informática,2835.95,5.0,Maria,2025-02-10,
3,Notebook,Informática,799.94,3.0,Ana,2025-02-10,Cartão
4,Webcam,Móveis,3747.82,,Beatriz,2025-05-20,Boleto


In [132]:
# contagem de campos NaN
vendas_df.count()

Produto           50
Categoria         50
Preco             49
Quantidade        34
Cliente           45
DataVenda         40
FormaPagamento    38
dtype: int64

In [133]:
# Resumo do df
vendas_df.describe()

Unnamed: 0,Quantidade
count,34.0
mean,2.617647
std,1.34873
min,1.0
25%,2.0
50%,2.5
75%,3.0
max,5.0


In [134]:
# Ver o tipo de dados por coluna
vendas_df.dtypes

Produto            object
Categoria          object
Preco              object
Quantidade        float64
Cliente            object
DataVenda          object
FormaPagamento     object
dtype: object

In [135]:
# Convertendo colunas para tipos númericos
vendas_df['Preco'] = pd.to_numeric(vendas_df['Preco'], errors='coerce')
vendas_df['Quantidade'] = pd.to_numeric(vendas_df['Quantidade'], errors='coerce')

# Converter coluna DataVenda para dateTime()
vendas_df['DataVenda'] = pd.to_datetime(vendas_df['DataVenda'], errors='coerce', dayfirst=True)
vendas_df.dtypes

Produto                   object
Categoria                 object
Preco                    float64
Quantidade               float64
Cliente                   object
DataVenda         datetime64[ns]
FormaPagamento            object
dtype: object

In [136]:
vendas_df.head(15)

Unnamed: 0,Produto,Categoria,Preco,Quantidade,Cliente,DataVenda,FormaPagamento
0,HD Externo,Informática,4837.52,,,2025-10-02,pix
1,Mouse,Eletrônicos,,5.0,João,NaT,cartao
2,Webcam,Informática,2835.95,5.0,Maria,2025-10-02,
3,Notebook,Informática,799.94,3.0,Ana,2025-10-02,Cartão
4,Webcam,Móveis,3747.82,,Beatriz,NaT,Boleto
5,Cadeira Gamer,Móveis,4573.38,1.0,Ana,2025-05-01,Boleto
6,Fone de Ouvido,Eletrônicos,3325.49,3.0,Beatriz,NaT,cartao
7,HD Externo,Acessórios,3291.28,3.0,José,NaT,cartao
8,Tablet,Móveis,3556.69,,Maria,2025-05-01,PIX
9,Notebook,Informática,3045.32,,Carlos,NaT,PIX


In [137]:
# Convertendo colunas para int
vendas_df['Quantidade'] = vendas_df['Quantidade'].astype('Int64')
# Ver o tipo de dados por coluna
vendas_df.dtypes

Produto                   object
Categoria                 object
Preco                    float64
Quantidade                 Int64
Cliente                   object
DataVenda         datetime64[ns]
FormaPagamento            object
dtype: object

In [138]:
# Verificando quantas celulas retornaram NAN por coluna
vendas_df['DataVenda'].isna().sum()

np.int64(35)

In [139]:
# Use o ffill para preencher os valores NaN com o último valor não-nulo da coluna
vendas_df['DataVenda'] = vendas_df['DataVenda'].ffill(inplace=False)

vendas_df['Preco'] = vendas_df['Preco'].ffill(inplace=False)

vendas_df['Quantidade'] = vendas_df['Quantidade'].ffill(inplace=False) 

vendas_df['Cliente'] = vendas_df['Cliente'].ffill(inplace=False)
 
vendas_df['FormaPagamento'] = vendas_df['FormaPagamento'].ffill(inplace=False).str.lower()

# vendas_df['DataVenda'].isna().sum()
vendas_df.head(20)

Unnamed: 0,Produto,Categoria,Preco,Quantidade,Cliente,DataVenda,FormaPagamento
0,HD Externo,Informática,4837.52,,,2025-10-02,pix
1,Mouse,Eletrônicos,4837.52,5.0,João,2025-10-02,cartao
2,Webcam,Informática,2835.95,5.0,Maria,2025-10-02,cartao
3,Notebook,Informática,799.94,3.0,Ana,2025-10-02,cartão
4,Webcam,Móveis,3747.82,3.0,Beatriz,2025-10-02,boleto
5,Cadeira Gamer,Móveis,4573.38,1.0,Ana,2025-05-01,boleto
6,Fone de Ouvido,Eletrônicos,3325.49,3.0,Beatriz,2025-05-01,cartao
7,HD Externo,Acessórios,3291.28,3.0,José,2025-05-01,cartao
8,Tablet,Móveis,3556.69,3.0,Maria,2025-05-01,pix
9,Notebook,Informática,3045.32,3.0,Carlos,2025-05-01,pix


In [140]:
# contagem de campos NaN
vendas_df['Cliente'].isna().sum()

np.int64(1)

In [141]:
# Removendo linha que possue NaN
vendas_df = vendas_df.dropna(axis=0, how='any')


In [142]:
# contagem de campos NaN
vendas_df['Cliente'].isna().sum()

np.int64(0)

In [143]:
# contagem de campos NaN
vendas_df.count()

Produto           49
Categoria         49
Preco             49
Quantidade        49
Cliente           49
DataVenda         49
FormaPagamento    49
dtype: int64

In [144]:
# Normalizar colunas do df
vendas_df.columns = [c.upper() for c in vendas_df.columns]

data_atual = str(datetime.now()).replace(":", "-")
indice_ponto = data_atual.index(".")
data_real = data_atual[:indice_ponto]
vendas_df['DATAVENDA'] = vendas_df['DATAVENDA'].dt.strftime("%d/%m/%Y")


# Gerar nova planilha com os dados tratados
vendas_df.to_excel(f"VENDAS_SMARTTECH.xlsx", index=False)