In [1]:
import pandas as pd

df = pd.read_excel("vendas.xlsx")

display(df)

Unnamed: 0,data,loja,categoria,produto,quantidade,valor_venda
0,2024-07-20,Vento Norte,ELETRODOMESTICOS,Aquecedor,5.0,405.55
1,2024-05-30,Vento Norte,sazonal,Guarda-chuva,6.0,2866.20
2,2024-01-25,Vento Norte,roupas,Calça,8.0,3292.72
3,2024-07-10,Chuva Clara,roupas,Casaco,5.0,1294.95
4,2024-05-29,Porto Sol,infantil,Blusa Infantil,,
...,...,...,...,...,...,...
495,2024-08-23,Porto Sol,eletrodomesticos,Ventilador,4.0,1545.72
496,2024-12-19,Vento Norte,eletrodomesticos,Ventilador,1.0,230.89
497,2024-05-12,Vila Neve,infantil,Blusa Infantil,6.0,441.30
498,2024-03-08,Vila Neve,eletrodomesticos,Ar-condicionado,1.0,293.93


TRATAMENTO DOS DADOS

In [2]:
# 1.Padronizar a coluna 'categoria' para minúsculas.
df['categoria'] = df['categoria'].str.lower()

print(df['categoria'])

0      eletrodomesticos
1               sazonal
2                roupas
3                roupas
4              infantil
             ...       
495    eletrodomesticos
496    eletrodomesticos
497            infantil
498    eletrodomesticos
499             sazonal
Name: categoria, Length: 500, dtype: object


In [3]:
# 2.Remover registros onde a quantidade está ausente
df.dropna(subset=['quantidade'], inplace=True)

display(df['quantidade'])

0      5.0
1      6.0
2      8.0
3      5.0
5      2.0
      ... 
495    4.0
496    1.0
497    6.0
498    1.0
499    3.0
Name: quantidade, Length: 455, dtype: float64

In [4]:
# 3. Remover espaços extras e padronizar com primeira letra maiúscula (estilo título)
df['categoria'] = df['categoria'].str.strip()
df['loja'] = df['loja'].str.strip()
df['produto'] = df['produto'].str.strip()

df['categoria'] = df['categoria'].str.title()
df['loja'] = df['loja'].str.title()
df['produto'] = df['produto'].str.title()

display(df)


Unnamed: 0,data,loja,categoria,produto,quantidade,valor_venda
0,2024-07-20,Vento Norte,Eletrodomesticos,Aquecedor,5.0,405.55
1,2024-05-30,Vento Norte,Sazonal,Guarda-Chuva,6.0,2866.20
2,2024-01-25,Vento Norte,Roupas,Calça,8.0,3292.72
3,2024-07-10,Chuva Clara,Roupas,Casaco,5.0,1294.95
5,2024-08-31,Porto Sol,Sazonal,Manta Térmica,2.0,957.96
...,...,...,...,...,...,...
495,2024-08-23,Porto Sol,Eletrodomesticos,Ventilador,4.0,1545.72
496,2024-12-19,Vento Norte,Eletrodomesticos,Ventilador,1.0,230.89
497,2024-05-12,Vila Neve,Infantil,Blusa Infantil,6.0,441.30
498,2024-03-08,Vila Neve,Eletrodomesticos,Ar-Condicionado,1.0,293.93


In [5]:
# 4. Garantir que a coluna data seja datetime
df['data'] = pd.to_datetime(df['data'])

print(df['data'])

0     2024-07-20
1     2024-05-30
2     2024-01-25
3     2024-07-10
5     2024-08-31
         ...    
495   2024-08-23
496   2024-12-19
497   2024-05-12
498   2024-03-08
499   2024-07-25
Name: data, Length: 455, dtype: datetime64[ns]


In [6]:
# 5. Calcular valor unitário real das vendas válidas
df['valor_unitario'] = df['valor_venda'] / df['quantidade']

display(df)

Unnamed: 0,data,loja,categoria,produto,quantidade,valor_venda,valor_unitario
0,2024-07-20,Vento Norte,Eletrodomesticos,Aquecedor,5.0,405.55,81.11
1,2024-05-30,Vento Norte,Sazonal,Guarda-Chuva,6.0,2866.20,477.70
2,2024-01-25,Vento Norte,Roupas,Calça,8.0,3292.72,411.59
3,2024-07-10,Chuva Clara,Roupas,Casaco,5.0,1294.95,258.99
5,2024-08-31,Porto Sol,Sazonal,Manta Térmica,2.0,957.96,478.98
...,...,...,...,...,...,...,...
495,2024-08-23,Porto Sol,Eletrodomesticos,Ventilador,4.0,1545.72,386.43
496,2024-12-19,Vento Norte,Eletrodomesticos,Ventilador,1.0,230.89,230.89
497,2024-05-12,Vila Neve,Infantil,Blusa Infantil,6.0,441.30,73.55
498,2024-03-08,Vila Neve,Eletrodomesticos,Ar-Condicionado,1.0,293.93,293.93


In [7]:
# 6. Calcular valor médio unitário por produto (sem considerar nulos)
novo_df = df.dropna(subset=['valor_unitario'], inplace=True)

media_por_produto = df.groupby('produto')['valor_unitario'].mean()

print(f"Valor médio unitário por produto:")
print(media_por_produto)

Valor médio unitário por produto:
produto
Aquecedor          209.272667
Ar-Condicionado    285.399667
Blusa Infantil     290.070938
Calça              266.699130
Camiseta           253.658333
Casaco             281.150000
Guarda-Chuva       265.004286
Lancheira          271.679000
Manta Térmica      261.928182
Mochila            303.505484
Protetor Solar     299.157500
Ventilador         287.489310
Vestido            298.542174
Name: valor_unitario, dtype: float64


In [8]:
# 7. Agrupar e calcular média
media_valor_unitario = df['valor_unitario'].mean()
media_valor_venda = df['valor_venda'].mean()

print(f'Média total do valor unitário: {media_valor_unitario:.2f}')
print(f'Média total do valor da venda: {media_valor_venda:.2f}')

Média total do valor unitário: 274.68
Média total do valor da venda: 1477.53


In [9]:
# 8. Preencher valor_unitario ausente
df['valor_unitario'].fillna(media_valor_unitario, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['valor_unitario'].fillna(media_valor_unitario, inplace=True)


In [10]:
# 9. Recalcular valor_venda
df['valor_venda'] = df['valor_unitario'] * df['quantidade']

In [11]:
# 10. Salvar o novo DataFrame limpo em um novo arquivo Excel
df.to_excel('dados_tratados.xlsx', index=False)