In [120]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_excel('vendas.xlsx')

print(df)

          data         loja         categoria          produto  quantidade  \
0   2024-07-20  Vento Norte  ELETRODOMESTICOS        Aquecedor         5.0   
1   2024-05-30  Vento Norte           sazonal     Guarda-chuva         6.0   
2   2024-01-25  Vento Norte            roupas            Calça         8.0   
3   2024-07-10  Chuva Clara            roupas           Casaco         5.0   
4   2024-05-29    Porto Sol          infantil   Blusa Infantil         NaN   
..         ...          ...               ...              ...         ...   
495 2024-08-23    Porto Sol  eletrodomesticos       Ventilador         4.0   
496 2024-12-19  Vento Norte  eletrodomesticos       Ventilador         1.0   
497 2024-05-12    Vila Neve          infantil   Blusa Infantil         6.0   
498 2024-03-08    Vila Neve  eletrodomesticos  Ar-condicionado         1.0   
499 2024-07-25  Vento Norte           sazonal     Guarda-chuva         3.0   

     valor_venda  
0         405.55  
1        2866.20  
2     

In [121]:
# 1. Padronizar a coluna categoria para minúsculas.

df['categoria'] = df['categoria'].str.lower()

print(df['categoria'])

0      eletrodomesticos
1               sazonal
2                roupas
3                roupas
4              infantil
             ...       
495    eletrodomesticos
496    eletrodomesticos
497            infantil
498    eletrodomesticos
499             sazonal
Name: categoria, Length: 500, dtype: object


In [122]:
# 2. Remover registros onde a quantidade está ausente

df = df[df['quantidade'].notna()]

print(df['quantidade'])

0      5.0
1      6.0
2      8.0
3      5.0
5      2.0
      ... 
495    4.0
496    1.0
497    6.0
498    1.0
499    3.0
Name: quantidade, Length: 455, dtype: float64


In [123]:
# 3. Remover espaçoes extras e padronizar com primeira letra maiuscula

df['loja'] = df['loja'].str.strip()
df['categoria'] = df['categoria'].str.strip()
df['categoria'] = df['categoria'].str.capitalize()
df['produto'] = df['produto'].str.strip()

In [124]:
# 4. Garantir que a coluna data seja datetime

df['data'] = pd.to_datetime(df['data'])

In [125]:
# 5. Calcular valor unitário real das vendas válidas

df['valor_unitario'] = df['valor_venda'] / df['quantidade']

print(df)

          data         loja         categoria          produto  quantidade  \
0   2024-07-20  Vento Norte  Eletrodomesticos        Aquecedor         5.0   
1   2024-05-30  Vento Norte           Sazonal     Guarda-chuva         6.0   
2   2024-01-25  Vento Norte            Roupas            Calça         8.0   
3   2024-07-10  Chuva Clara            Roupas           Casaco         5.0   
5   2024-08-31    Porto Sol           Sazonal    Manta térmica         2.0   
..         ...          ...               ...              ...         ...   
495 2024-08-23    Porto Sol  Eletrodomesticos       Ventilador         4.0   
496 2024-12-19  Vento Norte  Eletrodomesticos       Ventilador         1.0   
497 2024-05-12    Vila Neve          Infantil   Blusa Infantil         6.0   
498 2024-03-08    Vila Neve  Eletrodomesticos  Ar-condicionado         1.0   
499 2024-07-25  Vento Norte           Sazonal     Guarda-chuva         3.0   

     valor_venda  valor_unitario  
0         405.55           8

In [126]:
# 6. Calcular valor médio unitário por produto (sem considerar nulos)

df['valor_unitario'].fillna(df['valor_unitario'].mean(), inplace=True)

print(df)

          data         loja         categoria          produto  quantidade  \
0   2024-07-20  Vento Norte  Eletrodomesticos        Aquecedor         5.0   
1   2024-05-30  Vento Norte           Sazonal     Guarda-chuva         6.0   
2   2024-01-25  Vento Norte            Roupas            Calça         8.0   
3   2024-07-10  Chuva Clara            Roupas           Casaco         5.0   
5   2024-08-31    Porto Sol           Sazonal    Manta térmica         2.0   
..         ...          ...               ...              ...         ...   
495 2024-08-23    Porto Sol  Eletrodomesticos       Ventilador         4.0   
496 2024-12-19  Vento Norte  Eletrodomesticos       Ventilador         1.0   
497 2024-05-12    Vila Neve          Infantil   Blusa Infantil         6.0   
498 2024-03-08    Vila Neve  Eletrodomesticos  Ar-condicionado         1.0   
499 2024-07-25  Vento Norte           Sazonal     Guarda-chuva         3.0   

     valor_venda  valor_unitario  
0         405.55           8

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['valor_unitario'].fillna(df['valor_unitario'].mean(), inplace=True)


In [127]:
# 9. Recalcular valor_venda

df['valor_venda'].fillna(df['valor_venda'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['valor_venda'].fillna(df['valor_venda'].mean(), inplace=True)


In [128]:
# 10. Salvar novo df

df.to_excel("vendas_tratado.xlsx", index=False)