In [1]:
# Bibliotecas
import pandas as pd
import numpy as np
import random

In [2]:
# Fixando semente
random.seed(123)

In [3]:
# Criando as colunas do df
id = []
datas = []
produtos = []
categorias = []
quantidades = []
precos = []

# Simulando um dataset com 80 registros
for i in range(1, 251):
    id.append(i)
    datas.append(random.choice(pd.date_range(start="2023-01-01", end="2023-12-31").to_list()))
    produtos.append(random.choice(["A", "B", "C", "D", "E"]))
    categorias.append(random.choice(["Eletronicos", "Roupas", "Perfumaria", "Moveis"]))
    quantidades.append(random.randint(1, 7))
    precos.append(round(random.uniform(10, 500), 2))

In [4]:
# Criando o dataframe
dados = {
    "ID": id,
    "Data": datas,
    "Produto": produtos,
    "Categoria": categorias,
    "Quantidade": quantidades,
    "Preco": precos,
}
df = pd.DataFrame(dados)
# Primeiras obs
print(df.head())

   ID       Data Produto    Categoria  Quantidade   Preco
0   1 2023-01-27       C  Eletronicos           7  209.55
1   2 2023-02-25       A       Moveis           5  285.54
2   3 2023-06-24       A       Roupas           2  175.24
3   4 2023-06-20       B       Roupas           1  453.89
4   5 2023-02-14       E       Moveis           1   13.23


In [5]:
# Usando .info() para obter informações de cada uma das colunas e se existem valores NA (não existe)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ID          250 non-null    int64         
 1   Data        250 non-null    datetime64[ns]
 2   Produto     250 non-null    object        
 3   Categoria   250 non-null    object        
 4   Quantidade  250 non-null    int64         
 5   Preco       250 non-null    float64       
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 11.8+ KB


In [6]:
# Para remover duplicatas (se existirem), usarei drop_duplicates:
df = df.drop_duplicates()
df.info()
# Como o df se manteu o mesmo, não tínhamos duplicatas!

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ID          250 non-null    int64         
 1   Data        250 non-null    datetime64[ns]
 2   Produto     250 non-null    object        
 3   Categoria   250 non-null    object        
 4   Quantidade  250 non-null    int64         
 5   Preco       250 non-null    float64       
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 11.8+ KB


In [None]:
# Além disso, devido ao modo pelo qual eu simulei os dados, não precisei converter nenhuma coluna.

In [None]:
# CSV do dataframe simulado
df.to_csv("data_clean.csv", index=False)

In [None]:
dados = pd.read_csv("data_clean.csv")
dados.head()

Unnamed: 0,ID,Data,Produto,Categoria,Quantidade,Preco
0,1,2023-02-24,B,Eletronicos,4,463.97
1,2,2023-06-30,E,Eletronicos,4,265.23
2,3,2023-05-28,C,Roupas,4,468.94
3,4,2023-02-24,E,Eletronicos,5,335.57
4,5,2023-02-12,B,Moveis,2,215.21


In [None]:
Total_Vendas = []

for i in range(len(dados['ID'])):
  tot = dados['Quantidade'][i] * dados['Preco'][i]
  Total_Vendas.append(tot)

In [None]:
dados["Total_Vendas"] = Total_Vendas
dados.head(10)

Unnamed: 0,ID,Data,Produto,Categoria,Quantidade,Preco,Total_Vendas
0,1,2023-02-24,B,Eletronicos,4,463.97,1855.88
1,2,2023-06-30,E,Eletronicos,4,265.23,1060.92
2,3,2023-05-28,C,Roupas,4,468.94,1875.76
3,4,2023-02-24,E,Eletronicos,5,335.57,1677.85
4,5,2023-02-12,B,Moveis,2,215.21,430.42
5,6,2023-09-01,B,Eletronicos,2,396.53,793.06
6,7,2023-02-14,C,Eletronicos,1,81.74,81.74
7,8,2023-08-23,D,Roupas,6,208.29,1249.74
8,9,2023-01-29,B,Eletronicos,4,350.89,1403.56
9,10,2023-03-10,A,Perfumaria,4,478.48,1913.92


In [None]:
# Vamo ver qual foi o produto com o maior número de vendas
dados['Produto'].value_counts()

Unnamed: 0_level_0,count
Produto,Unnamed: 1_level_1
B,57
C,54
D,51
A,46
E,42


In [None]:
# Agora, o produto com maior valor em vendas
dados.groupby('Produto')['Total_Vendas'].sum()

# Neste caso, o produto C foi o maior em valor de venda

Unnamed: 0_level_0,Total_Vendas
Produto,Unnamed: 1_level_1
A,40785.42
B,59019.84
C,60682.77
D,52833.95
E,48251.01


In [None]:
dados.head()

Unnamed: 0,ID,Data,Produto,Categoria,Quantidade,Preco,Total_Vendas
0,1,2023-02-24,B,Eletronicos,4,463.97,1855.88
1,2,2023-06-30,E,Eletronicos,4,265.23,1060.92
2,3,2023-05-28,C,Roupas,4,468.94,1875.76
3,4,2023-02-24,E,Eletronicos,5,335.57,1677.85
4,5,2023-02-12,B,Moveis,2,215.21,430.42
