In [2]:
import pandas as pd
import numpy as np

np.random.seed(7)

n = 800

df = pd.DataFrame({
    "id_pedido": range(1, n + 1),
    "cliente": np.random.choice(
        ["Ana", "Bruno", "Carlos", "Daniela", "Eduardo", "Fernanda", "Gabriel", "Helena"],
        n
    ),
    "produto": np.random.choice(
        ["Notebook", "Mouse", "Teclado", "Monitor", "Headset", "Cadeira Gamer"],
        n
    ),
    "categoria": np.random.choice(
        ["Eletrônicos", "Acessórios"],
        n,
        p=[0.65, 0.35]
    ),
    "preco_unitario": np.round(np.random.uniform(80, 4500, n), 2),
    "quantidade": np.random.randint(1, 6, n),
    "forma_pagamento": np.random.choice(
        ["Crédito", "Débito", "Pix", "Boleto"],
        n
    ),
    "data_pedido": pd.to_datetime("2023-01-01") + pd.to_timedelta(
        np.random.randint(0, 365, n), unit="D"
    )
})

df.loc[np.random.choice(df.index, 40, replace=False), "preco_unitario"] = None
df.loc[np.random.choice(df.index, 25, replace=False), "forma_pagamento"] = None


In [3]:
#Linhas e colunas
df.shape

(800, 8)

In [4]:
#Valores nulos por coluna
df.isna().sum()

id_pedido           0
cliente             0
produto             0
categoria           0
preco_unitario     40
quantidade          0
forma_pagamento    25
data_pedido         0
dtype: int64

In [None]:
#Tipagem correta?
df.info()
#sim!

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_pedido        800 non-null    int64         
 1   cliente          800 non-null    object        
 2   produto          800 non-null    object        
 3   categoria        800 non-null    object        
 4   preco_unitario   760 non-null    float64       
 5   quantidade       800 non-null    int32         
 6   forma_pagamento  775 non-null    object        
 7   data_pedido      800 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int32(1), int64(1), object(4)
memory usage: 47.0+ KB


In [None]:
#Tratar valores nulos
df = df.dropna(subset=["preco_unitario"])
df["forma_pagamento"] = df["forma_pagamento"].fillna("DESCONHECIDA")
#Remover valores nulos pois não fazem sentido para vendas, ja na forma de pagamento, apenas corrigir dados nulos para não perder registros importantes

In [18]:
df["receita"] = df["quantidade"] * df["preco_unitario"]
df

Unnamed: 0,id_pedido,cliente,produto,categoria,preco_unitario,quantidade,forma_pagamento,data_pedido,receita
0,1,Helena,Headset,Eletrônicos,2668.58,5,Boleto,2023-03-10,13342.90
1,2,Eduardo,Notebook,Eletrônicos,1255.28,4,Pix,2023-06-16,5021.12
2,3,Bruno,Headset,Eletrônicos,3484.12,4,Débito,2023-01-15,13936.48
4,5,Daniela,Headset,Acessórios,3296.03,2,Boleto,2023-01-10,6592.06
5,6,Daniela,Headset,Eletrônicos,916.36,1,Débito,2023-10-15,916.36
...,...,...,...,...,...,...,...,...,...
795,796,Ana,Notebook,Eletrônicos,3785.69,5,Pix,2023-10-21,18928.45
796,797,Helena,Teclado,Acessórios,2279.66,4,Crédito,2023-01-30,9118.64
797,798,Gabriel,Teclado,Eletrônicos,3898.17,3,Débito,2023-11-30,11694.51
798,799,Ana,Cadeira Gamer,Eletrônicos,1401.55,3,Boleto,2023-12-12,4204.65


In [21]:
#top 5 produtos por receita
df.groupby(by="produto", as_index=False)["receita"].sum().sort_values("receita", ascending=False).nlargest(5, "receita")

Unnamed: 0,produto,receita
4,Notebook,1076320.05
3,Mouse,924504.3
0,Cadeira Gamer,919072.55
5,Teclado,916535.92
2,Monitor,832857.81


In [23]:
#colunas mes e ano
df["mes"] = df["data_pedido"].dt.month
df["ano"] = df["data_pedido"].dt.year
df

Unnamed: 0,id_pedido,cliente,produto,categoria,preco_unitario,quantidade,forma_pagamento,data_pedido,receita,mes,ano
0,1,Helena,Headset,Eletrônicos,2668.58,5,Boleto,2023-03-10,13342.90,3,2023
1,2,Eduardo,Notebook,Eletrônicos,1255.28,4,Pix,2023-06-16,5021.12,6,2023
2,3,Bruno,Headset,Eletrônicos,3484.12,4,Débito,2023-01-15,13936.48,1,2023
4,5,Daniela,Headset,Acessórios,3296.03,2,Boleto,2023-01-10,6592.06,1,2023
5,6,Daniela,Headset,Eletrônicos,916.36,1,Débito,2023-10-15,916.36,10,2023
...,...,...,...,...,...,...,...,...,...,...,...
795,796,Ana,Notebook,Eletrônicos,3785.69,5,Pix,2023-10-21,18928.45,10,2023
796,797,Helena,Teclado,Acessórios,2279.66,4,Crédito,2023-01-30,9118.64,1,2023
797,798,Gabriel,Teclado,Eletrônicos,3898.17,3,Débito,2023-11-30,11694.51,11,2023
798,799,Ana,Cadeira Gamer,Eletrônicos,1401.55,3,Boleto,2023-12-12,4204.65,12,2023


In [27]:
#total de receita por mes
df_analise = df.groupby(by=["ano", "mes"], as_index=False)["receita"].sum().sort_values("receita", ascending=False)
df_analise

Unnamed: 0,ano,mes,receita
11,2023,12,565141.05
9,2023,10,515362.15
3,2023,4,507099.41
1,2023,2,504948.15
7,2023,8,484805.01
4,2023,5,470462.67
2,2023,3,470061.57
6,2023,7,450148.23
10,2023,11,443703.89
5,2023,6,388309.56


In [38]:
#ranking de produtos com mais receita
df_analise2 = df.groupby(by=["ano", "mes", "produto"], as_index=False)["receita"].sum()
df_analise2["rank"] = df_analise2.groupby(by=["mes"])["receita"].rank(ascending=False, method="dense")
df_analise2.sort_values(["mes", "rank"])

Unnamed: 0,ano,mes,produto,receita,rank
2,2023,1,Monitor,83623.24,1.0
4,2023,1,Notebook,77121.57,2.0
5,2023,1,Teclado,71563.95,3.0
1,2023,1,Headset,66449.87,4.0
3,2023,1,Mouse,34792.00,5.0
...,...,...,...,...,...
67,2023,12,Headset,100499.62,2.0
71,2023,12,Teclado,91491.48,3.0
66,2023,12,Cadeira Gamer,81091.06,4.0
68,2023,12,Monitor,80437.54,5.0


In [None]:
#porcentagem de dados incompletos
(df.isna().sum() / df.shape[0]) * 100
#0%, logo não afeta analises

id_pedido          0.0
cliente            0.0
produto            0.0
categoria          0.0
preco_unitario     0.0
quantidade         0.0
forma_pagamento    0.0
data_pedido        0.0
receita            0.0
mes                0.0
ano                0.0
dtype: float64

In [None]:
#focar em eletronicos ou acessorios?
df.groupby("categoria", as_index=False).agg(
    receita_total=("receita", "sum"),
    receita_media=("receita", "mean"),
    qtd_total=("quantidade", "sum"),
    qtd_media=("quantidade", "mean")
)
#Nesse caso os eletronicos vendem quantidades medias parecidas, porem a receita total e media, alem da quantidade total são bem maiores para eltronicos, ambos vendem bem, porem o foco deve ser eletronicos

Unnamed: 0,categoria,receita_total,receita_media,qtd_total,qtd_media
0,Acessórios,1994619.01,6901.795882,892,3.086505
1,Eletrônicos,3495852.41,7422.191953,1451,3.080679
