In [1]:
import pandas as pd
import numpy as np

np.random.seed(42)

n = 1000

df = pd.DataFrame({
    "id_venda": range(1, n + 1),
    "cliente": np.random.choice(
        ["Ana", "Bruno", "Carlos", "Daniela", "Eduardo", "Fernanda", "Gabriel", "Helena"],
        n
    ),
    "produto": np.random.choice(
        ["Notebook", "Mouse", "Teclado", "Monitor", "Headset", "Cadeira Gamer"],
        n
    ),
    "categoria": np.random.choice(
        ["Eletrônicos", "Acessórios"],
        n,
        p=[0.6, 0.4]
    ),
    "valor": np.round(np.random.uniform(100, 5000, n), 2),
    "quantidade": np.random.randint(1, 6, n),
    "forma_pagamento": np.random.choice(
        ["Crédito", "Débito", "Pix", "Boleto"],
        n
    ),
    "data_venda": pd.to_datetime("2023-01-01") + pd.to_timedelta(
        np.random.randint(0, 365, n), unit="D"
    )
})

# inserindo dados faltantes propositalmente
df.loc[np.random.choice(df.index, 50, replace=False), "valor"] = None
df.loc[np.random.choice(df.index, 30, replace=False), "forma_pagamento"] = None

In [2]:
#Quantas linhas e colunas?
df.shape

(1000, 8)

In [None]:
#Quantos valores nulos por coluna?
df.isna().sum()

id_venda            0
cliente             0
produto             0
categoria           0
valor              50
quantidade          0
forma_pagamento    30
data_venda          0
dtype: int64

In [None]:
#Conferindo tipos de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   id_venda         1000 non-null   int64         
 1   cliente          1000 non-null   object        
 2   produto          1000 non-null   object        
 3   categoria        1000 non-null   object        
 4   valor            950 non-null    float64       
 5   quantidade       1000 non-null   int32         
 6   forma_pagamento  970 non-null    object        
 7   data_venda       1000 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int32(1), int64(1), object(4)
memory usage: 58.7+ KB


0

In [8]:
#Limpeza e tratamento de dados
df["valor"] = df["valor"].fillna(0)
df["forma_pagamento"] = df["forma_pagamento"].fillna("Forma não informada")
#Para não perder dados importantes, resolvi apenas mudar a formatação da forma de pagamento, e deletar linhas com valores nulos

In [None]:
#Coluna faturamento criada
df["faturamento"] = df["valor"] * df["quantidade"]
df

Unnamed: 0,id_venda,cliente,produto,categoria,valor,quantidade,forma_pagamento,data_venda,faturamento
0,1,Gabriel,Cadeira Gamer,Eletrônicos,795.66,5,Crédito,2023-01-28,3978.30
1,2,Daniela,Notebook,Acessórios,1804.91,4,Boleto,2023-01-25,7219.64
2,3,Eduardo,Notebook,Acessórios,2306.72,2,Forma não informada,2023-02-27,4613.44
3,4,Gabriel,Notebook,Eletrônicos,3769.25,2,Pix,2023-10-24,7538.50
4,5,Carlos,Headset,Acessórios,3290.62,3,Forma não informada,2023-05-14,9871.86
...,...,...,...,...,...,...,...,...,...
995,996,Eduardo,Mouse,Eletrônicos,1317.08,4,Crédito,2023-01-09,5268.32
996,997,Ana,Monitor,Acessórios,3556.76,4,Débito,2023-01-12,14227.04
997,998,Daniela,Teclado,Acessórios,2195.25,3,Crédito,2023-11-21,6585.75
998,999,Helena,Cadeira Gamer,Eletrônicos,2268.47,5,Boleto,2023-09-01,11342.35


In [19]:
#5 produtos com maior faturamento
df_analise = df.groupby(by="produto", as_index=False)["faturamento"].sum().nlargest(5, "faturamento")
df_analise

Unnamed: 0,produto,faturamento
1,Headset,1370458.26
4,Notebook,1357262.55
0,Cadeira Gamer,1346682.62
5,Teclado,1303328.92
3,Mouse,1154976.93


In [20]:
#5 produtos por quantidade vendida
df_analise2 = df.groupby(by="produto", as_index=False)["quantidade"].sum().nlargest(5, "quantidade")
df_analise2

Unnamed: 0,produto,quantidade
4,Notebook,558
0,Cadeira Gamer,557
5,Teclado,539
1,Headset,511
3,Mouse,490


In [21]:
#criacao de colunas "mes" e "ano"
df["mes"] = df["data_venda"].dt.month
df["ano"] = df["data_venda"].dt.year
df

Unnamed: 0,id_venda,cliente,produto,categoria,valor,quantidade,forma_pagamento,data_venda,faturamento,mes,ano
0,1,Gabriel,Cadeira Gamer,Eletrônicos,795.66,5,Crédito,2023-01-28,3978.30,1,2023
1,2,Daniela,Notebook,Acessórios,1804.91,4,Boleto,2023-01-25,7219.64,1,2023
2,3,Eduardo,Notebook,Acessórios,2306.72,2,Forma não informada,2023-02-27,4613.44,2,2023
3,4,Gabriel,Notebook,Eletrônicos,3769.25,2,Pix,2023-10-24,7538.50,10,2023
4,5,Carlos,Headset,Acessórios,3290.62,3,Forma não informada,2023-05-14,9871.86,5,2023
...,...,...,...,...,...,...,...,...,...,...,...
995,996,Eduardo,Mouse,Eletrônicos,1317.08,4,Crédito,2023-01-09,5268.32,1,2023
996,997,Ana,Monitor,Acessórios,3556.76,4,Débito,2023-01-12,14227.04,1,2023
997,998,Daniela,Teclado,Acessórios,2195.25,3,Crédito,2023-11-21,6585.75,11,2023
998,999,Helena,Cadeira Gamer,Eletrônicos,2268.47,5,Boleto,2023-09-01,11342.35,9,2023


In [27]:
#faturamento total mensal
df_analise_mes = df.groupby(by="mes", as_index=False)["faturamento"].sum().sort_values("faturamento", ascending=False)
df_analise_mes

Unnamed: 0,mes,faturamento
4,5,749333.45
2,3,717504.51
8,9,672670.03
6,7,658780.98
9,10,648717.29
0,1,644027.55
1,2,611811.86
7,8,588402.82
10,11,586658.06
11,12,545334.62


In [28]:
#Mes com maior faturamento
df_analise_mes.nlargest(1, "faturamento")

Unnamed: 0,mes,faturamento
4,5,749333.45


In [30]:
#Cliente que mais comprou (em valor)
df.groupby(by="cliente", as_index=False)["faturamento"].sum().sort_values("faturamento", ascending=False)

Unnamed: 0,cliente,faturamento
3,Daniela,1140715.22
7,Helena,1087225.13
0,Ana,996951.69
1,Bruno,951737.42
4,Eduardo,894932.39
6,Gabriel,850199.24
2,Carlos,778626.28
5,Fernanda,752696.64


In [31]:
#Cliente que mais comprou (em quantidade)
df.groupby(by="cliente", as_index=False)["quantidade"].sum().sort_values("quantidade", ascending=False)

Unnamed: 0,cliente,quantidade
3,Daniela,433
7,Helena,414
0,Ana,402
1,Bruno,377
6,Gabriel,373
4,Eduardo,357
5,Fernanda,350
2,Carlos,348


In [34]:
#Ticket médio por cliente
df.groupby(by="cliente", as_index=False)["faturamento"].mean().sort_values("faturamento", ascending=False)

Unnamed: 0,cliente,faturamento
1,Bruno,8134.507863
7,Helena,8113.620373
3,Daniela,7813.117945
0,Ana,7495.877368
4,Eduardo,7159.45912
6,Gabriel,7144.531429
2,Carlos,6890.498053
5,Fernanda,6661.032212


In [None]:
#Percentual de faturamento por forma de pagamento
df_perc_pagamento = df.groupby(by="forma_pagamento", as_index=False)["faturamento"].sum().sort_values("faturamento", ascending=False)
df_perc_pagamento["percentual"] = (df_perc_pagamento["faturamento"] / df_perc_pagamento["faturamento"].sum()) * 100
df_perc_pagamento

Unnamed: 0,forma_pagamento,faturamento,percentual
2,Débito,1844942.74,24.754085
0,Boleto,1804636.8,24.213289
4,Pix,1798232.42,24.12736
1,Crédito,1783567.19,23.930593
3,Forma não informada,221704.86,2.974673


In [41]:
#Forma que mais gera receita
df_perc_pagamento.nlargest(1, "faturamento")

Unnamed: 0,forma_pagamento,faturamento,percentual
2,Débito,1844942.74,24.754085


In [None]:
df_foco = df.groupby(by="categoria").agg(faturamento_total=("faturamento", "sum"), faturamento_medio=("faturamento", "mean"), quantidade_total_vendida=("quantidade", "sum"), quantidade_media_vendida=("quantidade", "mean"))
df_foco
# Baseados nesses dados, a media de faturamento e quantidades vendidas são parecidas para eletronicos e acessorios, porem em valores brutos são quase 600 vendas a mais o que quase dobra o faturamento, logo compensa focar em eletronicos

Unnamed: 0_level_0,faturamento_total,faturamento_medio,quantidade_total_vendida,quantidade_media_vendida
categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Acessórios,2940810.84,7052.304173,1246,2.98801
Eletrônicos,4512273.17,7739.748148,1808,3.101201


In [47]:
#ranking mensal: Produto, Mês, Faturamento, Ranking dentro do mês

df_ranking = df.groupby(by=["mes", "produto"], as_index=False)["faturamento"].sum()
df_ranking["ranking"] = df_ranking.groupby(by="mes")["faturamento"].rank(ascending=False, method="dense")
df_ranking.sort_values(["mes", "ranking"])

Unnamed: 0,mes,produto,faturamento,ranking
1,1,Headset,166063.96,1.0
5,1,Teclado,134707.31,2.0
4,1,Notebook,109417.20,3.0
3,1,Mouse,98382.00,4.0
2,1,Monitor,77086.71,5.0
...,...,...,...,...
71,12,Teclado,123178.31,2.0
68,12,Monitor,98494.34,3.0
69,12,Mouse,72508.03,4.0
70,12,Notebook,58030.17,5.0
