# Coleta e preparação de dados

In [1]:
!pip install pandas==2.0.0



In [2]:
import pandas as pd

print(pd.__version__)

2.0.0


In [3]:
df = pd.read_csv('dados/relatorio_vendas.csv')
df.head()

Unnamed: 0,data_pedido,modo_envio,nome_cliente,segmento_cliente,cidade,estado,regiao,departamento,tipo_produto,vendas,quantidade,lucro
0,2018-11-09,Econômica,Thiago Silveira,B2C,Ribeirão Preto,São Paulo,Sudeste,Materiais de construção,encanamentos,890.66,2,142.51
1,2018-11-09,Econômica,Thiago Silveira,B2C,Ribeirão Preto,São Paulo,Sudeste,Materiais de construção,ferramentas,2488.6,3,746.58
2,2018-06-13,Econômica,Giovanna Lima,B2B,Rio de Janeiro,Rio de Janeiro,Sudeste,Jardinagem e paisagismo,sementes,49.71,2,23.36
3,2017-10-12,Entrega padrão,Ana Júlia da Cruz,B2C,Foz do Iguaçu,Paraná,Sul,Materiais de construção,materiais de revestimento,3255.76,5,-1302.31
4,2017-10-12,Entrega padrão,Ana Júlia da Cruz,B2C,Foz do Iguaçu,Paraná,Sul,Jardinagem e paisagismo,vasos,76.05,2,8.56


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8940 entries, 0 to 8939
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   data_pedido       8940 non-null   object 
 1   modo_envio        8940 non-null   object 
 2   nome_cliente      8940 non-null   object 
 3   segmento_cliente  8940 non-null   object 
 4   cidade            8940 non-null   object 
 5   estado            8940 non-null   object 
 6   regiao            8940 non-null   object 
 7   departamento      8940 non-null   object 
 8   tipo_produto      8940 non-null   object 
 9   vendas            8940 non-null   float64
 10  quantidade        8940 non-null   int64  
 11  lucro             8940 non-null   float64
dtypes: float64(2), int64(1), object(9)
memory usage: 838.2+ KB


In [5]:
df['data_pedido'] = pd.to_datetime(df['data_pedido'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8940 entries, 0 to 8939
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   data_pedido       8940 non-null   datetime64[ns]
 1   modo_envio        8940 non-null   object        
 2   nome_cliente      8940 non-null   object        
 3   segmento_cliente  8940 non-null   object        
 4   cidade            8940 non-null   object        
 5   estado            8940 non-null   object        
 6   regiao            8940 non-null   object        
 7   departamento      8940 non-null   object        
 8   tipo_produto      8940 non-null   object        
 9   vendas            8940 non-null   float64       
 10  quantidade        8940 non-null   int64         
 11  lucro             8940 non-null   float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(8)
memory usage: 838.2+ KB


# Missão 1: Time de vendas

Precisamos construir uma visualização para indicar os **10 maiores clientes por total de venda**.

Com isso, a equipe de vendas pode pensar em estratégias para manter esses clientes comprando em nossa loja.

In [6]:
df_cliente_vendas = df.groupby(['nome_cliente'])['vendas'].sum().nlargest(10).copy()
df_cliente_vendas = df_cliente_vendas.reset_index()
df_cliente_vendas

Unnamed: 0,nome_cliente,vendas
0,Maria Luiza Almeida,64777.54
1,Ana Julia Pinto,51398.95
2,Ryan Farias,48178.94
3,Heitor da Mata,47610.85
4,Maria Clara Gonçalves,46946.42
5,Raquel Freitas,44826.26
6,Davi Ramos,43769.21
7,Amanda Melo,42354.27
8,Alexia Ribeiro,41238.84
9,Calebe Ribeiro,41056.7


In [7]:
df_cliente_vendas.columns = ['Clientes', 'Vendas']
df_cliente_vendas['Ranque'] = df_cliente_vendas.index + 1
df_cliente_vendas.set_index('Ranque', inplace=True)
df_cliente_vendas

Unnamed: 0_level_0,Clientes,Vendas
Ranque,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Maria Luiza Almeida,64777.54
2,Ana Julia Pinto,51398.95
3,Ryan Farias,48178.94
4,Heitor da Mata,47610.85
5,Maria Clara Gonçalves,46946.42
6,Raquel Freitas,44826.26
7,Davi Ramos,43769.21
8,Amanda Melo,42354.27
9,Alexia Ribeiro,41238.84
10,Calebe Ribeiro,41056.7


In [8]:
s = df_cliente_vendas.style
s

Unnamed: 0_level_0,Clientes,Vendas
Ranque,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Maria Luiza Almeida,64777.54
2,Ana Julia Pinto,51398.95
3,Ryan Farias,48178.94
4,Heitor da Mata,47610.85
5,Maria Clara Gonçalves,46946.42
6,Raquel Freitas,44826.26
7,Davi Ramos,43769.21
8,Amanda Melo,42354.27
9,Alexia Ribeiro,41238.84
10,Calebe Ribeiro,41056.7


In [9]:
s.format({'Vendas': 'R$ {:,.2f}'})
s

Unnamed: 0_level_0,Clientes,Vendas
Ranque,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Maria Luiza Almeida,"R$ 64,777.54"
2,Ana Julia Pinto,"R$ 51,398.95"
3,Ryan Farias,"R$ 48,178.94"
4,Heitor da Mata,"R$ 47,610.85"
5,Maria Clara Gonçalves,"R$ 46,946.42"
6,Raquel Freitas,"R$ 44,826.26"
7,Davi Ramos,"R$ 43,769.21"
8,Amanda Melo,"R$ 42,354.27"
9,Alexia Ribeiro,"R$ 41,238.84"
10,Calebe Ribeiro,"R$ 41,056.70"


# Missão 2: Time comercial

Precisamos construir uma visualização que permita associar o **total ganho em vendas e o total lucrado por tipo de produto**.

Isso vai permitir que o time comercial possa focar em estratégias para alavancar as rendas que ganham com cada tipo de produto vendido na loja.

In [10]:
df_venda_lucro = df.groupby(['tipo_produto'])[['vendas', 'lucro']].sum()
df_venda_lucro.index.name = "Tipo Produto"
df_venda_lucro

Unnamed: 0_level_0,vendas,lucro
Tipo Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
decoração de jardim,82680.87,19880.86
encanamentos,373224.39,-11243.39
equipamentos de limpeza,542304.55,17448.3
ferramentas,995159.43,82042.91
ferramentas automotivas,502109.33,126660.54
ferramentas de jardinagem,648880.47,106408.8
fertilizantes,53144.55,22509.86
iluminação,275229.82,40531.09
materiais de paisagismo,150552.8,-3823.67
materiais de revestimento,629656.41,-57737.23


In [11]:
estilo_produto = df_venda_lucro.style
estilo_produto

Unnamed: 0_level_0,vendas,lucro
Tipo Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
decoração de jardim,82680.87,19880.86
encanamentos,373224.39,-11243.39
equipamentos de limpeza,542304.55,17448.3
ferramentas,995159.43,82042.91
ferramentas automotivas,502109.33,126660.54
ferramentas de jardinagem,648880.47,106408.8
fertilizantes,53144.55,22509.86
iluminação,275229.82,40531.09
materiais de paisagismo,150552.8,-3823.67
materiais de revestimento,629656.41,-57737.23


In [12]:
(estilo_produto.format('R$ {:,.2f}')
                .highlight_max(color='lightgreen')
                .highlight_min(color ='#F16165'))
estilo_produto

Unnamed: 0_level_0,vendas,lucro
Tipo Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
decoração de jardim,"R$ 82,680.87","R$ 19,880.86"
encanamentos,"R$ 373,224.39","R$ -11,243.39"
equipamentos de limpeza,"R$ 542,304.55","R$ 17,448.30"
ferramentas,"R$ 995,159.43","R$ 82,042.91"
ferramentas automotivas,"R$ 502,109.33","R$ 126,660.54"
ferramentas de jardinagem,"R$ 648,880.47","R$ 106,408.80"
fertilizantes,"R$ 53,144.55","R$ 22,509.86"
iluminação,"R$ 275,229.82","R$ 40,531.09"
materiais de paisagismo,"R$ 150,552.80","R$ -3,823.67"
materiais de revestimento,"R$ 629,656.41","R$ -57,737.23"


In [13]:
estilo_produto.background_gradient(cmap='Greens')
estilo_produto

Unnamed: 0_level_0,vendas,lucro
Tipo Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
decoração de jardim,"R$ 82,680.87","R$ 19,880.86"
encanamentos,"R$ 373,224.39","R$ -11,243.39"
equipamentos de limpeza,"R$ 542,304.55","R$ 17,448.30"
ferramentas,"R$ 995,159.43","R$ 82,042.91"
ferramentas automotivas,"R$ 502,109.33","R$ 126,660.54"
ferramentas de jardinagem,"R$ 648,880.47","R$ 106,408.80"
fertilizantes,"R$ 53,144.55","R$ 22,509.86"
iluminação,"R$ 275,229.82","R$ 40,531.09"
materiais de paisagismo,"R$ 150,552.80","R$ -3,823.67"
materiais de revestimento,"R$ 629,656.41","R$ -57,737.23"


In [14]:
cabecalho = {
    'selector':'th',
    'props':'font-weight: bold; font-family: Arial; text-align: center; text-transform: capitalize;'
}
estilo_produto.set_table_styles([cabecalho], overwrite=False) 

Unnamed: 0_level_0,vendas,lucro
Tipo Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
decoração de jardim,"R$ 82,680.87","R$ 19,880.86"
encanamentos,"R$ 373,224.39","R$ -11,243.39"
equipamentos de limpeza,"R$ 542,304.55","R$ 17,448.30"
ferramentas,"R$ 995,159.43","R$ 82,042.91"
ferramentas automotivas,"R$ 502,109.33","R$ 126,660.54"
ferramentas de jardinagem,"R$ 648,880.47","R$ 106,408.80"
fertilizantes,"R$ 53,144.55","R$ 22,509.86"
iluminação,"R$ 275,229.82","R$ 40,531.09"
materiais de paisagismo,"R$ 150,552.80","R$ -3,823.67"
materiais de revestimento,"R$ 629,656.41","R$ -57,737.23"


# Missão 3: Time de logística

Precisamos construir uma visualização que permita entender a **distribuição de pedidos por região do Brasil**.

Isso vai permitir que o time logística entenda onde é mais interessante focar material e pessoas.

In [15]:
df_regiao = pd.DataFrame(df['regiao'].value_counts())
df_regiao.columns = ['N° Pedidos']
df_regiao.index.name = 'Região'
df_regiao

Unnamed: 0_level_0,N° Pedidos
Região,Unnamed: 1_level_1
Sudeste,4470
Nordeste,2075
Centro-Oeste,983
Norte,779
Sul,633


In [16]:
import numpy as np

In [17]:
porcentagem = df_regiao['N° Pedidos'].to_numpy() / df_regiao['N° Pedidos'].sum() * 100
df_regiao['Porcentagem regiao'] = porcentagem
df_regiao

Unnamed: 0_level_0,N° Pedidos,Porcentagem regiao
Região,Unnamed: 1_level_1,Unnamed: 2_level_1
Sudeste,4470,50.0
Nordeste,2075,23.210291
Centro-Oeste,983,10.995526
Norte,779,8.713647
Sul,633,7.080537


In [18]:
cabecalho = {
    'selector': 'th',
    'props': 'font-weight: bold; font-family: Arial; text-align: right; background-color: white'
}

celulas = {
    'selector': 'td',
    'props': 'background-color: white;'
}

estilo_regiao = df_regiao.style.set_table_styles([cabecalho, celulas])
estilo_regiao

Unnamed: 0_level_0,N° Pedidos,Porcentagem regiao
Região,Unnamed: 1_level_1,Unnamed: 2_level_1
Sudeste,4470,50.0
Nordeste,2075,23.210291
Centro-Oeste,983,10.995526
Norte,779,8.713647
Sul,633,7.080537


In [19]:
estilo_regiao.format({"Porcentagem regiao": "{:.2f}%"}).bar(
    subset=["Porcentagem regiao"], vmin=0, vmax=100.0, color="#F16165"
)

Unnamed: 0_level_0,N° Pedidos,Porcentagem regiao
Região,Unnamed: 1_level_1,Unnamed: 2_level_1
Sudeste,4470,50.00%
Nordeste,2075,23.21%
Centro-Oeste,983,11.00%
Norte,779,8.71%
Sul,633,7.08%


# Missão 4: Time de logística

Novamente o time de logística deseja repensar sua estrutura e organização de fornecimento de produtos e para isso, foi pensada em uma visualização que permita identificar padrão de **quantidade de produtos solicitados por mês por departamento**.

In [20]:
df_meses = df.copy()
df_meses = df_meses.sort_values('data_pedido')
df_meses['Meses'] = df_meses['data_pedido'].dt.strftime('%Y - %b')
df_meses.reset_index(drop=True, inplace=True)
df_meses

Unnamed: 0,data_pedido,modo_envio,nome_cliente,segmento_cliente,cidade,estado,regiao,departamento,tipo_produto,vendas,quantidade,lucro,Meses
0,2016-01-04,Entrega padrão,Ana Júlia Monteiro,B2C,Belo Horizonte,Minas Gerais,Sudeste,Jardinagem e paisagismo,pesticidas,55.92,2,18.87,2016 - Jan
1,2016-01-05,Entrega padrão,Maria Cecília Jesus,B2B,Botucatu,São Paulo,Sudeste,Jardinagem e paisagismo,ferramentas de jardinagem,12.04,2,-18.66,2016 - Jan
2,2016-01-05,Entrega padrão,Maria Cecília Jesus,B2B,Botucatu,São Paulo,Sudeste,Jardinagem e paisagismo,vasos,927.30,3,-220.23,2016 - Jan
3,2016-01-05,Entrega padrão,Maria Cecília Jesus,B2B,Botucatu,São Paulo,Sudeste,Jardinagem e paisagismo,sementes,40.07,3,14.52,2016 - Jan
4,2016-01-06,Entrega padrão,Marcelo Rezende,B2C,Brasília,Distrito Federal,Centro-Oeste,Jardinagem e paisagismo,decoração de jardim,66.42,3,16.61,2016 - Jan
...,...,...,...,...,...,...,...,...,...,...,...,...,...
8935,2019-12-31,Entrega padrão,Lara Pinto,B2C,São Paulo,São Paulo,Sudeste,Jardinagem e paisagismo,ferramentas de jardinagem,179.44,3,67.29,2019 - Dec
8936,2019-12-31,Entrega padrão,Lara Pinto,B2C,São Paulo,São Paulo,Sudeste,Automotivo,pneus,309.16,7,9.27,2019 - Dec
8937,2019-12-31,Entrega padrão,Lara Pinto,B2C,São Paulo,São Paulo,Sudeste,Materiais de construção,encanamentos,1098.66,4,41.20,2019 - Dec
8938,2019-12-31,Entrega padrão,Cauê Martins,B2B,Osasco,São Paulo,Sudeste,Jardinagem e paisagismo,ferramentas de jardinagem,47.27,2,15.36,2019 - Dec


In [22]:
vendas_mensais = df_meses.pivot_table(index='departamento', columns='Meses', values='quantidade', aggfunc='sum', sort=False)
vendas_mensais

Meses,2016 - Jan,2016 - Feb,2016 - Mar,2016 - Apr,2016 - May,2016 - Jun,2016 - Jul,2016 - Aug,2016 - Sep,2016 - Oct,...,2019 - Mar,2019 - Apr,2019 - May,2019 - Jun,2019 - Jul,2019 - Aug,2019 - Sep,2019 - Oct,2019 - Nov,2019 - Dec
departamento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Jardinagem e paisagismo,161,87,277,323,270,273,348,339,549,276,...,458,415,542,490,423,561,929,617,946,989
Automotivo,45,20,46,107,81,83,91,95,154,85,...,167,87,150,170,168,136,280,205,331,252
Materiais de construção,60,23,102,69,91,114,104,101,182,94,...,107,131,172,151,162,132,282,213,312,395


# Missão 5: Relatório de performance

O relatório de performance é um documento muito importante para a empresa. Nele, todos que trabalham na loja podem entender como anda a empresa. Por conta disso, tabelas bem construídas são essenciais para mostrar os dados da melhor forma.

Portanto, precisamos construir uma visualização que permita entender a **relação entre tipos de clientes e modo de envio de produtos de acordo com as vendas**. Com isso, será possível destacar no relatório qual o modo de envio e quais tipos de modo de envio mais geraram ganho em vendas.