Nós trabalhamos com dados em uma grande loja de departamentos online e nos foi repassado um conjunto de dados referente a um relatório de vendas dos anos de 2016 a 2019. A partir deste relatório, temos o objetivo de criar visualizações para vários setores dessa loja de departamento a fim de conseguirmos transmitir essas informações.

Para construirmos essas visualizações e passar essas informações, primeiro precisamos preparar nossos dados. Então, vamos começar!

# Coleta e preparação de dados

## Bibliotecas e Configuracções

In [126]:
import pandas as pd
import numpy as np

In [127]:
print(pd.__version__)
print(np.__version__)

2.0.3
1.25.2


## Base de dados

In [128]:
path_data = './datasets/relatorio_vendas.csv'

df_vendas = pd.read_csv(path_data)
df_vendas.head()

Unnamed: 0,data_pedido,modo_envio,nome_cliente,segmento_cliente,cidade,estado,regiao,departamento,tipo_produto,vendas,quantidade,lucro
0,2018-11-09,Econômica,Thiago Silveira,B2C,Ribeirão Preto,São Paulo,Sudeste,Materiais de construção,encanamentos,890.66,2,142.51
1,2018-11-09,Econômica,Thiago Silveira,B2C,Ribeirão Preto,São Paulo,Sudeste,Materiais de construção,ferramentas,2488.6,3,746.58
2,2018-06-13,Econômica,Giovanna Lima,B2B,Rio de Janeiro,Rio de Janeiro,Sudeste,Jardinagem e paisagismo,sementes,49.71,2,23.36
3,2017-10-12,Entrega padrão,Ana Júlia da Cruz,B2C,Foz do Iguaçu,Paraná,Sul,Materiais de construção,materiais de revestimento,3255.76,5,-1302.31
4,2017-10-12,Entrega padrão,Ana Júlia da Cruz,B2C,Foz do Iguaçu,Paraná,Sul,Jardinagem e paisagismo,vasos,76.05,2,8.56


In [129]:
df_vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8940 entries, 0 to 8939
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   data_pedido       8940 non-null   object 
 1   modo_envio        8940 non-null   object 
 2   nome_cliente      8940 non-null   object 
 3   segmento_cliente  8940 non-null   object 
 4   cidade            8940 non-null   object 
 5   estado            8940 non-null   object 
 6   regiao            8940 non-null   object 
 7   departamento      8940 non-null   object 
 8   tipo_produto      8940 non-null   object 
 9   vendas            8940 non-null   float64
 10  quantidade        8940 non-null   int64  
 11  lucro             8940 non-null   float64
dtypes: float64(2), int64(1), object(9)
memory usage: 838.2+ KB


In [130]:
df_vendas['data_pedido'] = pd.to_datetime(df_vendas['data_pedido'])

In [131]:
df_vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8940 entries, 0 to 8939
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   data_pedido       8940 non-null   datetime64[ns]
 1   modo_envio        8940 non-null   object        
 2   nome_cliente      8940 non-null   object        
 3   segmento_cliente  8940 non-null   object        
 4   cidade            8940 non-null   object        
 5   estado            8940 non-null   object        
 6   regiao            8940 non-null   object        
 7   departamento      8940 non-null   object        
 8   tipo_produto      8940 non-null   object        
 9   vendas            8940 non-null   float64       
 10  quantidade        8940 non-null   int64         
 11  lucro             8940 non-null   float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(8)
memory usage: 838.2+ KB


# Missão 1: Time de vendas

Precisamos construir uma visualização para indicar os **10 maiores clientes por total de venda**.

Com isso, a equipe de vendas pode pensar em estratégias para manter esses clientes comprando em nossa loja.

In [132]:
df_clientes_vendas = df_vendas[['nome_cliente', 'vendas']].groupby(by='nome_cliente').sum('vendas')
df_clientes_vendas = df_clientes_vendas.sort_values('vendas', ascending=False)
df_clientes_vendas_rank = df_clientes_vendas.head(10).reset_index()
df_clientes_vendas_rank.index = range(1, len(df_clientes_vendas_rank )+ 1) #pd.RangeIndex(start=1, stop=len(df_clientes_vendas_rank) + 1)
df_clientes_vendas_rank.index.name = 'Rank'
df_clientes_vendas_rank

Unnamed: 0_level_0,nome_cliente,vendas
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Maria Luiza Almeida,64777.54
2,Ana Julia Pinto,51398.95
3,Ryan Farias,48178.94
4,Heitor da Mata,47610.85
5,Maria Clara Gonçalves,46946.42
6,Raquel Freitas,44826.26
7,Davi Ramos,43769.21
8,Amanda Melo,42354.27
9,Alexia Ribeiro,41238.84
10,Calebe Ribeiro,41056.7


In [133]:
df_clientes_vendas_rank.columns = ['Clientes', 'Vendas']

In [134]:
df_clientes_vendas_rank

Unnamed: 0_level_0,Clientes,Vendas
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Maria Luiza Almeida,64777.54
2,Ana Julia Pinto,51398.95
3,Ryan Farias,48178.94
4,Heitor da Mata,47610.85
5,Maria Clara Gonçalves,46946.42
6,Raquel Freitas,44826.26
7,Davi Ramos,43769.21
8,Amanda Melo,42354.27
9,Alexia Ribeiro,41238.84
10,Calebe Ribeiro,41056.7


In [135]:
s = df_clientes_vendas_rank.style

s.format({'Vendas': 'R$ {:,.2f}'})

Unnamed: 0_level_0,Clientes,Vendas
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Maria Luiza Almeida,"R$ 64,777.54"
2,Ana Julia Pinto,"R$ 51,398.95"
3,Ryan Farias,"R$ 48,178.94"
4,Heitor da Mata,"R$ 47,610.85"
5,Maria Clara Gonçalves,"R$ 46,946.42"
6,Raquel Freitas,"R$ 44,826.26"
7,Davi Ramos,"R$ 43,769.21"
8,Amanda Melo,"R$ 42,354.27"
9,Alexia Ribeiro,"R$ 41,238.84"
10,Calebe Ribeiro,"R$ 41,056.70"


## Execícios

In [136]:
# Dados da tabela
data = {'Porcentagem de Vendas': [10.5, 15.2, 20.6, 8.3, 12.1, 9.8, 17.9, 5.6],
    'Tipo de Ventilador': ['Ventilador de mesa', 'Ventilador de pedestal',
                           'Ventilador de teto', 'Ventilador de parede',
                           'Ventilador de torre', 'Ventilador de janela',
                           'Ventilador de coluna', 'Ventilador de exaustão']}

# Criando o DataFrame
df = pd.DataFrame(data)
df = df.set_index('Tipo de Ventilador')
df

Unnamed: 0_level_0,Porcentagem de Vendas
Tipo de Ventilador,Unnamed: 1_level_1
Ventilador de mesa,10.5
Ventilador de pedestal,15.2
Ventilador de teto,20.6
Ventilador de parede,8.3
Ventilador de torre,12.1
Ventilador de janela,9.8
Ventilador de coluna,17.9
Ventilador de exaustão,5.6


In [137]:
s2 = df.style
s2

Unnamed: 0_level_0,Porcentagem de Vendas
Tipo de Ventilador,Unnamed: 1_level_1
Ventilador de mesa,10.5
Ventilador de pedestal,15.2
Ventilador de teto,20.6
Ventilador de parede,8.3
Ventilador de torre,12.1
Ventilador de janela,9.8
Ventilador de coluna,17.9
Ventilador de exaustão,5.6


In [138]:
s2.format('{:.2f} %')

Unnamed: 0_level_0,Porcentagem de Vendas
Tipo de Ventilador,Unnamed: 1_level_1
Ventilador de mesa,10.50 %
Ventilador de pedestal,15.20 %
Ventilador de teto,20.60 %
Ventilador de parede,8.30 %
Ventilador de torre,12.10 %
Ventilador de janela,9.80 %
Ventilador de coluna,17.90 %
Ventilador de exaustão,5.60 %


# Exercício 2

* O primeiro desafio é construir uma visualização que permita identificar quais países mais solicitaram produtos por pedidos para que assim possa ser feito um estudo quanto a distribuição e logística de produtos.

In [139]:
url = 'https://caelum-online-public.s3.amazonaws.com/3056-data-visualization/loja_livro_filmes.csv'

In [140]:
df = pd.read_csv(url)
df.head(3)

Unnamed: 0,pais,id_cliente,data_pedido,data_chegada,tipo_compra,numero_pedido,tamanho_pacote,unidades,custo_empacotamento,custo_envio,tipo_desconto,categoria,tipo_consumo,tipo_cliente,custo_produto
0,Argentina,111962928,2002-02-15,2002-03-10,Normal,98091426,Pacote pequeno,1,3.0,5.99,Sem desconto,BlueRay,Alto Consumo,B2C,8.99
1,Argentina,145148150,2004-11-05,2004-11-26,Normal,98087803,Pacote pequeno,3,1.0,6.99,Sem desconto,BlueRay,Alto Consumo,B2C,7.99
2,Argentina,194622983,2014-09-14,2014-09-28,Normal,98072296,Pacote pequeno,1,3.0,6.99,Sem desconto,BlueRay,Alto Consumo,B2C,9.99


In [141]:
df_unidades_pais = df[['pais', 'unidades']].groupby('pais').sum().sort_values('unidades', ascending=False)
df_unidades_pais = df_unidades_pais.reset_index()
df_unidades_pais.index = range(1, len(df_unidades_pais) +1)
df_unidades_pais.index.name = 'Rank'
df_unidades_pais

Unnamed: 0_level_0,pais,unidades
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Argentina,5591
2,Equador,5566
3,Paraguai,5564
4,Peru,5550
5,Venezuela,5529
6,Colômbia,5504
7,Brasil,5473
8,Uruguai,5377
9,Chile,5304


In [142]:
df3 = df_unidades_pais.style

df3

Unnamed: 0_level_0,pais,unidades
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Argentina,5591
2,Equador,5566
3,Paraguai,5564
4,Peru,5550
5,Venezuela,5529
6,Colômbia,5504
7,Brasil,5473
8,Uruguai,5377
9,Chile,5304


In [143]:
df3 = df3.format({'unidades' : 'unidades pedidas: {}'})
df3

Unnamed: 0_level_0,pais,unidades
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Argentina,unidades pedidas: 5591
2,Equador,unidades pedidas: 5566
3,Paraguai,unidades pedidas: 5564
4,Peru,unidades pedidas: 5550
5,Venezuela,unidades pedidas: 5529
6,Colômbia,unidades pedidas: 5504
7,Brasil,unidades pedidas: 5473
8,Uruguai,unidades pedidas: 5377
9,Chile,unidades pedidas: 5304


# Missão 2: Time comercial

Precisamos construir uma visualização que permita associar o **total ganho em vendas e o total lucrado por tipo de produto**.

Isso vai permitir que o time comercial possa focar em estratégias para alavancar as rendas que ganham com cada tipo de produto vendido na loja.

In [158]:
df_venda_lucro = df_vendas[['tipo_produto','vendas', 'lucro']].groupby('tipo_produto').sum()
df_venda_lucro = df_venda_lucro.sort_values(by='lucro', ascending=False)


In [159]:
estilo_produto = df_venda_lucro.style
estilo_produto

Unnamed: 0_level_0,vendas,lucro
tipo_produto,Unnamed: 1_level_1,Unnamed: 2_level_1
peças de reposição,486907.88,182297.32
pneus,1022430.5,134923.09
ferramentas automotivas,502109.33,126660.54
pesticidas,244958.41,106688.03
ferramentas de jardinagem,648880.47,106408.8
ferramentas,995159.43,82042.91
vasos,696045.39,67887.28
mobiliário de exterior,328932.37,53569.57
iluminação,275229.82,40531.09
fertilizantes,53144.55,22509.86


In [177]:
estilo_produto = estilo_produto.format('R$ {:,.2f}').highlight_max(color='lightgreen').highlight_min(color='#F16165')
estilo_produto

Unnamed: 0_level_0,vendas,lucro
tipo_produto,Unnamed: 1_level_1,Unnamed: 2_level_1
peças de reposição,"R$ 486,907.88","R$ 182,297.32"
pneus,"R$ 1,022,430.50","R$ 134,923.09"
ferramentas automotivas,"R$ 502,109.33","R$ 126,660.54"
pesticidas,"R$ 244,958.41","R$ 106,688.03"
ferramentas de jardinagem,"R$ 648,880.47","R$ 106,408.80"
ferramentas,"R$ 995,159.43","R$ 82,042.91"
vasos,"R$ 696,045.39","R$ 67,887.28"
mobiliário de exterior,"R$ 328,932.37","R$ 53,569.57"
iluminação,"R$ 275,229.82","R$ 40,531.09"
fertilizantes,"R$ 53,144.55","R$ 22,509.86"


In [178]:
estilo_produto.format('R$ {:,.2f}').background_gradient(cmap='Greens')

Unnamed: 0_level_0,vendas,lucro
tipo_produto,Unnamed: 1_level_1,Unnamed: 2_level_1
peças de reposição,"R$ 486,907.88","R$ 182,297.32"
pneus,"R$ 1,022,430.50","R$ 134,923.09"
ferramentas automotivas,"R$ 502,109.33","R$ 126,660.54"
pesticidas,"R$ 244,958.41","R$ 106,688.03"
ferramentas de jardinagem,"R$ 648,880.47","R$ 106,408.80"
ferramentas,"R$ 995,159.43","R$ 82,042.91"
vasos,"R$ 696,045.39","R$ 67,887.28"
mobiliário de exterior,"R$ 328,932.37","R$ 53,569.57"
iluminação,"R$ 275,229.82","R$ 40,531.09"
fertilizantes,"R$ 53,144.55","R$ 22,509.86"


## Exercícios

In [182]:
# Dados da tabela
dados = {'Jogadoras': ['Lana', 'Maria', 'Paula', 'Ana', 'Sandy'],
         'Pontuação': [56, 72, 49, 85, 68]}

# Criando o DataFrame
df = pd.DataFrame(dados)
df = df.set_index('Jogadoras').sort_values('Pontuação', ascending=False)
df

Unnamed: 0_level_0,Pontuação
Jogadoras,Unnamed: 1_level_1
Ana,85
Maria,72
Sandy,68
Lana,56
Paula,49


In [189]:
df4 = df.style.background_gradient(cmap='Greens')
df4

Unnamed: 0_level_0,Pontuação
Jogadoras,Unnamed: 1_level_1
Ana,85
Maria,72
Sandy,68
Lana,56
Paula,49


# -----------------------------------------------------------------------------------------------------

In [190]:
cabecalho = {
    'selector':'th',
    'props':'font-weight: bold; font-family: Arial; text-align: center; text-transform: capitalize;'
}

estilo_produto.set_table_styles([cabecalho], overwrite=False)

Unnamed: 0_level_0,vendas,lucro
tipo_produto,Unnamed: 1_level_1,Unnamed: 2_level_1
peças de reposição,"R$ 486,907.88","R$ 182,297.32"
pneus,"R$ 1,022,430.50","R$ 134,923.09"
ferramentas automotivas,"R$ 502,109.33","R$ 126,660.54"
pesticidas,"R$ 244,958.41","R$ 106,688.03"
ferramentas de jardinagem,"R$ 648,880.47","R$ 106,408.80"
ferramentas,"R$ 995,159.43","R$ 82,042.91"
vasos,"R$ 696,045.39","R$ 67,887.28"
mobiliário de exterior,"R$ 328,932.37","R$ 53,569.57"
iluminação,"R$ 275,229.82","R$ 40,531.09"
fertilizantes,"R$ 53,144.55","R$ 22,509.86"


## Exercícios

In [216]:
url2 = 'https://caelum-online-public.s3.amazonaws.com/3056-data-visualization/loja_livro_filmes.csv'

In [217]:
df_loja_livro = pd.read_csv(url2)

In [218]:
df_loja_livro

Unnamed: 0,pais,id_cliente,data_pedido,data_chegada,tipo_compra,numero_pedido,tamanho_pacote,unidades,custo_empacotamento,custo_envio,tipo_desconto,categoria,tipo_consumo,tipo_cliente,custo_produto
0,Argentina,111962928,2002-02-15,2002-03-10,Normal,98091426,Pacote pequeno,1,3.0,5.99,Sem desconto,BlueRay,Alto Consumo,B2C,8.99
1,Argentina,145148150,2004-11-05,2004-11-26,Normal,98087803,Pacote pequeno,3,1.0,6.99,Sem desconto,BlueRay,Alto Consumo,B2C,7.99
2,Argentina,194622983,2014-09-14,2014-09-28,Normal,98072296,Pacote pequeno,1,3.0,6.99,Sem desconto,BlueRay,Alto Consumo,B2C,9.99
3,Argentina,220834258,2011-07-20,2011-07-30,Devolução,98077986,Pacote pequeno,2,1.0,3.86,Cyber Monday,BlueRay,Alto Consumo,B2B,4.86
4,Argentina,220834258,2013-09-15,2017-02-15,Normal,98074234,Pacote pequeno,1,2.0,4.88,Black Friday,BlueRay,Alto Consumo,B2B,6.88
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24885,Venezuela,890670789,2006-05-05,2006-05-18,Devolução,98085835,Pacote pequeno,2,1.0,6.99,Sem desconto,Livro,Alto Consumo,B2C,7.99
24886,Venezuela,892274535,2002-02-20,2002-03-08,Normal,98091414,Pacote pequeno,1,2.0,6.25,Cyber Monday,Livro,Alto Consumo,B2B,8.25
24887,Venezuela,892274535,2015-01-26,2015-02-17,Normal,98071516,Pacote pequeno,3,3.0,4.65,Sem desconto,Livro,Alto Consumo,B2B,7.65
24888,Venezuela,898039697,2002-08-22,2002-09-06,Normal,98090720,Pacote pequeno,2,2.0,4.58,Sem desconto,Livro,Alto Consumo,B2B,6.58


In [219]:
df_produto_custos = df_loja_livro[['categoria', 'custo_produto']].groupby(by='categoria')
df_produto_custos = df_produto_custos.sum().sort_values(by='custo_produto', ascending=True)
df_produto_custos.columns = ['Custo Produto']
df_produto_custos.index.name = 'Categoria'
df_produto_custos

Unnamed: 0_level_0,Custo Produto
Categoria,Unnamed: 1_level_1
CD,10514.28
BlueRay,14191.36
Coleção,73128.59
Livro,78213.8


In [220]:
df_produto_custos_style = df_produto_custos.style

In [221]:
df_produto_custos_style.format('R$ {:,.2f}').highlight_max(color='#F16165').highlight_min(color='lightgreen')

Unnamed: 0_level_0,Custo Produto
Categoria,Unnamed: 1_level_1
CD,"R$ 10,514.28"
BlueRay,"R$ 14,191.36"
Coleção,"R$ 73,128.59"
Livro,"R$ 78,213.80"


# Missão 3: Time de logística

Precisamos construir uma visualização que permita entender a **distribuição de pedidos por região do Brasil**.

Isso vai permitir que o time logística entenda onde é mais interessante focar material e pessoas.

In [229]:
df_regiao = df_vendas[['regiao', 'quantidade']].groupby(by='regiao').count().sort_values('quantidade', ascending=False)
df_regiao.columns = ['Nº pedidos']
df_regiao.index.name = 'Regiao'

df_regiao

Unnamed: 0_level_0,Nº pedidos
Regiao,Unnamed: 1_level_1
Sudeste,4470
Nordeste,2075
Centro-Oeste,983
Norte,779
Sul,633


In [244]:
df_regiao['porcentagem'] = ((df_regiao['Nº pedidos'] / df_regiao['Nº pedidos'].sum()) * 100)

df_regiao

Unnamed: 0_level_0,Nº pedidos,porcentagem
Regiao,Unnamed: 1_level_1,Unnamed: 2_level_1
Sudeste,4470,50.0
Nordeste,2075,23.210291
Centro-Oeste,983,10.995526
Norte,779,8.713647
Sul,633,7.080537


# Missão 4: Time de logística

Novamente o time de logística deseja repensar sua estrutura e organização de fornecimento de produtos e para isso, foi pensada em uma visualização que permita identificar padrão de **quantidade de produtos solicitados por mês por departamento**.

# Missão 5: Relatório de performance

O relatório de performance é um documento muito importante para a empresa. Nele, todos que trabalham na loja podem entender como anda a empresa. Por conta disso, tabelas bem construídas são essenciais para mostrar os dados da melhor forma.

Portanto, precisamos construir uma visualização que permita entender a **relação entre tipos de clientes e modo de envio de produtos de acordo com as vendas**. Com isso, será possível destacar no relatório qual o modo de envio e quais tipos de modo de envio mais geraram ganho em vendas.