In [43]:
# Candidato: Lúcio Leandro Cruz de Oliveira, Email: 95lucioleandro@gmail.com
# Obs: Todas os códigos estão comentados, caso não esteja, é porque já foram comentados acima.
# Obs2: Os valores referentes a dinheiro estão com os decimais separados por ponto e sem separação de milhar.
# Obs3: Escolhi fazer a parte de ETL no Jupyter devido a facilidade de execução, porém, poderia usar qualquer outra ferramenta.

# Importando as bibliotecas que serão utilizadas
import pandas as pd
import datetime as dt

# Lendo as informações da empresa - XLSX

In [68]:
# Lendo o XLSX com as informações da empresa
empresa = pd.ExcelFile('Dimensoes_DadosModelagem.xlsx')

# Lendo separadamente cada aba da planilha
empresa_cliente = pd.read_excel(empresa, sheet_name='Clientes')
empresa_funcionarios = pd.read_excel(empresa, sheet_name='Funcionarios')
empresa_produtos = pd.read_excel(empresa, sheet_name='Produtos')
empresa_categorias = pd.read_excel(empresa, sheet_name='Categoria')

# Planilha com os produtos vendidos - CSV

In [69]:
# Lendo o CSV com os detalhes dos produtos
produtos = pd.read_csv('FatoDetalhes_DadosModelagem.csv', sep=";")

# Alterando o nome apenas para meu melhor entendimento
produtos = produtos.rename(columns={'ValorLiquido':'Lucro'})

# Convertendo as strings para float, sendo preciso tirar a virgula primeiro
produtos['Valor'] = produtos['Valor'].str.replace(',', '.').astype(float)
produtos['Desconto'] = produtos['Desconto'].str.replace(',', '.').astype(float)
produtos['Custo'] = produtos['Custo'].str.replace(',', '.').astype(float)
produtos['Lucro'] = produtos['Lucro'].str.replace(',', '.').astype(float)

# Arredondando para 2 casas decimais
produtos[['Valor', 'Desconto', 'Custo', 'Lucro']] = round(produtos[['Valor', 'Desconto', 'Custo', 'Lucro']], 2)

# Acrescentando o nome dos produtos e categorias, para ficar melhor de visualizar
produtos = pd.merge(produtos, empresa_produtos[['ProdutoID','Produto']], how='inner', on='ProdutoID')
empresa_produtos = pd.merge(empresa_produtos, empresa_categorias[['CategoriaID','Categoria']], how='inner', on='CategoriaID')
produtos = pd.merge(produtos, empresa_produtos[['ProdutoID','Categoria']], how='inner', on='ProdutoID')

# Mostrando a planilha de forma ordenada por produtos
display(produtos.sort_values(by=['ProdutoID']).head(5))

Unnamed: 0,CupomID,ProdutoID,Quantidade,Valor,Desconto,Custo,Lucro,Produto,Categoria
975,10729,1,50,1026.0,0.0,831.06,194.94,Lenin Jeansshorts,Mens Clothes
952,10406,1,10,197.6,0.0,163.61,33.99,Lenin Jeansshorts,Mens Clothes
953,11025,1,10,215.05,19.55,180.17,34.88,Lenin Jeansshorts,Mens Clothes
954,10911,1,10,219.3,0.0,197.02,22.28,Lenin Jeansshorts,Mens Clothes
955,10576,1,10,219.4,0.0,177.71,41.69,Lenin Jeansshorts,Mens Clothes


In [56]:
# Verificando se está tudo formatado corretamente
produtos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2172 entries, 0 to 2171
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   CupomID     2172 non-null   int64  
 1   ProdutoID   2172 non-null   int64  
 2   Quantidade  2172 non-null   int64  
 3   Valor       2172 non-null   float64
 4   Desconto    2172 non-null   float64
 5   Custo       2172 non-null   float64
 6   Lucro       2172 non-null   float64
 7   Produto     2172 non-null   object 
dtypes: float64(4), int64(3), object(1)
memory usage: 152.7+ KB


### Separando apenas para fins de organização, todos os dados já poderiam ser retirados da tabela acima

In [74]:
# Filtrando os dados de quais produtos foram vendidos em cada compra - Gerando o CSV 'Compra_Produto'
cupom_produto = produtos.loc[:,['CupomID','ProdutoID','Produto', 'Categoria', 'Quantidade', 'Valor', 'Custo','Lucro']]

# Organizando de acordo com a prioridade de agrupamento
cupom_produto = cupom_produto.groupby(['CupomID','ProdutoID', 'Produto','Categoria', 'Quantidade', 'Valor', 'Custo']).sum(['Lucro'])

#Salvando em um CSV
cupom_produto.to_csv('.\DadosFiltrados\Compra_Produto.csv', sep=';')

# Mostrando no jupyter
display(cupom_produto.head(10))

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Lucro
CupomID,ProdutoID,Produto,Categoria,Quantidade,Valor,Custo,Unnamed: 7_level_1
10248,11,Desperado Jeans,Mens Clothes,12,343.44,284.37,59.07
10248,42,Balett Shoes,Womens Footwear,10,140.4,116.25,24.15
10248,72,Rossi Shorts,Bath Clothes,5,63.55,52.62,10.93
10249,14,Kool Sunglasses,Childrens wear,9,205.2,169.91,35.29
10249,51,Snake Boots,Mens Footwear,40,4048.0,3642.67,405.33
10250,41,Duck Shirt,Babywear,10,95.9,79.41,16.49
10250,51,Snake Boots,Mens Footwear,35,3931.22,2830.48,1100.74
10250,65,Stretch oui-pants,Womens wear,15,163.36,117.62,45.74
10251,22,Ravellis Träskor,Womens Footwear,6,21.36,16.84,4.52
10251,57,Burned Rubber Shoes,Womens Footwear,15,332.64,288.14,44.5


In [58]:
# Filtrando para saber qual produto é o mais vendido - Gerando o CSV 'Produto_Quantidade'
produto_quantidade = produtos.loc[:,['CupomID','ProdutoID','Produto','Quantidade', 'Valor','Lucro']]
produto_quantidade = produto_quantidade.groupby(['ProdutoID','Produto','Quantidade', 'Valor', 'CupomID']).sum(['Lucro'])
produto_quantidade.to_csv('.\DadosFiltrados\Produto_Quantidade.csv', sep=';')
display(produto_quantidade.head(10))

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Lucro
ProdutoID,Produto,Quantidade,Valor,CupomID,Unnamed: 5_level_1
1,Lenin Jeansshorts,2,38.0,11005,4.48
1,Lenin Jeansshorts,3,55.5,10609,10.54
1,Lenin Jeansshorts,4,76.0,11003,8.97
1,Lenin Jeansshorts,4,102.6,10838,30.21
1,Lenin Jeansshorts,5,121.86,10700,39.6
1,Lenin Jeansshorts,6,118.5,10611,22.52
1,Lenin Jeansshorts,8,144.16,10752,27.39
1,Lenin Jeansshorts,8,175.52,11006,20.71
1,Lenin Jeansshorts,8,179.68,10526,50.31
1,Lenin Jeansshorts,10,195.5,11035,23.07


# Planilha com as vendas realizadas - TXT

In [71]:
# Lendo o TXT com os detalhes das vendas
vendas = pd.read_csv('FatoCabecalho_DadosModelagem.txt', sep="	")

# Formatando adequatamente as datas
vendas[['Data','DataEntrega']] = vendas[['Data','DataEntrega']].apply(pd.to_datetime, format='%d/%m/%Y')

# Verificando o tempo de entrega de cada compra
vendas['TempoEntrega'] = vendas['DataEntrega'] - vendas['Data']

# Separando o ano de venda
vendas['AnoVenda'] = vendas['Data'].dt.year

# Separando por trimestre
vendas['TrimestreVenda'] = vendas['Data'].dt.quarter

# Acrescentando os nomes do clientes e funcionarios, para ficar melhor de visualizar
vendas = pd.merge(vendas, empresa_funcionarios[['FuncionarioID','NomeFuncionario']], how='inner', on='FuncionarioID')
vendas = pd.merge(vendas, empresa_cliente[['ClienteID','Cliente', 'Pais']], how='inner', on='ClienteID')

# Mostrando a planilha final
display(vendas.head(5))

Unnamed: 0,Data,ClienteID,FuncionarioID,ValorFrete,CupomID,EmpresaFrete,DataEntrega,TempoEntrega,AnoVenda,TrimestreVenda,NomeFuncionario,Cliente,Pais
0,2018-03-22,78,11,1245,11081,Freight Express,2018-04-05,14 days,2018,1,Rock Rollman,TTT-The Ticky Tie,USA
1,2017-07-02,80,11,2053,10982,Freight Express,2017-07-04,2 days,2017,3,Rock Rollman,Don Balón,Mexico
2,2015-01-11,80,11,2295,10276,Freight Express,2015-01-19,8 days,2015,1,Rock Rollman,Don Balón,Mexico
3,2017-06-01,80,11,2452,10915,Freight Express,2017-06-15,14 days,2017,2,Rock Rollman,Don Balón,Mexico
4,2015-10-30,80,11,2716,10518,Freight Express,2015-10-31,1 days,2015,4,Rock Rollman,Don Balón,Mexico


In [60]:
# Verificando se está tudo formatado corretamente
vendas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 836 entries, 0 to 835
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype          
---  ------           --------------  -----          
 0   Data             836 non-null    datetime64[ns] 
 1   ClienteID        836 non-null    int64          
 2   FuncionarioID    836 non-null    int64          
 3   ValorFrete       836 non-null    object         
 4   CupomID          836 non-null    int64          
 5   EmpresaFrete     836 non-null    object         
 6   DataEntrega      836 non-null    datetime64[ns] 
 7   TempoEntrega     836 non-null    timedelta64[ns]
 8   AnoVenda         836 non-null    int64          
 9   TrimestreVenda   836 non-null    int64          
 10  NomeFuncionario  836 non-null    object         
 11  Cliente          836 non-null    object         
dtypes: datetime64[ns](2), int64(5), object(4), timedelta64[ns](1)
memory usage: 84.9+ KB


### Separando apenas para fins de organização, todos os dados já poderiam ser retirados da tabela acima

In [61]:
# Separando as compras por data para saber qual a melhor época de vendas - Gerando o CSV 'Vendas_Data'
vendas_data = vendas.loc[:,['AnoVenda','TrimestreVenda', 'Data','CupomID']]

# Agrupando
vendas_data = vendas_data.groupby(['AnoVenda', 'TrimestreVenda', 'Data', 'CupomID']).sum()

# Salvando em CSV
vendas_data.to_csv('.\DadosFiltrados\Vendas_Data.csv', sep=';')

# Mostrando no Jupyter
display(vendas_data.head(10))

AnoVenda,TrimestreVenda,Data,CupomID
2014,3,2014-07-30,10337
2014,3,2014-08-28,10262
2014,3,2014-09-08,10374
2014,3,2014-09-22,10357
2014,3,2014-09-24,10286
2014,3,2014-09-25,10287
2014,4,2014-10-11,10296
2014,4,2014-11-03,10268
2014,4,2014-11-15,10278
2014,4,2014-11-30,10291


In [64]:
# Separando por funcionário para saber quais vendem mais e quais vendem menos - Gerando o CSV 'Vendas_Funcionarios'
vendas_funcionario = vendas.loc[:,['AnoVenda', 'FuncionarioID','NomeFuncionario','CupomID', 'TrimestreVenda']]
vendas_funcionario = vendas_funcionario.groupby(['FuncionarioID','NomeFuncionario','AnoVenda', 'TrimestreVenda', 'CupomID']).sum()
vendas_funcionario.to_csv('.\DadosFiltrados\Vendas_Funcionarios.csv', sep=';')
display(vendas_funcionario.head(10))

FuncionarioID,NomeFuncionario,AnoVenda,TrimestreVenda,CupomID
2,Eli Preston,2014,3,10262
2,Eli Preston,2014,3,10287
2,Eli Preston,2014,3,10357
2,Eli Preston,2014,4,10278
2,Eli Preston,2014,4,10291
2,Eli Preston,2014,4,10296
2,Eli Preston,2014,4,10298
2,Eli Preston,2015,1,10271
2,Eli Preston,2015,1,10344
2,Eli Preston,2015,1,10347


In [72]:
# Separando os clientes para saber qual compra mais - Gerando o CSV 'Vendas_Cliente'
vendas_cliente = vendas.loc[:,['ClienteID', 'Cliente','Pais', 'AnoVenda','CupomID', 'TrimestreVenda']]
vendas_cliente = vendas_cliente.groupby(['ClienteID','Cliente','Pais','AnoVenda', 'TrimestreVenda', 'CupomID']).sum()
vendas_cliente.to_csv('.\DadosFiltrados\Vendas_Cliente.csv', sep=';')
display(vendas_cliente.head(10))

ClienteID,Cliente,Pais,AnoVenda,TrimestreVenda,CupomID
1,Eintrach GS,Germany,2015,1,10338
1,Eintrach GS,Germany,2015,4,10526
1,Eintrach GS,Germany,2016,3,10692
1,Eintrach GS,Germany,2016,3,10750
1,Eintrach GS,Germany,2016,3,10757
1,Eintrach GS,Germany,2016,4,10289
1,Eintrach GS,Germany,2016,4,10510
1,Eintrach GS,Germany,2016,4,10621
1,Eintrach GS,Germany,2016,4,10627
1,Eintrach GS,Germany,2017,1,10251


In [67]:
# Separando por empresa de frete para saber qual entrega mais rápido e qual tem mais demanda - Gerando o CSV 'Frete_Empresa'
frete_empresa = vendas.loc[:,['Data','CupomID', 'EmpresaFrete', 'DataEntrega','TempoEntrega']]
frete_empresa = frete_empresa.groupby(['EmpresaFrete','Data', 'DataEntrega', 'TempoEntrega', 'CupomID']).sum()
frete_empresa.to_csv('.\DadosFiltrados\Frete_Empresa.csv', sep=';')
display(frete_empresa.head(10))

EmpresaFrete,Data,DataEntrega,TempoEntrega,CupomID
Freight Express,2015-01-11,2015-01-19,8 days,10276
Freight Express,2015-01-31,2015-02-06,6 days,10339
Freight Express,2015-02-14,2015-03-01,15 days,10351
Freight Express,2015-03-06,2015-03-15,9 days,10369
Freight Express,2015-03-15,2015-04-01,17 days,10377
Freight Express,2015-03-21,2015-04-06,16 days,10329
Freight Express,2015-04-15,2015-04-21,6 days,10564
Freight Express,2015-04-15,2015-04-27,12 days,10410
Freight Express,2015-06-05,2015-06-19,14 days,10431
Freight Express,2015-06-15,2015-06-21,6 days,10441
