In [47]:
# Candidato: Lúcio Leandro Cruz de Oliveira, Email: 95lucioleandro@gmail.com
# Obs: Todas os códigos estão comentados, caso não esteja, é porque já foram comentados acima.
# Obs2: Os valores referentes a dinheiro estão com os decimais separados por ponto e sem separação de milhar.
# Obs3: Escolhi fazer a parte de ETL no Jupyter devido a facilidade de execução, porém, poderia usar qualquer outra ferramenta.

# Importando as bibliotecas que serão utilizadas
import pandas as pd
import datetime as dt

# Planilha com os produtos - CSV

In [48]:
# Lendo o CSV com os detalhes dos produtos
produtos = pd.read_csv('FatoDetalhes_DadosModelagem.csv', sep=";")

# Alterando o nome apenas para meu melhor entendimento
produtos = produtos.rename(columns={'ValorLiquido':'Lucro'})

# Convertendo as strings para float, sendo preciso tirar a virgula primeiro
produtos['Valor'] = produtos['Valor'].str.replace(',', '.').astype(float)
produtos['Desconto'] = produtos['Desconto'].str.replace(',', '.').astype(float)
produtos['Custo'] = produtos['Custo'].str.replace(',', '.').astype(float)
produtos['Lucro'] = produtos['Lucro'].str.replace(',', '.').astype(float)

# Arredondando para 2 casas decimais
produtos[['Valor', 'Desconto', 'Custo', 'Lucro']] = round(produtos[['Valor', 'Desconto', 'Custo', 'Lucro']], 2)

# Mostrando a planilha de forma ordenada por produtos
display(produtos.sort_values(by=['ProdutoID']))

Unnamed: 0,CupomID,ProdutoID,Quantidade,Valor,Desconto,Custo,Lucro
692,11035,1,10,195.50,0.00,172.43,23.07
1784,10285,1,45,1064.88,177.48,766.71,298.17
1738,11031,1,45,965.25,0.00,851.35,113.90
1352,10413,1,24,504.24,0.00,417.51,86.73
1196,10590,1,20,403.60,0.00,326.92,76.68
...,...,...,...,...,...,...,...
64,10835,77,2,29.52,4.92,21.70,7.82
1305,10417,77,35,465.50,0.00,385.43,80.07
682,10257,77,15,192.60,0.00,159.47,33.13
596,10399,77,14,168.14,0.00,139.22,28.92


In [49]:
# Verificando se está tudo formatado corretamente
produtos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2172 entries, 0 to 2171
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   CupomID     2172 non-null   int64  
 1   ProdutoID   2172 non-null   int64  
 2   Quantidade  2172 non-null   int64  
 3   Valor       2172 non-null   float64
 4   Desconto    2172 non-null   float64
 5   Custo       2172 non-null   float64
 6   Lucro       2172 non-null   float64
dtypes: float64(4), int64(3)
memory usage: 118.9 KB


### Separando apenas para fins de organização, todos os dados já poderiam ser retirados da tabela acima

In [50]:
# Filtrando os dados de quais produtos foram vendidos em cada compra - Gerando o CSV 'Compra_Produto'
cupom_produto = produtos.loc[:,['CupomID','ProdutoID','Quantidade', 'Valor','Lucro']]

# Organizando de acordo com a prioridade de agrupamento
cupom_produto = cupom_produto.groupby(['CupomID','ProdutoID','Quantidade', 'Valor']).sum(['Lucro'])

#Salvando em um CSV
cupom_produto.to_csv('.\DadosFiltrados\Compra_Produto.csv', sep=';')

# Mostrando no jupyter
display(cupom_produto)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Lucro
CupomID,ProdutoID,Quantidade,Valor,Unnamed: 4_level_1
10248,11,12,343.44,59.07
10248,42,10,140.40,24.15
10248,72,5,63.55,10.93
10249,14,9,205.20,35.29
10249,51,40,4048.00,405.33
...,...,...,...,...
11083,37,7,31.50,3.72
11083,42,10,156.50,18.47
11083,47,5,127.50,15.04
11083,51,3,308.69,44.36


In [51]:
# Filtrando para saber qual produto é o mais vendido - Gerando o CSV 'Produto_Quantidade'
produto_quantidade = produtos.loc[:,['CupomID','ProdutoID','Quantidade', 'Valor','Lucro']]
produto_quantidade = produto_quantidade.groupby(['ProdutoID','Quantidade', 'Valor', 'CupomID']).sum(['Lucro'])
produto_quantidade.to_csv('.\DadosFiltrados\Produto_Quantidade.csv', sep=';')
display(produto_quantidade)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Lucro
ProdutoID,Quantidade,Valor,CupomID,Unnamed: 4_level_1
1,2,38.00,11005,4.48
1,3,55.50,10609,10.54
1,4,76.00,11003,8.97
1,4,102.60,10838,30.21
1,5,121.86,10700,39.60
...,...,...,...,...
77,40,543.20,10886,64.10
77,40,547.60,10946,64.62
77,55,756.86,10451,187.15
77,60,885.78,10590,202.46


# Planilha com as vendas - TXT

In [52]:
# Lendo o TXT com os detalhes das vendas
vendas = pd.read_csv('FatoCabecalho_DadosModelagem.txt', sep="	")

# Formatando adequatamente as datas
vendas[['Data','DataEntrega']] = vendas[['Data','DataEntrega']].apply(pd.to_datetime, format='%d/%m/%Y')

# Verificando o tempo de entrega de cada compra
vendas['TempoEntrega'] = vendas['DataEntrega'] - vendas['Data']

# Separando o ano de venda
vendas['AnoVenda'] = vendas['Data'].dt.year

# Separando por trimestre
vendas['TrimestreVenda'] = vendas['Data'].dt.quarter

# Mostrando a planilha final
display(vendas)

Unnamed: 0,Data,ClienteID,FuncionarioID,ValorFrete,CupomID,EmpresaFrete,DataEntrega,TempoEntrega,AnoVenda,TrimestreVenda
0,2018-03-22,78,11,1245,11081,Freight Express,2018-04-05,14 days,2018,1
1,2016-11-21,62,3,2001,10637,One Liners,2016-11-24,3 days,2016,4
2,2017-09-16,64,3,2036,11019,One Liners,2017-10-03,17 days,2017,3
3,2017-07-02,80,11,2053,10982,Freight Express,2017-07-04,2 days,2017,3
4,2016-09-16,28,5,2061,10328,Ship for U,2016-09-29,13 days,2016,3
...,...,...,...,...,...,...,...,...,...,...
831,2016-09-26,42,11,7963,10680,Freight Express,2016-10-12,16 days,2016,3
832,2017-02-10,1,7,7964,10349,One Liners,2017-02-18,8 days,2017,1
833,2017-07-16,47,3,7978,11014,One Liners,2017-07-18,2 days,2017,3
834,2017-03-05,1,7,7986,10585,One Liners,2017-03-16,11 days,2017,1


In [53]:
# Verificando se está tudo formatado corretamente
vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 836 entries, 0 to 835
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype          
---  ------          --------------  -----          
 0   Data            836 non-null    datetime64[ns] 
 1   ClienteID       836 non-null    int64          
 2   FuncionarioID   836 non-null    int64          
 3   ValorFrete      836 non-null    object         
 4   CupomID         836 non-null    int64          
 5   EmpresaFrete    836 non-null    object         
 6   DataEntrega     836 non-null    datetime64[ns] 
 7   TempoEntrega    836 non-null    timedelta64[ns]
 8   AnoVenda        836 non-null    int64          
 9   TrimestreVenda  836 non-null    int64          
dtypes: datetime64[ns](2), int64(5), object(2), timedelta64[ns](1)
memory usage: 65.4+ KB


### Separando apenas para fins de organização, todos os dados já poderiam ser retirados da tabela acima

In [54]:
# Separando as compras por data para saber qual a melhor época de vendas - Gerando o CSV 'Vendas_Data'
vendas_data = vendas.loc[:,['AnoVenda','TrimestreVenda', 'Data','CupomID']]

# Agrupando
vendas_data = vendas_data.groupby(['AnoVenda', 'TrimestreVenda', 'Data', 'CupomID']).sum()

# Salvando em CSV
vendas_data.to_csv('.\DadosFiltrados\Vendas_Data.csv', sep=';')

# Mostrando no Jupyter
display(vendas_data)

AnoVenda,TrimestreVenda,Data,CupomID
2014,3,2014-07-30,10337
2014,3,2014-08-28,10262
2014,3,2014-09-08,10374
2014,3,2014-09-22,10357
2014,3,2014-09-24,10286
...,...,...,...
2018,2,2018-04-05,10803
2018,2,2018-04-06,10806
2018,2,2018-04-07,10808
2018,2,2018-04-07,10809


In [55]:
# Separando por funcionário para saber quais vendem mais e quais vendem menos - Gerando o CSV 'Vendas_Funcionarios'
vendas_funcionario = vendas.loc[:,['AnoVenda', 'FuncionarioID','CupomID', 'TrimestreVenda']]
vendas_funcionario = vendas_funcionario.groupby(['FuncionarioID','AnoVenda', 'TrimestreVenda', 'CupomID']).sum()
vendas_funcionario.to_csv('.\DadosFiltrados\Vendas_Funcionarios.csv', sep=';')
display(vendas_funcionario)

FuncionarioID,AnoVenda,TrimestreVenda,CupomID
2,2014,3,10262
2,2014,3,10287
2,2014,3,10357
2,2014,4,10278
2,2014,4,10291
...,...,...,...
68,2017,4,10971
68,2018,1,10463
68,2018,1,10797
68,2018,1,10813


In [56]:
# Separando os clientes para saber qual compra mais - Gerando o CSV 'Vendas_Cliente'
vendas_cliente = vendas.loc[:,['ClienteID', 'AnoVenda','CupomID', 'TrimestreVenda']]
vendas_cliente = vendas_cliente.groupby(['ClienteID','AnoVenda', 'TrimestreVenda', 'CupomID']).sum()
vendas_cliente.to_csv('.\DadosFiltrados\Vendas_Cliente.csv', sep=';')
display(vendas_cliente)

ClienteID,AnoVenda,TrimestreVenda,CupomID
1,2015,1,10338
1,2015,4,10526
1,2016,3,10692
1,2016,3,10750
1,2016,3,10757
...,...,...,...
91,2017,3,11044
91,2017,4,10906
127,2016,3,10688
127,2017,1,10591


In [57]:
# Separando por empresa de frete para saber qual entrega mais rápido e qual tem mais demanda - Gerando o CSV 'Frete_Empresa'
frete_empresa = vendas.loc[:,['Data','CupomID', 'EmpresaFrete', 'DataEntrega','TempoEntrega']]
frete_empresa = frete_empresa.groupby(['EmpresaFrete','Data', 'DataEntrega', 'TempoEntrega', 'CupomID']).sum()
frete_empresa.to_csv('.\DadosFiltrados\Frete_Empresa.csv', sep=';')
display(frete_empresa)

EmpresaFrete,Data,DataEntrega,TempoEntrega,CupomID
Freight Express,2015-01-11,2015-01-19,8 days,10276
Freight Express,2015-01-31,2015-02-06,6 days,10339
Freight Express,2015-02-14,2015-03-01,15 days,10351
Freight Express,2015-03-06,2015-03-15,9 days,10369
Freight Express,2015-03-15,2015-04-01,17 days,10377
...,...,...,...,...
Ship for U,2018-03-22,2018-03-23,1 days,10306
Ship for U,2018-03-22,2018-04-04,13 days,10950
Ship for U,2018-03-26,2018-04-09,14 days,10964
Ship for U,2018-04-04,2018-04-18,14 days,10801
