<a href="https://colab.research.google.com/github/matheusrdr/dataanalyst-renner-test-resolution/blob/main/TesteRenner_DataAnalyst.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# importando bibliotecas:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# importando datasets:
df_raw = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/upload/Exercicio_Python_Merge_Summarizado.xlsx', sheet_name="Raw")
df_produto = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/upload/Exercicio_Python_Merge_Summarizado.xlsx', sheet_name="Master Produto")
df_lojas = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/upload/Exercicio_Python_Merge_Summarizado.xlsx', sheet_name="Master Lojas")
df_clientes = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/upload/Exercicio_Python_Merge_Summarizado.xlsx', sheet_name="Master clientes")

In [3]:
# Renomeando as colunas dos dataframes:
df_raw.columns = ['CodigoTransacao', 'Data', 'LojaID', 'ProdID', 'ClienteID', 'UnidadesVendidas', 'Faturamento', 'Promocao']
df_produto.columns = ['ProdID', 'Descricao', 'Categoria', 'Tamanho', 'Cor']
df_lojas.columns = ['LojaID', 'CodigoCidade', 'UF', 'Regiao']
df_clientes.columns = ['ClienteID', 'Genero', 'FaixadeIdade', 'ClasseSocial']

In [4]:
# Eliminando espacos em branco:
df_produto['Categoria'] = df_produto['Categoria'].str.strip()
df_produto['Tamanho'] = df_produto['Tamanho'].str.strip()
df_produto['Cor'] = df_produto['Cor'].str.strip()

In [5]:
# Criando a descrição do produto como a concatenação da categoria_Cor_Tamanho:
df_produto['Descricao'] = df_produto['Categoria'] + df_produto['Cor'] + df_produto['Tamanho'] 

In [6]:
# Criando df_cidades para alimentar demais datasets:
df_cidades = pd.DataFrame({'CodigoCidade' : df_lojas['CodigoCidade'], 'UF' : df_lojas['UF'], 'Regiao' : df_lojas['Regiao'] }).drop_duplicates().dropna().reset_index(drop = True)

In [7]:
# Completando informações do df_lojas:

# Função para excluir colunas pós merge (terminadas com '_x'):
def drop_x(df):
    to_drop = [x for x in df_lojas if x.endswith('_x')]
    df_lojas.drop(to_drop, axis=1, inplace = True)

# Completando informações e deixando somente as colunas com registros mergeados:
df_lojas = pd.merge(df_lojas, df_cidades, on = ['CodigoCidade'], how = 'left', suffixes=('_x', ''))
drop_x(df_lojas)


In [8]:
# Trazendo informações dos dataframes para o df_raw:

df_raw = pd.merge(df_raw, df_produto, on='ProdID', how='left')
df_raw = pd.merge(df_raw, df_lojas, on='LojaID', how='left')
df_raw = pd.merge(df_raw, df_clientes, on='ClienteID', how='left')
#df_raw.head(10)

In [9]:
# Adicionando a informação de Ano no df_raw:

df_raw['Ano'] = df_raw['Data'].dt.year
#df_raw.head(5)

In [10]:
# Separando o df_raw em 2 df, por ano:

df_raw_2022 = df_raw.loc[df_raw['Ano'] == 2022]
df_raw_2023 = df_raw.loc[df_raw['Ano'] == 2023]

In [11]:
# Agrupando os df_raw criados:

df_raw_2022 = df_raw_2022.groupby(['ProdID', 'Descricao']).agg({'CodigoTransacao': 'count', 'ClienteID': 'nunique', 'Faturamento': 'sum', 'UnidadesVendidas': 'sum'})
df_raw_2023 = df_raw_2023.groupby(['ProdID', 'Descricao']).agg({'CodigoTransacao': 'count', 'ClienteID': 'nunique', 'Faturamento': 'sum', 'UnidadesVendidas': 'sum'})

In [12]:
# Criando a tabela base para cálculo dos KPI's, unindo os dois agrupamentos por ano criados, renomeando as colunas para facilitar a identificação:

df_resumo_1 = pd.concat([df_raw_2022, df_raw_2023], axis=1)
df_resumo_1.columns = ['CodigoTransacao_2022', 'ClienteID_2022', 'Faturamento_2022', 'UnidadesVendidas_2022', 'CodigoTransacao_2023', 'ClienteID_2023', 'Faturamento_2023', 'UnidadesVendidas_2023']
#df_resumo_1

In [14]:
# Criando colunas com indicadores:

# Substituindo valores faltantes por 0:
df_resumo_1.fillna(value=0, inplace=True)

## dataframes auxiliares:
df_clientes = df_raw.groupby(['ProdID', 'Descricao']).agg({'ClienteID': 'nunique'})
df_frequencia = df_raw.groupby(['ProdID', 'Descricao']).agg({'CodigoTransacao': 'nunique'})
df_transacao = df_raw.groupby(['ProdID', 'Descricao']).agg({'CodigoTransacao': 'nunique'})

## KPIs:
df_resumo_1['Vendas'] = df_resumo_1['CodigoTransacao_2022'] + df_resumo_1['CodigoTransacao_2023']
df_resumo_1['VariacaoVendas'] = (((df_resumo_1['CodigoTransacao_2023'] - df_resumo_1['CodigoTransacao_2022']) / df_resumo_1['CodigoTransacao_2022']) * 100).round(2)
df_resumo_1['VarClientes'] = (((df_resumo_1['ClienteID_2023'] - df_resumo_1['ClienteID_2022']) / df_resumo_1['ClienteID_2022']) * 100).round(2)
df_resumo_1['GastoPorCliente'] = ((df_resumo_1['Faturamento_2023'] + df_resumo_1['Faturamento_2022']) / df_clientes['ClienteID']).round(2)
df_resumo_1['VarGastoPorCliente'] = ((((df_resumo_1['Faturamento_2023'] / df_resumo_1['ClienteID_2023']) - (df_resumo_1['Faturamento_2022'] / df_resumo_1['ClienteID_2022'])) / (df_resumo_1['Faturamento_2022'] / df_resumo_1['ClienteID_2022'])) * 100).round(2)
df_resumo_1['FrequenciaMedia'] = (df_frequencia['CodigoTransacao'] / df_clientes['ClienteID']).round(2)
df_resumo_1['VarFrequenciaMedia'] = (((df_resumo_1['CodigoTransacao_2023'] / df_resumo_1['ClienteID_2023']) - (df_resumo_1['CodigoTransacao_2022'] / df_resumo_1['ClienteID_2022'])) / (df_resumo_1['CodigoTransacao_2022'] / df_resumo_1['ClienteID_2022'])).round(2) 
df_resumo_1['TicketMedio'] = ((df_resumo_1['Faturamento_2023'] + df_resumo_1['Faturamento_2022']) / df_transacao['CodigoTransacao']).round(2)
df_resumo_1['VarTicketMedio'] = ((((df_resumo_1['Faturamento_2023'] / df_resumo_1['CodigoTransacao_2023']) - (df_resumo_1['Faturamento_2022'] / df_resumo_1['CodigoTransacao_2022']) ) / ((df_resumo_1['Faturamento_2022'] / df_resumo_1['CodigoTransacao_2022']))) * 100).round(2)
df_resumo_1['PeçasPorCupom'] = ((df_resumo_1['UnidadesVendidas_2023'] + df_resumo_1['UnidadesVendidas_2022']) / df_transacao['CodigoTransacao']).round(2)
df_resumo_1['VarPecasPorCupom'] = ((((df_resumo_1['UnidadesVendidas_2023'] / df_resumo_1['CodigoTransacao_2023']) - (df_resumo_1['UnidadesVendidas_2022'] / df_resumo_1['CodigoTransacao_2022'])) / (df_resumo_1['UnidadesVendidas_2022'] / df_resumo_1['CodigoTransacao_2022'])) * 100).round(2)
df_resumo_1['PrecoMedio'] = ((df_resumo_1['Faturamento_2023'] + df_resumo_1['Faturamento_2022']) / (df_resumo_1['UnidadesVendidas_2023'] + df_resumo_1['UnidadesVendidas_2022'])).round(2)
df_resumo_1['VarPrecoMedio'] = ((((df_resumo_1['Faturamento_2023'] / df_resumo_1['UnidadesVendidas_2023']) - (df_resumo_1['Faturamento_2022'] / df_resumo_1['UnidadesVendidas_2022'])) / (df_resumo_1['Faturamento_2022'] / df_resumo_1['UnidadesVendidas_2022'])) * 100).round(2)


In [15]:
# Gerando tabela final:
df_resumo_1_exportar = df_resumo_1.iloc[:,8:23]
df_resumo_1_exportar

Unnamed: 0_level_0,Unnamed: 1_level_0,Vendas,VariacaoVendas,VarClientes,GastoPorCliente,VarGastoPorCliente,FrequenciaMedia,VarFrequenciaMedia,TicketMedio,VarTicketMedio,PeçasPorCupom,VarPecasPorCupom,PrecoMedio,VarPrecoMedio
ProdID,Descricao,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
123000,BottomAzulP,228.0,-100.0,-100.0,117.18,,2.56,,45.74,,2.32,,19.68,
123001,TopCinzaG,637.0,-52.55,-14.29,371.4,-44.51,6.37,-0.45,58.3,0.23,2.31,4.08,25.21,-3.7
123002,BottomPretoM,824.0,-9.26,-5.05,553.17,0.86,8.24,-0.04,67.13,5.54,2.43,5.04,27.63,0.48
123003,TopVermelhoM,827.0,-14.57,-2.02,574.78,0.97,8.27,-0.13,69.5,15.8,2.4,3.82,28.96,11.54
123004,TopCinzaM,849.0,-13.0,0.0,718.29,-5.34,8.49,-0.13,84.6,8.79,2.38,8.21,35.51,0.54
123005,TopCinzaP,842.0,5.37,0.0,900.43,-11.65,8.42,0.05,106.94,-16.15,2.34,-2.85,45.73,-13.69
123006,BottomPretoP,806.0,-9.46,-1.03,1053.47,-5.79,8.06,-0.09,130.7,2.97,2.39,4.52,54.78,-1.48
123007,TopVermelhoP,794.0,-6.34,2.06,1131.44,-6.16,7.94,-0.08,142.5,2.25,2.41,1.22,59.21,1.02
123008,TopVermelhoG,821.0,-6.37,1.02,1625.41,-14.59,8.21,-0.07,197.98,-7.85,2.36,3.76,83.87,-11.19
123009,TopVermelhoGG,592.0,72.81,12.64,1269.75,54.58,5.98,0.53,212.34,0.76,2.37,2.27,89.6,-1.47
