## Descrição do Notebook

Neste notebook, os dados foram agregados por semana e as regras aplicadas estão descritas ao decorrer do código.

In [1]:
import pandas as pd 
import numpy as np
import xlrd
import matplotlib.pyplot as plt


In [2]:
df = pd.read_csv("../datasets/df_rpo_v3.csv")

df['DATA_TRAT.'] = pd.to_datetime(df["DATA_TRAT."], dayfirst = True)


Retirando P10 e P90 das vendas dos produtos:

Criando o *Dataframe* agregado por semana

In [3]:
# Criando colunas de Semana e Ano para auxiliar na agregação
df.reset_index(inplace = True, drop = True)
df["Semana"] = [x.isocalendar()[1] for x in df["DATA_TRAT."]]
df["Ano"] = df["DATA_TRAT."].dt.year
df["Mes"] = df['DATA_TRAT.'].dt.month

### Removendo valores sem variação de preço ao longo do ano

> Fazendo as agregações: 
* Colunas de **Vendas Reais, Margem e CMV** foram somadas
* Colunas de **Preço  e Porcentagem de Margem** foram calculadas com base na média
* Coluna da razão **CMV/QTD** foi retirada uma nova fração entre a coluna CMV e QTD para respeitar a razão entre as grandezas.

In [4]:
df_agg = df[["SAP+NOME", "UF", "Ano", "Semana",  "preço2", "Mg %",
                     "Margem Líquida Real %", "Preço"]].groupby(["SAP+NOME", "UF", "Semana", "Ano"]).mean().reset_index()

df_agg_sum = df[["SAP+NOME", "UF", "Ano","Mes","Semana", "Vendas Reais Qtde", "Vendas Reais $",
                     "Margem Líquida Real $", "Venda Líquida Real $", "CMV"]]. \
             groupby(["SAP+NOME", "UF", "Semana", "Ano", "Mes"]).sum().reset_index()
df_agg_sum["CMV/QTD"] = df_agg_sum["CMV"] / df_agg_sum["Vendas Reais Qtde"]

Unindo os dois *dataframes* de agregação criados para chegar ao *dataset* que será depositado no *Data Lake*

In [5]:
df_final = df_agg.copy()
df_final = df_final.merge(df_agg_sum, on = ["SAP+NOME", "UF", "Ano", "Semana"], how = "inner")
df_final.reset_index(inplace = True, drop = True)
df_final

Unnamed: 0,SAP+NOME,UF,Semana,Ano,preço2,Mg %,Margem Líquida Real %,Preço,Mes,Vendas Reais Qtde,Vendas Reais $,Margem Líquida Real $,Venda Líquida Real $,CMV,CMV/QTD
0,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2,2017,4.99,0.516304,51.630435,4.990000,1,2.0,9.98000,3.800000,7.36,3.56000,1.780000
1,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2,2018,4.99,0.529701,52.970109,5.039900,1,1.0,5.03990,1.949300,3.68,1.76750,1.767500
2,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2,2019,4.99,0.529701,52.970109,5.039900,1,1.0,5.03990,1.949300,3.68,1.76750,1.767500
3,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,3,2017,4.99,0.508152,50.815217,4.990000,1,3.0,14.97000,5.610000,11.04,5.43000,1.810000
4,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,3,2018,4.99,0.518315,51.831522,5.089800,1,2.0,10.17960,3.814800,7.36,3.69240,1.846200
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40538,000000000004270164 - DESINF LIQ PINHO SOL ORIG...,SP,51,2018,4.99,0.302183,30.218264,4.820092,12,111.0,532.85760,115.205600,383.97,273.10720,2.460425
40539,000000000004270164 - DESINF LIQ PINHO SOL ORIG...,SP,51,2019,4.99,0.324217,32.421730,5.018329,12,83.0,412.81710,93.435600,292.82,207.51120,2.500135
40540,000000000004270164 - DESINF LIQ PINHO SOL ORIG...,SP,52,2017,4.99,0.320648,32.064832,4.915119,12,179.0,881.22000,206.790000,642.19,435.40000,2.432402
40541,000000000004270164 - DESINF LIQ PINHO SOL ORIG...,SP,52,2018,4.99,0.325104,32.510391,4.959860,12,186.0,921.87440,216.915700,668.11,455.00840,2.446282


Retirando *P10* e *P90* dos produtos que possuiram variações de preço mais de 10 vezes. Essa agregação foi feita por **Produto** e por **UF** para eliminar os preços promocionais e as sazonalidades de vendas causadas por eles. E para as demais situações de um dado **Produto** ou **UF**, onde o preço não variou mais de 10 vezes, mas, ainda sim, há sazonalidade na quantidade de vendas semanais, também foram removidos os valores menores que *P10*, para remover quantidades insignificantes e *P90*, para remover valores que destoam.

In [6]:
lst_uf = df_final["UF"].unique()
lst_sap = df_final["SAP+NOME"].unique()

for uf in lst_uf:
    for sap in lst_sap:
        df_seg = df_final.loc[(df_final["UF"] == uf) & (df_final["SAP+NOME"] == sap)].copy()
        if df_seg.empty == True:
               continue
        else:
            # Se preço variar mais de 10 vezes, encontraremos o p10 e o p90 de valor e quantidade
            if len(df_seg["Preço"].unique()) > 10:
                q10_p = np.quantile(df_seg["Preço"].unique(), .10)
                q90_p = np.quantile(df_seg["Preço"].unique(), .90)
                q_10_qtd = np.quantile(df_seg["Vendas Reais Qtde"], .10)
                q_90_qtd = np.quantile(df_seg["Vendas Reais Qtde"], .90)
                
                # Atribuindo a 'ind', todos os valores que atendem as condições
                ind = df_seg.loc[((df_seg["Preço"] < q10_p)  | (df_seg["Preço"] > q90_p)) &
                                 ((df_seg["Vendas Reais Qtde"] < q_10_qtd) | (df_seg["Vendas Reais Qtde"] > q_90_qtd))]
                
                # Dropando index dos valores de 'ind'
                df_final = df_final.drop(ind.index)
            
            # Atribuindo a df_seg o valor de df_final ao final da condição
            df_seg = df_final.loc[(df_final["UF"] == uf) & (df_final["SAP+NOME"] == sap)].copy()
            
            # Pegando o p10 e o p90 da coluna Vendas Reais Qtde
            p10 = np.quantile(df_seg["Vendas Reais Qtde"].unique(), .10)
            p90 = np.quantile(df_seg["Vendas Reais Qtde"].unique(), .90)
            
            # Atribuindo a variável ind todos os index que são menores que o p10 e maiores que o p90
            ind = df_seg.loc[(df_seg["Vendas Reais Qtde"] < p10)  | (df_seg["Vendas Reais Qtde"] > p90)]
            
            # Removendo do DF todos os index que foram atribuidos a variável ind
            df_final = df_final.drop(ind.index)

In [7]:
df_final = df_final.sort_values(by = ["Ano", "Semana", "UF"]).reset_index(drop = True)

In [8]:
df_final.to_csv("../datasets/df_rpo_v4.csv", index = False)

In [9]:
df_final

Unnamed: 0,SAP+NOME,UF,Semana,Ano,preço2,Mg %,Margem Líquida Real %,Preço,Mes,Vendas Reais Qtde,Vendas Reais $,Margem Líquida Real $,Venda Líquida Real $,CMV,CMV/QTD
0,000000000002158151 - T VISITA P BORDA DESIRE A...,AL,1,2017,4.74,0.482330,48.233032,4.740000,1,7.0,33.930000,12.290000,24.73,12.440000,1.777143
1,000000000002158154 - T VISITA P BORDA DESIRE A...,AL,1,2017,4.99,0.535633,53.563281,4.990000,1,7.0,34.930000,13.470000,25.44,11.970000,1.710000
2,000000000004243420 - AMACIANTE COMFORT CONCENT...,AL,1,2017,7.99,0.404144,40.414445,7.966190,1,99.0,790.010000,289.630000,716.93,427.300000,4.316162
3,000000000002158151 - T VISITA P BORDA DESIRE A...,AM,1,2017,4.74,0.587795,58.779525,4.740000,1,4.0,18.960000,9.180000,15.54,6.360000,1.590000
4,000000000002158154 - T VISITA P BORDA DESIRE A...,AM,1,2017,4.99,0.621958,62.195832,4.990000,1,15.0,74.850000,38.050000,61.35,23.300000,1.553333
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28668,000000000004267339 - T VISITA DISNEY BELA SANT...,TO,52,2019,4.99,0.449800,44.980013,5.172967,12,5.0,25.997900,8.221300,18.19,10.732600,2.146520
28669,000000000004267503 - PANO SCOTT DURAMAX LIMPEZ...,TO,52,2019,7.99,0.538638,53.863823,8.331573,12,6.0,49.705790,18.684210,34.90,17.501510,2.916918
28670,000000000004268705 - FRONHA AVULSA ESTAMPADA C...,TO,52,2019,4.99,0.528350,52.834953,5.100279,12,18.0,92.130370,34.659230,65.39,32.412565,1.800698
28671,000000000004269808 - CIF ULTRA RAP BANH S/CLOR...,TO,52,2019,3.99,0.187257,18.725715,4.128128,12,14.0,57.459465,7.359925,40.10,34.487860,2.463419
