### Descrição do Notebook

Notebook de expansão de dados. Neste notebook foi aplicada a seguinte lógica:
1. Em **2018**, cada item e UF foi aplicada uma varição de preços atráves de um vetor aleatório ponderado onde o preço poderia se manter igual ou aumentar 1% ou 2%. A probabilidade ponderada para cada um dos preços é 60%, 20%, 20%, respectivamente.

2. Em **2019**, cada item e UF foi aplicada uma varição de 5% e, de maneira similar, e, em média, 50% dos produtos se mantiveram com o mesmo preço e 50% dos outros produtos sofreram o aumento.

In [1]:
import pandas as pd
import random
from itertools import product

# Gerando dados de 2018

In [2]:
df2017 = pd.read_csv('../datasets/df_rpo_v2.csv')
df2017["DATA_TRAT."] = pd.to_datetime(df2017["DATA_TRAT."], dayfirst = True)
df2017 = df2017.loc[df2017["DATA_TRAT."] <= "2017-12-31"].copy()
df2017 = df2017.reset_index(drop = True)

In [3]:
df2018 = df2017.copy()

In [4]:
df2018['DATA_TRAT.'] = pd.to_datetime(df2018['DATA_TRAT.'])

Código que percorre produto e UF e aplica a regra de aumento de preços:

In [5]:
lista_produtos  = df2018["SAP+NOME"].unique()
lista_uf = df2018["UF"].unique()

for produto in lista_produtos:
    for uf in lista_uf:
        vetor = [1, 1.01, 1.02]
        colunas = ["Preço", "Vendas Reais $", "CMV", "Margem Líquida Real %", "Margem Líquida Real $", "Mg %"]
        df_aux = df2018.loc[(df2018["SAP+NOME"] == produto) & (df2018["UF"] == uf)].copy()
               
        for index, row in df_aux[colunas].iterrows():
            random_seed(50)
            n_ = random.choices(vetor, weights = [60, 20, 20])
            df2018.iloc[index, [9, 4, 5, 6, 7, 12]] = row[colunas] * n_

Substituindo as datas para o ano seguinte.

In [6]:
data = df2018['DATA_TRAT.']
data = data.apply(lambda x: x.replace(year=2018))
df2018['DATA_TRAT.'] = data

In [7]:
df2018 = df2018.sort_values(by=['SAP+NOME', 'UF', 'DATA_TRAT.'], ascending=True)

In [8]:
df2018.to_csv('../datasets/df2018.csv', index=False)

# Gerando dados de 2019

In [9]:
df2019 = df2018.copy()

In [10]:
df2019['DATA_TRAT.'] = pd.to_datetime(df2019['DATA_TRAT.'])

In [11]:
data = df2019['DATA_TRAT.']
data = data.apply(lambda x: x.replace(year=2019))
df2019['DATA_TRAT.'] = data

Código que percorre produto e UF e aplica a regra de aumento de preços:

In [12]:
lista_produtos  = df2019["SAP+NOME"].unique()
lista_uf = df2019["UF"].unique()

for produto in lista_produtos:
    for uf in lista_uf:
        vetor = [1, 1.05]
        colunas = ["Preço", "Vendas Reais $", "CMV", "Margem Líquida Real %", "Margem Líquida Real $", "Mg %"]
        df_aux = df2018.loc[(df2019["SAP+NOME"] == produto) & (df2019["UF"] == uf)].copy()
        
        
        for index, row in df_aux[colunas].iterrows():
            random_seed(50)
            n_ = random.choices(vetor, weights = [50, 50])
            df2019.iloc[index, [9, 4, 5, 6, 7, 12]] = row[colunas] * n_

In [13]:
df2019 = df2019.sort_values(by=['SAP+NOME', 'UF', 'DATA_TRAT.'], ascending=True)
df2019.head(30)

Unnamed: 0,SAP+NOME,UF,DATA_TRAT.,Vendas Reais Qtde,Vendas Reais $,CMV,Margem Líquida Real %,Margem Líquida Real $,Venda Líquida Real $,Preço,preço2,CMV/QTD,Mg %
0,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-01-12,1.0,5.0399,1.7675,52.970109,1.9493,3.68,5.0399,4.99,1.75,0.529701
1,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-01-15,1.0,5.0898,1.8462,51.831522,1.9074,3.68,5.0898,4.99,1.81,0.518315
2,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-01-16,1.0,5.0898,1.8462,51.831522,1.9074,3.68,5.0898,4.99,1.81,0.518315
3,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-01-22,2.0,9.98,3.62,50.815217,3.74,7.36,4.99,4.99,1.81,0.508152
4,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-02-12,1.0,2.99,1.81,17.727273,0.39,2.2,2.99,2.99,1.81,0.177273
5,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-03-01,1.0,5.0399,1.8281,51.32337,1.8887,3.68,5.0399,4.99,1.81,0.513234
6,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-03-06,1.0,5.34429,1.93851,54.423098,2.00277,3.68,5.34429,4.99,1.81,0.544231
7,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-03-11,4.0,20.958,7.602,53.355978,7.854,14.72,5.2395,4.99,1.81,0.53356
8,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-03-17,2.0,10.479,3.801,53.355978,3.927,7.36,5.2395,4.99,1.81,0.53356
9,000000000002158151 - T VISITA P BORDA DESIRE A...,AC,2019-03-25,1.0,2.99,1.81,17.727273,0.39,2.2,2.99,2.99,1.81,0.177273


In [14]:
df2019.to_csv('../datasets/df2019.csv', index=False)

# Gerando DF final com os 3 anos

Concatenando os dataframes gerados anteriormente.

In [15]:
dfFinal = pd.concat([df2017, df2018, df2019]).reset_index(drop=True)
dfFinal['DATA_TRAT.'] = pd.to_datetime(dfFinal['DATA_TRAT.'], format='%Y-%m-%d')
dfFinal = dfFinal.sort_values(by=['SAP+NOME', 'UF', 'DATA_TRAT.'], ascending=True)

In [16]:
dfFinal.to_csv('../datasets/df_rpo_v3.csv', index=False)