## Descrição do Notebook

Este é um notebook somente para **EDA**. Os tratamentos feitos aqui foram feitos sobre os dados brutos iniciais e o *dataset* final gerado não foi utilizado como base na expansão dos dados.

In [1]:
import pandas as pd
import xlrd

from fuzzywuzzy import process
import numpy as np
import datetime



### Leitura  e observação do df principal

In [2]:
df_tratado = pd.read_csv('../datasets/df_rpo_v4_dia.csv')
df_tratado.shape

(104186, 15)

In [3]:
df_tratado.rename(columns={"DATA_TRAT.":"Data"}, inplace=True)

### Checagem de duplicidade no df principal

In [4]:
df_tratado.duplicated(subset=['SAP+NOME', 'UF', 'DATA_TRAT.']).value_counts()

KeyError: Index(['DATA_TRAT.'], dtype='object')

### Criação da coluna da variável dummy de preço psicologico

In [6]:
df_tratado['DPPsic'] = ''
df_tratado.loc[df_tratado['Preço'] != df_tratado['preço2'], 'DPPsic'] = 0
df_tratado.loc[df_tratado['Preço'] == df_tratado['preço2'], 'DPPsic'] = 1

### Calculo de correlação entre quantidade de vendas e preço

In [9]:
df_corr = df_tratado.groupby(['UF', 'SAP+NOME'])[['Preço', 'Vendas Reais Qtde']].corr().reset_index()

In [10]:
df_corr

Unnamed: 0,UF,SAP+NOME,level_2,Preço,Vendas Reais Qtde
0,AC,000000000002158151 - T VISITA P BORDA DESIRE A...,Preço,1.000000,
1,AC,000000000002158151 - T VISITA P BORDA DESIRE A...,Vendas Reais Qtde,,
2,AC,000000000002158154 - T VISITA P BORDA DESIRE A...,Preço,1.000000,-0.562500
3,AC,000000000002158154 - T VISITA P BORDA DESIRE A...,Vendas Reais Qtde,-0.562500,1.000000
4,AC,000000000002166665 - FRONHA AVULSA ESTAMPADA A...,Preço,1.000000,-0.517137
...,...,...,...,...,...
923,TO,000000000004269111 - DESINF LIQ PINHO SOL CITR...,Vendas Reais Qtde,,
924,TO,000000000004269808 - CIF ULTRA RAP BANH S/CLOR...,Preço,1.000000,-0.475099
925,TO,000000000004269808 - CIF ULTRA RAP BANH S/CLOR...,Vendas Reais Qtde,-0.475099,1.000000
926,TO,000000000004269883 - CIF ULT RAP TIRA LIMO C/C...,Preço,1.000000,-0.153044


In [11]:
df_corr.isnull().sum()

UF                    0
SAP+NOME              0
level_2               0
Preço                67
Vendas Reais Qtde    69
dtype: int64

In [12]:
df_corr = df_corr.loc[(df_corr['level_2'] == 'Vendas Reais Qtde') & (df_corr['Preço'].notnull()),\
                      ['UF', 'SAP+NOME','level_2','Preço']].sort_values(by='Preço', ascending=True).reset_index()

df_corr = df_corr[['UF', 'SAP+NOME', 'Preço']]

In [13]:
df_corr

Unnamed: 0,UF,SAP+NOME,Preço
0,RO,000000000004267279 - T VISITA DISNEY CARS SANT...,-1.000000
1,SE,000000000004268705 - FRONHA AVULSA ESTAMPADA C...,-0.885349
2,SP,000000000004269883 - CIF ULT RAP TIRA LIMO C/C...,-0.877373
3,SP,000000000004248118 - AMACIANTE DOWNY LIRIOS DO...,-0.875678
4,RJ,000000000004269883 - CIF ULT RAP TIRA LIMO C/C...,-0.868119
...,...,...,...
419,PE,000000000004269111 - DESINF LIQ PINHO SOL CITR...,0.510949
420,SC,000000000004269111 - DESINF LIQ PINHO SOL CITR...,0.544581
421,PR,000000000004269111 - DESINF LIQ PINHO SOL CITR...,0.564917
422,RO,000000000004269111 - DESINF LIQ PINHO SOL CITR...,0.612372


### Cálculo do numero de semanas observadas por série

In [17]:
df_corr_obs = df_tratado.groupby(['UF', 'SAP+NOME']).Data.nunique().reset_index()

In [18]:
df_corr_obs

Unnamed: 0,UF,SAP+NOME,Data
0,AC,000000000002158151 - T VISITA P BORDA DESIRE A...,4
1,AC,000000000002158154 - T VISITA P BORDA DESIRE A...,10
2,AC,000000000002166665 - FRONHA AVULSA ESTAMPADA A...,16
3,AC,000000000002166719 - FRONHA AVULSA LISA ANDREZA,18
4,AC,000000000004243420 - AMACIANTE COMFORT CONCENT...,44
...,...,...,...
459,TO,000000000004267503 - PANO SCOTT DURAMAX LIMPEZ...,7
460,TO,000000000004268705 - FRONHA AVULSA ESTAMPADA C...,6
461,TO,000000000004269111 - DESINF LIQ PINHO SOL CITR...,10
462,TO,000000000004269808 - CIF ULTRA RAP BANH S/CLOR...,33


### DF com correlação entre preço e quantidade e número de semanas observadas por série

In [19]:
df_corr_final = pd.merge(df_corr_obs, df_corr, how='left', on=['UF', 'SAP+NOME'])
df_corr_final.rename(columns={"Preço":"Correlacao", "Data":'NObs'}, inplace = True)
df_corr_final = df_corr_final.sort_values('NObs', ascending=False)
df_corr_final.reset_index(drop=True)

Unnamed: 0,UF,SAP+NOME,NObs,Correlacao
0,BA,000000000004243420 - AMACIANTE COMFORT CONCENT...,289,-0.654488
1,PE,000000000004243420 - AMACIANTE COMFORT CONCENT...,285,-0.757781
2,SP,000000000002158154 - T VISITA P BORDA DESIRE A...,274,-0.451737
3,SP,000000000002158151 - T VISITA P BORDA DESIRE A...,274,-0.472840
4,GO,000000000004243420 - AMACIANTE COMFORT CONCENT...,262,-0.651939
...,...,...,...,...
459,PA,000000000004270164 - DESINF LIQ PINHO SOL ORIG...,1,
460,PI,000000000004267503 - PANO SCOTT DURAMAX LIMPEZ...,1,
461,PI,000000000004269111 - DESINF LIQ PINHO SOL CITR...,1,
462,AM,000000000004270164 - DESINF LIQ PINHO SOL ORIG...,1,


In [56]:
### CSV para dashboard
#df_corr_final.to_csv('../datasets/db_corr_nobs.csv', decimal = ',', sep=';', index=False)

### Acrescenta o número de semanas observadas ao df principal, renomeia SAP+NOME

In [21]:
df_tratado_final = pd.merge(df_tratado, df_corr_final[['UF', 'SAP+NOME', 'NObs']], 
                            how='left', left_on=['UF', 'SAP+NOME'], right_on=['UF', 'SAP+NOME'])

df_tratado_final.rename(columns={'SAP+NOME':'Produto', 'Vendas Reais Qtde':'QTD'}, inplace = True)

sap_nome = df_tratado_final['Produto'].str.split(" - ", n=1, expand=True)

df_tratado_final['SAP'] = sap_nome[0].apply(lambda x: x.lstrip('0'))

df_tratado_final['Produto'] = sap_nome[1]

In [22]:
df_tratado_final

Unnamed: 0,Produto,UF,Data,preço2,Mg %,Margem Líquida Real %,Preço,QTD,Vendas Reais $,Margem Líquida Real $,Venda Líquida Real $,CMV,CMV/QTD,DPPsic,NObs,SAP
0,AMACIANTE COMFORT CONCENTRADO 500ML,AL,2017-01-02,7.99,0.407011,40.701149,7.990,12.0,95.88,35.41,87.00,51.59,4.299167,1,203,4243420
1,AMACIANTE COMFORT CONCENTRADO 500ML,AM,2017-01-02,7.99,0.554937,55.493749,7.865,24.0,188.76,104.75,188.76,84.01,3.500417,0,187,4243420
2,AMACIANTE COMFORT CONCENTRADO 500ML,AP,2017-01-02,7.99,0.499373,49.937312,7.990,11.0,87.89,39.83,79.76,39.93,3.630000,1,145,4243420
3,JG CAMA QUEEN PRATA 150FIOS MALIBU SANTI,AP,2017-01-02,129.99,0.498731,49.873123,129.990,1.0,129.99,47.17,94.58,47.41,47.410000,1,21,4263231
4,T VISITA P BORDA DESIRE AZUL 6238,BA,2017-01-02,4.99,0.416721,41.672131,4.190,10.0,41.90,12.71,30.50,17.79,1.779000,0,199,2158151
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
34494,AMACIANTE COMFORT CONCENTRADO 500ML,TO,2017-12-31,4.99,0.005587,0.558747,4.990,35.0,174.65,0.71,127.07,126.36,3.610286,1,197,4243420
34495,AMACIANTE DOWNY LIRIOS DO CAMPO 500ML,TO,2017-12-31,6.99,0.178437,17.843683,6.990,12.0,83.88,10.89,61.03,50.14,4.178333,1,32,4248118
34496,KIT CABIDE C/3 MADEIRA REV,TO,2017-12-31,1.99,0.146507,14.650706,10.990,14.0,153.86,16.40,111.94,95.54,6.824286,0,45,4261082
34497,JG CAMA QUEEN MICROFIBRA ANDREZA,TO,2017-12-31,49.99,0.277426,27.742645,49.990,2.0,99.98,20.18,72.74,52.56,26.280000,1,83,4266282


In [55]:
# df_tratado_final.to_csv('../datasets/df_tratado_final.csv', decimal = '.', sep=';', index=False)

### Criando df que será utilizado para ajustar o modelo - Produto individualizado

In [23]:
df_modelo_pi = df_tratado_final.loc[df_tratado_final['NObs'] >= 16, ['SAP', 'Produto', 'UF', 'Data', 
                                                                   'Preço', 'QTD', 'CMV/QTD',
                                                                   'DPPsic']]

In [25]:
df_modelo_pi

Unnamed: 0,SAP,Produto,UF,Data,Preço,QTD,CMV/QTD,DPPsic
0,4243420,AMACIANTE COMFORT CONCENTRADO 500ML,AL,2017-01-02,7.990,12.0,4.299167,1
1,4243420,AMACIANTE COMFORT CONCENTRADO 500ML,AM,2017-01-02,7.865,24.0,3.500417,0
2,4243420,AMACIANTE COMFORT CONCENTRADO 500ML,AP,2017-01-02,7.990,11.0,3.630000,1
3,4263231,JG CAMA QUEEN PRATA 150FIOS MALIBU SANTI,AP,2017-01-02,129.990,1.0,47.410000,1
4,2158151,T VISITA P BORDA DESIRE AZUL 6238,BA,2017-01-02,4.190,10.0,1.779000,0
...,...,...,...,...,...,...,...,...
34494,4243420,AMACIANTE COMFORT CONCENTRADO 500ML,TO,2017-12-31,4.990,35.0,3.610286,1
34495,4248118,AMACIANTE DOWNY LIRIOS DO CAMPO 500ML,TO,2017-12-31,6.990,12.0,4.178333,1
34496,4261082,KIT CABIDE C/3 MADEIRA REV,TO,2017-12-31,10.990,14.0,6.824286,0
34497,4266282,JG CAMA QUEEN MICROFIBRA ANDREZA,TO,2017-12-31,49.990,2.0,26.280000,1


# SORTED()

In [26]:
aux = df_modelo_pi.copy()

lista_unicos = sorted(list(aux["Produto"].unique()))
aux["GrpProd"] = np.nan
grupo = 0
thresh = 52

# While

In [27]:
while len(lista_unicos) > 0:
    item = lista_unicos[0] 
    similaridades = process.extract(item, lista_unicos)
    for i in range(len(similaridades)):
        if (similaridades[i][1] >= thresh):
            aux.loc[aux["Produto"] == similaridades[i][0], "GrpProd"] = grupo
            lista_unicos.remove(similaridades[i][0])
    grupo += 1

## Validação

In [28]:
for i in range(len(aux["GrpProd"].unique())):
    print(f'grupo => {i}')
    print(aux.loc[aux["GrpProd"] == i]["Produto"].unique())

grupo => 0
['AMACIANTE COMFORT CONCENTRADO 500ML'
 'AMACIANTE DOWNY LIRIOS DO CAMPO 500ML'
 'AMACIANTE COMFORT PURO CUIDADO 500ML']
grupo => 1
['KIT CABIDE C/3 MADEIRA REV' 'CIF ULT RAP TIRA LIMO C/CLORO SQZ 500ML'
 'CIF ULTRA RAP BANH S/CLORO SQUEEZE 500ML']
grupo => 2
['DESINF LIQ PINHO SOL CITRUS LIMAO 500ML'
 'DESINF LIQ PINHO SOL ORIGINAL 500ML']
grupo => 3
['FRONHA AVULSA ESTAMPADA ANDREZA' 'FRONHA AVULSA LISA ANDREZA'
 'FRONHA AVULSA LISA CAMESA' 'FRONHA AVULSA ESTAMPADA CAMESA']
grupo => 4
['JG CAMA QUEEN PRATA 150FIOS MALIBU SANTI'
 'JG CAMA QUEEN MICROFIBRA ANDREZA']
grupo => 5
['PANO SCOTT DURAMAX LIMPEZA DIARIA C/5']
grupo => 6
['T VISITA P BORDA DESIRE AGUA 6243' 'T VISITA DISNEY CARS SANTISTA'
 'T VISITA DISNEY BELA SANTISTA']
grupo => 7
['T VISITA P BORDA DESIRE AZUL 6238']


In [29]:
sorted(aux["GrpProd"].unique())[-1]

7.0

## Realizando os agrupamentos

In [30]:
def agrupamentos(dataframe, threshold:float):
    """
    Descreve uma função que classifica os itens em grupos de similaridade utilizando fuzzy matching.
    
    dataframe -> dataframe que contém os itens a serem classificados]
    threshold -> grau de similaridade entre os nomes dos itens (0 a  100)
    """
    
    # Cria um vetor de itens únicos ordenados alfabeticamente
    lista_unicos = sorted(list(dataframe["Produto"].unique()))
    
    # Cria uma feature de NaN's chamada Grupo
    dataframe["GrpProd"] = np.nan
    grupo = 0
    
    # Percorre o nosso dataframe e faz o agrupamento entre os itens
    while len(lista_unicos) > 0:
        item = lista_unicos[0] 
        similaridades = process.extract(item, lista_unicos)
        for i in range(len(similaridades)):
            if (similaridades[i][1] >= threshold):
                dataframe.loc[dataframe["Produto"] == similaridades[i][0], "GrpProd"] = grupo
                lista_unicos.remove(similaridades[i][0])
        grupo += 1
    
    return dataframe

### Criando df que será utilizado para ajustar o modelo - Produto agrupado

In [31]:
df_modelo_pa = agrupamentos(aux, 55)

In [33]:
aux['PrXQtd'] = aux['Preço'] * aux['QTD'] 

aux['CMVXQtd'] = aux['CMV/QTD'] * aux['QTD']

aux['PPsicXQtd'] = aux['DPPsic'] * aux['QTD']

aux['PPsicXQtd'] = aux['PPsicXQtd'].astype(int)

df_modelo_pa = aux[['GrpProd', 'UF', 'Data', 'QTD', 
                   'PrXQtd', 'CMVXQtd', 'PPsicXQtd']].groupby(['GrpProd', 'UF', 'Data']).sum().reset_index()
          
df_modelo_pa['Preço'] = df_modelo_pa['PrXQtd'] / df_modelo_pa['QTD']

df_modelo_pa['CMV/QTD'] = df_modelo_pa['CMVXQtd'] / df_modelo_pa['QTD']

df_modelo_pa['DPPsic'] = df_modelo_pa['PPsicXQtd'] / df_modelo_pa['QTD']

df_modelo_pa.drop(columns=['CMVXQtd', 'PrXQtd', 'PPsicXQtd'], inplace = True)

In [34]:
df_modelo_pa.head(60)

Unnamed: 0,GrpProd,UF,Data,QTD,Preço,CMV/QTD,DPPsic
0,0.0,AC,2017-01-20,4.0,7.99,4.385,1.0
1,0.0,AC,2017-01-22,5.0,7.99,4.384,1.0
2,0.0,AC,2017-03-31,4.0,4.99,4.32,1.0
3,0.0,AC,2017-04-02,3.0,4.99,4.316667,1.0
4,0.0,AC,2017-04-05,3.0,4.99,4.32,1.0
5,0.0,AC,2017-06-24,3.0,7.99,6.58,1.0
6,0.0,AC,2017-07-01,2.0,9.99,6.375,1.0
7,0.0,AC,2017-08-03,5.0,7.99,6.582,1.0
8,0.0,AC,2017-08-04,4.0,7.99,6.585,1.0
9,0.0,AC,2017-08-07,3.0,7.99,6.583333,1.0


In [35]:
df_modelo_pa.to_csv('../datasets/df_modelo_pa_diario.csv', decimal = '.', sep=';', index=False)

df_modelo_pi.to_csv('../datasets/df_modelo_pi_diario.csv', decimal = '.', sep=';', index=False)