# Resumo do código

### <u>Código que gera os ficheiros para estudo do comportamento da Delta</u>
---
O objectivo é receber dados da Delta e devolver um conjunto de métricas para prever roturas. Devolve um ficheiro que pode entrar no código 1 para juntar aos dados dos ninjas.

---
- Inputs

> __Dados completos da Delta em pastas de ficheiros__ (de azul a verde)
> - Stocks e trânsito, Sellout do dia anterior

                    ou

> __Ficheiro já completo__ (de vermelho a verde)
> - Stocks e trânsito, Sellout do dia anterior

- Outputs

> __Ficheiro com produtos em causa__ em formato Long

> __Métricas novas:__
> - Roturas de Stock e Pré-rotura
> - Sinal
> - Ciclos e Adequação de Stock
> - MSA (média de sellouts 10 dias antes)
> - STK (Stock disponível + trânsito)
> - (Novo) Balanço médio, mediano, liberal e conservador 
> - (Novo) Dias para a rotura de stock e de prateleira


In [1]:
%%time
import pandas as pd
import numpy as np
import datetime


def escrever_csv(dfa, nome): 
    dfa.to_csv(f'D:\\B&N Dados\\Delta\\Stocks\\StocksTotal\\{nome}.csv', index=False)

def escrever_txt(dfa, nome): 
    dfa.to_csv(f'D:\\B&N Dados\\Delta\\Stocks\\StocksTotal\\{nome}.txt', index=False, header=False)
    
def escrever_excel(dfa, nome):
    dfa.to_excel(f'D:\\B&N Dados\\Delta\\Stocks\\StocksTotal\\{nome}.xlsx' , index=False)

CPU times: total: 359 ms
Wall time: 368 ms


---

#  <span style="color:red"><u>Ler Ficheiro Completo</u> </span>

In [2]:
%%time

#Ler os ficheiros
df_2022 = pd.read_csv('D:\\B&N Dados\\Delta\\Stocks\\Stocks2022\\Stocks_Delta_2022_Limpo.csv')
df_2023 = pd.read_csv('D:\\B&N Dados\\Delta\\Stocks\\Stocks2023\\Stocks_Delta_2023_Limpo.csv')

# Juntar as bases
dataframes = [df_2022, df_2023]
df_Fusão = pd.concat(dataframes, ignore_index=True)
df_Fusão['DATA']= pd.to_datetime(df_Fusão['DATA'], format='%Y-%m-%d')
df_Fusão = df_Fusão.rename(columns={"INTRANSIT": "INTRANSIT_1_Dias_Antes", 
                                    "EXPECTED": "EXPECTED_1_Dias_Antes", 
                                    "PRES_STOCK": "PRES_STOCK_1_Dias_Antes"})


# Ficheiro de previsão
df_Prophet = pd.read_csv('D:\\B&N Dados\\Delta\\Forecast\\Prophet.csv')
df_Prophet['DATA']= pd.to_datetime(df_Prophet['DATA'], format='%Y-%m-%d')

df_XGBoost = pd.read_csv('D:\\B&N Dados\\Delta\\Forecast\\XGBoost.csv')
df_XGBoost['DATA']= pd.to_datetime(df_XGBoost['DATA'], format='%Y-%m-%d')

CPU times: total: 22.2 s
Wall time: 25.4 s


# <font color=red>Opcional:</font> Definir produtos em causa

- Produtos específicos

In [3]:
%%time
# Ler ficheiro dos produtos e lojas para dataframe
df_produtos = pd.read_csv('D:\\B&N Dados\\Delta\\Piloto\\produtos.txt', header=None)
df_lojas = pd.read_csv('D:\\B&N Dados\\Delta\\Piloto\\lojas.txt', header=None)

# Passar para uma lista
produtos = df_produtos[0].tolist()
#lojas = df_lojas[0].tolist()
produtos+=["CAFÉ DELTA Q MYTHIQ 10CAP", "CAFÉ DELTA Q MYTHIQ XL 40CAP", "CAFÉ DELTA Q QALIDUS 10CAP", "CAFÉ DELTA Q QALIDUS 40CAP",
                'CAFÉ DELTA Q QHARACTER 10CAP','CAFÉ DELTA Q QHARACTER 40CAP','CAFÉ DELTA Q DEQAFEINATUS 10CAP','CAFÉ DELTA Q DEQAFEINATUS XL 40CAP',
               'CAFÉ DELTA MOAGEM UNIVERSAL ANGOLA 220G','CAFÉ DELTA MOAGEM UNIVERSAL BRASIL 220G']
# Alterar o dataframe para apenas incluir os produtos e lojas em causa
#dfFinal = df_Fusão[(df_Fusão["DESC_ARTIGO"].isin(produtos)) & (df_Fusão["STORE_NAME"].isin(lojas))].copy()

CPU times: total: 0 ns
Wall time: 433 ms


## <font color=red>Fim</font> 

In [4]:
dfFinal = df_Fusão[(df_Fusão["DESC_ARTIGO"].isin(produtos))].copy()

In [5]:
dfFinal['SELLOUT'] = dfFinal.groupby(["STORE","EAN"])['SELLOUT_1_Dias_Antes'].shift(-1)
dfFinal['STOCK'] = dfFinal.groupby(["STORE","EAN"])['STOCK_1_Dias_Antes'].shift(-1)

In [28]:
dfFinal.head()

Unnamed: 0,DATA,EAN,DESC_ARTIGO,STORE,STORE_NAME,INTRANSIT,EXPECTED,PRES_STOCK,STOCK,STOCK_1_Dias_Antes,SELLOUT,SELLOUT_1_Dias_Antes
60608,2022-01-01,5609060007087,BEBIDA CEREAIS DELTA C/20%CAFE FR 200G,1,CNT MATOSINHOS,0,48,120,151.0,151.0,0.0,11.0
60609,2022-01-02,5609060007087,BEBIDA CEREAIS DELTA C/20%CAFE FR 200G,1,CNT MATOSINHOS,0,48,120,137.0,151.0,14.0,0.0
60610,2022-01-03,5609060007087,BEBIDA CEREAIS DELTA C/20%CAFE FR 200G,1,CNT MATOSINHOS,48,0,120,175.0,137.0,10.0,14.0
60611,2022-01-04,5609060007087,BEBIDA CEREAIS DELTA C/20%CAFE FR 200G,1,CNT MATOSINHOS,0,0,120,162.0,175.0,13.0,10.0
60612,2022-01-05,5609060007087,BEBIDA CEREAIS DELTA C/20%CAFE FR 200G,1,CNT MATOSINHOS,0,48,120,195.0,162.0,15.0,13.0


- Fundir o Ficheiro da Delta com a previsão

In [6]:
%%time
# Prophet
dfFinal = pd.merge(dfFinal, df_Prophet[['DATA', 'STORE', 'DESC_ARTIGO', 'Prophet']], how="left", on=['DATA', 'STORE', 'DESC_ARTIGO',] )
# XGBoost
dfFinal = pd.merge(dfFinal, df_XGBoost[['DATA', 'STORE', 'DESC_ARTIGO', 'XGBoost']], how="left", on=['DATA', 'STORE', 'DESC_ARTIGO',] )

CPU times: total: 2.42 s
Wall time: 2.42 s


# <font color=green>Ficheiro Lido<font>

---

# Colunas de métricas interessantes

> - ROTURA

In [7]:
# Definir coluna de rotura (se stock menor ou igual a 0 e existe Linear)

dfFinal["ROTURA"] = np.where((dfFinal["STOCK"] <= 0) & (dfFinal["PRES_STOCK"] > 0), 1, 0)

> - PRÉ_ROTURA

In [8]:
# Definir coluna de rotura (se stock menor ou igual a 0)

dfFinal["PRE_ROTURA"] = (dfFinal["STOCK"] < dfFinal["PRES_STOCK"]).astype(int)

# Colunas de métricas 30, 60, 120 e 180 dias antes

> - Volatilidade de Procura: <br>
coeficiente de variação

In [9]:
%%time
dfFinal["Volatilidade_30"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).std())/
                             dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).mean()))

dfFinal["Volatilidade_60"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).std())/
                             dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).mean()))

dfFinal["Volatilidade_120"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).std())/
                              dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).mean()))

dfFinal["Volatilidade_180"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).std())/
                              dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).mean()))



CPU times: total: 4.53 s
Wall time: 4.41 s


> - Percentagem de Rotura: <br>
média de roturas $* 100$

In [10]:
%%time
#historico("Percentagem_Roturas", "ROTURA", pd.Series.mean)

dfFinal["Percentagem_Roturas_30"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).mean()))*100

dfFinal["Percentagem_Roturas_60"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).mean()))*100

dfFinal["Percentagem_Roturas_120"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).mean()))*100

dfFinal["Percentagem_Roturas_180"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).mean()))*100


CPU times: total: 2.19 s
Wall time: 2.12 s


> - Percentagem de Supply:<br>
média de vezes que foi pedido stock $*100$

In [11]:
dfFinal["New_Supply"] = np.where((dfFinal["EXPECTED"].shift(1)==0) & (dfFinal["EXPECTED"]>0), 1, 0)

In [12]:
#historico("Percentagem_Supply", "New_Supply", pd.Series.mean)

dfFinal["Percentagem_Supply_30"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['New_Supply'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).sum())/30)*100

dfFinal["Percentagem_Supply_60"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['New_Supply'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).sum())/60)*100

dfFinal["Percentagem_Supply_120"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['New_Supply'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).sum())/120)*100

dfFinal["Percentagem_Supply_180"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['New_Supply'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).sum())/180)*100


> - Efeito fim de semana

In [13]:
dfFinal['SELLOUT_fds'] = dfFinal[dfFinal['DATA'].dt.weekday.isin([4,5,6])]["SELLOUT"].copy()
dfFinal['SELLOUT_semana'] = dfFinal[dfFinal['DATA'].dt.weekday.isin([0,1,2,3])]["SELLOUT"].copy()

In [14]:
dfFinal["Efeito_Fds_30"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_fds'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).median())/
                            (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_semana'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).median())))-1

dfFinal["Efeito_Fds_60"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_fds'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).median())/
                            (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_semana'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).median())))-1

dfFinal["Efeito_Fds_120"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_fds'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).median())/
                            (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_semana'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).median())))-1

dfFinal["Efeito_Fds_180"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_fds'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).median())/
                            (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_semana'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).median())))-1

> - Tempo médio inter-supply

In [15]:
dfFinal["InterSupply"] = np.where(dfFinal["EXPECTED"]==0, 1, 0)

groups = (dfFinal['InterSupply'] != dfFinal['InterSupply'].shift()).cumsum()
result = dfFinal.groupby(groups).agg({'DATA': 'first', 'DESC_ARTIGO': 'first', 'STORE': 'first', 'InterSupply': 'sum'}).reset_index(drop=True)
result = result[result['InterSupply'] > 0]

dfFinal = dfFinal.drop(columns=['InterSupply'])

dfFinal = pd.merge(dfFinal, result, how="left", on=["DATA","DESC_ARTIGO", "STORE"])

In [16]:
#historico("InterSupplyMed", "InterSupply", pd.Series.mean)

dfFinal["InterSupplyMed_30"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['InterSupply'].transform(lambda x: x.rolling(window=30, min_periods=1).mean()))*100

dfFinal["InterSupplyMed_60"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['InterSupply'].transform(lambda x: x.rolling(window=60, min_periods=1).mean()))*100

dfFinal["InterSupplyMed_120"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['InterSupply'].transform(lambda x: x.rolling(window=120, min_periods=1).mean()))*100

dfFinal["InterSupplyMed_180"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['InterSupply'].transform(lambda x: x.rolling(window=180, min_periods=1).mean()))*100


> - Tempo indisponível

In [17]:
'''O que vai acontecer é: no primeiro dia em que há rotura vai aparecer a soma de todos os dias com rotura a seguir a esse!
Todos os outros valores serão NaN para não serem considerados quando for feita a média. Assim a média corresponderá ao
número médio de dias em que se deixa um produto em rotura.'''

dfFinal["Tempo_Indisponível"] = np.where(dfFinal["ROTURA"]==1, 1, 0)

groups = (dfFinal['Tempo_Indisponível'] != dfFinal['Tempo_Indisponível'].shift()).cumsum()
result = dfFinal.groupby(groups).agg({'DATA': 'first', 'DESC_ARTIGO': 'first', 'STORE': 'first', 'Tempo_Indisponível': 'sum'}).reset_index(drop=True)
result = result[result['Tempo_Indisponível'] > 0]

dfFinal = dfFinal.drop(columns=['Tempo_Indisponível'])

dfFinal = pd.merge(dfFinal, result, how="left", on=["DATA","DESC_ARTIGO", "STORE"])

In [18]:
#historico("Percentagem_Supply", "New_Supply", pd.Series.mean)

dfFinal["Tempo_Indisponível_30"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Tempo_Indisponível'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).mean()))

dfFinal["Tempo_Indisponível_60"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Tempo_Indisponível'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).mean()))

dfFinal["Tempo_Indisponível_120"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Tempo_Indisponível'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).mean()))

dfFinal["Tempo_Indisponível_180"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Tempo_Indisponível'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).mean()))


> - Percentagem de dias em Stock Borderline

In [19]:
dfFinal["Stock_Borderline"] = np.where(dfFinal["STOCK"]<0.2*dfFinal["PRES_STOCK"], 1, 0)

In [20]:
dfFinal["Tempo_Stock_Borderline_30"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Stock_Borderline'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).mean()))*100

dfFinal["Tempo_Stock_Borderline_60"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Stock_Borderline'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).mean()))*100

dfFinal["Tempo_Stock_Borderline_120"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Stock_Borderline'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).mean()))*100

dfFinal["Tempo_Stock_Borderline_180"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Stock_Borderline'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).mean()))*100


> - Percentagem de dias de Linear Incompleto

In [21]:
dfFinal["Linear_Incompleto"] = np.where(dfFinal["STOCK"]<dfFinal["PRES_STOCK"], 1, 0)

In [22]:
dfFinal["Tempo_Linear_Incompleto_30"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Linear_Incompleto'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).mean()))*100

dfFinal["Tempo_Linear_Incompleto_60"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Linear_Incompleto'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).mean()))*100

dfFinal["Tempo_Linear_Incompleto_120"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Linear_Incompleto'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).mean()))*100

dfFinal["Tempo_Linear_Incompleto_180"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Linear_Incompleto'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).mean()))*100


> - Percentagem de dias sem vendas

In [23]:
dfFinal["Sem_Vendas"] = np.where(dfFinal["SELLOUT"] == 0, 1, 0)

In [24]:
#historico("Sem_Vendas", "Sem_Vendas", pd.Series.mean)

dfFinal["Sem_Vendas_30"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Sem_Vendas'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).mean()))*100

dfFinal["Sem_Vendas_60"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Sem_Vendas'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).mean()))*100

dfFinal["Sem_Vendas_120"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Sem_Vendas'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).mean()))*100

dfFinal["Sem_Vendas_180"] = (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['Sem_Vendas'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).mean()))*100


> - Vendas perdidas

In [25]:
dfFinal['ROTURA_fds'] = dfFinal[dfFinal['DATA'].dt.weekday.isin([4,5,6])]["ROTURA"].copy()
dfFinal['ROTURA_semana'] = dfFinal[dfFinal['DATA'].dt.weekday.isin([0,1,2,3])]["ROTURA"].copy()

In [26]:
'''Mediana de fins de semana e mediana de semana a multiplicar pelo nº de dias em que há rotura, soma dos valores para
ter as perdas de vendas estimadas'''

#mediana fds*roturas fds + mediana semana*roturas semana

dfFinal["Vendas_Perdidas_30"] = ((dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA_fds'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).sum()) * dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_fds'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).median())) + 
                                (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA_semana'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).sum()) * dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_semana'].shift(1).transform(lambda x: x.rolling(window=30, min_periods=1).median()))
)
dfFinal["Vendas_Perdidas_60"] = ((dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA_fds'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).sum()) * dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_fds'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).median())) + 
                                (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA_semana'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).sum()) * dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_semana'].shift(1).transform(lambda x: x.rolling(window=60, min_periods=1).median()))
)
dfFinal["Vendas_Perdidas_120"] = ((dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA_fds'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).sum()) * dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_fds'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).median())) + 
                                 (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA_semana'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).sum()) * dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_semana'].shift(1).transform(lambda x: x.rolling(window=120, min_periods=1).median()))
)
dfFinal["Vendas_Perdidas_180"] = ((dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA_fds'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).sum()) * dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_fds'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).median())) + 
                                 (dfFinal.groupby(['DESC_ARTIGO', "STORE"])['ROTURA_semana'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).sum()) * dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT_semana'].shift(1).transform(lambda x: x.rolling(window=180, min_periods=1).median()))
)

# Métricas até 10 dias antes:

- INSTRANSIT
- EXPECTED
- SELLOUT
- CICLOS
- Dias para Rotura
- Adequação

In [28]:
# Quantos dias antes:

diaI=4         #dia inicial
diaF=5       #dia final

> Função

In [29]:
# Função para colunas de dias anteriores
def dias(df, dia, coluna):         #dia é quantos dias antes
    a=int(dia)

    valores = df.groupby(['DESC_ARTIGO', 'STORE'])[coluna].transform(lambda x: x.shift(a))
    valores[:a] = np.nan
    
    df.loc[:,'%s_%s_Dias_Antes' % (coluna, a)] = valores

> - SELLOUTS

In [30]:
%%time
# Usar função para sellouts até 10 dias antes

for i in range(diaI+1, diaF+1):
    dias(dfFinal, i, "SELLOUT")

CPU times: total: 1.66 s
Wall time: 1.66 s


> - STOCKS

In [31]:
# Usar função para Stocks até 10 dias antes

for i in range(diaI, diaF+1):
    dias(dfFinal, i, "STOCK")

> > - Ordenar

> - INTRANSIT e EXPECTED

In [32]:
# Usar função para Trânsito até 10 dias antes


for i in range(diaI, diaF+1):
    dias(dfFinal, i, "INTRANSIT")
    
for i in range(diaI, diaF+1):
    dias(dfFinal, i, "EXPECTED")

> - STK

In [33]:
# STK do dia = soma dos stocks em loja com os stocks em trânsito no próprio dia

dfFinal["STK"] = dfFinal["STOCK"] + dfFinal["INTRANSIT"] + dfFinal["EXPECTED"]

for i in range(diaI, diaF+1):
    dias(dfFinal, i, "STK")

> - MSA

In [None]:
# MSA do dia = média dos sellouts dos 10 dias anteriores ao dia em causa

dfFinal["MSA10"] = dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=10, min_periods=1).mean())
dfFinal["MSA10Dp"] = dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=10, min_periods=1).std())

for i in range(diaI, diaF+1):
    dias(dfFinal, i, "MSA10")

    
dfFinal["MSA20"] = dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=20, min_periods=1).mean())
dfFinal["MSA20Dp"] = dfFinal.groupby(['DESC_ARTIGO', "STORE"])['SELLOUT'].shift(1).transform(lambda x: x.rolling(window=20, min_periods=1).std())
  
for i in range(diaI, diaF+1):
    dias(dfFinal, i, "MSA20")

> - CICLOS

In [35]:
# Coluna de Ciclos de reposição

dfFinal["CICLOS"] = dfFinal["STOCK"]/dfFinal["PRES_STOCK"]

for i in range(diaI, diaF+1):
    dias(dfFinal, i, "CICLOS")

> - Dias para rotura de Stock

In [36]:
#dfFinal = dfFinal.copy()
# Dias para a rotura mas com o Sellout médio (móvel) dos últimos 10 dias 
dfFinal["Dias_para_Rotura_Stock"] = dfFinal["STOCK"] / dfFinal["MSA10"]

for i in range(diaI, diaF+1):
    dias(dfFinal, i, "Dias_para_Rotura_Stock")

> - Dias para rotura de Linear

In [37]:
# Definir a métrica: Preslinear / med(Sellouts 10 dias)
dfFinal['Dias_Duração_Linear'] = dfFinal["PRES_STOCK"] / dfFinal["MSA10"]

for i in range(diaI, diaF+1):
    dias(dfFinal, i, "Dias_Duração_Linear")

> - Adequação de Stock

In [38]:
# Coluna de adequação de stock


dfFinal["Adequação"]= np.where(dfFinal["CICLOS"] > 1.1, "Stock Suficiente", 
                      np.where((dfFinal["CICLOS"] <= 1.1) & (dfFinal["INTRANSIT"]+dfFinal["EXPECTED"]+dfFinal["STOCK"]>=dfFinal["PRES_STOCK"]), "Stock Insuf c Forn Adequado", 
                      np.where((dfFinal["CICLOS"] <= 1.1) & (dfFinal["INTRANSIT"]+dfFinal["EXPECTED"]+dfFinal["STOCK"]<dfFinal["PRES_STOCK"]), "Stock Insuf c Forn Desadequado", 
                      "")))

for i in range(diaI, diaF+1):
    dias(dfFinal, i, "Adequação")

# Escrever

- 0's e 1's

In [72]:
# Novo dataframe que apenas inclui dias em que existe a 1ª rotura e o dia anterior a essa rotura

# Tirar 1's depois do primeiro
dfFinalLimitado = dfFinal[~((dfFinal["ROTURA"] == 1) & (dfFinal["ROTURA"].shift(1) == 1))].copy()

# Apenas incluir primeira rotura
dfFinalLimitadoRoturas = dfFinal[((dfFinal["ROTURA"] == 1) & (dfFinal["ROTURA"].shift(1) == 0))].copy() #| ((dfFinal["ROTURA"] == 0) & (dfFinal["ROTURA"].shift(-1) == 1))]

- Dias certos

In [73]:
dfFinal2 = dfFinal.loc[(dfFinal['DATA'] >= '2023-01-01') ].copy()
#df_DiasCertos = dfFinalLimitado.loc[(dfFinalLimitado['DATA'] >= '2023-01-01') ].copy()
#df_RoturasDiasCertos = dfFinalLimitadoRoturas.loc[(dfFinalLimitadoRoturas['DATA'] >= '2023-01-01') ].copy()

In [76]:
dfFinal2.DATA.unique()

array(['2023-01-01T00:00:00.000000000', '2023-01-02T00:00:00.000000000',
       '2023-01-03T00:00:00.000000000', '2023-01-04T00:00:00.000000000',
       '2023-01-05T00:00:00.000000000', '2023-01-06T00:00:00.000000000',
       '2023-01-07T00:00:00.000000000', '2023-01-08T00:00:00.000000000',
       '2023-01-09T00:00:00.000000000', '2023-01-10T00:00:00.000000000',
       '2023-01-11T00:00:00.000000000', '2023-01-12T00:00:00.000000000',
       '2023-01-13T00:00:00.000000000', '2023-01-14T00:00:00.000000000',
       '2023-01-15T00:00:00.000000000', '2023-01-16T00:00:00.000000000',
       '2023-01-17T00:00:00.000000000', '2023-01-18T00:00:00.000000000',
       '2023-01-19T00:00:00.000000000', '2023-01-20T00:00:00.000000000',
       '2023-01-21T00:00:00.000000000', '2023-01-22T00:00:00.000000000',
       '2023-01-23T00:00:00.000000000', '2023-01-24T00:00:00.000000000',
       '2023-01-25T00:00:00.000000000', '2023-01-26T00:00:00.000000000',
       '2023-01-27T00:00:00.000000000', '2023-01-28

- Passar para csv

In [88]:
%%time

escrever_csv(filtered_oi, "Métricas3060120_Piloto")

CPU times: total: 219 ms
Wall time: 524 ms


In [55]:
escrever_csv(dfFinal2, "Mil_MétricasCerto07")
#escrever_csv(df_DiasCertos, "StocksDelta_2023_10prod_Limpo")
#escrever_csv(df_RoturasDiasCertos, "StocksDelta_2023_10prod_Roturas")

In [4]:
def escrever_excel(dataFrame, nomeFicheiro):
    dataFrame.to_excel('D:\\B&N Dados\\Delta\\Piloto\\%s.xlsx' %nomeFicheiro, index=False)
    

In [5]:
escrever_excel(oi, "ParaTestarCoisas")

In [4]:
oiEscrever = oi[("2023-04-14"<=oi["DATA"]<="2023-04-16") or ("2023-04-21"<=oi["DATA"]<="2023-04-23") or ("2023-04-28"<=oi["DATA"]<="2023-04-30") or ("2023-05-05"<=oi["DATA"]<="2023-05-07")]

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [87]:
filtered_oi = oi[oi["DATA"].between("2023-04-14", "2023-04-16") |
                  oi["DATA"].between("2023-04-21", "2023-04-23") |
                  oi["DATA"].between("2023-04-28", "2023-04-30") |
                  oi["DATA"].between("2023-05-05", "2023-05-07")]

# Clickhouse

In [44]:
import clickhouse_connect
from clickhouse_driver import Client
from unidecode import unidecode

client = clickhouse_connect.get_client(host='ch.brandsandninjas.com', 
                                       port=443, 
                                       username='chninja', 
                                       password='ku43ueqnB5Q0AYb2C4FsJRTc7qX',
                                       database = "Delta")

In [None]:
qualbase = 1

if qualbase == 1:
    baseCH = dfFinal.copy()
    tabela = "Daily"


In [None]:
## Algumas alterações
baseCH['DATA']= pd.to_datetime(baseCH['DATA'], format='%Y-%m-%d')  # Passar a Data para datetime

baseCH.columns = [unidecode(col) for col in baseCH.columns]        # Tirar acentos e afins dos nomes das colunas porque 
                                                                   # o Clickhouse não gosta


## Listas para definir os tipos de dados de cada coluna a inserir

data = ["DATA"]
#data = [col for col in baseCH.columns if baseCH[col].dtype == 'datetime64[ns]']
texto = [col for col in baseCH.columns if baseCH[col].dtype == 'object']
inteiros = [col for col in baseCH.columns if baseCH[col].dtype == 'int64' or baseCH[col].dtype == 'int32']
floats = [col for col in baseCH.columns if baseCH[col].dtype == 'float64']


## Mudar inteiros para floats porque senão não pode haver missing values
for col_name in inteiros:
    baseCH[col_name] = baseCH[col_name].astype(float)

## Missing values em strings também estragam tudo
baseCH[texto] = baseCH[texto].fillna("-")
baseCH[texto] = baseCH[texto].astype(str)

#Função que vai fazer a schema
def schema(lista, tipo):
    result_list = [f"{element} {tipo}" for element in lista]
    return result_list

# Schema a ser feito
data1 = schema(data, "Date")
texto1 = schema(texto, "String")
inteiros1 = schema(inteiros, "Float64")
floats1 = schema(floats, "Float64")
total = tuple(data1 + texto1 + inteiros1 + floats1)
schema = ', '.join([column.replace("'", "") for column in total])

# Split the input string by commas
parts = schema.split(', ')
# Process each part and wrap the first word in double quotes
output_parts = []
for part in parts:
    words = part.split()
    if words:
        first_word = words[0]
        remaining_words = ' '.join(words[1:])
        output_part = f'"{first_word}" {remaining_words}'
        output_parts.append(output_part)
# Join the modified parts back into a string
schema = ', '.join(output_parts)

# Eliminar tabela que possa existir no CH com o mesmo nome
client.command(f'DROP TABLE IF EXISTS {tabela}')

# Criar tabela no CH
client.command(f'''
    CREATE TABLE IF NOT EXISTS {tabela} (
        {schema}
        ) ENGINE = MergeTree
        ORDER BY (DATA)
''')


# Exportar os dados para o clickhouse
client.insert_df(tabela, baseCH, column_names=baseCH.columns.tolist())