In [1]:
import datacleaner as dtclean
import dataexplore as dtexp
import pandas as pd
import numpy as np
from fbprophet import Prophet
from fbprophet.diagnostics import cross_validation
from fbprophet.plot import add_changepoints_to_plot
from fbprophet.plot import plot_plotly
import seaborn as sns
import plotly.graph_objs as go
import plotly.tools
import matplotlib.pyplot as plt
# Offline mode
import plotly.offline as py
from plotly.offline import init_notebook_mode, iplot

# "high resolution"
%config InlineBackend.figure_format = 'retina'
init_notebook_mode(connected=True)

# Visualizando o dataframe

In [2]:
df_432_time_sale = dtclean.get_Dataframes_time(432,'s')
df_432_time_sale.reset_index(inplace=True)
sns.set(style="darkgrid")
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})

iplot(dtexp.getTableDataframe(df_432_time_sale))

# Análise dos Dados

#### Dados negativos

In [None]:
df_432_time_sale.loc[df_432_time_sale['y'] < 0]

1. Em 20-03 houve -24 produtos vendidos e -1 cliente na loja
2. Em 02-04 houve -8 produtos vendidos e -1 cliente na loja
3. Em 23-04 houve -2 produtos vendidos e 0 cliente na loja
4. Em 20-05 houve -3 produtos vendidos e -1 cliente na loja
5. Em 21-05 houve -6 produtos vendidos e -1 cliente na loja
6. Em 26-05 houve -16 produtos vendidos e 1 cliente na loja

`Nesse caso notamos que esse comportamento ocorre sempre após as 21 horas, aparentemente próximo do horário de encerramento do atendimento. Resta a dúvida sobre qual motivo leva os dados a terem esses valores`
`Verificamos que esse comportamento não se repete na loja 274.`

### Remoção dos dados negativos

In [None]:
df_432_time_sale = df_432_time_sale.loc[df_432_time_sale['y'] > 0]

In [None]:
iplot(dtexp.getScatterPlot(df_432_time_sale,title='Vendas/hora (março-maio de 2020)'))

In [None]:
df_new = dtexp.date_features(df_432_time_sale)
trace=go.Table(header=dict(values=list(df_new.columns)),
               cells=dict(values=[df_new.mes,
                                  df_new.diames,
                                  df_new.semana,
                                  df_new.diasemana,
                                  df_new.hora,
                                  df_new.minuto, df_new.y]))

data=[trace]
fig=go.Figure(data=data)
iplot(fig)

In [None]:
fig, ax = plt.subplots(figsize=(14,5))
plt = dtexp.getDataframeFeatures(df_new,fig, ax)
plt.show()

In [None]:
fig,(ax1,ax2)= plt.subplots(nrows=2)
fig.set_size_inches(20,30)

mesAgregado = pd.DataFrame(df_new.groupby("semana")["y"].sum()).reset_index().sort_values('y')
sns.barplot(data=mesAgregado,x="semana",y="y",ax=ax1)
ax1.set(xlabel='Vendas', ylabel='Total Produtos vendidos')
ax1.set_title("Total Vendas Mês",fontsize=15)

semanaAgregada = pd.DataFrame(df_new.groupby("diasemana")["y"].sum()).reset_index().sort_values('y')
sns.barplot(data=semanaAgregada,x="diasemana",y="y",ax=ax2)
ax2.set(xlabel='diasemana', ylabel='Total Vendas')
ax2.set_title("Total Vendas Por Dia da Semana",fontsize=15)

In [None]:
df_432_sale_treino, df_432_sale_teste = dtexp.configura_dataframe_treino_teste(df_432_time_sale)
df_432_sale_treino['cap'] = 2724
df_432_sale_teste['cap'] = 2724
df_432_sale_treino['floor'] = 1.3
df_432_sale_teste['floor'] = 1.3
print('-'*60)
print('Shape dataframe de treino --> {}'.format(df_432_sale_treino.shape))
print('Shape dataframe de teste --> {}'.format(df_432_sale_teste.shape))
print('-'*60)

# Visualizando o montante de dados para os datasets de treino e de teste

In [None]:
iplot(dtexp.viewCompareDataframes(df_432_sale_treino,
                                   df_432_sale_teste,
                                   title='Montante de dados de vendas de Treinamento e Teste',
                                    mode='lines',
                                   name1='Treinamento',
                                   name2='Teste'))

In [None]:
prophet = Prophet()
prophet.fit(df_432_sale_treino)
future_vendas = prophet.make_future_dataframe(periods=7, freq='D')
future_vendas['cap'] = 2724
future_vendas['floor'] = 1.3
# Removendo valores fora do range de atendimento da loja (22:30 - 05:59)
future_vendas['ds'] = pd.to_datetime(future_vendas['ds'])
future_vendas = future_vendas.set_index(pd.DatetimeIndex(future_vendas['ds']))
future_vendas = future_vendas.between_time('08:00','21:00')

forecast_vendas = prophet.predict(future_vendas)
trace_forecast=go.Table(header=dict(values=list(forecast_vendas[['ds','yhat','yhat_lower','yhat_upper']])),
               cells=dict(values=[forecast_vendas.ds,
                                  forecast_vendas.yhat,
                                  forecast_vendas.yhat_lower,
                                  forecast_vendas.yhat_upper]))

data=[trace_forecast]
fig_forecast=go.Figure(data=data)
iplot(fig_forecast)

In [None]:
# componentes

fig = prophet.plot_components(forecast_vendas, figsize=(10,6))

In [None]:
# Plot the forecast
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(15)
fig = prophet.plot(forecast_vendas,ax=ax)
plt.show()

In [None]:
df_432_sale_teste_forecast = prophet.predict(df_432_sale_teste)
iplot(dtexp.viewDataframeAsTable(df_432_sale_teste_forecast))

In [None]:
# Plot the forecast
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(15)
ax.scatter(df_432_sale_teste.ds,df_432_sale_teste['y'], color='r')
fig = prophet.plot(df_432_sale_teste_forecast,ax=ax)
plt.show()


# Comparação entre as vendas previstas e realizadas


In [None]:
iplot(dtexp.viewCompareDataframes(df_432_sale_teste,
                                   df_432_sale_teste_forecast,
                                   title='Previsão de vendas vs Vendas originais realizadas',
                                    mode='lines',
                                   name1='Teste',
                                   name2='Previsto',
                                  is_forecast=True))

In [None]:
# Plot the forecast with the actuals
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(15)
ax.scatter(df_432_sale_teste.ds, df_432_sale_teste['y'], color='r')
fig = prophet.plot(df_432_sale_teste_forecast, ax=ax)
ax.set_xbound(lower='2020-03-01', upper='2020-03-08')
ax.set_ylim(0, 1000)
plot = plt.suptitle('Primeira semana de Março - Previsão vs Original')

In [None]:
mape_sem_feriados = dtexp.mean_absolute_percentage_error(df_432_sale_teste['y'],df_432_sale_teste_forecast['yhat'])
print("MAPE",round(mape_sem_feriados,4))

# Definindo o cap e criando novoo modelo com os feriados

In [None]:
# definindo o cap (carrying capacity)
df_432_sale_treino['cap'] = 1362*2
df_432_sale_treino['floor'] = 1
df_432_sale_treino.reset_index(drop=True)
feriados = dtclean.get_Holiday()

In [None]:
prophet_feriados = Prophet(holidays=feriados)

prophet_feriados.add_country_holidays('BR')
prophet_feriados.fit(df_432_sale_treino)
# Criando as datas futuras previstas pelo prophet
# A frequência especificada em horas (os dados estão em horas)
future_feriados = prophet_feriados.make_future_dataframe(freq='D', periods=8)
# Prevendo os valores
forecast_feriados = prophet_feriados.predict(future_feriados)
# Removendo valores fora do range de atendimento da loja (22:30 - 05:59)
future_feriados['ds'] = pd.to_datetime(future_feriados['ds'])
future_feriados = future_feriados.set_index(pd.DatetimeIndex(future_feriados['ds']))
future_feriados = future_feriados.between_time('08:00','21:00')
# Previsão optimizada dos valores
forecast_feriados = prophet_feriados.predict(future_feriados)
iplot(dtexp.viewDataframeAsTable(forecast_feriados))

In [None]:
plt,fig_forecast_feriado = dtexp.viewForecastDataframe(forecast_feriados,prophet_feriados,f,ax)
plt.show()

# Visualizando os componentes do modelo

In [None]:
fig_forecast_feriado = prophet_feriados.plot_components(forecast_feriados)

## Visualizar tabela de previsão de teste

In [None]:
forecast_teste_feriados = prophet_feriados.predict(df_432_sale_teste)
iplot(dtexp.viewDataframeAsTable(forecast_teste_feriados))

## Visualizar dataframe de teste previsto e original com feriados

In [None]:
iplot(dtexp.viewCompareDataframes(
    df_432_sale_teste,
    forecast_teste_feriados,
    title='Dados Previsto vs Original última semana de maio/2020',
    mode='lines',
    name1='Original',
    name2='Previsão com feriados',
    is_forecast=True))

In [None]:
mape_com_feriados = dtexp.mean_absolute_percentage_error(df_432_sale_teste.y,forecast_teste_feriados.yhat)
print("MAPE",round(mape_com_feriados,4))

In [None]:
dtexp.tuning_model(df_432_sale_treino,df_432_time_sale,periodo=226,frequencia='D',loja='432',tipo='vendas')

In [None]:
parameters_df = pd.read_csv('model_parameters_432_vendas.csv',sep='\t')
parameters_df = parameters_df.sort_values(by=['MAPE'])
parameters_df = parameters_df.reset_index(drop=True)
parameters_df.drop(['Unnamed: 0'],axis=1,inplace=True)
trace_df_parameters=go.Table(header=dict(values=list(parameters_df[['MAPE','Parameters']])),
                            cells=dict(values=[parameters_df.MAPE,
                                               parameters_df.Parameters]))
data=[trace_df_parameters]
fig_df_parameters=go.Figure(data=data)
iplot(fig_df_parameters)

## Treinando o modelo com os melhores parâmetros identificados

+ changepoint_prior_scale= 20
+ holidays_prior_scale = 15
+ n_changepoints = 200
+ seasonality_mode = 'multiplicative'
+ seasonality_prior_scale = 15

In [None]:
# Configurando e treinando o modelo com feriados e parâmetros otimizados
final_prophet = Prophet(holidays=dtclean.get_Holiday(),
                      changepoint_prior_scale= 20,
                      holidays_prior_scale = 15,
                      n_changepoints = 200,
                      seasonality_mode = 'multiplicative',
                      seasonality_prior_scale = 15,
                      weekly_seasonality=True,
                      daily_seasonality = True,
                      yearly_seasonality = True,
                      interval_width=0.95)
final_prophet.add_country_holidays(country_name='BR')
final_prophet.fit(df_432_sale_treino)

In [None]:
future_final = final_prophet.make_future_dataframe(periods=122, freq='D')
forecast_final = final_prophet.predict(future_final)
iplot(dtexp.viewDataframeAsTable(forecast_final))

In [None]:
# Plot the components of the model
fig = final_prophet.plot_components(forecast_final)

In [None]:
# Plot the forecast
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(15)
fig = final_prophet.plot(forecast_final,ax=ax)
plt.show()

In [None]:
df_teste_final= final_prophet.predict(df_432_sale_teste)
iplot(dtexp.viewDataframeAsTable(df_teste_final))

In [None]:
iplot(dtexp.viewCompareDataframes(df_432_sale_teste,
                                   df_teste_final,
                                   title='Previsão de vendas vs Vendas originais realizadas',
                                    mode='lines',
                                   name1='Teste',
                                   name2='Previsto',
                                  is_forecast=True))

In [None]:
mape_final = dtexp.mean_absolute_percentage_error(df_432_sale_teste['y'],df_teste_final['yhat'])
print("MAPE",round(mape_final,4))