## Import das bibliotecas utilizadas


In [10]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
from statistics import multimode
from sklearn.metrics import mean_squared_error, mean_absolute_error
from prophet import Prophet
from prophet.diagnostics import cross_validation
from sklearn.model_selection import TimeSeriesSplit
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.seasonal import seasonal_decompose
from pmdarima.arima import auto_arima
from prophet.diagnostics import performance_metrics



### Carregamento dos dados para a parte de Análise das métricas

In [3]:
metrics_prophet = pd.read_csv(r'Projeto/Data/Metrics/metrics_prophet.csv')
metrics_hw = pd.read_csv(r'Projeto/Data/Metrics/metrics_hw.csv')
metrics_pred_simple_exp_smoot = pd.read_csv(r'Projeto/Data/Metrics/metrics_pred_simple_exp_smoot.csv')
metrics_predictions_sarimax_exog = pd.read_csv(r'Projeto/Data/Metrics/metrics_predictions_sarimax_exog.csv')
metrics_predictions_sarimax_no_exog = pd.read_csv(r'Projeto/Data/Metrics/metrics_predictions_sarimax_no_exog.csv')
metrics_predictions_autoarima = pd.read_csv(r'Projeto/Data/Metrics/metrics_predictions_autoarima.csv')


In [4]:
df_transposed_copy_inputting_v19 = pd.read_csv(r'Projeto/Data/Output/df_transposed_copy_inputting_v19.csv')
df_model = df_transposed_copy_inputting_v19.copy()
df_model['year'] = pd.to_datetime(df_model['year'], format='ISO8601')
df_model.set_index('year', inplace = True)
df_model.info()


<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 49 entries, 1980-01-01 to 2028-01-01
Columns: 228 entries, Afghanistan to World
dtypes: float64(228)
memory usage: 87.7 KB


## Análise de métricas vs modelos

As métricas MAE (Erro Absoluto Médio), RMSE (Raiz do Erro Quadrático Médio) e MAPE (Erro Percentual Absoluto Médio) são importantes para avaliar o desempenho de um modelo de ciência de dados. Elas medem a diferença entre os valores previstos pelo modelo e os valores reais observados. <br/><br/> - O MAE mede a magnitude média dos erros, enquanto o RMSE dá mais peso aos erros grandes, pois eleva ao quadrado as diferenças antes de calcular a média. <br/><br/> - O MAPE mede o erro em termos percentuais, o que pode ser útil quando os valores observados variam em magnitude. <br/><br/> Ao comparar diferentes modelos, é importante escolher aquele que apresenta o menor valor para essas métricas, indicando que suas previsões são mais precisas.

A média, a mediana e o desvio padrão são medidas estatísticas que podem ser usadas para analisar um conjunto de dados. <br/><br/>
 - A média é a soma de todos os valores dividida pelo número de valores e representa o valor central do conjunto de dados. 
 - A mediana é o valor que divide o conjunto de dados em duas metades iguais, ou seja, metade dos valores estão acima da mediana e metade estão abaixo.
 - O desvio padrão mede o quanto os valores do conjunto de dados se desviam da média. Um desvio padrão alto indica que os valores estão mais dispersos, enquanto um desvio padrão baixo indica que os valores estão mais proximos da média. 


### Análise pela métrica MAE

O MAE (Erro Absoluto Médio) é uma métrica comum para avaliação de desempenho de modelos de previsão de séries temporais. O MAE mede a magnitude média dos erros (magnitude do erro é uma medida da diferença entre os valores previstos por um modelo e os valores reais observados, seu valor indica o queão precisa foi a previsão.)


 - Média: Um modelo com um valor menor de MAE médio é considerado melhor, pois suas previsões são mais precisas.
 - Mediana: A mediana do MAE é uma medida mais robusta a outliers, pois não é afetada por valores extremos.
 - Desvio padrão: Um modelo com desvio padrão baixo para o MAE é considerado mais consistente, pois seus erros de previsão são mais próximos da média. 

In [5]:
final_metrics = pd.DataFrame()
metric = 'MAE'

statistics = [
    'mean',
    'median',
    'std',
    'min',
    'max',
]
final_metrics = pd.concat([final_metrics, metrics_prophet[metric].agg(statistics)], axis=1)

# add simples smothing
final_metrics = pd.concat([final_metrics, metrics_pred_simple_exp_smoot[metric].agg([statistics])], axis=1)

# add sarimax
final_metrics = pd.concat([final_metrics, metrics_predictions_sarimax_exog[metric].agg([statistics])], axis=1)
# add sarimax non exog
final_metrics = pd.concat([final_metrics, metrics_predictions_sarimax_no_exog[metric].agg([statistics])], axis=1)
# add autoarima
final_metrics = pd.concat([final_metrics, metrics_predictions_autoarima[metric].agg([statistics])], axis=1)
# add hw
final_metrics = pd.concat([final_metrics, metrics_hw[metric].agg([statistics])], axis=1)

final_metrics.columns = ['prophet','simple_smoothing','sarimax', 'sarimax no exog', 'autoarima', 'Holt-Winters']

final_metrics = final_metrics.T

final_metrics['cv'] = final_metrics['std'] /final_metrics['mean']  
final_metrics.style.highlight_min(color='lightgreen', axis=0)

Unnamed: 0,mean,median,std,min,max,cv
prophet,1.672544,0.965,1.99124,0.13,18.67,1.190546
simple_smoothing,1.574254,1.13,1.90046,0.07,18.42,1.207213
sarimax,1.534781,1.07,1.674111,0.22,15.53,1.090782
sarimax no exog,1.534781,1.07,1.674111,0.22,15.53,1.090782
autoarima,2.098202,1.63,1.872705,0.14,16.76,0.892529
Holt-Winters,1.659518,1.36,1.853458,0.18,18.17,1.116865


Pela métrica MAE os modelos que melhor performaram foram os SARIMAX (com e sem variável exógena)

### Avaliação pela métrica MAPE

O MAPE (Erro percentual absoluto médio) é também uma métrica comum para avaliar o desempenho dos modelos de previsão de séries temporais. O MAPE mede o erro em termos percentuais.


 - Média: Um modelo com um valor menor de MAPE médio é considerado melhor, pois suas previsões são mais precisas.
 - Mediana: A mediana do MAPE é uma medida mais robusta a outliers, pois não é afetada por valores extremos.
 - Desvio padrão: Um modelo com desvio padrão baixo para o MAPE é considerado mais consistente, pois seus erros de previsão são mais próximos da média. 

In [6]:
final_metrics = pd.DataFrame()
metric = 'MAPE'

statistics = [
    'mean',
    'median',
    'std',
    'min',
    'max',
]
final_metrics = pd.concat([final_metrics, metrics_prophet[metric].agg(statistics)], axis=1)

# add simples smothing
final_metrics = pd.concat([final_metrics, metrics_pred_simple_exp_smoot[metric].agg([statistics])], axis=1)

# add sarimax
final_metrics = pd.concat([final_metrics, metrics_predictions_sarimax_exog[metric].agg([statistics])], axis=1)
# add sarimax non exog
final_metrics = pd.concat([final_metrics, metrics_predictions_sarimax_no_exog[metric].agg([statistics])], axis=1)
# add autoarima
final_metrics = pd.concat([final_metrics, metrics_predictions_autoarima[metric].agg([statistics])], axis=1)
# add hw
final_metrics = pd.concat([final_metrics, metrics_hw[metric].agg([statistics])], axis=1)

final_metrics.columns = ['prophet','simple_smoothing','sarimax', 'sarimax no exog', 'autoarima', 'Holt-Winters']

final_metrics = final_metrics.T

final_metrics['cv'] = final_metrics['std'] /final_metrics['mean']  
final_metrics.style.highlight_min(color='lightgreen', axis=0)

Unnamed: 0,mean,median,std,min,max,cv
prophet,65.165499,32.221438,137.931462,2.306472,1776.535147,2.116633
simple_smoothing,inf,38.778678,,2.168885,inf,
sarimax,55.824796,34.970081,101.852378,6.79614,1251.42064,1.824501
sarimax no exog,55.824796,34.970081,101.852378,6.79614,1251.42064,1.824501
autoarima,56.938106,51.85498,49.667745,7.408767,624.253914,0.872311
Holt-Winters,inf,39.797832,,4.95553,inf,


Para o MAPE o modelo que melhor performou foi o autoarima, apesar do SARIMAX obter a melhor média.

### Avaliação pelo método RMSE

O RMSE (Raiz do Erro Quadrático Médio) é uma métrica comum para avaliar o desempenho de modelos de previsão. Ele mede a diferença entre os valores previstos pelo modelo e os valores reais observados, elevando ao quadrado as diferenças antes de calcular a média e, em seguida, tirando a raiz quadrada do resultado. Isso dá mais peso aos erros grandes, pois eles são elevados ao quadrado antes de serem somados. O RMSE é útil quando se deseja penalizar erros grandes e pode ser usado para comparar o desempenho de diferentes modelos. Um modelo com um valor menor de RMSE é considerado melhor, pois suas previsões são mais precisas.


 - Média: Um modelo com um valor menor de RMSE médio é considerado melhor, pois suas previsões são mais precisas.
 - Mediana: A mediana do RMSE é uma medida mais robusta a outliers, pois não é afetada por valores extremos.
 - Desvio padrão: Um modelo com desvio padrão baixo para o RMSE é considerado mais consistente, pois seus erros de previsão são mais próximos da média. 

In [7]:
final_metrics = pd.DataFrame()
metric = 'RMSE'

statistics = [
    'mean',
    'median',
    'std',
    'min',
    'max',
]
final_metrics = pd.concat([final_metrics, metrics_prophet[metric].agg(statistics)], axis=1)

# add simples smothing
final_metrics = pd.concat([final_metrics, metrics_pred_simple_exp_smoot[metric].agg([statistics])], axis=1)

# add sarimax
final_metrics = pd.concat([final_metrics, metrics_predictions_sarimax_exog[metric].agg([statistics])], axis=1)
# add sarimax non exog
final_metrics = pd.concat([final_metrics, metrics_predictions_sarimax_no_exog[metric].agg([statistics])], axis=1)
# add autoarima
final_metrics = pd.concat([final_metrics, metrics_predictions_autoarima[metric].agg([statistics])], axis=1)
# add hw
final_metrics = pd.concat([final_metrics, metrics_hw[metric].agg([statistics])], axis=1)

final_metrics.columns = ['prophet','simple_smoothing','sarimax', 'sarimax no exog', 'autoarima', 'Holt-Winters']

final_metrics = final_metrics.T

final_metrics['cv'] = final_metrics['std'] /final_metrics['mean']  
final_metrics.style.highlight_min(color='lightgreen', axis=0)

Unnamed: 0,mean,median,std,min,max,cv
prophet,1.822105,1.08,2.125825,0.14,19.08,1.166686
simple_smoothing,1.792237,1.225,2.618678,0.08,26.04,1.461123
sarimax,1.715263,1.175,2.144695,0.34,24.16,1.250359
sarimax no exog,1.715263,1.175,2.144695,0.34,24.16,1.250359
autoarima,2.255132,1.69,2.284594,0.19,24.85,1.013064
Holt-Winters,1.888246,1.47,2.561355,0.23,25.67,1.356474


Com a métrica de RMSE o modelo que melhor performou foi o Prophet

### Cross-Validation

#### SARIMAX

A validação cruzada consiste em dividir o conjunto de dados em partes, ajustar o modelo em uma parte dos dados (chamada de conjunto de treinamento) e avaliar o desempenho do modelo na outra parte dos dados (chamada de conjunto de teste).<br/><br/> Esse processo é repetido várias vezes, com diferentes divisões dos dados, para obter uma estimativa mais precisa do desempenho do modelo. 

In [8]:
test_years = 5
train_data = df_model.iloc[:-test_years, :]
test_data = df_model.iloc[-test_years:, :]


In [11]:
#Create an empty dataframe to store the model metrics
df_final_metrics_cv = pd.DataFrame()

# Defining the number of splits
n_splits = 5

# Create an object TimeSeriesSplit
tscv = TimeSeriesSplit(n_splits=n_splits)

# Inside the loop for cross-validation splits
for country in df_model.columns:
    final_metrics_cv = pd.DataFrame()
    for train_idx, test_idx in tscv.split(train_data[country]):
        train_data_idx = train_data[country].iloc[train_idx]
        test_data_idx = train_data[country].iloc[test_idx]
        model_sarimax = auto_arima(
            train_data_idx,
            m=1,
            test='adf',
            seasonal=True,
            stepwise=True,
            d=1,
            #start_p=0,
            #max_p=1,
            #start_q=0,
            #max_q=1,

        )
        
        pred_sarimax = model_sarimax.predict(n_periods=len(test_data_idx))

        mae = mean_absolute_error(test_data_idx, pred_sarimax)

        final_metrics_cv = pd.concat([final_metrics_cv, pd.DataFrame({country: [mae]})], ignore_index=True)

    df_final_metrics_cv = pd.concat([df_final_metrics_cv, final_metrics_cv], axis=1)
aux = df_final_metrics_cv.mean()

print("mean mae for all countrys",aux.values.mean())
print("median mae for all countrys",np.median(aux.values))
print("std mae for all countrys",aux.values.std())
print("std mae for all countrys",aux.values.max())
print("std mae for all countrys",aux.values.min())
print("cv mae for all countrys",aux.values.std() / aux.values.mean())
plt.hist(aux.values, bins=70);

NameError: name 'auto_arima' is not defined

In [None]:
df_final_metrics_cv.to_csv('Projeto/Data/Metrics/df_final_metrics_cv_sarima.csv', index = True)


NameError: name 'df_final_metrics_cv' is not defined

###  Prophet

A ferramenta de validação cruzada do Prophet permite medir o erro de previsão usando dados históricos. Isso é feito selecionando pontos de corte na história e, para cada um deles, ajustando o modelo usando apenas os dados até esse ponto de corte. Podemos então comparar os valores previstos com os valores reais. <br/><br/>
O procedimento de validação cruzada pode ser feito automaticamente para uma série de cortes históricos usando a função cross_validation. Especificamos o horizonte de previsão (horizon), e opcionalmente o tamanho do período inicial de treinamento (initial) e o espaçamento entre as datas de corte (period). <br/><br/>
Por padrão, o período inicial de treinamento é definido como três vezes o horizonte, e os cortes são feitos a cada meio horizonte. A saída da função cross_validation é um DataFrame com os valores verdadeiros y e os valores previstos fora da amostra yhat, em cada data simulada de previsão e para cada data de corte. Em particular, uma previsão é feita para cada ponto observado entre o corte e o corte + horizonte. Este DataFrame pode então ser usado para calcular medidas de erro de yhat vs y.

In [None]:
from prophet.diagnostics import cross_validation
from prophet.diagnostics import performance_metrics

df_metrics_cv = pd.DataFrame()

for country in df_model.columns:
    train_data_prophet_cv = pd.DataFrame({
        'ds': train_data['ds'],
        'y': train_data[country]
    })
    
    model_prophet_cv = Prophet(
        growth='linear',
        seasonality_mode='additive',
        yearly_seasonality=True,
        weekly_seasonality=False,
        daily_seasonality=False,
        changepoint_prior_scale=0.1,
        seasonality_prior_scale=4,
    )
    model_prophet_cv.fit(train_data_prophet_cv)
    # Realize a validação cruzada
    df_cv = cross_validation(model_prophet_cv, initial='365 days', parallel='processes', horizon='1825 days')
    
    # Calcule as métricas para cada fold da validação cruzada
    df_metrics_country = performance_metrics(df_cv)
    df_metrics_country['country'] = country
    
    df_metrics_cv = pd.concat([df_metrics_cv, df_metrics_country], ignore_index=True)

# Calcule a média das métricas para cada país
average_metrics_per_country_prophet = df_metrics_cv.groupby('country').mean()
average_metrics_per_country_prophet.drop(['ds'], axis=0, inplace = True)
# Salve as métricas em um arquivo ou faça o que for necessário
average_metrics_per_country_prophet.to_csv('Projeto/Data/Metrics/df_final_metrics_cv_prophet.csv', index=True)

### Asserção entre SARIMAX e Prophet

In [None]:
df_final_metrics_cv_prophet = pd.read_csv(r'Projeto/Data/Metrics/df_final_metrics_cv_prophet.csv')
df_final_metrics_cv_sarima = pd.read_csv(r'Projeto/Data/Metrics/df_final_metrics_cv_sarima.csv')

In [None]:
final_metrics = pd.DataFrame()
metric = 'MAE'

statistics = [
    'mean',
    'median',
    'std',
    'min',
    'max',
]
final_metrics_cv = pd.concat([final_metrics_cv, df_final_metrics_cv_prophet[metric].agg(statistics)], axis=1)

# add simples smothing
final_metrics_cv = pd.concat([final_metrics_cv, df_final_metrics_cv_sarima[metric].agg([statistics])], axis=1)

final_metrics_cv.columns = ['prophet', 'sarimax no exog']

final_metrics_cv = final_metrics_cv.T

final_metrics_cv['cv'] = final_metrics['std'] /final_metrics['mean']  
final_metrics_cv.style.highlight_min(color='lightgreen', axis=0)