In [None]:
!pip install --upgrade -q statsmodels

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

from sklearn.metrics import mean_absolute_error
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

import warnings
warnings.filterwarnings('ignore')

## Чтение данных

`forest.csv` - это заранее подготовленный файл на основе файла `4.2 лесные перевозки.xlsx`. В нём уже отсечён левый хвост ряда, добавлено смещение для основных столбцов (кроме Экспорта) и добавленны дополнительные столбцы с сезонным смещением.

In [None]:
df = pd.read_csv('data/forest.csv', index_col='Month', parse_dates=['Month'])
df = df.asfreq('MS')
df.iloc[:, :4].head(3)

Unnamed: 0_level_0,InTransit,Export,Import,Transit
Month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-01-01,1694047,1018906,49290,111695
2009-02-01,1585617,1486894,21050,43256
2009-03-01,1623911,2363698,23123,39875


## Деление данных

In [None]:
train_size = int(df.shape[0] * 0.8)
df_train = df.iloc[:train_size]
df_test  = df.iloc[train_size:]
print(f'В тренировочной выборке находится {train_size} элементов')

В тренировочной выборке находится 96 элементов


Подбор моделей, включенных в новую мета-модель, проводился среди:
  - __SARIMAX__. Её существующей лучшей версии;
  - __VAR__, __VARMA__, __VARMAX__. Лучшим образом среди этого семейства себя показал алгоритм __VARMA(2,1)__
  - __Facebook Prophet__. Несмотря на простоту использования, результаты предсказания этой модели в вакууме были на порядок ниже, чем у моделей выше. Также включение её в мета-модель значительно снижало качество предсказания.
  - __LinearRegression__, __ElasticNet__, __etc.__ Был проведён анализ линейных неавторегрессионных моделей. На вход подавались данные по производству, ценам, импорту, транзиту и внутренним перевозкам. Все подобные модели в силу отсутствия авторегрессионной составляющей результаты с оценкой R2 менее -1.5. По этой причине подобные модели не были учтены в мета-модели.
  - Также с уже существующими моделями __VARMA__ и __SARIMAX__ были проведены опыты по добавлению дополнительных переменных в виде цены древесины. К улучшению результату это не привело.


In [None]:
def create_arima(df):
    df = df.copy()
    exog = df.loc[:, ['InTransit', 'Import', 'Transit']]
    model = sm.tsa.arima.ARIMA(df.Export, order=(1, 0, 3), seasonal_order=(1, 1, 1, 12), exog=exog).fit()
    return model

def create_varma(df):
    df = df.copy()
    endog = df.loc[:, ['InTransit_Si', 'Export_Si', 'Import_Si', 'Transit_Si']].dropna()
    model = sm.tsa.VARMAX(endog, order=(2, 1)).fit(max_iter=2*10**3)
    return model

In [None]:
arima = create_arima(df_train)
varma = create_varma(df_train)

In [None]:
X = np.zeros([varma.fittedvalues.shape[0], 2])
i = 96 - varma.fittedvalues.shape[0]
X[:, 0] = arima.fittedvalues[i:]
X[:, 1] = varma.fittedvalues.Export_Si

Как итог, мета-модель содержит в себе 2 модели - __VARMA__ и __SARIMAX__. Каждая из этих моделей генерирует свой вектор предсказаний. Следовательно, мета-регрессор должен быть достаточно простой моделью, способной правильно работать с двумя переменными. В качестве такого регрессора наилучшым образом подошел __LinearRegression__.

В дополнению к нему добавлен __StandartScaler__ во избежания проблем с данными разного масштаба.

In [None]:
y = df_train.Export.values[i:]

pipe = Pipeline([
    ['scaler', StandardScaler()],
    ['regressor', LinearRegression()],
])

pipe = pipe.fit(X, y)

## Оценка на тренировочных данных

In [None]:
print(f'MAE [arima]: {mean_absolute_error(y, X[:, 0]):.0f}')
print(f'MAE [meta]:  {mean_absolute_error(y, pipe.predict(X)):.0f}')

MAE [arima]: 87176
MAE [meta]:  88188


## Оценка на тестовых данных

In [None]:
X_test = np.zeros([df_test.shape[0], 2])

X_test[:, 0] = arima.predict(start=df_test.index.min(), end=df_test.index.max(), 
                               exog=df_test.loc[:, ['InTransit', 'Import', 'Transit']])
X_test[:, 1] = varma.predict(start=df_test.index.min(), end=df_test.index.max()).Export_Si

In [None]:
print(f'MAE [arima]: {mean_absolute_error(df_test.Export, X_test[:, 0]):.0f}')
print(f'MAE [meta]:  {mean_absolute_error(df_test.Export, pipe.predict(X_test)):.0f}')

MAE [arima]: 70302
MAE [meta]:  70145


Как видно, мета-регрессор показывает крайне незначительный рост качества. Этот прирост может быть, как действительным улучшением, так и статистической ошибкой.