In [1]:
%load_ext autoreload
%autoreload 2
%matplotlib inline

In [2]:
import sys
from pathlib import Path

sys.path.append(str(Path().cwd().parent))

In [3]:
from typing import Tuple

import pandas as pd
import numpy as np
import isodate

from plotting import plot_ts
from dataset import Dataset
from model import TimeSeriesPredictor

import warnings
warnings.simplefilter('ignore')

### Какие ряды будем тестировать?

* длинный ряд с сезонностью  
* короткий ряд с сезонностью  
* короткий ряд с сезонностью и трендом  
* случайное блуждание  
* средне зашумленный ряд
* "шумный" ряд  

In [4]:
ds = Dataset('../data/dataset/', header = None)

In [5]:
long = ds['daily-min-temperatures.csv']

In [6]:
plot_ts(long)

In [7]:
short_season = ds['hour_3019.csv'][300:]

In [8]:
plot_ts(short_season)

In [9]:
short_season_trend = ds['international-airline-passengers.csv']

In [10]:
plot_ts(short_season_trend)

In [11]:
random_walk = ds['dow_jones_0.csv']

In [12]:
plot_ts(random_walk)

In [13]:
medium_noize = ds['hour_3426.csv'][300:]

In [14]:
plot_ts(medium_noize)

In [15]:
full_noize = ds['day_1574.csv']

In [16]:
plot_ts(full_noize)

### Какие модели будем тестировать?

* скользящее среднее
* экспоненциальное сглаживание
* autoArima
* линейная регрессия
* линейная регрессия с L1 регуляризацией (Ridge)
* RandomForeset
* градиентный бустинг
* полносвязная нейросеть с одним лагом в качестве горизонта прогнозирования
* полносвязная нейросеть с произвольным количеством лагов в качестве горизонта прогнозирования

In [17]:
from estimators import RollingEstimator, ExponentialSmoothingEstimator
from pmdarima import auto_arima
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor

### По каким метрикам будем сравнивать?

* mse
* mae
* R2
* mape - если не будет ломаться на нулях
* mase

In [18]:
from sklearn.metrics import mean_squared_error as mse
from sklearn.metrics import mean_absolute_error as mae
from sklearn.metrics import mean_absolute_percentage_error as mape
from sklearn.metrics import r2_score

from metrics import mase

In [19]:
def smape(A, F):
    return 100/len(A) * np.sum(2 * np.abs(F - A) / (np.abs(A) + np.abs(F)))

### По какой методике будем тестировать?

* 70% трейн, 30% тест
* Out-of-sample, чтобы посмотреть как модель предсказывает "вдолгую"

`ВНИМАНИЕ`
Чтобы сделать корректный прогноз на тестовую выборку в режиме out-of-sample с учетом возможных пропусков, вам необходимо сделать прогноз от первого до последнего timestamp-a включительно, после чего взять нужные timestamp из теста (реализуй это в функции задания 1б).  
Нельзя просто написать `predictor.forecast(len(test))`.


* In-Sample, чтобы посмотреть как модель предсказывает на одну точку вперед
* Для поиска гиперпараметров можно делать кроссвалидацию на тесте по метрике mse

### Задание 1(а). Напишите функцию, разбивающую на train и test

In [20]:
def train_test_split(ts: pd.Series, ratio: float = 0.7) -> Tuple[pd.Series]:
    # ваш код здесь
    split_idx = int(len(ts) * ratio)
    ts_train, ts_test = ts[:split_idx], ts[split_idx:]
    return ts_train, ts_test

### Задание 1(б). Напишите функцию для получения численного горизонта прогнозирования через первый и последний timestamp-ы выборки.

В данной функции горизонт прогнозирования задается первым и последним timestamp-ом, а также гранулярностью ряда. Нам нужно получить горизонт прогнозирования в виде целового числа лагов, на которые нужно сделать прогноз.

In [21]:
def calculate_h(start: pd.Timestamp, end: pd.Timestamp, granularity: str) -> int:
    h = (end - start) / isodate.parse_duration(granularity) + 1
    return int(h)

### Зададим соответствие гранулярностей для наших рядов.

In [236]:
granularity_mapping = {
    'long': 'P1D',
    'short_season': 'PT1H',
    'short_season_trend': 'P30D',
    'random_walk': 'P1D',
    'medium_noize': 'PT1H',
    'full_noize': 'P1D'
}

In [23]:
import math

from pandas._libs.tslibs.timestamps import Timestamp


def get_month_sin(timestamp: Timestamp) -> float:
    theta = timestamp.month * (2*math.pi / 12)
    return math.sin(theta)


def get_month_cos(timestamp: Timestamp) -> float:
    theta = timestamp.month * (2*math.pi / 12)
    return math.cos(theta)


def get_day_sin(timestamp: Timestamp) -> float:
    theta = timestamp.day * (2*math.pi / timestamp.days_in_month)
    return math.sin(theta)


def get_day_cos(timestamp: Timestamp) -> float:
    theta = timestamp.day * (2*math.pi / timestamp.days_in_month)
    return math.cos(theta)


def get_dayofweek_sin(timestamp: Timestamp) -> float:
    theta = timestamp.dayofweek * (2*math.pi / 7)
    return math.sin(theta)


def get_dayofweek_cos(timestamp: Timestamp) -> float:
    theta = timestamp.dayofweek * (2*math.pi / 7)
    return math.cos(theta)


def get_hour_sin(timestamp: Timestamp) -> float:
    theta = timestamp.hour * (2*math.pi / 24)
    return math.sin(theta)


def get_hour_cos(timestamp: Timestamp) -> float:
    theta = timestamp.hour * (2*math.pi / 24)
    return math.cos(theta)


def get_minute_sin(timestamp: Timestamp) -> float:
    theta = timestamp.minute * (2*math.pi / 60)
    return math.sin(theta)


def get_minute_cos(timestamp: Timestamp) -> float:
    theta = timestamp.minute * (2*math.pi / 60)
    return math.cos(theta)


datetime_mappers = {
    'month_sin': get_month_sin,
    'month_cos': get_month_cos,
    'day_sin': get_day_sin,
    'day_cos': get_day_cos,
    'dayofweek_sin': get_dayofweek_sin,
    'dayofweek_cos': get_dayofweek_cos,
    'hour_sin': get_hour_sin,
    'hour_cos': get_hour_cos,
    'minute_sin': get_minute_sin,
    'minute_cos': get_minute_cos,
}

### Задание 2. Напишите функцию, имплементирующую весь пайплайн обучения и прогноза через TimeSeriesPredictor.

* принмает на вход исходный ряд, гранулярность, количество лагов, модель, а также **kwargs, в которые мы будем передавать параметры модели

* разбивает ряд на train/test

* создает инстанс TimeSeriesPredictor с нужными параметрами

* обучает предиктор на трейне

* делает out_of_sample и in_sample прогноз

* возвращает train, test, in_sample, out_of_sample

In [263]:
def index_rebase(timestamp: Timestamp):
    if timestamp.day == 1:
        return timestamp
    else:
        return timestamp + pd.offsets.MonthBegin(1)

def make_pipeline(
    ts: pd.Series,
    granularity: str,
    model: callable,
    num_lags=24,
    mappers={},
    **kwargs
) -> Tuple[pd.Series]:
    # разделение на трейн, тест
    train, test = train_test_split(ts)
    # создание инстанса
    predictor = TimeSeriesPredictor(granularity, num_lags, model, mappers, **kwargs)
    # обучение модели
    predictor.fit(train)
    # прогноз
    in_sample = predictor.predict_batch(train, test)
    out_of_sample = predictor.predict_next(train, calculate_h(test.index[0], test.index[-1], granularity))

    # проблема с isodate.parse_duration('P1M') - это уже не timedelta
    if granularity == 'P30D':
        out_of_sample.index = out_of_sample.index.map(index_rebase)

    excess = set(out_of_sample.index).difference(set(in_sample.index))
    out_of_sample = out_of_sample.drop(excess)
        
    return train, test, in_sample, out_of_sample

In [185]:
rfr_params = {
    'n_estimators': 100,
    'max_depth': 10,
    'n_jobs': -1
}

a = make_pipeline(ts=long, 
              granularity=granularity_mapping['long'], 
              model=RandomForestRegressor, 
              mappers=datetime_mappers,
              **rfr_params)

### Задание 3. Напишите функцию, имплементирующую весь пайплайн обучения и прогноза через auto_arima

* функция должна принимать исходный временной ряд, период сезонности, параметры дифференцирования d, D и boolean параметр seasonal, данные параметры будут являться для нас гиперпараметрами, все остальное за нас должна найти auto_arima

* разбивает на train, test

* обучает arima на train при помощи вызова функции auto_arima из библиотеки pmdarima с переданными параметрами и со следующими зафиксированными параметрами: `max_p=3, max_q=3, trace=True, error_action='ignore', suppress_warnings=True, stepwise=True`

* в качестве out_of_sample прогноза просто вызовите метод predict

* в качестве in_sample прогноза обучите модель заново на всём ряде методом `fit`, вызовите метод predict_in_sample и в качестве прогноза возьмите `in_sample_predictions[-len(test):]`

* возвращает train, test, in_sample, out_of_sample (не забудьте сделать их pd.Series с нужным индексом!!)

In [26]:
def make_pipeline_arima(
    ts: pd.Series,
    period: int, 
    d: int = 1,
    D: int = 1, 
    seasonal: bool = True
) -> Tuple[pd.Series]:
    # разделение на трейн, тест
    train, test = train_test_split(ts)
    
    predictor = auto_arima(train, d=d, D=D, seasonal=seasonal, m=period,
                           max_p=3, max_q=3, trace=True, error_action='ignore', suppress_warnings=True, stepwise=True)

    out_of_sample = predictor.predict(len(test))
    out_of_sample.index = test.index
    predictor.fit(ts)
    in_sample = predictor.predict_in_sample()
    in_sample = pd.Series(in_sample[-len(test):], index = test.index)           
    
    return train, test, in_sample, out_of_sample

In [None]:
make_pipeline_arima(long, 1, D=360)

### Задание 4. Напишите функцию, имплементирующую весь пайплайн обучения и прогноза через полносвязную сеть.

* функция должна принимать исходный временной ряд, количество входных лагов для формирования признаков, количество выходных лагов для формирования таргетов, количество скрытых слоев и количество нейронов на каждом слое
* подготавилвает выборку согласно переданным параметрам num_lags_in, num_lags_out, используя ранее написанную нами функцию transform_ts_into_matrix (приведена ниже)
* разбивает данные на трейн и тест
* создает модель Sequential с нужной архитектурой
    - num_lags_in задает значение параметра input_dims на первом слое
    - num_lags_out задает количество нейронов на последнем слое
    - количество нейронов на всех слоях от первого до предпоследнего задается в кортеже units
    - epochs задает количество епох для обучения
* обучает модель на трейне
* делает in_sample прогноз на тесте вызовом метода predict (обратите внимание, что вызов предикта должен осуществляться с шагом num_lags_out)
* делает out_of_sample прогноз рекурсивно c шагом num_lags_out, добавляя спрогнозированные точки в новые объекты (см. аналогично TimeSeriesPredictor)

In [70]:
def transform_ts_into_matrix(
    ts: pd.Series, 
    num_lags_in: int, 
    num_lags_out: int
) -> Tuple[np.array, np.array]:
    """
    Данная функция должна пройтись скользящим окном по временному ряду и для каждых
    num_lags_in точек в качестве признаков собрать num_lags_out следующих точек в качестве таргета.
    
    Вернуть два np.array массива из X_train и y_train соответственно
    """
    sequence = ts.values
    X, y = list(), list()
    i = 0
    outer_idx = num_lags_out
    while outer_idx < len(sequence):
        inner_idx = i + num_lags_in
        outer_idx = inner_idx + num_lags_out
        X_, y_ = sequence[i:inner_idx], sequence[inner_idx:outer_idx]
        X.append(X_)
        y.append(y_)
        i += 1
        
    return np.array(X), np.array(y)

In [209]:
from tensorflow.keras.models import Sequential 
from tensorflow.keras.layers import Dense


def make_pipeline_fullyconnected(
    ts: pd.Series,
    num_lags_in: int,
    num_lags_out: int,
    hidden_layers: int,
    units: tuple[int],
    epochs: int
) -> Tuple[pd.Series]:

    X, y = transform_ts_into_matrix(ts, num_lags_in, num_lags_out)

    X_train, X_test = train_test_split(X)
    y_train, y_test = train_test_split(y)

    predictor = Sequential()
    predictor.add(Dense(units[0], input_dim=num_lags_in, activation='relu'))
    [predictor.add(Dense(units[i], activation='relu')) for i in range(1, hidden_layers)]
    predictor.add(Dense(num_lags_out))

    predictor.compile(optimizer='adam', loss='mse')
    predictor.fit(X_train, y_train, epochs=epochs, verbose=0)

    in_sample = predictor.predict(X_test, steps=num_lags_out, verbose=0)
    out_of_sample = []
    X_current = X_train[-1].copy()
    for _ in range(len(X_test)):
        y_hat = predictor.predict(X_current.reshape(1, num_lags_in), verbose=0)
        out_of_sample.append(y_hat[0])
        X_current = np.roll(X_current, -num_lags_out)
        X_current[-num_lags_out:] = y_hat[0]
    
    return y_train, y_test, in_sample, np.array(out_of_sample)

In [155]:
make_pipeline_fullyconnected(
    ts=long, 
    num_lags_in=10,
    num_lags_out=1,
    hidden_layers=2,
    units=(10,5),
    epochs=100
)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 138ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 180ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 99ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 105ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 103ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 80ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 80ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 80ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 79ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 80ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 91ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 60ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 81ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0

(array([[16.2],
        [13.3],
        [16.7],
        ...,
        [15.3],
        [14.3],
        [13.5]]),
 array([[15. ],
        [13.6],
        [15.2],
        ...,
        [13.5],
        [15.7],
        [13. ]]),
 array([[13.270926],
        [14.401907],
        [13.262017],
        ...,
        [12.882255],
        [12.948967],
        [14.22106 ]], dtype=float32),
 array([[13.585352 ],
        [13.324928 ],
        [13.335209 ],
        ...,
        [ 9.129414 ],
        [ 9.129415 ],
        [ 9.1294155]], dtype=float32))

### Задание 5. Напишите функцию, имплементирующую поиск гиперпараметров по сетке. 

* функция должна принимать на вход ряд, гранулярность, модель, дефолтное количество лагов, сетку параметров (словарь)
* после написанного мной кода, функция должна с текущими параметрами запустить пайплайн (функция make_pipeline), получив таким образом прогнозы in_sample и out_of_sample
* посчитать mse для in_sample и out_of_sample прогноза, запомнить их в соответствующие словари
* вернуть лучшие параметры для in_sample и out_of_sample прогнозов

Замечания
* не забудьте, что в сетку параметров можно передавать также num_lags
* если в ряде ts_test есть пропуски, индекс прогноза out_of_sample будет не совпадать c индексом реальных данных, в таком случае, замените индекс out_of_sample прогноза индексом ts_test

In [182]:
from itertools import product

def hyperparameters_search(ts, granularity, model, num_lags, param_grid, verbose=False, mappers={}):
    
    statistics_in_sample, statistics_out_of_sample = {}, {}
    
    for param_tuple in product(*param_grid.values()):
        params = dict(zip(param_grid.keys(), param_tuple))
        
        # Извлечение параметров из словаря
        lag_value = params.get('num_lags', num_lags)
        mappers = params.get('mappers', {})
        additional_kwargs = {key: params[key] for key in params if key not in ['num_lags', 'mappers']}

        # Запуск пайплайна с текущими параметрами
        train, test, in_sample, out_of_sample = make_pipeline(
            ts,
            granularity,
            model,
            num_lags=lag_value,
            mappers=mappers,
            **additional_kwargs
        )

        # Вычисление MSE для in-sample и out-of-sample
        mse_in_sample = mse(test, in_sample)
        mse_out_of_sample = mse(test, out_of_sample)

        # Сохранение результатов
        statistics_in_sample[tuple(params.items())] = mse_in_sample
        statistics_out_of_sample[tuple(params.items())] = mse_out_of_sample

        if verbose:
            print(f"Parameters: {params} => MSE in-sample: {mse_in_sample}, MSE out-of-sample: {mse_out_of_sample}")

    # Поиск лучших параметров на основе MSE
    best_in_sample = min(statistics_in_sample, key=statistics_in_sample.get)
    best_out_of_sample = min(statistics_out_of_sample, key=statistics_out_of_sample.get)
        
    
    return best_in_sample, best_out_of_sample, statistics_in_sample, statistics_out_of_sample

In [200]:
param_grid = {
    'num_laga': range(1, 4),
    'n_estimators': [100, 150, 200, 250],
    'max_depth': [1, 5, 7, 10],
}

# hyperparameters_search(long, granularity_mapping['long'], RandomForestRegressor, None, param_grid, mappers=datetime_mappers)

((('num_lags', 3), ('n_estimators', 150), ('max_depth', 5)),
 (('num_lags', 2), ('n_estimators', 100), ('max_depth', 10)),
 {(('num_lags', 1),
   ('n_estimators', 100),
   ('max_depth', 1)): 8.056832940612077,
  (('num_lags', 1),
   ('n_estimators', 100),
   ('max_depth', 5)): 5.958287184271714,
  (('num_lags', 1),
   ('n_estimators', 100),
   ('max_depth', 7)): 6.166985841897331,
  (('num_lags', 1),
   ('n_estimators', 100),
   ('max_depth', 10)): 6.458986153616749,
  (('num_lags', 1),
   ('n_estimators', 150),
   ('max_depth', 1)): 8.069843387572117,
  (('num_lags', 1),
   ('n_estimators', 150),
   ('max_depth', 5)): 5.969505625921934,
  (('num_lags', 1),
   ('n_estimators', 150),
   ('max_depth', 7)): 6.171657412323294,
  (('num_lags', 1),
   ('n_estimators', 150),
   ('max_depth', 10)): 6.422490079036137,
  (('num_lags', 1),
   ('n_estimators', 200),
   ('max_depth', 1)): 8.054480695840375,
  (('num_lags', 1),
   ('n_estimators', 200),
   ('max_depth', 5)): 5.972443667720943,
  (('

### Задание 6. "Прогоните" все алгоритмы на всех рядах и получите сводную таблицу результатов по всем метрикам, постройте также графики прогнозов.

In [264]:
models = {
    "Linear Regression": LinearRegression,
    "Ridge": Ridge,
    "Random Forest": RandomForestRegressor,
    "Gradient Boosting": GradientBoostingRegressor,
    "Exponential Smoothing": ExponentialSmoothingEstimator,
    "Rolling Estimator": RollingEstimator,
    "AUTOARIMA": None,
    "ANN": None
}

time_series_data = {
    "long": long,
    "short_season": short_season,
    "short_season_trend": short_season_trend,
    "random_walk": random_walk,
    "medium_noize": medium_noize,
    "full_noize": full_noize,
}

results = []

for series_name, ts in time_series_data.items():
    granularity = granularity_mapping.get(series_name)
    for model_name, model in models.items():
        print(f"Processing {series_name} with model: {model_name}")

        # обучение моделей с базовыми гиперпараметрами. для подбора параметров для make_pipeline можно использовать hyperparameters_search,
        # но это займет много времени
        if model_name not in ["AUTOARIMA", "ANN"]:
            train, test, in_sample, out_of_sample = make_pipeline(ts, granularity=granularity, model=model, mappers=datetime_mappers)
        elif model_name == "AUTOARIMA":
            train, test, in_sample, out_of_sample = make_pipeline_arima(ts, period=12)
        else:
            train, test, in_sample, out_of_sample = make_pipeline_fullyconnected(ts, num_lags_in=24, num_lags_out=1, hidden_layers=2, units=(10, 5), epochs=100)

        # расчет метрик
        mse_value = mse(test, out_of_sample)
        mae_value = mae(test, out_of_sample)
        mape_value = mape(test, out_of_sample)
        r2_value = r2_score(test, out_of_sample)

        results.append({
            "Series": series_name,
            "Model": model_name,
            "MSE": mse_value,
            "MAE": mae_value,
            "MAPE": mape_value,
            "R2": r2_value,
        })

results_df = pd.DataFrame(results)
pivot_table = results_df.pivot_table(index='Series', columns='Model', values=['MSE', 'MAE', 'MAPE', 'R2'])

Processing long with model: Linear Regression
Processing long with model: Ridge
Processing long with model: Random Forest
Processing long with model: Gradient Boosting
Processing long with model: Exponential Smoothing
Processing long with model: Rolling Estimator
Processing long with model: AUTOARIMA
Performing stepwise search to minimize aic
 ARIMA(2,1,2)(1,1,1)[12]             : AIC=inf, Time=14.12 sec
 ARIMA(0,1,0)(0,1,0)[12]             : AIC=14194.803, Time=0.08 sec
 ARIMA(1,1,0)(1,1,0)[12]             : AIC=13451.497, Time=0.46 sec
 ARIMA(0,1,1)(0,1,1)[12]             : AIC=inf, Time=2.43 sec
 ARIMA(1,1,0)(0,1,0)[12]             : AIC=14123.441, Time=0.12 sec
 ARIMA(1,1,0)(2,1,0)[12]             : AIC=13175.329, Time=1.45 sec
 ARIMA(1,1,0)(2,1,1)[12]             : AIC=inf, Time=9.42 sec
 ARIMA(1,1,0)(1,1,1)[12]             : AIC=inf, Time=4.45 sec
 ARIMA(0,1,0)(2,1,0)[12]             : AIC=13244.580, Time=0.81 sec
 ARIMA(2,1,0)(2,1,0)[12]             : AIC=12977.894, Time=2.19 se

  return get_prediction_index(


Processing long with model: ANN
Processing short_season with model: Linear Regression
Processing short_season with model: Ridge
Processing short_season with model: Random Forest
Processing short_season with model: Gradient Boosting
Processing short_season with model: Exponential Smoothing
Processing short_season with model: Rolling Estimator
Processing short_season with model: AUTOARIMA
Performing stepwise search to minimize aic
 ARIMA(2,1,2)(1,1,1)[12]             : AIC=inf, Time=1.22 sec
 ARIMA(0,1,0)(0,1,0)[12]             : AIC=2559.165, Time=0.02 sec
 ARIMA(1,1,0)(1,1,0)[12]             : AIC=2392.171, Time=0.52 sec
 ARIMA(0,1,1)(0,1,1)[12]             : AIC=inf, Time=0.62 sec
 ARIMA(1,1,0)(0,1,0)[12]             : AIC=2493.798, Time=0.03 sec
 ARIMA(1,1,0)(2,1,0)[12]             : AIC=2348.228, Time=1.08 sec
 ARIMA(1,1,0)(2,1,1)[12]             : AIC=2345.303, Time=1.37 sec
 ARIMA(1,1,0)(1,1,1)[12]             : AIC=inf, Time=0.35 sec
 ARIMA(1,1,0)(2,1,2)[12]             : AIC=inf

  return get_prediction_index(


Processing short_season with model: ANN
Processing short_season_trend with model: Linear Regression
Processing short_season_trend with model: Ridge
Processing short_season_trend with model: Random Forest
Processing short_season_trend with model: Gradient Boosting
Processing short_season_trend with model: Exponential Smoothing
Processing short_season_trend with model: Rolling Estimator
Processing short_season_trend with model: AUTOARIMA
Performing stepwise search to minimize aic
 ARIMA(2,1,2)(1,1,1)[12]             : AIC=647.761, Time=0.41 sec
 ARIMA(0,1,0)(0,1,0)[12]             : AIC=650.796, Time=0.02 sec
 ARIMA(1,1,0)(1,1,0)[12]             : AIC=644.203, Time=0.06 sec
 ARIMA(0,1,1)(0,1,1)[12]             : AIC=644.733, Time=0.08 sec
 ARIMA(1,1,0)(0,1,0)[12]             : AIC=645.995, Time=0.02 sec
 ARIMA(1,1,0)(2,1,0)[12]             : AIC=646.172, Time=0.16 sec
 ARIMA(1,1,0)(1,1,1)[12]             : AIC=646.187, Time=0.12 sec
 ARIMA(1,1,0)(0,1,1)[12]             : AIC=644.600, Tim

  return get_prediction_index(


Processing random_walk with model: ANN
Processing medium_noize with model: Linear Regression
Processing medium_noize with model: Ridge
Processing medium_noize with model: Random Forest
Processing medium_noize with model: Gradient Boosting
Processing medium_noize with model: Exponential Smoothing
Processing medium_noize with model: Rolling Estimator
Processing medium_noize with model: AUTOARIMA
Performing stepwise search to minimize aic
 ARIMA(2,1,2)(1,1,1)[12]             : AIC=inf, Time=2.42 sec
 ARIMA(0,1,0)(0,1,0)[12]             : AIC=3355.321, Time=0.02 sec
 ARIMA(1,1,0)(1,1,0)[12]             : AIC=3215.036, Time=0.98 sec
 ARIMA(0,1,1)(0,1,1)[12]             : AIC=inf, Time=1.32 sec
 ARIMA(1,1,0)(0,1,0)[12]             : AIC=3342.037, Time=0.04 sec
 ARIMA(1,1,0)(2,1,0)[12]             : AIC=3199.304, Time=0.30 sec
 ARIMA(1,1,0)(2,1,1)[12]             : AIC=inf, Time=0.86 sec
 ARIMA(1,1,0)(1,1,1)[12]             : AIC=inf, Time=0.38 sec
 ARIMA(0,1,0)(2,1,0)[12]             : AIC=3

  return get_prediction_index(


Processing medium_noize with model: ANN
Processing full_noize with model: Linear Regression
Processing full_noize with model: Ridge
Processing full_noize with model: Random Forest
Processing full_noize with model: Gradient Boosting
Processing full_noize with model: Exponential Smoothing
Processing full_noize with model: Rolling Estimator
Processing full_noize with model: AUTOARIMA
Performing stepwise search to minimize aic
 ARIMA(2,1,2)(1,1,1)[12]             : AIC=-334.946, Time=0.96 sec
 ARIMA(0,1,0)(0,1,0)[12]             : AIC=-305.393, Time=0.06 sec
 ARIMA(1,1,0)(1,1,0)[12]             : AIC=-331.317, Time=0.15 sec
 ARIMA(0,1,1)(0,1,1)[12]             : AIC=inf, Time=0.18 sec
 ARIMA(2,1,2)(0,1,1)[12]             : AIC=-337.375, Time=1.03 sec
 ARIMA(2,1,2)(0,1,0)[12]             : AIC=-320.863, Time=0.09 sec
 ARIMA(2,1,2)(0,1,2)[12]             : AIC=-336.252, Time=1.75 sec
 ARIMA(2,1,2)(1,1,0)[12]             : AIC=-336.023, Time=2.44 sec
 ARIMA(2,1,2)(1,1,2)[12]             : AIC

In [265]:
pivot_table

Unnamed: 0_level_0,MAE,MAE,MAE,MAE,MAE,MAE,MAE,MAE,MAPE,MAPE,...,MSE,MSE,R2,R2,R2,R2,R2,R2,R2,R2
Model,ANN,AUTOARIMA,Exponential Smoothing,Gradient Boosting,Linear Regression,Random Forest,Ridge,Rolling Estimator,ANN,AUTOARIMA,...,Ridge,Rolling Estimator,ANN,AUTOARIMA,Exponential Smoothing,Gradient Boosting,Linear Regression,Random Forest,Ridge,Rolling Estimator
Series,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
full_noize,0.005119,0.004571,0.585175,0.005395,0.078956,0.004995,0.004619,0.034021,0.144671,0.123393,...,3.378212e-05,0.001692015,-0.276533,-0.133779,-10809.436649,-0.23911,-408.2262,-0.293165,-0.06465,-52.32421
long,3.863967,24.762537,11.009149,2.227605,2.102491,3.263215,2.102448,11.063333,0.535178,2.798108,...,7.242432,137.057,-0.410537,-49.080957,-7.595514,0.477779,0.5461126,-0.004077,0.546085,-7.589963
medium_noize,21.690529,79.448888,47.000195,33.749677,10.264977,45.156667,10.274697,38.498052,0.729984,4.092672,...,229.0221,2280.752,0.125509,-8.118657,-2.473684,-0.88876,0.7437087,-2.229744,0.744128,-1.548146
random_walk,347.721043,1945.371559,26924.907328,958.350935,1878.536141,824.729408,1848.134137,19997.230394,0.012941,0.071397,...,4294269.0,433781400.0,0.495306,-10.76905,-1751.377417,-1.956397,-9.702195,-1.415615,-9.374324,-1046.952115
short_season,34.243386,39.468116,73.895594,50.930639,42.182049,50.88313,46.30633,65.33726,2.431856,4.984151,...,2996.621,7025.862,0.415221,0.273643,-1.723279,-0.114545,0.1743654,-0.156242,0.055872,-1.213598
short_season_trend,78.596419,21.538631,420.430921,55.434673,168795.86081,56.955455,44.029455,269.12705,0.193494,0.052118,...,2579.683,83822.1,-0.261757,0.882488,-30.246652,-0.043342,-7833715.0,-0.033874,0.558581,-13.343119


По метрикам видно, что без доп. оптимизации невозможно для всех рядов получить адекватные метрики