## ARIMA

In [None]:
%pylab inline
import pandas as pd
from scipy import stats
import statsmodels.api as sm
import matplotlib.pyplot as plt
import warnings
from itertools import product

def invboxcox(y,lmbda):
   if lmbda == 0:
      return(np.exp(y))
   else:
      return(np.exp(np.log(lmbda*y+1)/lmbda))

### Данные

<font color=darkblue>По данным Сбербанка требуется спрогнозировать данные на ближайшие месяцы.

Выбираем регион и колонку для прогнозирования.

In [None]:
months_cnt_to_predict = 12

df = pd.read_csv(u'../data/sberbank.csv', index_col=['date'], parse_dates=['date'], dayfirst=True)
df['amount'] = df['Средние расходы по картам']
df = df[(df['region'] == 'Москва')]
df = pd.DataFrame(df['amount'])
df.index = df.index - pd.offsets.MonthBegin(1)
sberbank = pd.DataFrame(df.dropna(how='any',axis=0))
#sberbank = sberbank[(sberbank.index.year < 2018)] 
sberbank.head()

<font color=darkblue>Отображение известных данных.

In [None]:
plt.figure(figsize(15,7))
xticks = pd.date_range(start=sberbank.index.min(), end=sberbank.index.max(), freq='M')
plt.xticks(xticks, xticks.strftime("%Y-%m"), rotation=90, ha="left")
plt.plot(sberbank)
plt.ylabel('Средние расходы по картам')
pylab.show()

#### Теория:
<font color=darkblue>Ряд называется "стационарным", если его свойства не зависят от времени.

Гипотезу стационарности можно проверить с помощью критерия Дики-Фуллера (должен быть близок 0)

In [None]:
plt.figure(figsize(15,10))
sm.tsa.seasonal_decompose(sberbank.amount).plot()
print("Критерий Дики-Фуллера: p=%f" % sm.tsa.stattools.adfuller(sberbank.amount)[1])

### Стабилизация дисперсии

#### Теория:

<font color=darkblue>для приведения к стационарности одним из лучших считается преобразование Бокса-Кокса.</font>

**Преобразования Бокса-Кокса**:
\begin{equation*}
y_t' = 
 \begin{cases}
   \ln{y_t}, &\text{$\lambda = 0$}\\
   (y^\lambda_t - 1) / \lambda, &\text{$\lambda \ne 0$}
 \end{cases}
\end{equation*}

<font color=darkblue>Сделаем преобразование Бокса-Кокса для стабилизации дисперсии:

In [None]:
sberbank['amount_box'], lmbda = stats.boxcox(sberbank.amount)
plt.figure(figsize(15,7))
sberbank.amount_box.plot()
plt.ylabel(u'Transformed amount')
print("Оптимальный параметр преобразования Бокса-Кокса: %f" % lmbda)
print("Критерий Дики-Фуллера: p=%f" % sm.tsa.stattools.adfuller(sberbank.amount_box)[1])

### Стационарность

<font color=darkblue>Критерий Дики-Фуллера отвергает гипотезу нестационарности, но визуально в данных виден тренд. Попробуем сезонное дифференцирование; сделаем на продифференцированном ряде STL-декомпозицию и проверим стационарность:

In [None]:
sberbank['amount_box_diff'] = sberbank.amount_box - sberbank.amount_box.shift(12)
plt.figure(figsize(15,10))
sm.tsa.seasonal_decompose(sberbank.amount_box_diff[12:]).plot()
print("Критерий Дики-Фуллера: p=%f" % sm.tsa.stattools.adfuller(sberbank.amount_box_diff[12:])[1])

<font color=darkblue>Критерий Дики-Фуллера не отвергает гипотезу нестационарности, и полностью избавиться от тренда не удалось. Попробуем добавить ещё обычное дифференцирование:

In [None]:
sberbank['amount_box_diff2'] = sberbank.amount_box_diff - sberbank.amount_box_diff.shift(1)
plt.figure(figsize(15,10))
sm.tsa.seasonal_decompose(sberbank.amount_box_diff2[13:]).plot()   
print("Критерий Дики-Фуллера: p=%f" % sm.tsa.stattools.adfuller(sberbank.amount_box_diff2[13:])[1])

<font color=darkblue>Гипотеза нестационарности отвергается, и визуально ряд выглядит лучше — тренда больше нет. 

## Подбор модели

<font color=darkblue>Начальные приближения: Q=1, q=2, P=1, p=4

In [None]:
ps = range(0, 5)
d=1
qs = range(0, 3)
Ps = range(0, 2)
D=1
Qs = range(0, 2)

In [None]:
parameters = product(ps, qs, Ps, Qs)
parameters_list = list(parameters)
len(parameters_list)

#### Теория:
**Информационный критерий Акаике** (**AIC**) - используется для сравнения моделей с разными $q, Q, p, P$.

$$AIC = -2\ln{L} + 2k$$

$k = P + Q + p + q + 1$ - число параметров в модели.

<font color=darkblue>Оптимальной, по данному критерию, будет модель, у которой значение *AIC* будет самое маленькое из всех возможных. Потому, что такая модель будет, достаточно, хорошо описывать данные и содержать не, слишком, большое кол-во параметров.

In [None]:
%%time
results = []
best_aic = float("inf")
warnings.filterwarnings('ignore')

for param in parameters_list:
    #try except нужен, потому что на некоторых наборах параметров модель не обучается
    try:
        model=sm.tsa.statespace.SARIMAX(sberbank.amount_box, order=(param[0], d, param[1]), 
                                        seasonal_order=(param[2], D, param[3], 12)).fit(disp=-1)
    #выводим параметры, на которых модель не обучается и переходим к следующему набору
    except ValueError:
        print('wrong parameters:', param)
        continue
    aic = model.aic
    #сохраняем лучшую модель, aic, параметры
    if aic < best_aic:
        best_model = model
        best_aic = aic
        best_param = param
    results.append([param, model.aic])
    
warnings.filterwarnings('default')

<font color=darkblue>Преобразуем из массива в таблицу и сортируем по возрастанию значения **AIC**.

In [None]:
result_table = pd.DataFrame(results)
result_table.columns = ['parameters', 'aic']
print(result_table.sort_values(by = 'aic', ascending=True).head())

<font color=darkblue>Лучшая модель:

### Прогноз

In [None]:
sberbank2 = sberbank[['amount']]
date_list = [datetime.datetime.strptime("2018-06-01", "%Y-%m-%d") + relativedelta(months=x) for x in range(0,12)]
future = pd.DataFrame(index=date_list, columns= sberbank2.columns)
sberbank2 = pd.concat([sberbank2, future])
sberbank2['forecast'] = invboxcox(best_model.predict(start=53, end=65), lmbda)

plt.figure(figsize(15,7))
sberbank2.amount.plot()
sberbank2.forecast.plot(color='r')
plt.ylabel('Amount')
pylab.show()