# Моделирование временных рядов

Есть данные, которые зависят от времени, то еть сегодняшние значения могут иметь эффективную связь со значениями, наблюдаемыми в прошлом.

Например, спрос на продукты в течение определенного периода, урожай, цены на акции и, конечно, то, что мы попытаемся предсказать, изменение климата в Рио-де-Жанейро.

В настоящее время существует несколько типов моделей прогнозирования временных рядов, мы используем ARIMA. [Seasonal ARIMA Models](https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average )

Импорт необходимых библиотек:

In [2]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from statsmodels.tsa.stattools import adfuller
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from sklearn.metrics import mean_squared_error
from math import sqrt
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [3]:
#Чтение и подготовка файла
cities = pd.read_csv('../input/GlobalLandTemperaturesByCity.csv')
rio = cities.loc[cities['City'] == 'Rio De Janeiro', ['dt','AverageTemperature']]
rio.columns = ['Date','Temp']
rio['Date'] = pd.to_datetime(rio['Date'])
rio.reset_index(drop=True, inplace=True)
rio.set_index('Date', inplace=True)

#Мы рассматриваем температуру с 1900 до конца 2012 года
rio = rio.loc['1900':'2013-01-01']
rio = rio.asfreq('M', method='bfill')
rio.head()

Краткое объяснение моделей ARIMA:

# <font color=green>Модель SARIMA (p, d, q)(P, D, Q, S)</font>:
SARIMA расшифровывается как Сезонная авторегрессионная интегрированная скользящая средняя.

## <font color=green>Не сезонная ARIMA</font>:

Можно разделить ARIMA аббревеатуру на три части - AR, I, MA:

 * **AR(p)** означает *авторегрессионная модель*, параметр `p` - это целое число которое показывает, как много предыдущих рядов будет использоваться для прогнозирования следующего, например:
     * Средняя температура вчера имеет высокую корреляцию. с сегодняшней температурой, тогда мы будем использовать параметр AR(1) для прогнозирования температуры в будущем.
     * Формула для модели AR(p): $\hat{y}_{t} = \mu + \theta_{1}Y_{t-1} + ... + \theta_{p}Y_{t-p}$, где $\mu$ - константа, **p** - количество периодов, использующихся в регрессии, и $\theta$ - параметр, зависящий от данных.
     
     
 * **I(d)** это разностная часть, где параметр `d` показывает, сколько разностных частей будет использоваться. Она пытается сделать ряд стационарным, например:
 
     * Вчера было продано 10 едениц продукта, сегодна - 14, "I" в этом случае - первая разность, равная +4. Если использовать логарифм, то разность будет показывать процентное изменение. 
     * Если d = 1: $y_{t} = Y_{t} - Y_{t-1}$, где $y_{t}$ это разностный ряд и $Y_{t-period}$ - оригинальный ряд
     * Если d = 2: $y_{t} = (Y_{t} - Y_{t-1}) - (Y_{t-1} - Y_{t-2}) = Y_{t} - 2Y_{t-1} + Y_{t-2}$
     * То есть вторая разность - это изменение в изменении, которое является мерой локального "ускорения", а не тренда.

* **MA(q)** расшифровывается как *модель скользящего среднего*, где `q` - это количество членов с запаздывающими ошибками прогноза в уравнении прогноза, например:
     * MA учитывает процент ошибок между прогнозируемым значением и реальным. Это предполагает, что прошлые ошибки будут аналогичны в будущих событиях.
     * Формула для модели MA(q): $\hat{y}_{t} = \mu - \Theta_{1}e_{t-1} + ... + \Theta_{q}e_{t-q}$, где $\mu$ - константа, **q** - количество периодов, рассматривыемых ошибок $e$ и $\Theta$ - параметр, зависящий от ошибок
     * Уравнение ошибки: $ e_{t} = Y_{t-1} - \hat{y}_{t-1}$
     
## <font color=green>Seasonal ARIMA</font>:

Параметры **p, d, q** пишутся заглавными буквами, чтобы отличать их от параметро не сезонной модели.

* **SAR(P)** - это сезонная авторегрессия рядов.
    * Формула для модели SAR(P): $\hat{y}_{t} = \mu + \theta_{1}Y_{t-s}$, где P это количество авторегрессионных периодов, обычно не больше одного, **s** - насколько старый период будет взят базисным и $\theta$ - параметр, зависящий от данных.
    * Обычно, когда речь идет о прогнозировании погоды, тот же месяц предыдущего года несёт информацию, влияющую на текущий период.
    * Установка P=1 (т.е., SAR(1)) добавляет множитель $Y_{t-s}$ к пронозу для $y_{t}$.
    
* **I(D)** сезонная разница должна использоваться, когда есть сильный и стабильный паттерн.
     * Если d = 0 и D = 1: $y_{t} = Y_{t} - Y_{t-s}$, где $y_{t}$ это разностный ряд и $Y_{t-s}$ оригинальное сезонное отставание.
     * Если d =1 и D = 1: $y_{t} = (Y_{t} - Y_{t-1}) - (Y_{t-s} - Y_{t-s-1}) = Y_{t} - Y_{t-1} -Y_{t-s} + Y_{t-s-1}$
     * D никогда не должно быть больше 1, а d+D никогда не должно быть больше 2. Кроме того, если d+D = 2, постоянный член должен быть исключен.
     
* **SMA(Q)** 
     * Установка Q=1 (т.е., SMA(1)) добавляет множитель ошибки $e_{t-s}$ к прогнозу для $y_{t}$.


* **S** Это сезонный период в течение которого мы будем вычислять переменные P, D, Q. Если существует сезонная корреляция в 52 недели, то это число будет использоваться в параметре "S".
  
  ## <font color=green>Тренд</font>:
  
Мы использовали [SARIMAX](https://www.statsmodels.org/dev/generated/statsmodels.tsa.statespace.sarimax.SARIMAX.html) для создания прогноза. Следующие переменные описывают тренд:

 * 'n' когда тренд не используется (стандартно).
 * ‘c’ указывает на константу (т.е. компонент нулевой степени многочлена тренда)
 * ‘t’ указывает на линейный тренд со временем
 * ‘ct’ одновременно и тренд и константа


Построение графика

In [4]:
plt.figure(figsize=(22,6))
sns.lineplot(x=rio.index, y=rio['Temp'])
plt.title('Temperature Variation in Rio de Janeiro from 1900 until 2012')
plt.show()

In [5]:
# сводная таблица для построения графиков месячных температур по годам
rio['month'] = rio.index.month
rio['year'] = rio.index.year
pivot = pd.pivot_table(rio, values='Temp', index='month', columns='year', aggfunc='mean')
pivot.plot(figsize=(20,6))
plt.title('Yearly Rio temperatures')
plt.xlabel('Months')
plt.ylabel('Temperatures')
plt.xticks([x for x in range(1,13)])
plt.legend().remove()
plt.show()

Ряд явно имеет некоторую сезонность, более высокие температуры приходятся на май-мюль, а более низкие - на период с ноября по январь. Для большей ясности сделаем график с усредненными месячными температурами.

In [6]:
monthly_seasonality = pivot.mean(axis=1)
monthly_seasonality.plot(figsize=(20,6))
plt.title('Monthly Temperatures in Rio de Janeiro')
plt.xlabel('Months')
plt.ylabel('Temperature')
plt.xticks([x for x in range(1,13)])
plt.show()

Теперь проверим, есть ли в этом ряде какая-нибудь тенденция, сохраняющаяся на протяжении многих лет:

In [7]:
year_avg = pd.pivot_table(rio, values='Temp', index='year', aggfunc='mean')
year_avg['10 Years MA'] = year_avg['Temp'].rolling(10).mean()
year_avg[['Temp','10 Years MA']].plot(figsize=(20,6))
plt.title('Yearly AVG Temperatures in Rio de Janeiro')
plt.xlabel('Months')
plt.ylabel('Temperature')
plt.xticks([x for x in range(1900,2012,3)])
plt.show()

Мы можем подтвердить, что существует постоянная тенденция к повышению и что средняя температура за более чем 100 лет увеличилась с 3,9 до 5,7°C, т.е. на 1,8°C.

Разделим данные на обучающий, валидационный и тестовый наборы. После обучения модели будем использовать последние 5 лет для проверки и тестирования данных: 48 месяцев для ежемесячной проверки (проход вперед) и 12 месяцев для экстраполяции на будущее и сравнения с тестовым набором:

In [8]:
train = rio[:-60].copy()
val = rio[-60:-12].copy()
test = rio[-12:].copy()

Перед прогнозанием при помощи модели мы создадим базовый прогноз для валидационного набора, в нашем моделировании мы постараемся получить меньшую ошибку по сравнению с этой.

Он будет учитывать предыдущий месяц в качестве базового прогноза на следующий месяц:

In [9]:
# Excluding the first line, as it has NaN values
baseline = val['Temp'].shift()
baseline.dropna(inplace=True)
baseline.head()

Также мы создадим функцию, чтобы использовать [RMSE](https://en.wikipedia.org/wiki/Root-mean-square_deviation) для вычисления ошибок:

In [27]:
def measure_rmse(y_true, y_pred):
    return sqrt(mean_squared_error(y_true,y_pred))

# Using the function with the baseline values
rmse_base = measure_rmse(val.iloc[1:,0],baseline)
print(f'The RMSE of the baseline that we will try to diminish is {round(rmse_base,4)} celsius degrees')

Как мы можем видеть, рял имеет небольшой восходящий тренд, и, похоже, существует некоторая сезонность с более высокими температурами в середине года и более низкими температурами в начале и конце.

Чтобы создать прогноз временного ряда, ряд должен быть стационарным (постоянное среднее значение, дисперсия и автокорреляция).

Один из способов проверить, является ли ряд стационарным, - это использовать  **adfuller function**, если P-value меньше 5%, ряд является стационарным, и можно приступать к созданию модели. 

Если ряд не является стационарным, можно выполнить преобразования данных, например, использовать натуральный логарифм.

Ниже приведена функция, которую мы использовали для проверки стационарности, она отображает: 

 * Сам ряд;
 * Функция автокорреляции **(ACF)**:
     * Она показывает корреляцию между текущими температурами и версией самой себя с задержкой.
 * Частичная автокорреляция **(PACF)**:
     * Она показывает корреляцию между текущими температурами и версией с задержкой, исключая влияние более ранних задержек, например, она показывает эффективное влияние задержки 3 на текущие температуры, исключая влияние задержек 1 и 2.

In [11]:
def check_stationarity(y, lags_plots=48, figsize=(22,8)):
    "Use Series as parameter"
    
    # Creating plots of the DF
    y = pd.Series(y)
    fig = plt.figure()

    ax1 = plt.subplot2grid((3, 3), (0, 0), colspan=2)
    ax2 = plt.subplot2grid((3, 3), (1, 0))
    ax3 = plt.subplot2grid((3, 3), (1, 1))
    ax4 = plt.subplot2grid((3, 3), (2, 0), colspan=2)

    y.plot(ax=ax1, figsize=figsize)
    ax1.set_title('Rio de Janeiro Temperature Variation')
    plot_acf(y, lags=lags_plots, zero=False, ax=ax2);
    plot_pacf(y, lags=lags_plots, zero=False, ax=ax3);
    sns.distplot(y, bins=int(sqrt(len(y))), ax=ax4)
    ax4.set_title('Distribution Chart')

    plt.tight_layout()
    
    print('Results of Dickey-Fuller Test:')
    adfinput = adfuller(y)
    adftest = pd.Series(adfinput[0:4], index=['Test Statistic','p-value','Lags Used','Number of Observations Used'])
    adftest = round(adftest,4)
    
    for key, value in adfinput[4].items():
        adftest["Critical Value (%s)"%key] = value.round(4)
        
    print(adftest)
    
    if adftest[0].round(2) < adftest[5].round(2):
        print('\nThe Test Statistics is lower than the Critical Value of 5%.\nThe serie seems to be stationary')
    else:
        print("\nThe Test Statistics is higher than the Critical Value of 5%.\nThe serie isn't stationary")

In [12]:
# The first approach is to check the series without any transformation
check_stationarity(train['Temp'])

Ряд имеет интересное поведение, существует последовательная значимая отрицательная автокорреляция, начинающаяся с 6 лага и повторяющаяся каждые 12 месяцев, это происходит из-за разницы температур в сезонах. Если в этом году будет холодная зима, через 6 месяцев у нас будет более жаркое лето, поэтому возникает отрицательная автокорреляция. Летняя и зимняя температуры обычно движутся в противоположных направлениях.

Кроме того, начиная с 12 лага существует и повторяется каждые 12 лагов положительная автокорреляция. **PACF** показывает положительный пик в первом лаге и падение до отрицательного **PACF** в последующих лагах.

Такая форма графиков **ACF** и **PACF** предполагает модель AR(1) и первую сезонную разницу ($Y_{t} - Y_{t-12}$). Построим снова график функции стационарности с первой сезонной разницей, чтобы увидеть, понадобятся ли параметры SAR(P) или SMA(Q):

In [13]:
check_stationarity(train['Temp'].diff(12).dropna())

Как показали графики выше, первые задержки **ACF** имеют постепенное затухание, в то время как **PACF** падает ниже доверительного интервала после третьего запаздывания, это указывает на **AR** с параметром 3, значит это **AR(3)** модель.

Поскольку мы использовали первую сезонную разницу, **ACF** и **PACF** показали значительное снижение 12-го лага, это указывает на **SMA** с параметром запаздывания 1, т.е. это **SAR(1) с первой разницей**.

Мы будем работать со переменными (p, d, q) равными (3, 0, 0) и с сезонными переменными (P, D, Q, S) равными (0,1,1,12). Поскольку ряд имеет четкий восходящий тренд, будем использовать модель с параметром тренда ('c'). 
 
Чтобы начать прогнозировать валидационный набор, создадим функцию для использования одношагового прогноза во всем валидационном наборе и измерю ошибки:

In [14]:
def walk_forward(training_set, validation_set, params):
    '''
    Params: it's a tuple where you put together the following SARIMA parameters: ((pdq), (PDQS), trend)
    '''
    history = [x for x in training_set.values]
    prediction = list()
    
    # Using the SARIMA parameters and fitting the data
    pdq, PDQS, trend = params

    #Forecasting one period ahead in the validation set
    for week in range(len(validation_set)):
        model = sm.tsa.statespace.SARIMAX(history, order=pdq, seasonal_order=PDQS, trend=trend)
        result = model.fit(disp=False)
        yhat = result.predict(start=len(history), end=len(history))
        prediction.append(yhat[0])
        history.append(validation_set[week])
        
    return prediction

In [15]:
# Let's test it in the validation set
val['Pred'] = walk_forward(train['Temp'], val['Temp'], ((3,0,0),(0,1,1,12),'c'))

In [16]:
# Measuring the error of the prediction
rmse_pred = measure_rmse(val['Temp'], val['Pred'])

print(f"The RMSE of the SARIMA(3,0,0),(0,1,1,12),'c' model was {round(rmse_pred,4)} celsius degrees")
print(f"It's a decrease of {round((rmse_pred/rmse_base-1)*100,2)}% in the RMSE")

In [17]:
# Creating the error column
val['Error'] = val['Temp'] - val['Pred']

Чтобы проверить остатки, создадим функцию для построения графиков, помогающих их визуализировать.

Построим следующие графики:
* Текущие и прогнозируемые значения с течением времени.
* Остатки по сравнению с прогнозируемыми значениями на точечном графике.
* График квантиль-квантиль, показывающий распределение ошибок и его идеальное распределение.
* График автокорреляции остатков, чтобы увидеть, осталась ли какая-то корреляция.

In [18]:
def plot_error(data, figsize=(20,8)):
    '''
    There must have 3 columns following this order: Temperature, Prediction, Error
    '''
    plt.figure(figsize=figsize)
    ax1 = plt.subplot2grid((2,2), (0,0))
    ax2 = plt.subplot2grid((2,2), (0,1))
    ax3 = plt.subplot2grid((2,2), (1,0))
    ax4 = plt.subplot2grid((2,2), (1,1))
    
    #Plotting the Current and Predicted values
    ax1.plot(data.iloc[:,0:2])
    ax1.legend(['Real','Pred'])
    ax1.set_title('Current and Predicted Values')
    
    # Residual vs Predicted values
    ax2.scatter(data.iloc[:,1], data.iloc[:,2])
    ax2.set_xlabel('Predicted Values')
    ax2.set_ylabel('Errors')
    ax2.set_title('Errors versus Predicted Values')
    
    ## QQ Plot of the residual
    sm.graphics.qqplot(data.iloc[:,2], line='r', ax=ax3)
    
    # Autocorrelation plot of the residual
    plot_acf(data.iloc[:,2], lags=(len(data.iloc[:,2])-1),zero=False, ax=ax4)
    plt.tight_layout()
    plt.show()

In [19]:
# We need to remove some columns to plot the charts
val.drop(['month','year'], axis=1, inplace=True)
val.head()

In [20]:
plot_error(val)

Анализируя приведенные выше графики, мы видим, что прогнозы очень хорошо согласуются с текущими значениями.

График **ошибка - прогнозное значение** имеет линейное распределение (погрешности находятся в диапазоне от -4 до +6).

График квантиль-квантиль показывает нормальную картину с некоторыми небольшими отклонениями.

График автокорреляции не показывает выбросов по доверительному интервалу.

Теперь можно экстраполировать прогноз на **тестовый набор** за последние 12 месяцев.

In [21]:
#Creating the new concatenating the training and validation set:
future = pd.concat([train['Temp'], val['Temp']])
future.head()

In [22]:
# Using the same parameters of the fitted model
model = sm.tsa.statespace.SARIMAX(future, order=(3,0,0), seasonal_order=(0,1,1,12), trend='c')
result = model.fit(disp=False)

Теперь создадим новый столбец в тестовом наборе с прогнозными значениями и сравним их с реальными значениями.

In [23]:
test['Pred'] = result.predict(start=(len(future)), end=(len(future)+13))

In [24]:
test[['Temp', 'Pred']].plot(figsize=(22,6))
plt.title('Current Values compared to the Extrapolated Ones')
plt.show()

Похоже, что параметры SARIMA были хорошо подобраны, прогнозируемые значения соответствуют и реальным значениям, и сезоннму паттерну.

Наконец, оценим модель с помощью RMSE в тестовом наборе:

In [25]:
test_baseline = test['Temp'].shift()

test_baseline[0] = test['Temp'][0]

rmse_test_base = measure_rmse(test['Temp'],test_baseline)
rmse_test_extrap = measure_rmse(test['Temp'], test['Pred'])

print(f'The baseline RMSE for the test baseline was {round(rmse_test_base,2)} celsius degrees')
print(f'The baseline RMSE for the test extrapolation was {round(rmse_test_extrap,2)} celsius degrees')
print(f'That is an improvement of {-round((rmse_test_extrap/rmse_test_base-1)*100,2)}%')