# Семинар 12. Временные ряды. 

### План
#### 1 Прогнозирование временного ряда
#### 1.1 Прогнозирование средним (Mean Constant Model)
#### 1.2. Линейная модель (Linear Trend Model)
#### 1.3. Линейная модель с добавлением факторов (Linear Regression Model)
#### 2 Выделение тренда и сезонности
#### 3 Стационарность ряда
#### 4 ARIMA

## Временной ряд

Временно́й ряд — собранный в разные моменты времени статистический материал о значении каких-либо параметров исследуемого процесса.

Скалярным временным рядом 
$$\{x_i\}_{i=1}^N$$
называется массив из $N$ чисел, представляющих собой значения некоторой измеренной (наблюдаемой динамической переменной $x(t)$ с некоторым постоянным шагом $τ$ по времени, $$t_i = t_0 + (i − 1)τ : x_i = x(t_i), i = 1, . . . , N.$$  

Примеры: 
- объёмы продаж в торговых сетях
- объёмы потребления и цены электроэнергии
- остатки складских запасов
- рыночные цены
- дорожный трафик (прогнозирование пробок)

Основные свойства временных рядах:
- тренды
- сезонности

Какие задачи здесь возникают?

Для начала визуализируем наши данные и попробуем сформулировать новые гипотезы о задаче, которую хотим решить.

Загрузим данные и посмотрим на структуру данных.

## Чтение данных

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.tsa.stattools import adfuller
%matplotlib inline

pd.options.display.float_format = '{:.2f}'.format

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (15, 15)

# данные по продажам в Индии в различных городах и штатах
df = pd.read_csv('MarketArrivals_Ind.csv')

# Прогнозирование временного ряда

In [None]:
df.head()

In [None]:
df.date = pd.DatetimeIndex(df.date)

# Отсортируем и добавим date в индекс
df = df.sort_values(by = "date")
df.index = pd.PeriodIndex(df.date, freq='M')

In [None]:
df.head()

Будем работать с данными в городе Бангалор

In [None]:
dfBang = df.loc[df.city == "BANGALORE"].copy()

In [None]:
dfBang.head()

In [None]:
# Удалим лишние столбцы
dfBang = dfBang.drop(["market", "month", "year", "state", "city", "priceMin", "priceMax"], axis = 1)

In [None]:
dfBang.shape

In [None]:
dfBang.head()

In [None]:
dfBang.priceMod.plot()

In [None]:
dfBang.quantity.plot()

## Начнем с трех простых моделей прогноза цены

### 1. Прогнозирование средним (Mean Constant Model)
### 2. Линейная модель (Linear Trend Model)
### 3. Линейная модель с добавлением факторов (Linear Regression Model)

### Логарифмическое преобразование данных
Логарифмирование помогает стабилизировать разброс значений.

In [None]:
dfBang.priceMod.plot(kind = "hist", bins = 30)

При визуализации можем заметить, что есть данные, далеко отстающие от среднего значения, что может искажать модель регрессии. Наша задача минимизировать влияние таких данных. Желательно не исключая их.  
В этом случае самый распространенный вариант действия - логарифмирование переменной.

In [None]:
dfBang['priceModLog'] = np.log(dfBang.priceMod)
dfBang.head()

In [None]:
dfBang.priceModLog.plot(kind = "hist", bins = 30)

In [None]:
dfBang.priceModLog.plot()

## 1.1. Прогнозирование средним 

In [None]:
model_mean_pred = dfBang.priceModLog.mean()

In [None]:
# Запишем это значение в priceMean
dfBang["priceMean"] = np.exp(model_mean_pred)

In [None]:
dfBang.plot(kind="line", x="date", y = ["priceMod", "priceMean"])

**Как мерить качество?**

Чтобы обучать регрессионные модели, нужно определиться, как именно измеряется качество предсказаний.   
Будем использовать метрику RMSE (Root Mean Squared Error) - корень среднего квадрата отклонения.

$$RMSE = \Sigma \sqrt{ (\hat{y} - y)^2/n} $$ , 
где $\hat{y}$ это предсказанное значение y

#### Какие еще метрики применимы в задачах с временными рядами?

In [None]:
def RMSE(predicted, actual):
    mse = (predicted - actual)**2
    rmse = np.sqrt(mse.sum()/mse.count())
    return rmse

In [None]:
model_mean_RMSE = RMSE(dfBang.priceMean, dfBang.priceMod)
model_mean_RMSE

In [None]:
dfBangResults = pd.DataFrame(columns = ["Model", "Forecast", "RMSE"])
dfBangResults.head()

In [None]:
dfBangResults.loc[0,"Model"] = "Mean"
dfBangResults.loc[0,"Forecast"] = np.exp(model_mean_pred)
dfBangResults.loc[0,"RMSE"] = model_mean_RMSE
dfBangResults.head()

### Задание 1. Постройте модель средних для величины quantity

In [None]:
#your code here

## 1.2. Линейная модель

Построим линейную зависимость между priceModLog and time.   
Уравнение регрессии строится с помощью метода наимменьших квадратов.

In [None]:
dfBang.head()

In [None]:
dfBang.dtypes

In [None]:
dfBang.date.min()

In [None]:
dfBang["timeIndex"] = dfBang.date - dfBang.date.min()

In [None]:
dfBang.timeIndex

In [None]:
dfBang.dtypes

In [None]:
dfBang["timeIndex"] =  dfBang["timeIndex"]/np.timedelta64(1, 'M')

In [None]:
dfBang.timeIndex

In [None]:
dfBang["timeIndex"] = dfBang["timeIndex"].round(0).astype(int)

In [None]:
dfBang.timeIndex.tail()

In [None]:
dfBang.head()

In [None]:
model_linear = smf.ols('priceModLog ~ timeIndex', data = dfBang).fit()

In [None]:
model_linear.summary()

#### Выведем параметры нашей линейной модели

In [None]:
model_linear.params

$$ price = 0.01 \cdot time + 6.11 $$

In [None]:
c = model_linear.params[0]
c

In [None]:
m = model_linear.params[1]
m

In [None]:
model_linear_pred = model_linear.predict()

In [None]:
model_linear_pred

In [None]:
dfBang["priceLinear"] = np.exp(model_linear_pred)

In [None]:
dfBang.plot(kind="line", x="timeIndex", y = "priceModLog")
plt.plot(dfBang.timeIndex,model_linear_pred, '-')

In [None]:
model_linear.resid.plot(kind = "bar")

Посчитаем ошибку RMSE на линейной модели:

In [None]:
model_linear_RMSE = RMSE(dfBang.priceLinear, dfBang.priceMod)
model_linear_RMSE

In [None]:
dfBangResults.loc[1,"Model"] = "Linear"
dfBangResults.loc[1,"Forecast"] = 'Linear'
dfBangResults.loc[1,"RMSE"] = model_linear_RMSE
dfBangResults.head()

### Задание 2. Постройте линейную модель для величины quantity

In [None]:
### your code here

## 1.3 Линейная модель с добавлением факторов

In [None]:
## Построим регрессию, используя несколько переменных timeIndex и np.log(quantity)
model_linear_quantity = smf.ols('priceModLog ~ timeIndex + np.log(quantity)', data = dfBang).fit()

In [None]:
model_linear_quantity.summary()

In [None]:
dfBang.head()

In [None]:
dfBang["priceLinearQuantity"] = np.exp(model_linear_quantity.predict())

In [None]:
model_linear_q_pred = model_linear_quantity.predict()

In [None]:
dfBang.plot(kind = "line", x="timeIndex", y = "quantity")
dfBang.plot(kind="line", x="timeIndex", y = ["priceMod", "priceMean", 
                                             "priceLinear", "priceLinearQuantity"])

In [None]:
dfBangResults.loc[2,"Model"] = "Mean"
dfBangResults.loc[2,"Forecast"] = "trend+regression"
dfBangResults.loc[2,"RMSE"] = RMSE(dfBang.priceMod, dfBang.priceLinearQuantity)
dfBangResults.head()

### Задание 3. Постройте линейную модель с регрессией для величины quantity

In [None]:
### your code here

## 2 Выделение тренда и сезонности

При работе с временными рядами выделяют два действия:
- Дифференцирование - расчет разницы с определенным временным лагом
- Декомпозиция - моделирование как тренда, так и сезонности и удаление их из модели.

Предположим, что у вас имеются ежемесячные данные о пассажиропотоке на международных авиалиниях.  
Объем пассажиропотока имеет во времени возрастающий линейный тренд, и в ряде имеется ежегодно повторяющаяся закономерность - сезонность (большинство перевозок приходится на летние месяцы, кроме того, имеется пик меньшей высоты в районе декабрьских каникул). 
Цель декомпозиции как раз и состоит в том, чтобы отделить эти компоненты, то есть разложить ряд на составляющую тренда, сезонную компоненту и оставшуюся нерегулярную составляющую. 

То есть каждый уровень временного ряда формируется под воздействием большого числа факторов, которые условно можно подразделить на три группы:
- факторы, формирующие тенденцию ряда
- факторы, формирующие циклические колебания ряда
- случайные факторы  

Рассмотрим воздействие каждого фактора на временной ряд в отдельности.  
Большинство временных рядов экономических показателей имеют тенденцию, 
характеризующую совокупное долговременное воздействие множества факторов на динамику изучаемого показателя.  
Все эти факторы, взятые в отдельности, могут оказывать разнонаправленное воздействие на исследуемый показатель. Однако в совокупности они формируют его возрастающую или убывающую тенденцию

В большинстве случаев фактический уровень временного ряда можно представить как сумму или произведение трендовой, циклической и случайной компонент. Модель, в которой временной ряд представлен как сумма перечисленных компонент, называется **аддитивной** моделью временного ряда. Модель, в которой временной ряд представлен как произведение перечисленных компонент, называется **мультипликативной** моделью временного ряда. 

**Аддитивная модель** 
$${Y_t} = t (trend) + s (seasonality) + r (residual)$$

![](https://miro.medium.com/max/1360/0*JWWglnH4RBR-SbxC.png)

**Мультипликативная модель** 
$${Y_t} = t (trend) * s (seasonality) * r (residual)$$

![](https://anomaly.io/wp-content/uploads/2015/12/multiplicative-model.png)

Как видим, отличие мультипликативной модели от аддитивной состоит в том, 
что в мультипликативной модели сезонная и случайная составляющие определены в виде относительных величин (коэффициентов), 
а в аддитивной модели – в виде абсолютных величин.   
Эти модели в практических расчетах дадут близкие результаты, если амплитуда колебаний уровней ряда слабо изменяется во времени

Какие примеры аддитивных и мультипликаативных рядов из жизни вы знаете?

### Расчет лагов
Представим временной ряд в виде последовательности разницы между значениями.  
Рассчитаем лаги, выведем их на графике

In [None]:
# Рассчитаем лаги
dfBang["priceModLogShift1"] = dfBang.priceModLog.shift()

In [None]:
# Выведем на графике priceModLog и priceModLogShift1
dfBang.plot(kind= "scatter", y = "priceModLog", x = "priceModLogShift1", s = 50)

In [None]:
dfBang["priceModLogDiff"] = dfBang.priceModLog - dfBang.priceModLogShift1

In [None]:
dfBang.priceModLogDiff.plot()

### Декомпозиция 
Декомпозируем наш временной ряд на тренд и сезонность

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose

In [None]:
dfBang.index = dfBang.index.to_timestamp()

In [None]:
#timestamp, datetime

In [None]:
dfBang.head()

In [None]:
decomposition = seasonal_decompose(dfBang.priceModLog, model = "additive")

In [None]:
decomposition.plot()

In [None]:
trend = decomposition.trend
seasonal = decomposition.seasonal
residual = decomposition.resid

In [None]:
# Построим ряд по тренду и сезонности
dfBang["priceDecomp"] = np.exp(trend + seasonal)

In [None]:
# Расчет RMSE
model_Decomp_RMSE = RMSE(dfBang.priceDecomp, dfBang.priceMod)
model_Decomp_RMSE

In [None]:
dfBang.plot(kind="line", x="timeIndex", y = ["priceMod", "priceMean", "priceLinear", "priceLinearQuantity", "priceDecomp"])

In [None]:
dfBangResults

In [None]:
dfBangResults.loc[3,"Model"] = "priceDecomp"
dfBangResults.loc[3,"Forecast"] = 'priceDecomp'
dfBangResults.loc[3,"RMSE"] = model_Decomp_RMSE
dfBangResults.head()

### Задание 4. Декомпозируйте ряд остатков quantity

In [None]:
### your code here

## 3 Стационарность ряда

Перед тем, как перейти к моделированию, стоит сказать о таком важном свойстве временного ряда, как стационарность.  
Под стационарностью понимают свойство процесса не менять своих статистических характеристик с течением времени, а именно постоянство матожидания, постоянство дисперсии и независимость ковариационной функции от времени (должна зависеть только от расстояния между наблюдениями). Наглядно можно посмотреть на эти свойства на картинках:

![](https://habrastorage.org/files/20c/9d8/a63/20c9d8a633ec436f91dccd4aedcc6940.png)  
Временной ряд справа не является стационарным, так как его матожидание со временем растёт

![](https://habrastorage.org/files/b88/eec/a67/b88eeca676d642449cab135273fd5a95.png)  
Здесь не повезло с дисперсией — разброс значений ряда существенно варьируется в зависимости от периода

![](https://habrastorage.org/files/2f6/1ee/cb2/2f61eecb20714352840748b826e38680.png)  
На последнем графике видно, что значения ряда внезапно становятся ближе друг ко другу, образуя некоторый кластер, а в результате получаем непостоянство ковариаций


Почему стационарность так важна?  
По стационарному ряду просто строить прогноз, так как мы полагаем, что его будущие статистические характеристики не будут отличаться от наблюдаемых текущих. Большинство моделей временных рядов так или иначе моделируют и предсказывают эти характеристики (например, матожидание или дисперсию), поэтому в случае нестационарности исходного ряда предсказания окажутся неверными. К сожалению, большинство временных рядов, с которыми приходится сталкиваться за пределыми учебных материалов, стационарными не являются, но с этим можно (и нужно) бороться.

In [None]:
test = sm.tsa.adfuller(dfBang.priceMod)
print('adf: ', test[0])
print('p-value: ', test[1])
print('Critical values: ', test[4])
if test[0]> test[4]['5%']: 
    print('Есть единичные корни, ряд не стационарен')
else:
    print('Единичных корней нет, ряд стационарен')

# p-value > 0.05: Fail to reject the null hypothesis (H0), the data has a unit root and is non-stationary.
# p-value <= 0.05: Reject the null hypothesis (H0), the data does not have a unit root and is stationary.

## 4 Построение модели АRIMA

Для моделирования будем использовать модель ARIMA, построенную для ряда первых разностей.  
Итак, чтобы построить модель нам нужно знать ее порядок, состоящий из 2-х параметров:  
- p — порядок компоненты AR
- d — порядок интегрированного ряда (порядок разности временного ряда)
- q — порядок компонетны MA  


Параметр d равен 1, осталось определить p и q. Для их определения нам надо изучить авторкорреляционную (ACF) и частично автокорреляционную (PACF) функции для ряда первых разностей.
ACF поможет нам определить q, т. к. по ее коррелограмме можно определить количество автокорреляционных коэффициентов сильно отличных от 0 в модели MA
PACF поможет нам определить p, т. к. по ее коррелограмме можно определить максимальный номер коэффициента сильно отличный от 0 в модели AR.  

Чтобы построить соответствующие коррелограммы, в пакете statsmodels имеются следующие функции: acf и pacf.  
Можем построить графики ACF и PACF, у которых по оси X откладываются номера лагов, а по оси Y значения соответствующих функций. Нужно отметить, что количество лагов в функциях и определяет число значимых коэффициентов.

In [None]:
ts = dfBang.priceModLog
ts_diff = dfBang.priceModLogDiff
ts_diff.dropna(inplace = True)

In [None]:
# ACF и PACF 
from statsmodels.tsa.stattools import acf, pacf

In [None]:
lag_acf = acf(ts_diff, nlags=20)

In [None]:
lag_acf

In [None]:
ACF = pd.Series(lag_acf)

In [None]:
ACF

In [None]:
ACF.plot(kind = "bar")

In [None]:
lag_pacf = pacf(ts_diff, nlags=20, method='ols')

In [None]:
PACF = pd.Series(lag_pacf)

In [None]:
PACF.plot(kind = "bar")

## Построим модель ARIMA 

In [None]:
from statsmodels.tsa.arima_model import ARIMA

In [None]:
ts_diff.head()

In [None]:
# ARIMA Model (1,0,1)
model_AR1MA = ARIMA(ts_diff, order=(1,0,1))

In [None]:
results_ARIMA = model_AR1MA.fit(disp = -1)

In [None]:
results_ARIMA.fittedvalues.head()

In [None]:
ts_diff.plot()
results_ARIMA.fittedvalues.plot()

In [None]:
ts_diff.sum()

In [None]:
predictions_ARIMA_diff = pd.Series(results_ARIMA.fittedvalues, copy=True)
predictions_ARIMA_diff.tail()

In [None]:
predictions_ARIMA_diff.sum()

In [None]:
predictions_ARIMA_diff_cumsum = predictions_ARIMA_diff.cumsum()
predictions_ARIMA_diff_cumsum.tail()

In [None]:
ts.index[0]

In [None]:
predictions_ARIMA_log = pd.Series(ts, index=ts.index)
predictions_ARIMA_log = predictions_ARIMA_log.add(predictions_ARIMA_diff_cumsum, fill_value=0)
predictions_ARIMA_log.tail()

In [None]:
dfBang['priceARIMA'] = np.exp(predictions_ARIMA_log)

In [None]:
dfBang.plot(kind="line", x="timeIndex", y = ["priceMod", "priceARIMA"])

In [None]:
dfBang.plot(kind="line", x="timeIndex", y = ["priceMod", "priceMean", "priceLinear", 
                                             "priceLinearQuantity", "priceARIMA"])

In [None]:
# RMSE
model_arima_RMSE = RMSE(dfBang.priceARIMA, dfBang.priceMod)
model_arima_RMSE

In [None]:
dfBangResults.loc[4,"Model"] = "ARIMA"
dfBangResults.loc[4,"Forecast"] = 'ARIMA'
dfBangResults.loc[4,"RMSE"] = model_arima_RMSE
dfBangResults.head()

Обычно подбор параметров для ARIMA — сложный и трудоемкий процесс.  
23-го февраля 2017 года команда Core Data Science из Facebook выпустила новую библиотеку для работы с временными рядами — Prophet. 

### Вывод

Мы ознакомились с разными подходами к анализу и прогнозированию временных рядов.  
Была рассмотрена интегрированная модель авторегрессии – скользящего среднего (ARIMA), как базовая модель прогнозирования.  
Как вы уже убедились, серебряной пули для решения такого рода задач пока нет.  
Методы, разработанные в 60-е годы прошлого века, (а некоторые и в начале 19-го), по-прежнему пользуются популярностью. Отчасти это связано с тем, что задача прогнозирования, как и любая другая задача, возникающая в процессе работы с данными — во многом творческая и уж точно исследовательская. Несмотря на обилие формальных метрик качества и способов оценки параметров, для каждого временного ряда часто приходится подбирать и пробовать что-то своё. Не последнюю роль играет и баланс между качеством и трудозатратами.