# <center>Временные ряды

>**Временной ряд** — это измерения одной и той же случайной величины в разные моменты времени.

Выделим несколько формальных свойств временного ряда:
1. Данные временного ряда **структурированы**, а атрибуты (так иногда называют признаки) **зависимы от времени**.  
На графике ниже визуализирован временной ряд фактического дохода компании. Данные структурированы (упорядочены и находятся в таблице), а фактический доход — это атрибут, зависящий от времени.

    ![image.png](attachment:image.png)
2. Данные временного ряда, в отличие от любых других данных, имеют **определённую последовательность**.  
На графиках ниже отображены продажи мороженого с января по декабрь.

    ![image-2.png](attachment:image-2.png)
3. В отличие от анализа других данных, в анализе временных рядов важно, чтобы последовательные значения в данных наблюдались **через равные промежутки времени**, например каждый час, неделю, год, каждый понедельник и так далее.  
На графике ниже визуализирован временной ряд с получением данных за равные промежутки времени (дни).

    ![image-3.png](attachment:image-3.png)

# <center>Тренд, сезонность, шум

**Анализ временных рядов** следует стандартному плану:
1. **Выявление тренда**

    >**Тренд** — это основная тенденция изменения величины со временем.

    На графике с измерениями пульса тренд нелинейный, и здесь можно выделить:  
    ![image-4.png](attachment:image-4.png)
    * участок старта, когда пульс растёт до более стабильного значения;
    * более-менее линейный участок основной дистанции;
    * участок финиша, когда пульс быстро и нелинейно идёт вверх.

    **Большое преимущество тренда** — его можно прогнозировать как функцию времени, не учитывая предыдущие значения временного ряда.

2. **Анализ сезонности и цикличности**

    **Сезонность** задаёт периодические колебания ряда вокруг тренда. Сезонность есть не всегда, но очень часто.

    Например, <b><font color=blue>продажи автомобилей</font></b> каждый год немного растут в декабре и падают в январе следующего года.

    ![image-5.png](attachment:image-5.png)

    Затем необходимо оценить цикличность.  
    >**Цикличность** — это колебания временного ряда относительно тренда.

    Отличием цикличности от сезонности является то, что сезонность возникает из периода в период (каждый декабрь, каждые выходные и т. д.), а цикличность проявляется на более длительных дистанциях и может слегка меняться от цикла к циклу.

    На графике ниже показан цикл изменения объёма валового национального продукта в зависимости от времени. Такая цикличность скорее зависит не от сезона/квартала, а от внешних факторов.

    ![image-6.png](attachment:image-6.png)

3. **Проверка на шум**

    Самый простой вариант предсказания данных для временного ряда:

    * Выявили линейный тренд — остался белый шум.

    Более сложный вариант:

    * Убрали тренд — осталась сезонность.
    * Убрали сезонность — остался белый шум.

    Самый сложный вариант:

    * Убрали тренд и сезонность — остался всё ещё не белый шум.

![image-7.png](attachment:image-7.png)


# <center>Экспоненциальное сглаживание

>**Экспоненциальное сглаживание** — это метод прогнозирования временных рядов для одномерных данных с трендом или сезонным компонентом. Оно также известно как метод простого экспоненциального сглаживания, или метод Брауна.

Формула для получения экспоненциального сглаживания выглядит так:
$$ S_0 = X_0 $$
$$ S_t = \alpha \cdot X_{t-1} + (1 - \alpha) \cdot S_{t-1} $$
* $ S_t $ — сглаженное значение в момент времени $t$;
* $ X_t $ — фактическое наблюдение в момент времени $t$;
* $ \alpha $ — коэффициент сглаживания, который выбирается априори $ (0 < \alpha < 1) $.

В случае с этой формулой каждый новый элемент временного ряда рассчитывается от предыдущего и от сглаженного исходного.

Проще говоря, под **экспоненциальным сглаживанием** понимается взвешенная линейная сумма наблюдений, при этом веса для наблюдений экспоненциально уменьшаются для более старых наблюдений. Тем самым мы не обращаем особого внимания на поведение в прошлом, а недавнему поведению присваиваем больший вес. Если быть точнее, наблюдения взвешиваются с геометрически уменьшающимся коэффициентом.

Так как по формуле значение для следующего дня рассчитывается от значения для текущего, мы можем продолжить получать следующие значения для экспоненциально сглаженного ряда, таким образом совершая прогноз (день за днём). В нашем примере для шестого дня мы получили прогнозируемое значение температуры в 26.6 градусов (26.66235, если быть точнее):

![image-2.png](attachment:image-2.png)

Коэффициент экспоненциального сглаживания подбирается интуитивно. Чем выше коэффициент, тем меньше внимания мы обращаем на старые данные. Если коэффициент близок к 0, данным в далёком прошлом будет уделено больше внимания. Так, при коэффициенте, равном 0.1, значения экспоненциально сглаженного ряда будут выглядеть так:

![image.png](attachment:image.png)

Простое экспоненциальное сглаживание используется в задачах сглаживания и **краткосрочного** прогнозирования временных рядов.



# <center>Стационарность
Стационарность означает, что сам временной ряд может меняться с течением времени, однако статистические свойства генерирующего его процесса не меняются.

![image.png](attachment:image.png)

Почему это важно? Потому что стационарные процессы легче анализировать, а ещё их можно предсказывать, поскольку предсказуем способ их изменения.

Говоря простым языком, стационарный процесс (стационарный временной ряд) — это процесс, который не меняет свои основные характеристики со временем (обратите внимание на графики стационарного и нестационарного временного ряда выше). Это значит, что при сдвиге во времени не меняются математическое ожидание, дисперсия и совместное распределение вероятности.

Примером стационарного процесса является маятник без трения, который колеблется назад и вперёд. Из-за отсутствия трения его амплитуда и частота остаются неизменными.

* В нашем же случае временной ряд будет **стационарным**, если у него **отсутствуют тренд и сезонность**, а **математическое ожидание и дисперсия при этом остаются постоянными** на протяжении всего периода времени.
* У **нестационарного** временного ряда **статистики** (математическое ожидание и дисперсия) **будут изменяться со временем, а сам ряд будет иметь сезонность и/или тренд.**

Так как нестационарный ряд анализировать труднее, в анализе временных рядов принято приводить любой временной ряд к стационарности. Это можно сделать путём выявления и устранения тренда и сезонности.

Существует несколько методов проверки временного ряда на стационарность:
1. Визуально оценить по графику данных, есть ли какие-либо очевидные тенденции или сезонность. Например, на графике ниже нет ни выраженного тренда, ни сезонности.  
    ![image-2.png](attachment:image-2.png)
2. Просмотреть сводную статистику для данных по сезонам, чтобы понять, есть ли очевидные и существенные различия.
3. Использовать статистические тесты, чтобы проверить, выполняются ли ожидания стационарности.



## <center>Статистические тесты

Одним из наиболее распространённых тестов на проверку временного ряда на стационарность является **расширенный тест Дики — Фуллера**. В тесте формулируется две гипотезы:

* нулевая гипотеза (H0): временной ряд нестационарный, то есть имеет некоторый тренд и сезонную компоненту;
* альтернативная гипотеза (H1): временной ряд стационарный, то есть не имеет тренда и сезонной компоненты, и данные скорее случайны.

В результате проведения теста мы получим несколько значений: значение статистики из теста и критические значения разных уровней значимости (1 %, 2 %, 3 %). Уровень значимости означает допустимую  для данной задачи вероятность ошибки, то есть чем ниже уровень значимости, тем ниже вероятность ошибочного результата теста.
* Если значение статистики ниже критического значения выбранного уровня значимости, отвергаем гипотезу H0 и принимаем гипотезу H1 (ряд стационарный).
* Если значение статистики выше критического значения выбранного уровня значимости, принимаем гипотезу H0 (ряд нестационарный).


# <center>Автокорреляция
>**Корреляция** — это статистическая взаимосвязь, присутствующая между двумя и более величинами, то есть некоторая линейная зависимость (например, между признаками).

>**Автокорреляция** — это статистическая взаимосвязь между последовательностями значений одного временного ряда, взятыми со сдвигом. Другими словами, автокорреляция говорит нам о том, насколько значение во временном ряду похоже на предыдущее значение.

Таким образом, **автокорреляция** — это корреляция ряда с самим собой (отсюда приставка «авто»), но **со сдвигом во времени**. Она помогает выявлять тенденции в данных и оценивать влияние ранее наблюдаемых значений на текущее наблюдение.

* **Лаг** — это предыдущее наблюдение (например, лаг в шесть дней относительно сегодняшнего дня указывает на значение чего-либо, полученное шесть дней назад).
* **Положительная корреляция** — это отношение, при котором увеличение одного значения предсказывает увеличение другого.
* **Отрицательная корреляция** — это отношение, при котором увеличение одного значения предсказывает уменьшение другого.
* **Доверительный интервал** — это рассчитанный диапазон значений, в котором, вероятно, будет содержаться неизвестное (предсказанное) значение для наших данных.
* **Уровень достоверности** — это вероятность того, что доверительный интервал будет содержать наблюдаемое значение (фактическое значение для предсказания).

**Формула автокорреляции:**
$$ r_1 = \frac{\sum_{t=2}^n (x_t - \overline{x}_t) \cdot (x_{t-1} - \overline{x}_2)}{\sqrt{\sum_{t=2}^n} (x_t - \overline{x}_1)^2 \cdot \sum^n_{t=2} (x_{t-1} - \overline{x}_2)^2} $$
где $ x_1 = \frac{\sum_{t=2}^n x_t}{n-1} $; $ x_2 = \frac{\sum_{t=2}^n x_{t-1}}{n-1} $.
Так будет рассчитываться коэффициент автокорреляции первого порядка (он рассчитывает зависимость между уровнями ряда $t-1$ и $t$).

График автокорреляций разного порядка называется **коррелограмма**.  
![image.png](attachment:image.png)

На оси х коррелограммы расположен лаг (порядок), при котором вычисляется автокорреляция. Ось y показывает значение корреляции (от -1 до 1). Чем ближе значение корреляции к 1 или -1, тем выше зависимость, например:

* пик при лаге, равном 1, показывает сильную зависимость между значениям ряда и предыдущим значением;
* пик при лаге, равном 2, показывает сильную корреляцию между каждым значением и значением в более ранний момент на расстоянии 2 от данного.

Также можно встретить коррелограммы, похожие на гистограммы, но их смысл от этого не меняется.

![image-2.png](attachment:image-2.png)

Для совершения предсказаний по данным временного ряда статистическими моделями, необходимо, чтобы во временном ряду присутствовала зависимость, а коррелограмма — хороший способ визуально определить наличие такой зависимости. Значения на коррелограмме будут близки к 0 в случае, если данные ряда не зависят от себя в прошлом. Если скрытая зависимость всё-таки имеется, то одно или несколько значений будут значительно отличаться.

**Как читать коррелограмму?**

1. Если максимальное значение коррелограммы (не считая значения в нуле) оказывается выраженным для лага, равного $k$ (на рисунке $k=3$), то временной ряд содержит циклическую компоненту с периодом $k$. То есть данные являются зависимыми/схожими с данными, находящимися на расстоянии $k$ дней/недель и т. д.  
    ![image-3.png](attachment:image-3.png)  
2. Если максимальное значение на коррелограмме находится в $k=1$, то ряд содержит только тенденцию (тренд).  
    ![image-4.png](attachment:image-4.png)
3. А если все значения на графике автокорреляции колеблются в районе $0$, то ряд не содержит циклической компоненты и тренда, либо содержит нелинейный тренд, который не видно на коррелограмме (так как нелинейный тренд не может быть выражен линейным коэффициентом корреляции).  
    ![image-2.png](attachment:image-2.png)

# <center>Частичная автокорреляция
Для определения сезонного периода используется **частичная автокорреляция**. Она похожа на классическую автокорреляцию, однако дополнительно избавляется от линейной зависимости между сдвинутыми рядами. График частичной автокорреляции читается так же, как и коррелограмма.

Частичная автокорреляция строится с помощью метода `plot_pacf` из пакета `statsmodels.graphics.tsaplots`.
# <center>Автокорреляция остатков

Помимо анализа временного ряда на наличие или отсутствие взаимозависимости, иногда смотрят автокорреляцию **остатков** (разница между предсказанными и реальными значениями) модели. В хорошей модели остатки (ошибки) должны иметь случайный характер — это означает, что модель уловила все существующие зависимости.

Рассмотрим, как определять автокорреляцию остатков по графикам остатков (ошибок предсказания):

На графике ниже в большинстве случаев после положительных остатков следуют положительные, а после отрицательных — отрицательные. Это пример положительной автокорреляции.  
![image-5.png](attachment:image-5.png)

А в этом случае после положительных остатков чаще всего следуют отрицательные и наоборот, на графике — отрицательная автокорреляция.  
![image-6.png](attachment:image-6.png)

**ПРИЧИНЫ АВТОКОРРЕЛЯЦИИ ОСТАТКОВ:**

* Если в остатках имеется автокорреляция (наличие зависимости), это значит, что какая-то зависимость осталась незамеченной для вашей модели — возможно, какие-то важные признаки не были учтены.
* На появление автокорреляции в остатках может повлиять предварительное сглаживание данных, так как вы искусственно сглаживаете значения (накладывая соседние друг на друга, добавляя зависимость).

Остатки будут случайными, если автокорреляции нет. Статистически, а не только визуально проверить её наличие или отсутствие можно с помощью теста Дарбина — Уотсона.

Если в остатках присутствует автокорреляция, скорее всего, предсказания будут далеки от реальных значений и лучше доработать модель, исправив перечисленные выше недочёты.

