# Временные ряды 

Сегодня мы познакомимся с анализом временных рядов.

## **ЧТО ЭТО И ЗАЧЕМ?**

Представьте, что вы климатолог и хотите анализировать скорость и направление ветра в разных точках земного шара.

- Если вы берёте измерения климатических показателей из разных точек планеты в одно и то же время, то можете считать их независимыми, если точки расположены достаточно далеко друг от друга, и применять для анализа обычную линейную или нелинейную регрессию. В этом случае счётчиком для наблюдений будет номер конкретной метеостанции в вашей выборке.


- Но что если вы хотите анализировать климатические характеристики **в одной и той же точке планеты**, например, измеренные на одной метеорологической станции? Здесь счётчиком будет время, и классическая линейная регрессия внезапно может перестать давать достоверные прогнозы.


Дело в том, что с появлением зависимости наблюдений от времени вся математическая структура данных поменялась — наблюдения одной и той же переменной в разные моменты времени стали зависимыми между собой. Мы получили так называемый **временной ряд**.

- **Временной ряд — это измерения одной и той же случайной величины в разные моменты времени.**

**Примеры временных рядов**
- всевозможные экономические индексы, такие как индекс RTS, DJIA и другие;
- стоимость активов на бирже — всевозможные курсы нефти, ценных бумаг, валют и криптовалют:
- физические показатели спортсмена во время тренировок или специальных нагрузочных тестов;
- скорость интернета;
- регулярные измерения роста, веса, давления;
- температура воды в Красном море по дням в июле.

В бизнесе временные ряды ценятся за **возможность прогнозировать значение целевой переменной на будущее**. Самые очевидные примеры использования временных рядов – это финансовое моделирование. Однако, помимо применения в мире финансов, временные ряды можно использовать много для чего еще, например, для прогнозирования спроса или выручки. 

Приведём еще несколько интересных примеров:

<img src="https://lms.skillfactory.ru/assets/courseware/v1/5103122f222144751b9a9f9f51fed802/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/pixeltrue-contact-me.png" width = 300>

**Прогнозирование числа пользователей сайта**
- Если вы владеете сайтом, который публикует новости о футболе, то количество посетителей сайта будет сильно увеличиваться во время матчей. Вам интересно узнать, насколько сильно вырастет это число, чтобы планировать использование дополнительных серверов на время матча. Также важно знать, когда число пользователей спадёт, чтобы отключить дополнительные сервера и сэкономить деньги.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/e3e9544cdd645c3fa0037abd557b0de1/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/pixeltrue-giveaway.png" width = 300>
    
**Прогнозирование удовлетворенности клиента**
- Отзывы клиентов собираются и анализируются каждый день, а их общие оценки показывают, насколько они довольны услугами компании. Число от -1 (самый расстроенный) до +1 (самый счастливый) записывается каждый день. Представим, что оценка начала постепенно снижаться. Компания встаёт перед выбором: следует ли ей немедленно отреагиовать или сэкономить время и ресурсы, поскольку это может скоро закончиться без дополнительного вмешательства. Прогноз временного ряда говорит, что вряд ли уровень удовлетворенности клиентов станет лучше, а в ближайшие несколько дней он будет продолжать падать до неприемлемого уровня. Исходя из этой модели, компания решила привлечь дополнительные ресурсы, чтобы помочь команде обслуживания клиентов, чтобы они могли уделять особое внимание клиентам и пресечь эту тенденцию.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/e30a49f90853e9e70cd5cb9fb338e2db/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/pixeltrue-location.png" width = 300>

**Прогнозирование трафика**
- Сенсорное устройство каждые 20 минут регистрирует количество транспортных средств, которые пересекают перекресток. Используя эти подсчеты, модель временного ряда предсказывает, что в следующие 20 минут движение на перекрестке, вероятно, увеличится до огромных значений. Теперь ваше приложение для планирования поездки решает перенаправить вас, чтобы избежать этого перегруженного, проблемного перекрестка, распределяя нагрузку по дорогам более равномерно.

ЧТО ИЗУЧИМ:
- Познакомимся с основными идеями и понятиями анализа временных рядов такими, как **тренд, сезонность**.
- Узнаем, чем страшна **нестационарность**, и как с ней можно бороться.
- Познакомимся с некоторыми **алгоритмами прогноза**.

А начнём с основ — с теоретических предпосылок для обычных линейных регрессий, познакомимся с понятием белого шума и узнаем, какие задачи решает регрессионный анализ.

→ Давайте приступим!

## Линейная регрессия

До сих пор мы рассматривали линейную регрессию с точки зрения алгоритмов поиска коэффициентов и устойчивости этих алгоритмов. Пришло время поговорить о вероятностных предпосылках.

Для простоты изложения рассмотрим случай**парной регрессии с константой** — один наблюдаемый признак и одна целевая переменная. Предпосылки, которые мы будем рассматривать, называются условиями Гаусса-Маркова.

### УСЛОВИЯ ГАУССА-МАРКОВА

Модель: Мы предполагаем, что $Y$ зависит от $X$ линейно с небольшой случайной добавкой $\varepsilon$. Настоящие коэффициенты $\beta_{i}$ неизвестны и чтобы их оценить, мы берём выборку из $n$ наблюдений

- $Y=\beta_{0}+\beta_{1} X+\varepsilon$
- $Y_{i}=\beta_{0}+\beta_{1} X_{i}+\varepsilon_{i}, i=1 . . n$

**Условие 1. Корректная спецификация модели.**

Это значит, что мы сделали верное предположение о характере зависимости (линейной в нашем случае) и собрали «хорошие» признаки.

Чтобы пройти этот уровень, обычно делают предварительный анализ данных: строят матрицу корреляций для поиска «хороших» признаков, избавляются от мультиколлинеарности в многофакторных моделях и строят диаграммы рассеяния, чтобы наглядно убедиться в том, что линейность есть или нет.

На картинке ниже вы видите диаграмму рассеяния веса по росту. Здесь вес является целевой переменной, а рост — объясняющей.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/f63709d49c9fba3b94a80852b227c3c1/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_3.png" width = 400>

**Условие 2. Признак $X$ должен быть детерминированной величиной, отличной от константы.**

Иными словами, все $X$ не случайны и не все равны друг другу.

Неслучайность нужна для последующего статистического анализа OLS оценок коэффициентов $\beta_{i}$

**Условие 3. Ожидаемое (среднее) значение отклонений нулевое**

- $E\left(\varepsilon_{i}\right)=0$

Это значит, что ошибки не носят систематического характера, т.е. у них нет постоянной составляющей. На самом деле роль постоянной составляющей $\varepsilon$ забирает на себя коэффициент $\beta_{0}$, поэтому регрессии с константой часто предпочтительнее, чем регрессии без константы.

**Условие 4. Гомоскедастичность: разброс отклонений в среднем одинаковый для всех наблюдений**

- $\sigma^{2}\left(\varepsilon_{i}\right)=const$ 

Иными словами, это значит, что разброс ошибок в среднем одинаков для всех наблюдений.


Если вернуться к предыдущему графику, то можно увидеть, что отклонения веса от линейного тренда небольшие и примерно одинаковые для людей ростом до 170 см и сильно увеличиваются для людей ростом выше 170. Это наглядный пример гетероскедастичности — т. е. разных дисперсий ошибки для разных наблюдений.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/f63709d49c9fba3b94a80852b227c3c1/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_3.png" width = 400>


**Условие 5. Независимость ошибок.**

- $\operatorname{cov}\left(\varepsilon_{i}, \varepsilon_{j}\right)=\operatorname{corr}\left(\varepsilon_{i}, \varepsilon_{j}\right)=0, i \neq j$

Это означает, что измерения $Y$ будут независимы друг от друга. Т.е. если какое-то одно случайно имеет большую ошибку, это не повлечёт за собой систематического увеличения ошибки у других наблюдений. Проще говоря, положительные и отрицательные значения ошибок должны быть хаотично перемешаны.

Все вместе условия **Гаусса-Маркова** гарантируют нам «хорошие» оценки для параметров модели $\beta_{0}, \beta_{1}$ и высокое качество прогноза. «Хорошие» здесь означает, что они несмещённые, состоятельные и эффективные (обладают наименьшим разбросом среди всех остальных несмещённых оценок).

### ПРИМЕРЫ НАРУШЕНИЯ УСЛОВИЯ ГАУССА-МАРКОВА

На этой картинке нарушается условие гомоскедастичности: как видите, разброс наблюдений игрека увеличивается, а значит, дисперсия ошибок не постоянна.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/bac898fbf05270b303ba9ed660b0dad8/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_4.png" width = 300>


А здесь явно прослеживается ещё и нелинейная структура.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/3e1488b577454762e7c83a373c192504/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_5.png" width = 300>


### БЕЛЫЙ ШУМ

Условия Гаусса-Маркова под номерами 3, 4 и 5 объединяются и сообщают нам, что $\varepsilon_{i}$ представляют собой белый шумом.

- **Белый шум** — это независимый упорядоченный набор случайных величин с нулевым средним и постоянной  дисперсией

- $E\left(\varepsilon_{i}\right)=0$

Свойства 4 и 5 можно объединить в одно: ковариационная матрица $С$ для всех ошибок $\varepsilon$ имеет вид

- $C=\operatorname{cov}(\varepsilon)=\sigma^{2} E$

то есть все попарные ковариации нулевые, а одноименные (дисперсии) — одинаковые.

- Почему белый шум — это хорошо для регрессии?
    - Потому что белый шум невозможно прогнозировать! Это то же самое, что пытаться спрогнозировать результат подкидывания идеального кубика или монетки. А значит, если после отбора признаков у нас остался белый шум, мы молодцы и хорошо отделили неслучайную, т. е. прогнозируемую часть зависимости, от абсолютно непредсказуемой.

## Скользящее среднее

Напомним, что **временной ряд** — это измерения одной и той же случайной величины в разные моменты времени $X_{1}, X_{2}, \ldots, X_{t}$.

При этом в идеальном случае соблюдаются **условия**:
1. шаг по времени для всей базовой линии одинаков;
2. наблюдения фиксируются в один и тот же момент каждого временного отрезка (например, в полдень каждого дня, первого числа каждого месяца);
3. нет пропусков в данных.

Что мы хотим делать с временными рядами?
- Во-первых, выявлять закономерности развития.
- Во-вторых, оценивать, насколько хорошо выявлена закономерность.
- В-третьих, делать прогнозы на будущее, то есть экстраполировать.

**ПРИМЕР**

<img src="https://lms.skillfactory.ru/assets/courseware/v1/dbb896fddf53e82adbfe427cffcf4b92/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_6.png" width = 600>

На картинке вы видите пример временного ряда.

Наблюдаемой величиной является количество ударов сердца в минуту у пловцастайера на дистанции 5 километров. Измерения делает специальный датчик в одном и том же месте тела с заданной заранее частотой. Это хорошая иллюстрация хаотичности временного ряда. Особенно если бы он был измерен ещё чаще.

Если пульс измерять один или несколько раз в секунду - то данные будут очень рваными. В какую-то секунду 3 удара сердца, в какую-то 2 , итоговая частота пульса на графике будет отличаться на 60 единиц!

Можно построить график и по нему ничего не увидеть. Чтобы невооружённым взглядом увидеть какие-то закономерности, делают усреднение. Например, датчик может усреднять измерения за каждые 5 секунд.

**СКОЛЬЗЯЩЕЕ СРЕДНЕЕ**

Интуитивно понятный способ превратить непонятную «пилу» в график, на котором можно что-то увидеть — это **скользящее среднее** или Moving Average (MA). Проще всего взять среднее арифметическое последних двух наблюдений. Мы получим новый временной ряд, каждый член которого — среднее арифметическое двух соседних значений исходного ряда

- $M A_{t}=\frac{X_{t-1}+X_{6}}{2}$

Чуть более продвинутый способ: усреднить сразу несколько наблюдений. Это так называемое простое скользящее среднее (SMA)

- $S M A_{t}=\frac{X_{t-k}+\ldots+X_{t}}{k}$

**ПРИМЕР**

Давайте посмотрим, что простое скользящее среднее делает с рядом.

Ниже вы видите результат усреднения графика продаж с $k=6 .$ Говорят,
что это простое скользящее среднее с шириной окна $6 .$

Благодаря ему мы можем увидеть, что, во-первых, продажи в целом
немного падают - это тренд, а во-вторых, есть некая периодичность этих падений - это сезонность.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/0d285bb410f5a4fe693ef30b4666cecc/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_8.png" width = 400>


Недостатком простого скользящего среднего может быть то, что у всех измерений в окне равный вес. Чуть более тонкая интуиция говорит нам, что, вообще говоря, это не так: недавние наблюдения, скорее всего, должны быть более значимы для прогноза.
Продвинутым вариантом является взвешенное скользящее среднее (WMA) $k$ последовательных наблюдений ряда
- $ W M A_{t}=\sum_{i=0}^{k-1} w_{t-i} X_{t-i}$

Сумма весов при этом равна единице

- $\sum_{i=0}^{k-1} w_{t-i}=1$

Как правило, при таком усреднении чем новее наблюдение, чем больше его вес.

**Преимущества**
- Скользящее среднее может позволить нам невооруженным взглядом найти закономерности во временном ряде. Но может и не позволить, тогда нужны более продвинутые методы анализа.
- Скользящее среднее можно использовать для прогноза, однако его качество оставит желать лучшего.

**Недостатки**
- Недостатком скользящего среднего с фиксированным окном является то, что оно учитывает только несколько последних наблюдений. От этого можно избавиться экспоненциальным сглаживанием, о котором мы поговорим немного позже.

## Тренд и сезонность

Весь анализ временных рядов напоминает большую капусту.

Первый лист — это тренд.

- **Тренд** — основная тенденция изменения величины со временем.

Если повезёт, тренд будет линейным.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/f471cacce80226512c714f9719d12dc4/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_9.png" width = 600>


На картинке с измерениями пульса тренд **нелинейный**, и здесь можно выделить:

участок старта, когда пульс растёт до крейсерского значения;
более-менее линейный участок основной дистанции;
участок финиша, когда пульс быстро и нелинейно идёт вверх.

Большой бонус тренда — его можно прогнозировать как функцию времени, не учитывая предыдущие значения временного ряда.

Второй лист — **сезонная компонента**.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/dd5d32c5232396f9ab2624b5b9dcf0e0/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_10.png" width = 600>

Например, продажи автомобилей (изображены синим на графике слева) каждый год немного растут в декабре и падают в январе следующего года.

Сезонность задаёт периодические колебания ряда вокруг тренда.

Сезонность есть не всегда, но часто.

- Идея анализа закономерностей временных рядов очень проста: «снимаем» листы по очереди, пока не доберёмся до «кочерыжки». В роли кочерыжки выступает **белый шум**.

Как только мы получили белый шум в остатке ряда — мы молодцы, дальше прогнозировать бессмысленно.

**Самый простой вариант:**
- линейный тренд, остаток белый шум.

**Чуть более сложный:**
- убрали тренд, но осталась закономерность;
- убрали сезонность;
- остаток — белый шум.

**Совсем сложно:**
- убрали тренд и сезонность;
- остаток всё ещё не белый шум.

### Подведём итоги:

<img src="https://lms.skillfactory.ru/assets/courseware/v1/e34b66e4e92dd420a0e03d07c70cd427/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/scribbles-scribbles-55.png" width = 200>

**Тренд**
- Описывает чистое влияние долговременных факторов, изменяется плавно. Например, рост численности населения.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/95fa211722cd22d63cd6aa446af20e7d/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/scribbles-scribbles-22.png" width = 200>


**Цикличность**
- Состоит из циклов, меняющихся по длительности и амплитуде, описывает периоды подъема и спада. Например, это может быть связано с изменением спроса и предложения в экономике или изменениями в финансовой и налоговой политике.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/9f824a0bd4294b08da11408bd7d3b2c3/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/scribbles-scribbles-52.png" width = 200>


**Сезонность**
- Представляет собой последовательность почти повторяющихся циклов. Например, объемы продаж цветов накануне 8 марта или авиабилетов в сезон отпусков летом.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/231b4a41f3d7b25665dca334a1f6335c/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/scribbles-scribbles-4.png" width = 200>


**Шум (случайная компонента)**
- Останется после того, как мы вычтем все вышеперечисленные компоненты. Никакого глубокого смысла этот показатель не несет.

## Нестационарные временные ряды

Прежде чем перейти к методам анализа и предсказания временных рядов, нам нужно познакомиться с понятиями стационарности и нестационарности.

Идея **стационарности временного ряда** в том, что его свойства не зависят от конкретного момента времени. В каком смысле не зависят?

### **ПРИМЕР 1**

Давайте посмотрим на картинку. На ней представлена разница цен акций компании Uniqlo в момент открытия и закрытия биржи за 550 дней.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/6c0d2198b792f12036648e6839256dce/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_11.png" width = 400>

Этот ряд стационарен, свойства ряда не зависят от времени.

Мы можем взять любой интервал размером 100 дней или, как говорят в эконометрике, окно и поместить его в любое место графика. Поведение временного ряда не будет принципиально меняться, то есть не будет зависеть от того, в какой момент времени мы поставили наше окно.

### **ПРИМЕР 2**

Давайте теперь посмотрим отдельно на динамику цен открытия биржи.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/19febf0dc85569699b86d32aa10ce931/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_12.png" width = 400>


На участке в зелёном окне она сначала растёт, а затем падает. А в оранжевом всё время падает.

В красном окне видим третий вариант поведения ряда.

Это пример **нестационарного ряда**.

Примерами нестационарных рядов являются ряды с трендом и сезонностью. В этом случае у ряда будет **непостоянное среднее**.

Также возможен вариант, когда **«гуляет» дисперсия**: на каких-то участках разброс значений маленький, а на каких-то большой.

### **ПРИМЕР «ТРЕНД + СЕЗОННОСТЬ»**

На графике ниже представлено ежемесячное производство конфет в USA c января 1979 по август 2017 г.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/ada9bd2ae7b773ed2faa475f4ccb2648/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_13.png" width = 400>

У ряда на картинке имеется тренд и ярко выраженные сезонные колебания.

Давайте посмотрим на него поближе.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/ff01e546068e222a2b160c0353ebec98/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_14.png" width = 400>

Здесь 48 месяцев, т. е. 4 года. Явно видно, что каждый год в ноябре-декабре наблюдается сильный пик, вероятно, связанный с рождественскими праздниками.

Период сезонности будет составлять 12 месяцев.

### ПРИМЕР «СЕЗОННОСТЬ + НЕСТАЦИОНАРНАЯ ДИСПЕРСИЯ»

На графике ниже представлено ежедневное производство энергии с помощью солнечных батарей в одном доме за 800 дней.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/4d38d1f433365b5e759b4029a0be17d6/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_15.png" width = 400>


Здесь можно увидеть ярко выраженную сезонность, связанную с различной мощностью солнечных батарей в разное время года. Кроме того, хорошо заметна нестационарность дисперсии: в сезоны большего производства энергии разброс данных значительно сильнее.

Посмотрим на тот же временной ряд в более узком окне.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/6699ac566ee2219349624cd30eeaf3d6/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_16.png" width = 400>


Здесь хорошо видно, что сезонная периодичность составляет около 1 года.

### В ЧЁМ ПРОБЛЕМА?

Какие проблемы сулит нам нестационарность?

<img src="https://lms.skillfactory.ru/assets/courseware/v1/0f7282c6ca1da976ed1b657491e612f6/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_17.png" width = 400>

Например, на графике выше мы видим колебания курса доллара к биткоину на бирже криптовалют. Можно заметить явный тренд на убывание. Легко может оказаться, что вы обучите регрессию, оцените, и все статистические тесты скажут вам, что она значима и внутри сэмпла она будет хорошо прогнозировать и обещать вам супер-стратегию на много денег.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/3b0df44d6fd3e588bf6b60c6eee434cf/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_18.png" width = 400>


Однако дальше вас ждёт сюрприз, потому что ничего не предвещало (а особенно ваша модель), но ряд внезапно и надолго пошел вверх. И вся ваша прекрасная стратегия умножилась на ноль, потому что она больше ничего не угадывает.

### SPURIOUS REGRESSION

Самый большой страх при анализе временных рядов — найти закономерность, которой на самом деле нет, то есть принять случайное за закономерное. Это называется **ложная регрессия** (англ. spurious regression).

**ПРИМЕР: «ПРОГНОЗ» СЛУЧАЙНОГО БЛУЖДАНИЯ**

Ярким примером ложной регрессии является попытка прогнозировать случайные блуждания.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/e766c801ff5edc51d2f2619f85d02674/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_19.png" width = 400>

Можно найти тренд от времени, значимую корреляцию и так далее, но эта закономерность абсолютно бессмысленна, и дальше ряд не будет ей следовать.

Означает ли это, что прогнозировать нестационарные ряды бессмысленно? Конечно же, нет, но нужно делать это крайне аккуратно. Например, не гнать просто так линейную регрессию одной криптовалюты на другую.

- [Пример spurious regression](https://www.learneconometrics.com/class/5263/notes/Spurious%20Regressions.pdf) на двух случайных блужданиях (на английском языке).

### КАК ИЗБЕЖАТЬ ПРОБЛЕМ?

Существуют два инструмента:

1. Проверка ряда на стационарность с выбором подходящей модели в зависимости от её результата.
2. Обязательная проверка готовой обученной модели out of sample (за пределами обучающей выборки).


#### ПРОВЕРКА НА СТАЦИОНАРНОСТЬ 

- Первое, что мы делаем, это рисуем график временного ряда и ищем нестационарность на глаз. Часто можно явно увидеть тренд и сезонность, особенно если знать что-то о природе данных. Например, экономические данные (продажи, клики, производство чего-нибудь) почти всегда периодичны.

- Второй вариант проверки — это статистические тесты. Самый популярный и реализованный в Python — тест **Дикки-Фуллера**.

По умолчанию считаем ряд нестационарным. Наши данные могут противоречить этой гипотезе или не противоречить.

**Мерой доверия** к гипотезе по умолчанию («нулевой гипотезе») является величина **p-value**. Если упростить: p-value показывает, насколько правдоподобна нулевая гипотеза при имеющихся данных. Чем p-value меньше, тем меньше мы верим в нестационарность, и тем больше у нас оснований отвергнуть нулевую гипотезу и считать ряд стационарным.

P-value будет считать за нас Python.

Классическая договоренность:
- p-value: $<0.01$ - точно отвергаем нулевую гипотезу;
- p-value: $0.01-0.05$ - отвергаем и считаем ряд стационарным, но уже не так уверены;
- p-value: $0.05-0.1$ - пограничный случай, слабое свидетельство стационарности;
- p-value: $>0.1$ - не отвергаем, продолжаем считать ряд нестационарным.

#### ПРОВЕРКА МОДЕЛИ OUT OF SAMPLE

Как выполняется проверка out of sample:
- В классической регрессии: случайно делим выборку на train-test, обучаем на train, тестируем на test.
- В анализе временных рядов нельзя делить выборку случайно, так как нам важна последовательность измерений, поэтому мы делим весь ряд на последовательные куски. Например, обучаем на train (первой 1000 измерений), тестируем на test (следующих двух сотнях).

## Модель прогнозирования ARMA

Давайте знакомиться с **алгоритмами прогнозов временных рядов**. Начнём с наивного предположения, что завтра будет примерно как сегодня. Это значит, что мы можем предсказать завтрашнее значение сегодняшним:

- $\widehat{X}_{t+1}=X_{t}$

<img src="https://lms.skillfactory.ru/assets/courseware/v1/c22f4235362e2b5a46db78de4f501baa/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_20.png" width = 400>

Посмотрим на первую картинку выше. Это уже знакомый нам график производства конфет в USA. Выглядит многообещающе, не правда ли?


Давайте посмотрим поближе (картинка ниже).

<img src="https://lms.skillfactory.ru/assets/courseware/v1/2a16edb72269bfaab8de37a0894ebd90/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_21.png" width = 400>


Это конец куска данных, на которых у нас были значения исходного ряда. Что мы здесь видим?

Во-первых, прогнозный ряд (синий) немного «запаздывает» относительно настоящего (оранжевого) ровно на 1 шаг времени.

Во-вторых, как только данные закончились, наша наивная модель считает все следующие значения ряда одинаковыми.

При отсутствии новых данных модель прогнозирует константу.

### АВТОРЕГРЕССИЯ

Из предыдущего наивного предположения вырастает модель $A R(p) .$ Например, модель $A R(1)$

**Авторегрессия** $A R(1):$
- $X_{t}=\phi X_{t-1}+\varepsilon_{t}$

Предполагаем, что каждое следующее значение ряда равно текущему, умноженному на константу, + белый шум. Это уже знакомая нам **модель случайного блуждания**.

Допустим, мы знаем несколько первых наблюдений:

- $X_{1}=\phi X_{0}+\varepsilon_{1}$
- $X_{2}=\phi X_{1}+\varepsilon_{2}$
- $X_{3}=\phi X_{2}+\varepsilon_{3}$

и хотим предсказать следующее:

- $X_{4}=\phi X_{3}+\varepsilon_{4}$

Какой прогноз будет для него лучшим?

Из уравнения нам известно $X_{3}$, но неизвестно $\varepsilon_{4}$. Так как $\varepsilon_{4}$ - белый шум, лучшим прогнозом для него будет $0 .$ Значит, **лучший прогноз** для завтрашнего значения в модели случайного блуждания - сегодняшнее значение умноженное на ф:

- $\hat{X}_{4}=\phi X_{3}+0$

А на послезавтра - сегодня умножить на $\phi^{2}$ и так далее

- $\hat{X}_{5}=\phi X_{4}+\hat{\varepsilon}_{5}=\phi \hat{X}_{4}=\phi^{2} X_{3}$

Если $\phi$ от 0 до 1, процесс будет затухать до нуля, если равно единице - будет константой, как мы уже видели.
Авторегрессионную модель можно обобщить до случая $A R(p)$, когда мы берём не одно прошлое измерение, а линейную комбинацию нескольких и ещё добавляем константу (белый шум) - уровень, к которому будет возвращаться ряд, если окажется стационарным

- $X_{t}=\alpha+\phi_{1} X_{t-1}+\phi_{2} X_{t-2}+\cdots+\phi_{p} X_{t-p}+\varepsilon_{t}$

Неизвестными параметрами здесь являются $\alpha$ и $\phi_{1}, \cdots, \phi_{p} .$

<img src="https://lms.skillfactory.ru/assets/courseware/v1/9a4ed7887abe4432c7a5995511c3af78/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/MAT_7_unit_22.png" width = 400>


На картинке выше мы видим реализацию модели $A R(4)$
без константы $\alpha$ для конфетного датасета.
Она тоже отстаёт, и как только заканчиваются известные
значения, довольно быстро затухает к константе.

Если нам известны наблюдения от нулевого момента времени до $t-1,$ то есть первые $t$ наблюдений $X_{0}, X_{1}, \cdots, X_{t-1},$ то лучшим прогнозом для $X_{t}$ будет линейная комбинация исторических данных в окне размера $p$ в константой $\alpha$ :

- $\hat{X}_{t}=\hat{\alpha}+\hat{\phi}_{1} X_{t-1}+\hat{\phi}_{2} X_{t-2}+\cdots+\hat{\phi}_{p} X_{t-p}$

### ПОСТРОЕНИЕ ПРОГНОЗОВ

Другая идея прогноза состоит в следующем: давайте моделировать значения ряда случайными «кирпичиками». Будем считать, что каждое наблюдение - это комбинация случайностей, каждая из которых является реализацией белого шума:
- $X_{t}=\varepsilon_{t}+0.5 \varepsilon_{t-1}$

Например:
- $\begin{array}{c}
X_{5}=\varepsilon_{5}+0.5 \varepsilon_{4} \\
X_{6}=\varepsilon_{6}+0.5 \varepsilon_{5}
\end{array}$

Видим, что разные компоненты шума независимы, но одинаковые как раз и дают нам корреляцию между соседними $X .$

**ПРИМЕР**

Давайте смоделируем значения ряда значениями белого шума в разные моменты времени
- $X_{t}=\varepsilon_{t}+0.5 \varepsilon_{t-1}$

Допустим, у нас есть первые 3 наблюдения, $\varepsilon_{0}$ обычно полагают равным нулю - это точка старта шума
- $\begin{array}{c}
X_{1}=\varepsilon_{1}+0.5 \varepsilon_{0}=\varepsilon_{1} \\
X_{2}=\varepsilon_{2}+0.5 \varepsilon_{1} \\
X_{3}=\varepsilon_{3}+0.5 \varepsilon_{2}
\end{array}$

Как оценить $X_{4} ?$

Выражаем значения первых трёх шумовых компонент $\varepsilon_{1}, \varepsilon_{2}, \varepsilon_{3}$ из известных нам измерений $X .$ Наилучшим прогнозом для $X_{4}$ будет:
- $\hat{X}_{4}=\hat{\varepsilon}_{4}+0.5 \varepsilon_{3}=0.5 \varepsilon_{3}$

$\varepsilon_{4}$ мы не знаем, но это компонента белого шума, а значит, прогнозируем её нулем. Итого получаем $\varepsilon_{3}$, которое мы выразили через предыдущие наблюдения.

### МОДЕЛЬ СКОЛЬЗЯЩЕГО СРЕДНЕГО

Модель скользящего среднего порядка $q$ обозачается как $M A(q)$

Говорим что $X$ - это значение белого шума в момент в времени $t$ + скользящее среднее с окном размера $q$
- $X_{t}=\alpha+\varepsilon_{t}+\theta_{1} \varepsilon_{t-1}+\cdots+\theta_{q} \varepsilon_{t-q}$

Неизвестными являются $\alpha$ и $q$ штук параметров $\theta .$

Как сделать прогноз? Из исторических данных при помощи линейной алгебры мы можем выразить все $\varepsilon$, кроме $\varepsilon_{t}$, потому что это отклонение, которое будет завтра, мы его ещё не знаем. Но мы знаем, что это компонента белого шума, а значит, её лучший прогноз ноль, тогда
- $\hat{X}_{t}=\hat{\alpha}+\hat{\theta}_{1} \varepsilon_{t-1}+\cdots+\hat{\theta}_{q} \varepsilon_{t-q}$

**Идея!**
- Давайте объединим эти две модели $A R(p)$ и $M A(q)$ в одну.

Мы получим модель $A R M A(p, q)$ - модель авторегрессии и скользящего среднего. В ней $p$ авторегрессионных слагаемых и $q$ слагаемых скользящего среднего шумовой компоненты
$X_{t}=\alpha+\phi_{1} X_{t-1}+\phi_{2} X_{t-2}+\cdots+\phi_{p} X_{t-p}+\varepsilon_{t}+\theta_{1} \varepsilon_{t-1}+\cdots+\theta_{q} \varepsilon_{t-q}$

**Теорема Вольда:**
- Любой стационарный ряд можно хорошо приблизить моделью класса $A R M A(p, q) .$

У прогнозирования при помощи моделей $A R M A$ есть ограничения. Помимо того, что они работают только на стационарных рядах, горизонт прогноза у них невелик, так как значения при отсутствии новых измерений быстро затухают в ноль или в константу.

## Модель прогнозирования ARIMA

Что же делать, если ряд нестационарный?

**ДИФФЕРЕНЦИРОВАНИЕ РЯДА**

Одна из идей состоит в том, чтобы рассматривать не сам ряд $X$, а его приращения:
- $\Delta X_{t}=X_{t}-X_{t-1}$

Вдруг они стационарны?
- Если да, мы можем строить $A R M A$ модель для приращений $\Delta X_{t}$.

- Если нет, попробуем взять приращения следующего порядка
    - $\Delta^{2} X_{t}=\Delta X_{t}-\Delta X_{t-1}=X_{t}-2 X_{t-1}-X_{t-2}$

Вся эта процедура называется дифференцированием ряда по аналогии с дифференцированием непрерывных гладких функций. Хотя, конечно, временные ряды нельзя дифференцировать в классическом смысле из-за их дискретной природы.

- Если после нескольких таких операций ряд приращений порядка $d$ оказался стационарным, то исходный ряд $X$ называется интегрированным рядом порядка $d,$ где $d$ - количество раз дифференцирования.

Итак, мы получили модель $A R I M A(p, d, q),$ где
- $A R(p)$ - авторегрессия;
- $I(d)$ - интегрированность порядка
- $M A(q)$ - скользящее среднее шумов.

### КАК СТРОИТЬ ПРОГНОЗ?

**ПРИМЕР**

Допустим, мы построили модель $A R I M A(p, d, q) .$ Как по ней строить прогноз? Для примера разберём случай $d=1 .$

Пусть нам известны первые 6 значений ряда $X_{1}, \cdots, X_{6},$ а значит, и первые 6 приращений $\Delta X_{1}, \cdots, \Delta X_{6} .$

Сначала строим прогноз для $\Delta X_{7}$ из соответствующей $A R M A$ модели, а затем и для $X_{7}$
- $\hat{X}_{7}=X_{6}+\Delta \hat{X}_{7}$

Если мы хотим построить прогноз дальше, например, для $X_{8}$
- $\hat{X}_{8}=X_{7}+\Delta \hat{X}_{8}$

у нас возникает проблема - нужно значение из будущего $-X_{7} .$ Но будущее ещё не настало, поэтому $X_{7}$ неизвестно.

А значит, вместо него берём его текущий прогноз
- $\hat{X}_{8}=\hat{X}_{7}+\Delta \hat{X}_{8}$

**Итого при прогнозах:**
- значения из будущего заменяем на их оценки;
- ошибки из будущего, возникающие при оценках разности, заменяем на нули.

Но по факту, конечно, все прогнозы мы будем делать командой в Python.

**ОСОБЫЕ СЛУЧАИ**

Что делать, если получить стационарные приращения не вышло, и бывает ли вообще такое? Бывает. Например, последовательность Фибоначчи не удастся сделать стационарной при помощи дифференцирования никогда.

На практике мы не будем проверять до бесконечности.

**Что делать, если взяли несколько разностей, а стационарность не получается?**
- Можно пробовать другие модели, например, модель с сезонностью $S A R I M A$.
- Можно попытаться преобразовать исходный ряд, например при помощи логарифма.

## Автокорреляция и частичная автокорреляция

### **АВТОКОРРЕЛЯЦИЯ (ACF)**

Идея использования авторегрессионных моделей состоит в том, что значения ряда зависят от исторических данных ー значений в предыдущие моменты времени.

Причём, чем дальше в историю мы уходим, тем слабее эта зависимость.

Математически эту связь можно выразить при помощи автокорреляционной функции:
- $A C F(\tau)=\operatorname{corr}\left(X_{t}, X_{t-\tau}\right)$

Она представляет собой уже знакомый нам коэффициент **корреляции Пирсона**, вычисленный между значениями самого ряда и его сдвинутой на $\tau$ назад копии.

**ПРИМЕР**

Рассмотрим такой временной ряд $X_{t}=\varepsilon_{t}+0.6 \varepsilon_{t-1},$ где
- $\varepsilon_{t}-$ белый шум с единичной дисперсией. Найдём его $A C F .$

**Решение:**

Посмотрим на несколько последовательных значений
- $\begin{array}{l}
X_{5}=\varepsilon_{5}+0.6 \varepsilon_{4} \\
X_{6}=\varepsilon_{6}+0.6 \varepsilon_{5} \\
X_{7}=\varepsilon_{7}+0.6 \varepsilon_{6} \\
X_{8}=\varepsilon_{8}+0.6 \varepsilon_{7}
\end{array}$

$A C F(0)=\operatorname{corr}\left(X_{t}, X_{t-0}\right)=1-$ значение $A C F$ в нуле всегда равно $1,$ ведь это корреляция ряда с самим собой

Хорошо видно, что у любых двух соседний наблюдений, например, $X_{5}$ и $X_{6}$, есть общая шумовая компонента:
$\begin{array}{l}
X_{5}=\varepsilon_{5}+0.6 \varepsilon_{4} \\
X_{6}=\varepsilon_{6}+0.6 \varepsilon_{5}
\end{array}$

Это $\varepsilon_{5}$. Значит, они будут скоррелированы друг с другом. И $A C F(1)=\operatorname{corr}\left(X_{t}, X_{t-1}\right)=0.6 .$

У наблюдений через 1 друг от друга, например, $X_{5}$ и $X_{7}$, общих компонент нет, то есть они независимы. Проще говоря, $X_{7}$ «не помнит», что там было 2 и больше шагов назад.
- $A C F(2)=A C F(3)=\cdots=0$

Получается, что у такого процесса автокорреляционная функция имеет всего два два ненулевых значения: $A C F(0)$ и $A C F^{\prime}(1)$

На практике у нас нет известной зависимости типа $X_{t}=\varepsilon_{t}+0.2 \varepsilon_{t-1} .$ У нас есть реализации этого случайного процесса временной ряд с конкретными значениями. То есть выборка за $N$ последовательных наблюдений.

**Значит, вместо настоящих корреляций будут выборочные, а вместо настоящей автокорреляционной функции - выборочная. Значения $\tau$ называют лагами, или задержками.**

Мы можем нарисовать график выборочной автокорреляционной функции для реализации такого процесса. Выглядеть она будет примерно так:

<img src="https://lms.skillfactory.ru/assets/courseware/v1/297c215fc8261ecefb24437f47823f32/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/ACF_MA1.png" width = 600>

Такие картинки называются **коррелограммами** ряда.

Для лага 0 её значение равно 1 - это выборочная корреляция ряда с самим собой, для лага 1 около $0.43 .$ 

Остальные значения лежат внутри синей области. Теоретические корреляции для лагов больше 1 нулевые, но выборка - не вся популяция, а значит, выборочные показатели будут от нуля отличаться. Если не вдаваться в детали, попадание в синюю область значит, что они
отличаются от нуля незначимо.

Какую информацию дают нам о ряде автокорреляционная функция и коррелограмма? Не зная истинного положения вещей, а видя только, что $A C F(1)$ значимо отличается от нуля, а остальные значения ー нет, мы можем предположить, что наш ряд генерируется процессом $M A(1): X_{t}=\varepsilon_{t}+\theta \varepsilon_{t-1}$ и попросить компьютер подобрать оптимальный параметр $\theta .$

- Проще говоря, коррелограмма говорит о том, какая «глубина памяти» у нашего ряда в смысле модели $M A(q) .$ А значит, по последнему ненулевому лагу мы сможем определить параметр $q .$

А вот так выглядит **коррелограмма белого шума:**

<img src="https://lms.skillfactory.ru/assets/courseware/v1/e2c7f675696c633efbea36321f007165/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/ACF_white_noise.png" width = 600>

Мы видим пик в нуле и всё — остальные корреляции близки к нулю, что и логично — у белого шума памяти нет вообще.

### ЧАСТИЧНАЯ АВТОКОРРЕЛЯЦИЯ (PACF)

Частичная автокорреляция устроена несколько сложнее.

**ПРИМЕР**
- Рассмотрим такой временной ряд модели $A R(1):  X_{t}=0.6 X_{t-1}+\varepsilon_{t},$ где $\varepsilon_{t}$ - белый шум с единичной дисперсией. Найдём ero $A C F$

Давайте распишем значение $X_{5}$ :
- $\begin{array}{c}
X_{5}=0.6 X_{4}+\varepsilon_{5}=0.6 \cdot\left(0.6 X_{3}+\varepsilon_{4}\right)+\varepsilon_{5}=0.6^{2} \cdot X_{3}+0.6 \varepsilon_{4}+\varepsilon_{5}=0.6^{2} \cdot\left(0.6 X_{2}+\varepsilon_{3}\right)+0.6 \varepsilon_{4}+\varepsilon_{5} \\
=0.6^{3} \cdot X_{2}+0.6^{2} \cdot \varepsilon_{3}+0.6 \cdot \varepsilon_{4}+\varepsilon_{5}=0.6^{4} \cdot X_{1}+0.6^{3} \cdot \varepsilon_{2}+0.6^{2} \cdot \varepsilon_{3}+0.6 \cdot \varepsilon_{4}+\varepsilon_{5}
\end{array}$

Итого:
- $X_{5}=0.6^{4} \cdot \varepsilon_{1}+0.6^{3} \cdot \varepsilon_{2}+0.6^{2} \cdot \varepsilon_{3}+0.6 \cdot \varepsilon_{4}+\varepsilon_{5}$

То есть в значение $X_{5}$ вносят вклад ВСЕ 5 имеющихся шумовых компонент! Это значит, что на коррелограмме реализации такого ряда мы увидим убывающую картинку, например такую:

<img src="https://lms.skillfactory.ru/assets/courseware/v1/d0b5f67e06c9658fca38e61b224a7d76/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/ACF_AR1.png" width = 600>

А для реализации моделей $A R(2)$ и $A R(3)$ все ещё сложнее, и картинки уже могут быть такими:

<img src="https://lms.skillfactory.ru/assets/courseware/v1/23834b9ea5e8d238fa5e0986e38ba47a/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/ACF_AR2.png" width = 600>

<img src="https://lms.skillfactory.ru/assets/courseware/v1/c7b8147b0e32e45c3f1d747df08cb746/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/ACF_AR3.png" width = 600>

И мы уже не сможем визуально отличить количество параметров модели. На помощь придет **частичная автокорреляционная функция ( $P A C F$ )**.

**ЗАДАЧА**

Мы хотим понять, сколько авторегрессионных слагаемых нужно взять в модели $A R(p)$ :
- $X_{t}=\alpha+\phi_{1} X_{t-1}+\phi_{2} X_{2}+\cdots+\phi_{p} X_{t-p}+\varepsilon_{t}$

**Решение:**

Нам нужно понять, сколько предыдущих значений ряда существенно влияют на текущее. Как это это делает $P A C F ?$

Она гонит регрессии $X_{t}$ на $X_{t-1}$, затем на $X_{t-1}$ и $X_{t-2}$, добавляя на каждом шаге новый лаг, и вытаскивает из этих регрессий коэффициент при самом ДАЛЬНЕМ лаге.

В какой-то момент этот коэффициент становится почти нулевым. Это значит, что дальнейшая «история» уже не имеет значения.

Этот момент хорошо виден на графике $P A C F$ - частичной коррелограмме ряда.

Например, на этой картинке частичная коррелограмма ряда, полученного при помощи процесса $A R(2) .$

<img src="https://lms.skillfactory.ru/assets/courseware/v1/375cccd7b4fdf2b9fb1f59c9c95ef2f6/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/PACF_AR2.png" width = 600>

Последний лаг, существенно отличающийся от нуля, и будет нашим кандидатом.

А это частичная коррелограмма ряда, полученного при помощи процесса $A R$ (3).

<img src="https://lms.skillfactory.ru/assets/courseware/v1/a2b601eb5ab293d9dc410109951ffebf/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/PACF_AR3.png" width = 600>

Ну, а это — частичная коррелограмма ряда, полученного при помощи процесса белого шума.

<img src="https://lms.skillfactory.ru/assets/courseware/v1/a2503b2733333794ab594906f7b2def1/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/PACF_white_noise.png" width = 600>


## Подбор коэффициентов для ARIMA

Пришло время научиться подбирать коэффициенты моделей $A R I M A$.

**ВАРИАНТ «БАЗОВЫЙ»**

Это делается в два этапа:
1. Первый этап - подбираем руками $p, d, q .$ Здесь пригодятся автокорреляционная функция и частичная автокорреляционная функция $(A C F$ и $P A C F) .$
2. Второй этап ー обучение модели $A R I M A(p, d, q)$ и поиск коэффициентов $\alpha, \phi$ и $\theta .$ Эту часть делает компьютер.

**ВАРИАНТ «СО ЗВЕЗДОЧКОЙ»**
1. Подбор начальных $p, d, q(A C F, P A C F)$.
2. Обучение разных моделей $A R I M A(p, d, q) .$
3. Сравнение моделей и выбор «победителя»

По-хорошему на первом этапе подбираются только начальные приближения для $p, d, q$, а дальше генерируется и обучается многомного разных $A R I M A$ моделей с разными $p, d, q$ в зависимости от начальных, и на третьем шаге делается сравнение получившихся моделей по разным метрикам качества и выбор наилучшей. Мы остановимся на базовом варианте, а процесс перебора моделей можно посмотреть в дополнительных материалах.


### АНАЛИЗ ВРЕМЕННОГО РЯДА ПО ШАГАМ

Давайте соберём общий алгоритм анализа временного ряда по шагам.

**→ ПРОСТОЙ СЛУЧАЙ**
1. Нарисовать график и посмотреть глазами на закономерности.
2. Сделать декомпозицию на тренд, сезонность и шум, и посмотреть глазами на закономерности.
3. Если шум белый — ура! Зависящего от времени тренда и сезонности достаточно для прогноза.

**→ В ОСТАТКЕ ЕСТЬ ЗАКОНОМЕРНОСТИ**

Допустим, нам не повезло и остатки содержат закономерности. Тогда проверяем ряд на стационарность и если да, то ура - подбираем $A R M A$, но скорее всего нет, тогда пробуем дифференцировать ряд, пока он не станет стационарным и подбирать $A R I M A .$

4. Проверка на стационарность
5. Да - ура! Подбираем $A R M A(p, q)$
6. Нет - дифференцируем и снова п. 4 (пробуем подобрать $A R I M A(p, d, q) .$

**→ ARIMA НЕ ПОДХОДИТ**

Если нам совсем не повезло и ряд не становится стационарным или же $A R I M A$, которую мы подобрали, прогнозирует его плохо, пробуем преобразовать исходные данные или другие модели прогноза.
7. Пробуем преобразовать исходный ряд или другие методы прогноза.

### ПОДБОР КОЭФФИЦИЕНТОВ ДЛЯ ARIMA И ГРАНИЦЫ ЕЁ ПРИМЕНИМОСТИ

Подведём итог подбора коэффициентов $A R$ и $M A$ :
1. Коррелограмма $A C F$ даст нам информацию о количестве параметров модели $M A(q)$.
2. Коррелограмма $P A C F$ даст нам информацию о количестве параметров модели $A R(p)$.

Однако не всё так просто!

- Во-первых, вся эта красота работает только на стационарных рядах. Поэтому первым делом надо избавляться от нестационарности (находим параметр $d$ для $A R I M A$ ).
- Во-вторых, вы могли заметить, что $A R M A$ и $A R I M A$ никак не учитывают сезонность. Для этого есть модели $S A R M A$ (стационарные) и $S A R I M A$ (нестационарные).
- В-третьих, пункты 1 и 2 **хорошо** работают только на «чистых» рядах типов $A R$ или $M A$. Как только мы объединяем модели и получаем $A R M A$, обе коррелограммы могут оказаться несостоятельными.

**ПРИМЕР**

Давайте посмотрим на коррелограммы ряда, полученного из процесса $A R M A(2,2):$

<img src="https://lms.skillfactory.ru/assets/courseware/v1/0fe44cbfc89066adaaa20ea7d9321d2b/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/ACF_ARMA22.png" width = 600>

<img src="https://lms.skillfactory.ru/assets/courseware/v1/b81740359e0f68fae4a3ccbab007de4d/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/PACF_ARMA22.png" width = 600>

Как видите, коррелограмма $A C F$ имеет аж 6 лагов с ненулевыми значениями, а частичная коррелограмма $P A C F-3 .$

Пример наглядно демонстрирует, что одних только коррелограмм недостаточно для подбора коэффициентов.

Стоит сказать, что честная и качественная настройка моделей типа $A R I M A(p, d, q)$ - дело крайне сложное, долгое и трудоёмкое. Пример такого подбора можно посмотреть [в этой статье](http://www.isa.ru/jitcs/images/documents/2011-02/41_49.pdf). В ней авторы перебирают более 200 моделей, прежде чем находят лучшую.

- В-четвертых, $A R I M A$ плохо работает с гетероскедостичным шумом. Например, в финансовых данных часто присутствует volatility clustering - следом за высокой волатильностью (дисперсией) активов, как правило, следует высокая, а за низкой - низкая. Если попростому, то есть «период новостей» - цены прыгают очень сильно, и «период затишья» - цены прыгают слабо. $A R I M A$, как и любая другая модель, не учитывающая volatility clustering, будет плохо прогнозировать финансовые данные. Для таких случаев существует модель $G A R C H .$
- Ну, и наконец, в-пятых, может оказаться, что не совсем обыкновенная, но всё же куда более простая линейная или нелинейная регрессия на специально подобранные параметры может давать не сильно худший прогноз по сравнению с долго, дорого, кропотливо и с большими шансами неправильно настроенной $A R I M A$.

В качестве таких параметров берут, например, различные характеристики времени - год, месяц, число, день недели, время суток, выходной/не выходной и так далее.

- **В качестве дополнительной литературы** рекомендуем вам [пример подбора сезонной модели $S A R I M A$](https://www.8host.com/blog/prognozirovanie-vremennyx-ryadov-s-pomoshhyu-arima-v-python-3/), показывающий, почему не очень здорово подбирать коэффициенты $A R I M A$ «на глазок».

Рекомендуем подумать, какие свойства ряда не учёл при подборе модели автор, а затем почитать [комментарии](https://habr.com/ru/post/207160/).