Временной ряд — последовательность значений, которые протекают и измеряются в определенном временном промежутке. Основная характеристика, которая отличает временной ряд от простой выборки данных – указанное время измерения или номер изменения по порядку.

## Виды

1. *Детерминированные ряды* - Подобные ряды полностью предсказуемы и описываются формулами. Это позволяет точно прогнозировать их будущее поведение
   
2. *Недетерминированные ряды* - Ряды имеют случайные компоненты. Это делает их анализ сложнее. Для них аналитики используют методы, основанные на средних значениях и дисперсии

3. *Стационарные ряды* - Ряды сохраняют постоянные статистические свойства со временем. Анализ и моделирование таких рядов проще. Примеры таких рядов: рождаемость в стране — несмотря на колебания, ряд остается относительно предсказуемым

4. *Нестационарные ряды* - Данные отличаются переменными статистическими свойствами. На них сильно влияют тренды или сезонность. Пример таких рядов — данные авиаперелетов. При анализе таких рядов специалисты часто удаляют тренды, сезонные эффекты и шум, чтобы выделить ключевые закономерности

## Компоненты

1. *Тренд* — долгосрочная тенденция. Например, устойчивый рост спроса на электроавтомобили.

2. *Сезонность* — повторяющиеся изменения, связанные, как правило, с календарными изменениями: сменой времен года или наступлением праздничных дней. 

3. *Цикличность* — колебания, обусловленные экономическими циклами или циклами деловой активности. Период такого колебания в среднем составляет от двух до пяти лет.

4. *Случайные колебания* — ситуативные изменения, которые нельзя предсказать, например неожиданные события или технические сбои.

## Подготовка к анализу

### 1 Проверка на полноту
#### 1.1 Заполнение средним или медианным значением 

Метод подходит, если пропуски в ряду случайны и данные имеют однородное распределение. Тогда можно заменить пропуски средним значением или медианой столбца. Подход теряет точность при наличии трендов или сезонности.

#### 1.2 Использование предыдущих или последующих значений

Данные временного ряда статистически взаимосвязаны, это называется автокорреляционной функцией временного ряда. Эта взаимосвязь делает возможным заполнение пропусков предыдущими или последующими значениями. Тем не менее многократное применение одного значения может исказить тренды, поэтому стоит ограничивать количество заполняемых подряд пропусков.

#### 1.3 Метод скользящего среднего

Для заполнения пропусков ряда также можно использовать скользящее среднее или медиану. Такой подход позволяет учесть тренды или локальные колебания, избегая грубых искажений.

#### 1.4 Интерполяция

Интерполяция — это наиболее сложный метод из перечисленных. В сущности, это математическая попытка вычислить функцию, которая проходит через известные данные. Различают линейную, полиномиальную интерполяцию и сплайн. Линейная интерполяция предполагает построение прямой линии между точками на графике, тогда как полиномиальная и сплайн-интерполяция дают больше гибкости для описания сложных зависимостей

### 2 Корректность значений

Нужно избавить ряд от аномалий, которые могут указывать на ошибки ввода.

### 3 Приведение к стационарности

#### 3.1 Логарифмирование
#### 3.2 Преобразование Бокса–Кокса

![image.png](attachment:9291a6ed-ba7d-45b9-b89d-b8f1658bf2fb.png)![image.png](attachment:f69f9f87-6109-4e5e-b92c-08dd0123bc51.png)

Перед применением преобразования нужно определить λ. И если λ = 0, то применяется логарифмирование
#### 3.3 Дифференцирование

## Методы анализа

### Декомпозиция временных рядов

Декомпозиция временных рядов заключается в разложении временного ряда на несколько компонентов: тренд, сезонность и остаток. Это позволяет лучше понять структуру данных и выявить скрытые паттерны. Декомпозиция помогает выделить основные составляющие временного ряда, что делает его более понятным и предсказуемым.

### Скользящее среднее

Скользящее среднее используется для сглаживания временных рядов и устранения случайных колебаний. Это позволяет лучше увидеть тренд и сезонность в данных. Скользящее среднее рассчитывается как среднее значение данных за определенный период времени. Существует несколько видов скользящего среднего, включая простое скользящее среднее, взвешенное скользящее среднее и экспоненциальное скользящее среднее.

1. *Простое скользящее среднее (SMA)*: рассчитывается как среднее значение за фиксированный период времени.
2. *Взвешенное скользящее среднее (WMA)*: придает больший вес более свежим данным.
3. *Экспоненциальное скользящее среднее (EMA)*: использует экспоненциальное взвешивание для придания большего веса более свежим данным.

### Автокорреляция

Автокорреляция измеряет степень зависимости значений временного ряда от его предыдущих значений. Это помогает выявить повторяющиеся паттерны и циклы в данных. Автокорреляционная функция (ACF) и частичная автокорреляционная функция (PACF) часто используются для анализа временных рядов. Автокорреляция может быть положительной или отрицательной, в зависимости от направления зависимости.

1. *ACF*: показывает корреляцию временного ряда с его лагами.
2. *PACF*: показывает корреляцию временного ряда с его лагами, исключая влияние промежуточных лагов.

### Модели ARIMA

Модель ARIMA (AutoRegressive Integrated Moving Average) является одной из наиболее популярных моделей для анализа временных рядов. Она сочетает в себе авторегрессию (AR), интегрирование (I) и скользящее среднее (MA) для моделирования временных рядов и прогнозирования будущих значений. Модель ARIMA может быть адаптирована для различных типов данных и временных рядов.

1. *AR (p)*: авторегрессия порядка p. Использует прошлые значения временного ряда для предсказания будущих значений.
2. *I (d)*: интегрирование порядка d. Используется для устранения тренда и сезонности.
3. *MA (q)*: скользящее среднее порядка q. Использует прошлые ошибки прогноза для улучшения точности.

В случае, если временные ряды имеют выраженные сезонные компоненты, аналитики используют SARIMA (Seasonal ARIMA). Модель добавляет сезонные параметры к модели ARIMA и учитывает повторяющиеся паттерны, например ежемесячные или годовые изменения. 

### Экспоненциальное сглаживание

Экспоненциальное сглаживание используется для прогнозирования временных рядов путем присвоения большего веса более свежим данным. Существует несколько вариантов экспоненциального сглаживания, включая простое, двойное и тройное экспоненциальное сглаживание (Holt-Winters). Каждый из этих методов имеет свои преимущества и недостатки, и выбор метода зависит от конкретных данных и целей анализа.

1. *Простое экспоненциальное сглаживание*: используется для данных без тренда и сезонности.
2. *Двойное экспоненциальное сглаживание*: используется для данных с трендом.
3. *Тройное экспоненциальное сглаживание (Holt-Winters)*: используется для данных с трендом и сезонностью.

![image.png](attachment:1f5cfe1e-66d1-4d3b-a48a-6558bbfb6a8c.png)

1. a (alfa) — коэффициент сглаживания, который принимает значения от 0 до 1. Он определяет, насколько продолжительность изменит существующие значения в базе данных;

2. x — текущее значение временного ряда (например, объем продаж);

3. y — сглаженная величина на текущий период;

4. t — значение тренда за предыдущий период.