#  Анализ на времеви редове (ВР)

Голям брой величини се променят с течение на времето. Такъв тип величини наричаме сл. процеси. Най-често тези процеси са непрекъснати във времето и променят ст-стите си в определен интервал от време. Промените обикновено зависят от други величини (фактори) - сезонно, циклично, периодично и т.н.

Предположението за независимост на наблюденията при анализ на времеви редове често е невярно. Това води до необходимостта от използване на по-сложни статистически модели. Анализът на такива процеси се извършва след дискретизация на наблюденията. Периодът през който се разпределят данните е константен и се нарича **време на дискретизация**.

## Времеви редове

- **Времеви ред** - съвкупност от наблюдения, проведени през равни интервали във времето и върху един и същ обект или явление.

### Компоненти

- Дългосрочен тренд - T

Описва тенденцията на наклона (нарастване или намаляване), по която се разполагат ст-стите на временния ред в достатъчно дълъг период от време. Най-често представяме с линейни, полиномни, експоненциални или логаритмични функции.

- Циклични ефекти - C

Тази част от реда, която представлява периодично нарастване и намаляне на ст-стите му, наблюдавани в един и същ временен период на повторение. Описваме с тригонометрични функции.

- Сезонни ефекти - S

Периодични колебания свързани с общоприети сезони.

- Случайни изменения - I

Изменения, които нямат конкретно обяснение. Дължат се на сл. въздействия върху обекта на изследване и подлежат на вероятностно описание.

Един времеви ред може да съдържа няколко тренда, циклични и сезонни ефекта.

## Класически модели на времеви редове

Този вид модели се опитват да намерят формула(формули), която достатъчно точно да възпроизвежда поведението на реда. Обикновено тези модели се използват за предсказване на стойностите на реда в бъдещето.

Времевият ред се описва с приближаваща функция, зависеща от времето, в която се определят параметри на модела.

- **Адитивен модел** - $\hat{Y} = T + C + S + I$. Този модел е сума от компонентите на времевия ред. Той е лесен за анализиране, поради което често се търсят начини за преобразуване на други модели към този.

- **Мултипликативен модел** - $\hat{Y} = T \times C \times S \times I$. Този модел е произведение на компонентите. Когато някой компонент липсва, в произведението се счита за равен на 1. Ако всички компоненти са положителни, след логаритмуване той се свежда към адитивен:

$$\log{\hat{Y}} = \log{T \times C \times S \times I} = \log{T} + \log{C} + \log{S} + \log{I}$$

- **Смесен модел** - - $\hat{Y} = T \times C \times S + I$. Обикновено в този тип модели само случайните изменения са адитивна променлива.

## Анализ на компонентите на ВР

Построяването на описаните модели се извършва чрез разделяне на отделните компоненти и апроксимирането на всеки от тях с отделна функция. Тази операция се нарича декомпозиция на ВР. При анализ на ВР последователно се оценят и отстраняват посочените компоненти в реда: тренд, циклични ефекти, сезонни ефекти и сл. изменения.

### Тренд анализ

Трендът е най-използваното средство за прогнозиране на бъдещи ст-сти на един времеви ред. Анализът се състой в намирането на най-подходящата крива, която описва тенденцията за изменение за даден период. За оценката му се използват различни подходи:

- Графично изчертаване
- Метод на пълзящото средно - последователно осредняване на определен брой последователни ст-сти на ВР. Избира се $k$ - колко ст-сти от ВР се използват на всяка стъпка на осредняването.
- Регресионен анализ - най-често използван метод. Изборът на подходящ модел се основава на стандартна грешка на оценката.

### Циклични ефекти

Нека ВР може да се опише точно с адитивен модел, в който сезонната компонента е приета за нула. Тогава, редът има вида:

$$\hat{Y} = T + C + I$$

Отстраняването на тренда може да се извърша чрез изваждане:

$$\hat{Y}_{ci} = T + C + I - T = \hat{Y} - T = C + I$$

Цикличната компонента (C) може да се опише с една или няколко тригонометрични функции чрез тригонометрична регресия и може да бъде отстранена от $\hat{Y}_{ci}$:

$$\hat{Y}_{i} = \hat{Y}_{ci} - C = C + I - C = I$$

### Созонни ефекти

Анализът на сезонните ефекти се извършва след отстраняване на гладките изменения - трендове и циклични ефекти. Нека имаме мултипликативен модел за ВР, цикличната компонента отстъства и премахнем тренда - ще получим остатък:

$$\hat{Y}_{si} = \frac{\hat{Y}}{T} = \frac{T \times S \times I}{T} = S \times I$$

Класическият анализ на остатъка е свързан с определяне на т.нар. сезонен индекс.  Сезонният индекс се изчислява, като се осреднят процентите на ст-стите на дела на тренда във ВР за съответните дискретни моменти от периода на повторение.

### Отстраняване на сл. изменения

Случайните изменения във ВР се опистват със средставата за изследване на сл.в. - т.е. стандартни статистически средства.

## ARIMA модели

Често използвани в практиката за анализиране на ВР са ARIMA моделите. Името на тези модели означава AutoRegressive Integrated Moving Average (ARIMA) и се записват като ARIMA (p, d, q), където:

- **p** - авторегресионен елемент, който представлява влиянието на данните от $p$ предишни моменти в модела.
- **d** - интегриран елемент, който представлява тренда в данните.
- **q** - показва колко члена от ВР се използват за изглаждане на малки промени с помощта на пълзящо средно.

Анализът се провежда в следните три стъпки: идентифициране, оценка и диагностика.

### Идентифициране

Тази стъпка включва изследване на данните чрез изчертаване на автокорелационните (ACs) функции и частичните автокорелационни (PACs) функции. Автокорелацията е самостоятелна корелация на серия от резултати със себе си, като се прескачат един или повече периоди назад във времето (lag).

### Построяване и оценка на модела

Построяване на модел и оценка на неговите параметри, като тестваме срещу $H_0$, че са равни на 0.

### Диагностика на модела

В тази стъпка се изследват остатъците. Те са разликите между предсказаните от модела стойности и наблюдаваните данни. Предполагаме, че остатъците са случайни и имат нормално разпределение.

## Идентификация на ARIMA (p, d, q)

Идентификацията на ВР е процес по намиране на параметрите на (p, d, q). Търсим възможно най-малки ст-сти на параметрите, които обикновен са $0, 1, 2, \ldots$. Когато ст-ста е 0, елементът не е необходим в този модел. Средният елемент, $d$(тренд), се изследва преди $p$ и $q$. Искаме да определим дали процесът е стационарен или не. Ако той е нестационарен го преобразуваме към стационарен чрез отстраняване на тренда преди определянето на ст-стите на $p$ и $q$.

- **Стационарен процес** - стохастичен процес с постоянна средна ст-ст и малка дисперсия през целият период на изследването, т.е. за ред с $n$ наблюдения $Y$ имаме:

$$\overline{Y} = \frac{Y_1 + \ldots + Y_n}{n} \approx \text{const}, \quad s^2 = \frac{1}{n - 1}\sum_{i = 1}^n(Y_i - \overline{Y})^2$$


### Преобразуване на процес към стационарен

Ако средната стойност на процесът, трендът се отстранява чрез изваждане на всеки две последователни ст-сти. Ако така не получим стационарен процес може да използваме логаритмична или др. трансформация на данните.

Броят на изважданият определя стойността на $d$. След първото изваждане, ако $d = 0$, моделът е стационарен и няма тренд. Когато $d = 1$, трендът е линеен и трябва да се отстрани чрез иваждане от данните и т.н.

### Авторегресионни компоненти

Авторегресионните компоненти (АК) представляват влиянието на предходни наблюдения върху процеса за всеки момент $t$. Ст-та на $p$ е броят на АК в ARIMA (p, d, q) модел. Стойността на $p = 0$, ако няма връзка между 2 съседния наблюдения. При $p = 1$, има зависимост между наблюдения при $dY$ и коефициентът на корелация е $\phi_1$. Когато $p = 2$, има корелационна зависимост между наблюденията в $d_2Y$ и коефициентът на корелация е $\phi_2$ и т.н. Записваме:

$$Y_t = \phi_1Y_{t - 1} + \phi_2Y_{t - 2} + a_t$$

и представлява ARIMA модел с $p = 2$ или ARIMA (2, 0, 0).

### Компоненти с пълзящо средно

Тези компоненти изразяват отклоненията със случаен характер, дължащи се на предходни сл. отклонения. Стойността $q$ показва броя на пълзящите средни компоненти в модела. 

- $q = 0$: нямаме компоненти.
- $q = 1$: има зависимост между текущата ст-ст и отклонението при лаг 1, като $\theta_1$ представлява величината на тази връзка.
- $q = 2$: има връзка между текущата ст-ст и сл. отклонение при лаг 2 и коералационен коеф. е $\theta_2$.

ARIMA(0, 0, 2) има вида:

$$Y_t = a_t - \theta_1 a_{t - 1} - \theta_2 a_{t - 2}$$

### Автокорелационни и частични автокорелационни функции

Тези модели са най-сложни и се идентифицират чрез повтарящи се шаблони във ВР. Използват се ACFs (автокорелационни функции) и PACFs (частично автокорелационни функции). Те зависят от фиксиран брой лагове и се изчисляват за момент $t$, с изключение на някои крайни, където не може да бъдат изчислени.

Формулата за ACF в момент $t$ за $k$-ти лаг има вида:

$$r_k = \frac{\frac{1}{n - k}\sum_{t=1}^{n - k}(Y_t - \overline{Y})(Y_{t - k} - \overline{Y})}{\frac{1}{n - 1}\sum_{t = 1} ^ n(Y_t - \overline{Y}) ^ 2}$$

където $n$ е броят на наблюденията в цялата серия, $k$ е брой лагове, $\overline{Y}$ е средната ст-ст на цялата времева серия и знаменателят е дисперсията на ВР.

Стандартната грешка на автокорелация е квадрата на автокорелацията от всички предишни ст-сти. Имаме:

$$\text{SE}_{r_k} = \sqrt{\frac{1 + 2 \sum_{l = 0}^{k - 1}r_l^2}{n}}$$

където е $l$ е лагът.