#  Регресионен анализ

Регресионният анализ се използва за прогнозиране на количествени променливи. Той ни позволява да проверяваме хипотези за наличието на връзка и да я оценяме количествено.

## Модел

Регресия се нарича всяка комбинация между лин. независими базисни функции от обясняващи променливи (също наречени независими или предиктори) $X^(i)$ с неизвестни параметри $\beta_i$. $X^{(i)}$ и $\beta_i$ са фиксирани. Допълнително, имаме променлива $Y$ (наричаме обясняема, зависима или отклик), която е обект на нашият анализ. Тя е сл.в.

Търсим отговори на следните въпроси:

- Стойностите на отклика влияят ли се от предикторите?
- Може ли да се избере модел на зависимостта и да се оценят параметрите му?
- Адекватен ли е моделът, т.е. получената връзка отговоря ли на действителността?
- Какви ст-сти може да очакваме за отклика при други ст-ти на предикторите (прогнозиране)?

### Еднофакторни и многофакторни модели

Според броя на обясняващите променливи, които играят ролята на фактори, регресионните модели се разделят на еднофакторни и многофакторни. В еднофакторните модели се изследва връзката между две явления $Y$ и $X$. Многофакторните модели изследват връзката между едно и други две или повече явления, които наричаме фактори.

Общият вид на тези модели се дава от фомулите:

- **Еднофакторен** $Y_i = f(X_i, \epsilon_i)$
- **Многофакторен** $Y_i = f(X_i^{(1)}, \ldots, X_i^{(k)}, \epsilon_i)$

След построяване на модела може да правим предвиждане на ст-сти на бъдещи експерименти, като оценим $Y$. Тази оценка ще означим с $\hat{Y}$ и ще пресмятаме като $\hat{Y} = \hat{f}(X)$.

Разликите между реално наблюдаваните ст-сти $Y$ и ст-стите дадени от модела $\hat{Y}$ се наричат **остатъци** (residuals). Те са сл. разпределени и независими помежду си. Колкото по-малки са техните ст-сти, толкова по-добре модела описва набл. ст-сти.

### Проста линейна регресия

Простата линейна регресия е еднофакторен модел и се представя с формулата:

$$Y_i = \beta_0 + \beta_1 X_i + \epsilon_i$$

където:

- $\beta_i$ са коефициентите на модела
- $\epsilon_i$ е грешката. Тя е сл. компонент с нормално разпределение и $E\epsilon_i = 0$, т.е. $\epsilon_i \in N(0, \sigma^2)$ т.е. предполагаме, че грешките от наблюденията са независими, еднакво разпределени гаусови сл.в. с нулево очакване.

Прогнозата може да представим като:

$$\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X$$

където $\hat{\beta_0}, \hat{\beta_1}$ са оценки на коеф. на модела.

Параметрите за модела са коефициентите $\beta_0, \beta_1$ и дисперсията на грешката $\sigma^2$.

### Х-ки на регресионните модели

#### Извадков корелационен коефициент

Нека имаме следните означения:

$$\text{SS}_x = \sum \big(X_i - \overline{X}\big)^2$$
$$\text{SS}_y = \sum \big(Y_i - \overline{Y}\big)^2$$
$$\text{SS}_{xy} = \sum \big(X_i - \overline{X}\big) \big(Y_i - \overline{Y}\big)$$

Тогава извадковият корелационен коефициент $r$ се определя като

$$r = \frac{\text{SS}_{xy}}{\sqrt{\text{SS}_x} \sqrt{\text{SS}_y}}$$

По ст-стите на $r$ може да се съди за наличие или отстъствие на корелация между две сл.в. Проверяме хипотезата за коефициент на корелация $\rho$.

$H_0: \rho = 0$, т.е. $X$ и $Y$ са корелационно некорелирани срещу алтернативата

$H_1: \rho \neq 0$, т.е. между $X$ и $Y$ има корелация при предварително избрано ниво на значимост $\alpha$. За проверка на хипотезите използваме $t$-статистиката:

$$t = \frac{r}{\sqrt{\frac{1 - r^2}{n - 2}}}$$

#### Коефициент на детерминация

Коефициентът $\beta_i$ показва степента на влияние на $X$ върху $Y$. Имаме:

$$\hat{\beta}_i = \frac{\text{SS}_{xy}}{\text{SS}_y}$$

$$\beta_0 = \overline{y} - \beta_1 \overline{x}$$

Частното

$$r^2 = \frac{\big(\text{SS}_{xy}\big)^2}{\sqrt{\text{SS}_x}\sqrt{\text{SS}_y}}$$ се нарича коеф. на детерминация. Колкото по-близко до 1 е той, толкова по-близко до линейна е зависимостта и толкова набл. ст-сти на $Y$ са по-близки до ст-стите на $\hat{Y}$, т.е. моделът добре обяснява данните.

#### Стандартна грешка

Стандартната грешка бележим с $s_e$ и измерва отклоненията на пресметнатите по модела ст-сти на зависимата променлива от реално наблюдаваните й ст-сти:

$$s_e = \sqrt{\frac{\sum(y_i - \hat{y})^2}{n - 2}}$$

При построяване на линеен регресионен модел се провяряват следните хипотези:

$H_0: \beta_0 = 0$ срещу $H_1: \beta_0 \neq 0$

$H_0: \beta_1 = 0$ срещу $H_1: \beta_1 \neq 0$

т.е. дали коефициентите на модела са значими.

### Оценка на модел

Информация отностно адекватността на модела може да бъде получена от остатъците. Коефициентите на модела са оценени, така че сумата от квадратите да бъде минимизирана.

Обикновено, анализът на остатъците се извършва с графични средства. Две общоприети проверки се реализират с графика на остатъците и предсказаните ст-сти.

При адекватен модел остатъците са независими и имат нормално разпределение. Ако ст-стите са независими, графиката на остатъците и предсказаните ст-ти трябва да визуализира сл. разпръснати точки.

За произволни ст-сти на предикторите $X$, за които е верен модела, сл.в. $\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1X$ е неизместена оценка на $EY$ и нейната дисперсия $DY$ може да се изчисли. Коефициентите на регресионните модели най-често се намират чрез метод на най-малките квадрати (МНМК).

Подходите използвани за анализ на проста линейна регресия може да бъдат разширени за анализ на многофакторни (многомерни) модели, когато имаме повече от един фактор.