# Обобщен линеен модел (Generalized Linear Model)

Обобщените линейни модели (ОЛМ) разширяват рамката за линейно моделиране за променливи, които не са нормално разпределени. В практиката, ОЛМ се използват за моделиране на двоични или категорийни данни.

## Общ линеен модел (General Linear Model)

В общият си вид този модел може да се представи като:

$$y_i = b_0 + b_1x_{1i} + \ldots + b_px_{pi} + \epsilon_i$$

където зависимата променлива $y_i, i=1, \ldots, n$ е моделирана като линейна функция от независимите променливи $x_j, j=1, \ldots, p$ и $epsilon_i, i=1, \ldots, n$ е грешката. Наблюденията $y$ са независими реализации на (едномерна) сл.в. $Y$ с разпределение, чиято плътност е $f(y;\theta,\phi)$, като параметрите $\theta$ и $\phi$ са неизвестни.

Тук, **общ** се отнася за възможното използване на повече от една независима променлива, за разлика от простия линеен модел за който имаме:

$$y_i = b_0 + b_1x_i+e_i$$

### Структура на грешките

Предполагаме, че грешките $\epsilon_i$ са независими и идентично разпределени така че:

$$
E[\epsilon_i] = 0 \\
\text{and var}[\epsilon_i] = \sigma^2 
$$

и са нормално разпределени:

$$\epsilon_i \sim N(0, \sigma^2)$$

### Множествена линейна регресия

Множествената линейна регресия е обобщение на простата линейна регресия, като се вземат под предвид повече от една независима променлива. Нека отново имаме разглежданият модел:

$$y = Xb + e$$

**Теорема** Ако $X$ има пълен ранг $m$, оценката на неизвестните параметри $b$ по метода на най-малките квадрати е

$$\hat{e} = (X'X)^{-1}X'y$$
$$\text{cov}(\hat{e}) = \sigma^2(X'X)^{-1}$$

Оценката $\hat{e}$ е неизместена, ефективна и съвпада с оценката по метода на максимално правдоподобие.

### Ограничения на линейните модели

Въпреки полезната рамка, която предлагат общите линейни модели, има ситуации в които те не са подходящи за употреба:

- Областта на $Y$ е ограничена (двоични или категорийни данни)
- Дисперсията на $Y$ зависи от средната стойност

Обобщените линейни модели разширяват рамката, като решават и двата проблема.

## Обобщен линеен модел

ОЛМ са съставени от линеен предиктор:

$$\eta_i=b_0 + b_1x_{1i} + \ldots + b_px_{pi}$$

и две функции

- **свързваща** функция, която описва как средната стойност, $E(Y_i) = \mu_i$, зависи от линейния предиктор

$$g(\mu_i) = \eta_i$$

Тя обикновено е обратима, т.е. съществува обратната функция $\mu = g^{-1}(\eta)$, която се нарича функция на средната.

- функция на **дисперсията**, която описва как дисперсията, $\text{var}(Y_i)$, зависи от средната стойност:

$$\text{var}(Y_i)=\phi V(\mu)$$

където дисперсионният параметър $\phi$ е константа.

### Нормален обобщен линеен модел

За обобщен линеен модел с грешка $\epsilon_i \sim N(0, \sigma^2)$ имаме линеен предиктор:

$$\eta_i=b_0 + b_1x_{1i} + \ldots + b_px_{pi}$$

свързваща функция

$$g(\mu_i) = \mu_i$$

и функция на дисперсията:

$$\text{var}(\mu_i)=1$$

### Оценка на параметрите

Когато плътността $f(y;\theta,\phi)$ принадлежи на експоненциалната фамилия, ФП има единствен максимум и оценките на параметрите могат да се определят еднозначно. Тук попадат много статистически процедури - линейна регресия, логистична регресия, като те се различават по свързващата функция и плътността на зависимата променлива. Най-често използваният метод за оценка на параметри в ОЛМ е Итеративен претеглен метод на най-малките квадрати !? (Iteratively Weighted Least Squares).

## Бейсов подход за ОЛМ

Класическият подход предполага, че оценката на параметрите се свежда до максимизиране (оптимизация) на ФП. Например, за простата линейна регресия имаме:

$$\DeclareMathOperator*{\argmax}{arg\,max} \argmax_{\alpha,\,\beta,\,\sigma} \prod_{i=1}^n \mathcal{N}(y_i; \alpha + \beta x_i, \sigma)$$

където $\mathcal{N}$ e плътностна функция на нормално разпределение в точки $y_i$, параметризирана от средните $\alpha + \beta x_i$ и стандартно отклонение $\sigma$.

Бейсовият подход за ОЛМ добавя априорно разпределение за параметрите, вместо максимизиране на ФП. За простата линейна регресия имаме:

$$\underbrace{f(\alpha,\beta,\sigma\mid Y,X)}_{\text{posterior}} \propto \underbrace{\prod_{i=1}^n \mathcal{N}(y_i\mid \alpha + \beta x_i, \sigma)}_{\text{likelihood}} \; \underbrace{f_{\alpha}(\alpha) \, f_{\beta}(\beta) \, f_{\sigma}(\sigma)}_{\text{priors}}$$

ФП е същата като тази отгоре, но имаме априорно разпределение за параметрите, които трябва да оценим $\alpha,\beta,\sigma$