# Бейсов модел за взимане на решения

## Нотация

- $\theta$ сл.в. (параметър) от която се интересуваме
- $y$ данните, които сме наблюдавали
- $\hat{y}$ - данни, които не сме наблюдавали

Заключенията в Бейсовият анализ относно параметър $\theta$ или ненаблюдавани данни $\hat{y}$ се извършват чрез вероятностни твърдения. Те са условни спрямо наблюдаваните стойност на $y$ и се записват като $p(\theta \mid y)$ или $p(\hat{y} \mid y)$. Полученото разпределение се нарича апостериорно.

## Правило на Бейс

Правилото на Бейс ни дава подход за получаване на апостериорно разпределение, като използваме априорно разпределение и наблюдавани данни:

$$p(\theta \mid y) = \frac{p(\theta, y)}{p(y)}=\frac{p(y \mid \theta)p(\theta)}{p(y)}$$

където $p(y) = \sum_{\theta}p(y \mid \theta)p(\theta)$ е сума над всички възможни стойности на $\theta$ и се нарича доказателство. $p(\theta)$ е априорно разпределение, а $p(y \mid \theta)p(\theta)$ се нарича функция на правдоподобие.

Еквивалентна форма на правилото по-горе пропуска изцяло знаменателя $p(y)$ (който не зависи от $\theta$) като приравнява $y$ 
на константа. Така получаваме ненормализирано апостериорно разпределение:

$$p(\theta \mid y) \propto p(y \mid \theta)p(\theta)$$

Знаменателят в правилото на Бейс се нарича също маргинална функция на правдоподобие. Терминът идва от взимането на средната стойност на функцията на правдоподобие, $p(y \mid \theta)$, за всички стойности на $\theta$ като се вземе впредвид априорното разпределение на $\theta$.

Правилото на Бейс може да бъде използвано и върху непрекъснати стойности. Когато имаме такъв случай трябва да представим знаменателя като интеграл:

$$p(y) = \int p(y \mid \theta)p(\theta)\delta \theta$$

В практиката, непрекъснатата форма е много по-често използвана.

### Как получаваме правилото на Бейс

Нека имаме две зависими събития $A$ и $B$, тогава условната вероятност за $A$ при дадено $B$ е:

$$P(A \mid B) = \frac{P (A \cap B)}{p(B)} $$

Еквивалентно за $P(B \mid A)$ имаме:

$$P(B \mid A) = \frac{P (B \cap A)}{p(A)} \\
\implies P (A \cap B) = P (A \mid B) \times P(B) = P (B \mid A) \times P(A) \\
\implies P (A \mid B) = \frac{P(B \mid A) \times P(A)}{P(B)}
$$

### Априорно разпределение

Априорното разпределение $p(\theta)$ ни дава вероятността за всяка отделна стойност на $\theta$ без да са взети под предвид данните $y$. То ни позволява да добавяме информация към задачата , което може да подобри (или влоши) оценката на параметрите.

#### Информативни и неинформативни априорни разпределения

Априорни разпределения, които доминират над ФП са информативни. Тяхното влияние намаля с увеличаване размера на извадката.

### Функция на правдоподобие

Функцията на правдоподобие (ФП) ни дава вероятността данните да са генерирани от модел със стойност на параметъра $\theta$. ФП изразява информацията, която се съдържа в данните. Всяко събитие, което не се е случило, няма влияние върху изводите (заключенията).

Нека $y_i, i= 1, \ldots , m$ са наблюденията. ФП дефинираме като:

$$L(y \mid \theta) = \prod_{i=1}^m f(y_i \mid \theta)$$

където $\theta$ е p-мерен вектор, а $f(y_i \mid \theta)$ е вероятностна плътност.

### Апостериорно разпределение

Апостериорното разпределение $p(\theta \mid y)$ обобщава всичката информация, която имаме за $\theta$. Понякога е полезно това разпределение да бъде редуцирано до няколко важни метрики.

**Интервал с най-голяма плътност (highest density interval (HDI))** се нарича интервал, зададен с някаква точност (обикновено 95%), в които се намира основната част от плътността на апостериорното разпределение

#### Влияние на големината на извадката

Бейсовият анализ ни дава възможност да използваме извадка с произволна големина. Когато броят на наблюденията в извадката е малък, апостериорното разпределение има голяма дисперсия (т.е. HDI е по-широк). Големи извадки дават по-добра прецизност и достоверност на оценката.

#### Влияние на априорното разпределение

Когато имаме априорно разпределение с голяма дисперия (неиформативно) спрямо това на функцията на правдоподобие, изборът на априорно разпределение има малък ефект върху апостериорното разпределение. Избор на силно информирано априорно разпределение води до нужда от много данни за промяна на разпределението. Със слабо информирано априорно разпределение, промяната на апостериорното разпределение изисква малко данни.

#### Спрегнатост (conjugacy)

Някои комбинации от априорни разпределения и ФП водят до същите фамилии от апостериорни разпределения. Например:

- За поасонова ФП и гама априорно разпределение, апостериорното разпределение на $\theta$ също е гама.
- За биномна ФП и бета априорно разпределение, апостериорното разпределение е бета.

### Предсказване

При правенето на статистически изводи се цели добиване на информация относно $\theta$. Бейсовата рамка предлага т.нар. *предсказваща дистрибуция*. Тя описва доколко вероятни са различните изходи върху нови наблюдения.

Нека $y^*$ е ново наблюдение. Ние можем да определим разпределението на $y^*$ по два начина:

$$p(y^* \mid y) = \int L(y^* \mid \theta)p(\theta \mid y)\delta \theta$$

където априорното разпределение $p(\theta \mid y)$ определя приноса на наблюдаваните данни за предсказването. $p(y^* \mid y)$ се нарича **апостериорно предсказващо разпределение**. То може да се дефинира и като маргиналното разпределение на $y^*$:

$$p(y^* \mid y) = \int L(y^* \mid \theta)p(\theta)\delta \theta$$

без да отчитаме информацията, която носят данните.

## Йерархични модели

Нека имаме задача която може да се моделира като модел с много параметри. Съвместното вероятностно разпределение на тези параметри отразява зависимостите им. За получаване на апостериорно разпределение просто прилагаме правилото на Бейс върху това вероятностно разпределение.

Нека $\theta$ и $\omega$ са параметри. Правилото на Бейс може да бъде приложено върху съвместното вероятностно разпределение:

$$p(\theta,\omega \mid y) \propto p(y \mid \theta, \omega)p(\theta, \omega)$$

Интересно за йерархичните модели е, че дясната страна може да се представи като редица от зависимости:

$$p(\theta,\omega \mid y) \propto p(y \mid \theta, \omega)p(\theta, \omega) = p(y \mid \theta)p(\theta \mid \omega)p(\omega)$$

Това означава, че наблюденията зависят само от стойността на $\theta$. Допълнително, $\theta$ зависи само от стойността на $\omega$ и е условно независима от всички други параметри. Всеки модел, който може да бъде представен като редица от зависимости е йерархичен.

Зависимостите между параметрите са полезни поради няколко причини. Поради тези зависимостите, наблюденията оказват влияние върху всички параметри. Зависимостите може да улеснят извличането на извадки от апостериорното разпределение, защото някои алгоритми (Gibbs sampling) може да се възползват от условните вероятностни разпределения.

## Проверка за адекватност на модел

След като получим апостериорното разпределение трябва да отговорим на един много важен въпрос: До колко адектватен е полученият модел? Един добър Бейсов анализ би следвало да включва проверка адекватност на получения модел спрямо наблюденията.

### Апостериорни извадки

За нуждите за изследване на дадено апостериорно разпределение ще използваме данни (извадка) от него. Извадките от апостериорното разпределение са основно средство за изучаване на това разпределение.

Нека $\theta^*_{ij}, j=1, \ldots, m_p$ е извадка от $p(\theta \mid y)$ с обем $m_p$. Тогава оценката на апостериорното средно е:

$$\hat{E}\theta_i = \frac{\sum_{j=1}^{m_p}\theta^*_{ij}}{m_p}$$

и апостериорната дисперсия е:

$$\hat{D}\theta_i=\frac{1}{m_p - 1}\sum_{j=1}^{m_p}(\theta^*_{ij} - \hat{\theta_i}^2)$$

### Монте Карло методи

Често в практиката бейсовите модели имат две или повече нива. Поради тази причина за намирането на апостериорно разпределение се използват извадкови алгоритми.

MCMC методите са фамилия от способи за симулация на стойностите на параметрите в една Марковска верига. Намиране на апостериорно разпределение става чрез намиране на стационарно разпределение за веригата. Тези методи генерират извадка от апостериорното разпределение $p(\theta \mid y)$.

Два алгоритъма за намиране на апостериорно разпределение чрез MCMC методи са Metropolis Hastings и Gibbs sampling.

### Адекватност

Ще наричаме **остатъци** разликата между наблюдаваните и предсказани стойности:

$$r_i = y_i - \hat{y_i} \qquad и \qquad r_i^s=\frac{r_i}{\sqrt{\hat{D}r_i}}$$

Сравняването на остатъци от различни модели ни позволява да направим сравнение между самите модели.

## Защо подходът може да е труден за прилагане