# Бейсов модел за взимане на решения

## Нотация

- $\theta$ сл.в. (параметър) от която се интересуваме
- $y$ данните, които сме наблюдавали
- $\hat{y}$ - данни, които не сме наблюдавали

Заключенията в Бейсовият анализ относно параметър $\theta$ или ненаблюдавани данни $\hat{y}$ се извършват чрез вероятностни твърдения. Те са условни спрямо наблюдаваните стойност на $y$ и се записват като $p(\theta \mid y)$ или $p(\hat{y} \mid y)$. Полученото разпределение се нарича апостериорно.

## Правило на Бейс

Правилото на Бейс ни дава подход за получаване на апостериорно разпределение, като използваме априорно разпределение и наблюдавани данни:

$$p(\theta \mid y) = \frac{p(\theta, y)}{p(y)}=\frac{p(y \mid \theta)p(\theta)}{p(y)}$$

където $p(y) = \sum_{\theta}p(y \mid \theta)p(\theta)$ е сума над всички възможни стойности на $\theta$ и се нарича доказателство. $p(\theta)$ е априорно разпределение, а $p(y \mid \theta)p(\theta)$ се нарича функция на правдоподобие.

Еквивалентна форма на правилото по-горе пропуска изцяло знаменателя $p(y)$ (който не зависи от $\theta$) като приравнява $y$ 
на константа. Така получаваме ненормализирано апостериорно разпределение:

$$p(\theta \mid y) \propto p(y \mid \theta)p(\theta)$$

Знаменателят в правилото на Бейс се нарича също маргинална функция на правдоподобие. Терминът идва от взимането на средната стойност на функцията на правдоподобие, $p(y \mid \theta)$, за всички стойности на $\theta$ като се вземе впредвид априорното разпределение на $\theta$.

Правилото на Бейс може да бъде използвано и върху непрекъснати стойности. Когато имаме такъв случай трябва да представим знаменателя като интеграл:

$$p(y) = \int p(y \mid \theta)p(\theta)\delta \theta$$

В практиката, непрекъснатата форма е много по-често използвана.

### Априорно разпределение

Априорното разпределение $p(\theta)$ ни дава вероятността за всяка отделна стойност на $\theta$ без да са взети под предвид данните $y$. То ни позволява да добавяме информация към задачата , което може да подобри (или влоши) оценката на параметрите.

#### Информативни и неинформативни априорни разпределения

Априорни разпределения, които доминират над ФП са информативни. Тяхното влияние намаля с увеличаване размера на извадката.

### Функция на правдоподобие

Функцията на правдоподобие (ФП) ни дава вероятността данните да са генерирани от модел със стойност на параметъра $\theta$. ФП изразява информацията, която се съдържа в данните. Всяко събитие, което не се е случило, няма влияние върху изводите (заключенията).

Нека $y_i, i= 1, \ldots , m$ са наблюденията. ФП дефинираме като:

$$L(y \mid \theta) = \prod_{i=1}^m f(y_i \mid \theta)$$

където $\theta$ е p-мерен вектор, а $f(y_i \mid \theta)$ е вероятностна плътност.

### Апостериорно разпределение

Апостериорното разпределение $p(\theta \mid y)$ обобщава всичката информация, която имаме за $\theta$. Понякога е полезно това разпределение да бъде редуцирано до няколко важни метрики.

**Интервал с най-голяма плътност (highest density interval (HDI))** се нарича интервал, зададен с някаква точност (обикновено 95%), в които се намира основната част от плътността на апостериорното разпределение

#### Влияние на големината на извадката

Бейсовият анализ ни дава възможност да използваме извадка с произволна големина. Когато броят на наблюденията в извадката е малък, апостериорното разпределение има голяма дисперсия (т.е. HDI е по-широк). Големи извадки дават по-добра прецизност и достоверност на оценката.

#### Влияние на априорното разпределение

Когато имаме априорно разпределение с голяма дисперия (неиформативно) спрямо това на функцията на правдоподобие, изборът на априорно разпределение има малък ефект върху апостериорното разпределение. Избор на силно информирано априорно разпределение води до нужда от много данни за промяна на разпределението. Със слабо информирано априорно разпределение, промяната на апостериорното разпределение изисква малко данни.

#### Спрегнатост (conjugacy)

Някои комбинации от априорни разпределения и ФП водят до същите фамилии от апостериорни разпределения. Например:

- За поасонова ФП и гама априорно разпределение, апостериорното разпределение на $\theta$ също е гама.
- За биномна ФП и бета априорно разпределение, апостериорното разпределение е бета.

### Предсказване

При правенето на статистически изводи се цели добиване на информация относно $\theta$. Бейсовата рамка предлага т.нар. *предсказваща дистрибуция*. Тя описва доколко вероятни са различните изходи върху нови наблюдения.

Нека $y^*$ е ново наблюдение. Ние можем да определим разпределението на $y^*$ по два начина:

$$p(y^* \mid y) = \int L(y^* \mid \theta)p(\theta \mid y)\delta \theta$$

където априорното разпределение $p(\theta \mid y)$ определя приноса на наблюдаваните данни за предсказването. $p(y^* \mid y)$ се нарича **апостериорно предсказващо разпределение**. То може да се дефинира и като маргиналното разпределение на $y^*$:

$$p(y^* \mid y) = \int L(y^* \mid \theta)p(\theta)\delta \theta$$

без да отчитаме информацията, която носят данните.

## Защо подходът може да е труден за прилагане