# Přednáška 5: Variační Bayesova aproximace, bayesovská lineární regrese a její varianty, aplikace

## Obsah přednášky
- pravděpodobnostní modely
- variační Bayesova aproximace
    - ukážeme si skalární příklad
- bayesovská lineární regrese
- bayesovská řídká regrese
- další možnosti modelování
- ukázka aplikace

## Bayesovský přístup - postup ve zkratce

- volba modelu dat
- volba apriorního rozdělení parametrů
- výpočet aposteriorních rozdělení parametrů

### Analogie s optimalizací

Analogii si ukážeme na úloze lineární regrese, kde jsme v předchozí přednášce formulovali lineární regresi jako optimalizační problém.

  | bayesovská formulace | formulace pomocí optimalizace
- | - | -
model dat | $f(y|\beta)=\mathcal{N}(X\beta,I_p)$ | $||(\mathbf{y} - X\beta)^T(\mathbf{y} - X\beta)||$
apriorno | $f(\beta) = \dots$ | $g(\beta)$ 


## Variační Bayesova (VB) metoda 

Mějme model dat daný jako $f(\mathbf{y}|\theta)$, kde $\theta$ je $q$-členná množina parametrů, $q>2$. Nechť $\theta_1,\dots,\theta_q$ podmíněně nezávislé proměnné, tedy platí
$$
f\left(\theta_{1},\theta_{2},\dots,\theta_{q}\right)=\prod_{i=1}^{q}f(\theta_{i}).
$$
Potom pro aposteriorní rozdělení $\tilde{f}(\theta_{i}|\mathbf{y})$, $i=1,\dots,q$ platí
$$
\tilde{f}\left(\theta_{i}|\mathbf{y}\right)\propto\exp\left[E_{\tilde{f}(\theta_{\backslash i}|\mathbf{y})}\left(\ln f(\theta_{1},\theta_{2},\dots,\theta_{q},\mathbf{y})\right)\right],
$$
kde symbol $\theta_{\backslash i}$ značí všechny proměnné z dané množiny až na i-tou a symbol $\propto$ značí rovnost až na normovací konstantu.

### Příklad: skalární dekompozice

Mějme model skalární dekompozice 
$$
d = ax + e,
$$
kde $d$ jsou data, $a$ a $x$ jsou neznámé proměnné a $e = \mathcal{N}(0,r_e)$. Model dat tedy můžeme zapsat jako 
$$
f(d|a,x) = \mathcal{N}(ax,r_e).
$$
Apriorní modely pro $a$ a $x$ zvolíme jako
$$
f(a)= \mathcal{N}(0,r_{a}),\,\,\,\,\,\,\,\, f(x)= \mathcal{N}(0,r_{x}).
$$
Data $d$ a parametry $r_e$, $r_a$ a $r_x$ předpokládáme jako známé. Cílem je určit odhady $\widehat{a}$
a $\widehat{x}$.

Vyjádříme si logaritmus sdružené věrohodnosti (ten přesně pak potřebujeme do VB metody):
$$
\ln f(a,x,d)\propto-\frac{1}{2}\left(\frac{(ax-d)^{2}}{r_{e}}+\frac{a^{2}}{r_{a}}+\frac{x^{2}}{r_{x}}\right),
$$
který dosadíme do rovnice pro aposteriorno:
$$
\tilde{f}\left(a|d\right)\propto \exp\left[-\frac{1}{2}a^{2}\left(\widehat{x^{2}}r_{e}^{-1}+r_{a}^{-1}\right)-a\left(d\widehat{x}r_{e}^{-1}\right)\right],\\
\tilde{f}\left(x|d\right)\propto \exp\left[-\frac{1}{2}x^{2}\left(\widehat{a^{2}}r_{e}^{-1}+r_{x}^{-1}\right)-x\left(d\widehat{a}r_{e}^{-1}\right)\right].
$$
Z výrazů pro aposteriorno vidíme, že má stejný funkcionální tvar jako apriorno, tedy 
$$
\tilde{f}\left(a|d\right)=\mathcal{N}(\mu_{a},\sigma_{a}),\,\,\,\,\,\,\,\, \tilde{f}\left(x|d\right)=\mathcal{N}(\mu_{x},\sigma_{x}),
$$
kde tvarovací parametry $\mu_{a},\sigma_{a},\mu_{x},\sigma_{x}$ můžeme vyjádřit jako
$$
\sigma_{a}= \left(\widehat{x^{2}}r_{e}^{-1}+r_{a}^{-1}\right){}^{-1},\\
\mu_{a}= \sigma_{a}d\widehat{x}r_{e}^{-1},\\
\sigma_{x}= \left(\widehat{a^{2}}r_{e}^{-1}+r_{x}^{-1}\right){}^{-1},\\
\mu_{x}= \sigma_{x}d\widehat{a}r_{e}^{-1},
$$
přičemž momenty normálního rozdělení jsou $\widehat{a} = \mu_a$ a $\widehat{a^2} = \mu_a^2 + \sigma_a$.

Tím máme vyjádřené aposteriorno, které se postupně updatuje pro jednotlivé parametry dokola: $\widehat{a} \longrightarrow \widehat{x} \longrightarrow \widehat{a} \longrightarrow \dots$ Zapsáno jako algoritmus to vypadá následovně:

### VB algoritmus pro skalární dekompozici:
---
1. inicializace $d$, $r_e$, $r_a$ a $r_x$
2. zvolíme startovací $\sigma_a$ a $\mu_a$
3. iterujeme do dosažení konvergence
    - $\sigma_{x}$, $\mu_x$
    - $\sigma_{a}$, $\mu_a$
4. máme výsledné $\widehat{a}$ a $\widehat{x}$
---

Výsledek tedy vede na iterační algoritmus, u kterého máme zajišťěno, že konverguje k lokálnímu minimu. Tím pádem tedy samozřejmě záleží na tom, kde odstartujeme.

<img src="img_ot/l5_vb_scalar.png">

## Bayesovská lineární regrese

Připomeňme základní rovnici popisující lineární regresi jako
$$
\mathbf{y}=X\beta+\mathbf{e},
$$
kde obdobně jako nejmenší čtverce a další předpokládám rozdělení chyb jako $e_{i}=\mathcal{N}\left(0,\omega^{-1}\right),\ \forall i$. Z toho nám přirozeně plyne následující model dat
$$
f(\mathbf{y}|\beta,\omega)=\mathcal{N}\left(X\beta,\omega^{-1}I_{p}\right),
$$
s neznámými parametry $\beta$ a $\omega$. Protože se nyní díváme na problém bayesovským pohledem, každý neznámý parametr je pro nás náhodná proměnná, které je nutno přiřadit vhodné apriorní rozdělení. My se budeme držet v exponenciální rodině a apriorní rozdělení zvolíme následovně:
$$
f(\beta)= \mathcal{N}\left(\mathbf{0},I_{n}\right)=\underbrace{\left(2\pi\right)^{-\frac{n}{2}}}_{coef}\underbrace{\left|I_{n}\right|^{-\frac{1}{2}}}_{coef}\exp\left(-\frac{1}{2}\boldsymbol{\beta}'I_{n}^{-1}\boldsymbol{\beta}\right),\\
f(\omega)= \mathcal{G}\left(c_{0},d_{0}\right)=\underbrace{\frac{c_{0}^{d_{0}}}{\Gamma(c_{0})}}_{coef}\omega^{c_{0}-1}\exp\left(-d_{0}\omega\right)
$$
Tím máme plně určený model a můžeme aplikovat Bayesovu variační metodu obdobně jako pro skalární případ.