# Přednáška 11: Bilineární model a bayesovská maticová dekompozice

## Obsah přednášky:
- bilineární model
- příklady využití
- klasické řešení - především non-negative matrix factorization
- bayesovská formulace a řešení

## Bilineární model

Linearita v 1D:
- ano: $f(x) = 4x + 7$
- ne: $f(x) = 4x^2 + 7$
- ne: $f(x) = \sin x + 7$

Jako bilineární (ve 2D) chápeme funkci, která je lineární v jednotlivých proměnných. Tzn. pokud si druhou proměnnou představím jako konstantu, pak nás zajímá, zda je funkce lineární v té jedné zbylé proměnné:
- ano: $f(x,y) = 3x + 7y - 5$
- ano: $f(x,y) = 4xy - y + 7$
- ne: $f(x,y) = xy^2 + x + 7$

### Maticová formulace

Mějme danou matici $D\in \mathbf{R}^{p\times n}$, která pro nás představuje data. V maticové formulaci se budeme zabývat bilineárním modelem
$$
D=AX^T,
$$
kde $A\in \mathbf{R}^{p\times r}$ a $X\in \mathbf{R}^{n\times r}$ jsou hledané matice rozkladu a $(.)^T$ značí transpozici matice. Parametr $r$ je vnitřní rozměr dekompozice.



## Příklady použití a interpretace

### Astronomie - spektroskopie

<img src="img_ot/l11_Spectroscopy-principles.png">

### Hyperspektrální snímkování

<img src="img_ot/l11_Imaging-Spectroscopy-Concept.png">

### Nukleární medicína

<img src="img_ot/l11_nukl_medicina.png">

### Interpretace matic a modelu
- reprezentace obrazu pomocí vektorů:

$$
\left(\begin{array}{cc}
1 & 3\\
2 & 4
\end{array}\right)\rightarrow\left(\begin{array}{c}
1\\
2\\
3\\
4
\end{array}\right)
$$

- sloupce matice $A$ mohou představovat např. obrázky jednotlivých zdrojů
- sloupce matice $X$ mohou představovat váhové vektory zdrojových obrázků
    - aktivitu v čase
    - aktivitu ve spektru
    
Uvažujme vektory v maticích následovně:

- měřená data: $D=\left[\mathbf{d}_{1},\dots,\mathbf{d}_{t},\dots,\mathbf{d}_{n}\right]$ - $n$ sloupcových vektorů
- zdrojové obrázky: $A=\left[\mathbf{a}_{1},\dots,\mathbf{a}_{r}\right]$ - $r$ sloupcových vektorů
- váhy zdrojových obrázků: $X=\left[\underline{\mathbf{x}}_{1}^{T},\dots,\underline{\mathbf{x}}_{t}^{T},\dots,\underline{\mathbf{x}}_{n}^{T}\right]^{T}$ - $n$ řádkových vektorů o rozměru $r$

Potom o každém naměřeném vektoru $\mathbf{d}_{t}$ (např. obrázku, ...) předpokládáme, že vzniknul jakožto lineární kombinace zdrojových obrázků $\mathbf{a}_{1},\dots,\mathbf{a}_{r}$ vážených příslušnými vahami $x_{1,t},\dots,x_{r,t}$:

$$
\mathbf{d}_{t}=\mathbf{a}_{1}x_{1,t}+\mathbf{a}_{2}x_{2,t}+\dots+\mathbf{a}_{r}x_{r,t}.
$$

Pokud toto předpokládáme pro každé $t=1,\dots,n$, můžeme zapsat elegantním maticovým zápisem jako

$$
D=AX^T.
$$

### Předpoklady a problémy

- velice často předpokládáme pozitivní (resp. non-negative) řešení z fyzikální podstaty dané aplikace
- zpravidla neznáme přesný počet zdrojů $r$
- data mohou být více či méně zašuměná, tzn. spíše model $D=AX^T+E$
- musíme počítat s nejednoznačností řešení (tzv. rotační neurčitost): mějme libovolnou regulární matici $R$ příslušných rozměrů, pak pro řešení dekompozice $A$ a $X$ platí

$$
AX^{T}=\underbrace{AR}_{\tilde{A}}\underbrace{R^{-1}X^{T}}_{\tilde{X}^T}
$$

## Cvičná data

Budeme simulovat 2 zdroje a jejich aktivitu (váhy) následovně

<img src="img_ot/l11_zdroje.png">

Tím máme dané matice $A$ a $X$, takže si můžeme pronásobením vytvořit matici $D$ (bez šumu) a tu následně zašumět. Dostáváme matici výslednou $D$

<img src="img_ot/l11_maticeD.png">

A přeskládáním sloupců matice $D$ dostáváme 20 simulovaných měřených obrázků

<img src="img_ot/l11_cvicna_data.png">

Naším cílem bude z této datové sekvence zpětně určit zdrojové obrázky $A$ a jejich váhy $X$.


## "Klasické" přístupy

### Analýza hlavních komponent (principal component analysis - PCA) 

Zjednodušeně: hledáme takovou projekci do $r$ komponent, aby variance jednotlivých komponent byla maximalizována. Ukážeme si jednoduché řešení pomocí singular value decompozition (SVD). Tento rozklad je k dispozici ve většině balíčcích, jeho schéma je následující [wikipedie]:

<img src="img_ot/l11_svd_schema.png">

My si z tohoto rozkladu můžeme vzít prvních $r$ komponent následujícím způsobem

$$
D = USV^{T} \approx \underbrace{US(:,1:r)}_{\text{odhad }A}\underbrace{V(:,1:r)^{T}}_{\text{odhad }X^{T}},
$$

To zkusíme aplikovat na naše cvičná data:

<img src="img_ot/l11_svd_r2.png">

Vidíme, že se výsledek našim simulovaným kolečkům příliš nepodobá, nicméně můžeme se podívat na zpětnou rekonstrukci sekvence, tedy zobrazit si $AX^T$

<img src="img_ot/l11_svd_back_rekon.png">

Vidíme, že rekonstrukce je vcelku zdařilá, problém je tedy ve zmiňované rotační neurčitosti. Proto je nutno do úlohy zavést vhodná omezení, případně úlohu regularizovat.


### Nezáporná maticová dekompozice (non-negative matrix decomposition - NMF)

Hledáme rozklad datové matice $D$ takový, že
$$
D \approx AX^T,
$$
kde $A\geq 0$, $X\geq 0$. Můžeme hledat minimalizaci vzdálenosti prvé a levé strany:
$$
\min||D-AX^{T}||_{2}^{2}.
$$
Tento problém je konvexní buď v $A$ nebo v $X$, nikoliv v obou najednou. To znamená, že nemůžeme očekávat nalezení globálního optima, budeme se muset smířit pouze s optimem lokálním. Existuje široká škála numerických metod pro řešení tohoto problému (gradient descent, konjugované gradienty,...). My se nebudeme zabývat numerikou, ale podíváme se na tzv. "multiplicative update rules" (Lee and Seung, 2001). Pro ten účel si definujeme maticové násobení po prvcích jako $\circ$ a maticové dělení po prvcích $\oslash$. 

Algorithmus (NMF):
\begin{align}
X^{T}\leftarrow & X^{T}\circ\left(\left(A^{T}D\right)\oslash\left(A^{T}AX^{T}\right)\right)\\
A\leftarrow & A\circ\left(\left(DX\right)\oslash\left(AX^{T}X\right)\right)
\end{align}

Odvození např. viz https://stats.stackexchange.com/questions/351359/deriving-multiplicative-update-rules-for-nmf nebo https://arxiv.org/pdf/1401.5226.pdf.

Výsledek pro $r=2$:

<img src="img_ot/l11_nmf_r2.png">

Výsledek pro $r=3$:

<img src="img_ot/l11_nmf_r3.png">

#### Komentáře k NMF:
- velice jednoduché na implementaci
- velice rychlé na výpočet
- máme pouze bodový odhad $A$ a $X$
- výsledek silně závisí na počtu komponent
- stále rotační neurčitost, výsledek je nejednoznačný

## Matematická vsuvka

#### operátor diag()
$$
\text{diag}\left(\left(\begin{array}{c}
1\\
2\\
3
\end{array}\right)\right)= \left(\begin{array}{ccc}
1 & 0 & 0\\
0 & 2 & 0\\
0 & 0 & 3
\end{array}\right)\\
\text{diag}\left(\left(\begin{array}{ccc}
1 & 0 & 0\\
0 & 2 & 0\\
0 & 0 & 3
\end{array}\right)\right)= \left(\begin{array}{c}
1\\
2\\
3
\end{array}\right)
$$

#### operátor stopa - tr()
$$
\text{tr}\left(A\right)=\sum_{i}A_{i,i}
$$
Platí (pro rozměrově kompatibilní matice):
$$
\text{tr}\left(ABC\right)=\text{tr}\left(CAB\right)
$$

#### Kronekerův součin
$$
A\otimes B=\left(\begin{array}{cccc}
a_{11}B & a_{12}B & \cdots & a_{1m}B\\
a_{21}B & a_{22}B &  & \vdots\\
\vdots &  & \ddots & \vdots\\
a_{n1}B & \cdots & \cdots & a_{nm}B
\end{array}\right)
$$

#### Maticové normální rozdělení
Předpokládejme matici $A\in\mathbf{R}^{p\times r}$. Maticové mormální rozdělení definujeme jako
$$
\mathcal{N}(\mu_{A},\Sigma_{p}\otimes\Phi_{r})=\frac{1}{(2\pi)^{\frac{pr}{2}}|\Sigma_{p}|^{\frac{r}{2}}|\Phi_{r}|^{\frac{p}{2}}}
\exp\left(-\frac{1}{2}\text{tr}\left[\Sigma_{p}^{-1}(A-\mu_{A})(\Phi_{r}^{-1})^{T}(A-\mu_{A})^{T}\right]\right),
$$
a jeho momenty jako
\begin{align}
\widehat{A}= & \mu_{A},\\
\widehat{AA^{T}}= & \text{tr}(\Phi_{r})\Sigma_{p}+\mu_{A}\mu_{A}^{T},\\
\widehat{A^{T}A}= & \text{tr}(\Sigma_{p})\Phi_{r}+\mu_{A}^{T}\mu_{A}.
\end{align}

Poznamenejme, že maticové normální rozdělení je jen speciální případ vektorového normálního rozdělení, kde lze psát, že $\text{vec}(A) \sim \mathcal{N}(\text{vec}(\mu_{A}),\Phi_{r}\otimes\Sigma_{p})$. Jeho smysl oceníme záhy především kvůli numerice a upočítatelnosti problému dekompozice.

## Bayesovská formulace maticové dekompozice

Základní formulaci lze nalézt též pod pojmem "variační PCA" (C.M. Bishop. Variational principal components. 1999). Připomeneme nejdříve základní formuli variační Bayesovy aproximace:

$$
\tilde{f}\left(\theta_{i}|D\right)\propto\exp\left[E_{\tilde{f}(\theta_{\backslash i}|D)}\left(\ln f(\theta_{1},\theta_{2},\dots,\theta_{q},D)\right)\right],
$$

Máme model pozorování
$$
D = AX^T + E,
$$
kde $E_{i,j} \sim \mathcal{N}(0,\omega^{-1})$ (tzn. pro každý bod pozorování předpokládáme stejnou chybu s nulovou střední hodnotou a variancí $\omega$). Model dat pak můžeme zapsat jako 
$$
f\left(D|A,X,\omega\right)=\mathcal{N}\left(AX^{T},\omega^{-1}I_{p}\otimes I_{n}\right),
$$
kde model neznámé variance $\omega$ volíme stejně jako v případě lineární regrese jako
$$
f(\omega)=\mathcal{G}\left(\vartheta_{0},\rho_{0}\right).
$$
Apriorní modely pro parametry $A$ a $X$ volíme následující
$$
f(A)=\mathcal{N}\left(\mathbf{0},I_{p}\otimes I_{r}\right)\\
f(X)=\mathcal{N}\left(\mathbf{0},I_{n}\otimes I_{r}\right).
$$
Tím máme plně určen model a nyní aplikujeme variační Bayesovu metodu.

Logaritmus sdružené věrohodnosti si můžeme vyjádřit jako
$$
\ln f(D,\omega,A,X) \propto \frac{pn}{2}\ln\omega - \frac{1}{2}\text{tr}\left[(D-AX^T)\omega(D-AX^T)^T\right] + (\vartheta_0-1)\ln\omega - \rho_0\omega - \frac{1}{2}\text{tr}(AA^T) - \frac{1}{2}\text{tr}(XX^T)
$$
a z něj si vyjádříme marginály pro jednotlivé parametry modelu jako
$$
\tilde{f}(A|D) \propto \exp\left( -\frac{1}{2}\widehat{\omega}\text{tr}(-2D\widehat{X}A^T+A\widehat{X^TX}A^T)-\frac{1}{2}\text{tr}(AA^T) \right)\\
\tilde{f}(X|D) \propto \exp\left( -\frac{1}{2}\widehat{\omega}\text{tr}(-2D^T\widehat{A}X^T+X\widehat{A^TA}X^T)-\frac{1}{2}\text{tr}(XX^T) \right)\\
\tilde{f}(\omega|D) \propto \exp\left(( \vartheta_{0}+\frac{np}{2} - 1 )\ln\omega - \omega( \rho_{0}+\frac{1}{2}\text{tr}(DD^{T}-\widehat{A}\widehat{X}^{T}D^{T}-D\widehat{X}\widehat{A}^{T})+\frac{1}{2}\text{tr}(\widehat{A^{T}A}\widehat{X^{T}X} ) \right)
$$

Tvar marginál identifikujeme jako
$$
\tilde{f}(\omega|D,r)=\mathcal{G}_{\omega}(\vartheta,\rho),\\
\tilde{f}(A|D,r)=\mathcal{N}_{A}(\mu_{A},I_{p}\otimes\Sigma_{A}),\\
\tilde{f}(X|D,r)=\mathcal{N}_{X}(\mu_{X},I_{n}\otimes\Sigma_{X}),
$$
kde tvarovací parametry $\vartheta,\rho,\mu_{A},\Sigma_{A},\mu_{X},\Sigma_{X}$ dostáváme následovně:
$$
\Sigma_{A}=\left(\widehat{\omega}\widehat{X^{T}X}+I_{r}\right)^{-1},\\
\mu_{A}=\widehat{\omega}D\widehat{X}\Sigma_{A},\\
\Sigma_{X}=\left(\widehat{\omega}\widehat{A^{T}A}+I_{r}\right)^{-1},\\
\mu_{X}=\widehat{\omega}D^{T}\widehat{A}\Sigma_{X},\\
\vartheta= \vartheta_{0}+\frac{np}{2},\\
\rho= \rho_{0}+\frac{1}{2}\text{tr}\left(DD^{T}-\widehat{A}\widehat{X}^{T}D^{T}-D\widehat{X}\widehat{A}^{T}\right)+\frac{1}{2}\text{tr}\left(\widehat{A^{T}A}\widehat{X^{T}X}\right).
$$

Výsledky algoritmu si opět ukážeme na cvičných datech, nejprve pro $r=2$:

<img src="img_ot/l11_vb_r2.png">

a následně pro $r=3$:

<img src="img_ot/l11_vb_r3.png">

Vidíme, že chování algoritmu je relativně podobné jako chování NMF (to, že řešení vyšlo pozitivní přičtěme spíše "pěkným" datům a dobré inicializaci algoritmu), stále závisí na předpokládaném počtu zdrojů. 

V pokračování se podíváme na dvě zásadní vylepšení:
- pozitivitu řešení
- odhad počtu zdrojů