**Materiály vznikají průběžně a jsou bez záruky - prosím o report chyb :-)**

---

In [2]:
import numpy as np
from scipy.special import comb
np.set_printoptions(precision=3)

# Téma 3: Bayesova věta

Připomeňme si ještě jednou, co jsme se dozvěděli na minulém cvičení a přednáškách.

> **Definice**
>
> Buďte $A$ a $B$ jevy a $P(B) > 0$. **Podmíněnou pravděpodobností** $A$ za podmínky $B$ nazýváme
> 
>$$
P(A|B) = \frac{P(A\cap B)}{P(B)}.
$$

> **Věta o úplné pravděpodobnosti**
>
> Nechť $B_1, \ldots, B_n$ je rozklad $\Omega$ takový, že pro každé $i$ je $P(B_i)>0$. Potom pro každý jev $A$ platí
>
>$$
P(A) = \sum_{i=1}^n P(A|B_i) P(B_i).
$$

Věta o úplné pravděpodobnosti říká, jak se dostat k marginální pravděpodobnosti jevu $A$. Kdybychom si argumenty v sumě přepsali do průnikových pravděpodobností (viz definice výše), tak sčítáme míry jednotlivých průniků - viz obrázek. 

![marginalizace](img/marginalizace.jpg)

Vzpomeňme rovněž, co se dělo na minulém cvičení v tabulkách při sčítání řádků či sloupců :) Jednoduché, že? 

_Přitom ve skutečnosti ani trochu ;-)_

# Bayesova věta

Následující věta je jedním ze základů tzv. bayesovské pravděpodobnosti a statistiky, která je alternativou k frekventistickému ("četnostnímu") pojetí statistiky v BI-PST. Umožňuje nám totiž kvantifikovat míru nejistoty spjatou s odhadem vyšetřované situace, např. kde se může nacházet ztracená vodíková bomba či letadlo, nebo jaké jsou vlastnosti nově vyvinutého léku. Zájemci si jednou rádi zapíší MI-BML :)

> **Bayesova věta**
>
> Nechť $B_1, \ldots, B_n$ je rozklad $\Omega$ takový, že pro každé $j$ je $P(B_j)>0$. Dále nechť $A$ je náhodný jev s $P(A)>0$. Potom platí
>
> $$
P(B_j|A) = \frac{P(A|B_j) P(B_j)}{P(A)}.
$$

$P(A)$ ve jmenovateli je právě z věty o úplné pravděpodobnosti, proto

$$
P(B_j|A) = \frac{P(A|B_j) P(B_j)}{\sum_{i=1}^n P(A|B_i) P(B_i)}.
$$

Bayesovu větu si nemusíme pamatovat, plyne jednoduše z rovnosti

$$
P(A|B_j) P(B_j) = P(B_j|A) P(A).
$$

Proto se jí někdy říká inverzní pravděpodobnost, neboť se ptáme na podmíněnou pravděpodobnost s prohozenými argumenty před a za podmínkou.

Zkuste se nad Bayesovou větou zamyslet nad výše uvedeným obrázkem :)

### Příklad: Palomares B-52 crash & H-bomb - baby version

V roce 1966 došlo při tankování za letu ke [srážce B-52 s KC-135 nad Španělskem u města Palomares](https://en.wikipedia.org/wiki/1966_Palomares_B-52_crash). Výsledkem bylo několik mrtvých, 4 rozházené vodíkové bomby, z toho jedna ztracená, u dvou explodovaly iniciační nálože a rozmetaly radioaktivní část bomby po okolí. Při hledání - a úspěšném nalezení - čtvrté byl použit bayesovský aparát. Zkusíme si baby verzi hledání bomby.

Máme určit pravděpodobnosti lokace bomby ve třech hrubě rozdělených oblastech $S_1, S_2, S_3$, kterým přidělíme rovnoměrnou apriorní pravděpodobnost, tedy $\frac{1}{3}$ každé.

![Palomares map](img/palomaresmap.jpg)

Jelikož se našla součást padáku, předpokládá se, že se úspěšně otevřel. Experti na základě meteo údajů kvantifikovali pravděpodobnosti, že pro každou danou oblast vanul příznivý vítr. Všimněte si, že podmíněné pravděpodobnosti $P(V|S_1)$ pro vítr se nemusí sčítat do jedničky! (Rozmyslete - a poté porovnejte s příkladem o rozpoznávání textu. Všimněte si navíc, že by bylo možné udělat pěkné tabulky i zde a sčítat řádky, sloupce...)

|Pravděpodobnost/oblast | $S_1$ | $S_2$ | $S_3$ |
|---|---|---|---|
|$P(V\mid S_i)$ | 0.1 | 0.3 | 0.4 |
|$P(S_i)$ | 1/3 | 1/3 | 1/3 |

**Analýza:**

Z uvedených údajů tedy plyne:

Ptáme se na inverzní pravděpodobnost k $P(V|S_i)$, tedy na $P(S_i|V)$ - použijeme Bayesovu větu, kterou si nejprve z pohodlnosti odvodíme pro tento konkrétní případ ze vzorce pro pravděpodobnosti průniku podmíněných jevů:

$$
P(S_i|V) \cdot P(V) = P(V|S_i) \cdot P(S_i).
$$

Tedy

$$
\begin{aligned}
P(S_i|V) 
= \frac{P(V|S_i) \cdot P(S_i)}{P(V)}
= \frac{P(V|S_i) \cdot P(S_i)}{\sum_{i=1}^{3} P(V|S_i)\cdot  P(S_i)}
\end{aligned}
$$

Dosazením dostáváme pro jednotlivé oblasti pravděpodobnosti:

In [3]:
P_V__Si = np.array([.1, .3, .4])
P_Si = np.ones(3) / 3

P_V = np.sum(P_V__Si * P_Si)
P_Si__V = P_V__Si * P_Si
P_Si__V /= P_V
print(P_V)
print("Aposteriorní pravděpodobnosti oblastí: ", P_Si__V)
print("Kontrola - suma P(Si|V): ", P_Si__V.sum())
print("Kontrola - rozdíl pstí průniků: ", np.sum(P_Si__V * P_V) - np.sum(P_V__Si * P_Si))

0.26666666666666666
Aposteriorní pravděpodobnosti oblastí:  [0.125 0.375 0.5  ]
Kontrola - suma P(Si|V):  1.0
Kontrola - rozdíl pstí průniků:  0.0


### Příklad

Stojíme před big data problémem. [HST (Hubble Space Telescope)](https://en.wikipedia.org/wiki/Hubble_Space_Telescope) nasnímkoval část hlubokého vesmíru a je potřeba z nepředzpracovaných dat získat co největší informaci o počtu galaxií v dané oblasti. K tomu použijeme klasifikační metodu, která - jak víme z předchozích experimentů - má následující vlastnosti ($G$ = True Galaxy, $X$ = True non-Galaxy, $T_G$ = Test Galaxy, $T_X$ =  Test non-Galaxy).

- $P(T_G|G) = 0.92$
- $P(T_X|X) = 0.97$
- $P(G) = 0.005$

Jaká je pravděpodobnost, že na snímku je galaxie, pokud to klasifikátor tvrdí? A jaká je pravděpodobnost, že tam ta galaxie není?

*Řešení:*

*Dopíšeme si zbytek pravděpodobností:*

- $P(T_G|X) = 0.03$
- $P(T_X|G) = 0.08$
- $P(X) = 0.995$

*Hledáme $P(G|T_G)$, tedy inverzní pravděpodobnost k $P(T_G|G)$. Odvodíme si Bayesův vzorec:*

$$
P(T_G|G) P(G) = P(G|T_G) P(T_G) \Rightarrow P(G|T_G) = \frac{P(T_G|G) P(G)}{P(T_G)},
$$

kde z věty pro úplnou pravděpodobnost dostaneme

$$
P(T_G) = P(T_G|G)\cdot P(G) + P(T_G|X)\cdot P(X)
$$

Že na snímku galaxie není je jev opačný, tedy $P(X|T_G) = 1 - P(G|T_G)$. Můžeme ale rovněž spočítat podle Bayesova vzorce pro kontrolu. Stačí jen vyměnit čitatel ve zlomku.

In [4]:
P_TG__G = 0.92
P_TX__X = 0.97
P_G = 0.005
P_X = 1 - P_G
P_TX__G = 1 - P_TG__G
P_TG__X = 1 - P_TX__X
P_TG = P_TG__G * P_G + P_TG__X * P_X
P_G_TG = P_TG__G * P_G
P_X_TG = P_TG__X * P_X
P_G__TG = P_G_TG / P_TG
P_X__TG = P_X_TG / P_TG
print("Pravděpodobnost TG: {0:.3f}".format(P_TG))
print("Pravděpodobnost TG & G: {0:.3f}".format(P_G_TG))
print("Pravděpodobnost TG & X: {0:.3f}".format(P_X_TG))
print("Pravděpodobnost G|TG: {0:.3f}".format(P_G__TG))
print("Pravděpodobnost X|TG: {0:.3f}".format(P_X__TG))
print("Kontrola: ", P_G__TG + P_X__TG)

Pravděpodobnost TG: 0.034
Pravděpodobnost TG & G: 0.005
Pravděpodobnost TG & X: 0.030
Pravděpodobnost G|TG: 0.134
Pravděpodobnost X|TG: 0.866
Kontrola:  1.0


Uvedený problém dopočítávání různých vlastností klasifikátorů je velmi frekventovaný. Dobře vlastnosti shrnuje tzv. [matice záměn - confusion matrix](https://en.wikipedia.org/wiki/Confusion_matrix)

Vášnivým čtenářům je rozhodně nutné doporučit knihu od [S.B. McGrayneho "_The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy_"](https://www.amazon.com/Theory-That-Would-Not-Die/dp/0300188226) - beletristicky zpracovaná historie využití bayesovské teorie. A navíc je dost čtivá :-)

# Pólyúv model (urna)

(Základní) Pólyúv model, pojmenovaný po Georgi Pólyovi, popisuje následující proces:

- V urně je $r$ červených (R) a $b$ modrých (B) kuliček (red, blue).
- Náhodně vybereme jednu kuličku a vrátíme ji zpět (výběr s opakování, vracením).
- Do urny přidáme $c$ kuliček téže barvy, jako měla kulička vybraná.

Strom jednotlivých tahů a stavů urny vypadá následovně:
![Polya](img/polyatree.png)

Pólyúv model s kladným $c$ je někdy charakterizován jako "rich get richer", nicméně model má celkově velmi zajímavé a současně maličko neintuitivní vlastnosti. Označíme $R_i$ a $B_i$ jev, že v $i$tém tahu byla vytažena kulička červená nebo modrá kulička. Potom:

$$
P(R_1) = \frac{r}{r+b}, \qquad P(B_1)=\frac{b}{r+b},\\
P(R_{i}) = \frac{r}{r+b}, \qquad P(B_i) = \frac{b}{r+b}, \\
P(R_i|R_1) = \frac{r+c}{r+c+b}, \qquad P(R_i|B_1) = \frac{r}{r+c+b},
$$

analogicky poslední řádek pro $B_i$. Toto lze snadno dokázat indukcí, jež je ovšem poněkud hodně rozepisovací, proto ji vynecháme. Hezké intuitivní vysvětlení je např. na StackExchange [tady](https://math.stackexchange.com/questions/378810/a-problem-on-polyas-urn-scheme) nebo včetně obrázku [tady](https://math.stackexchange.com/questions/1441545/intuitive-heuristic-explanation-of-polyas-urn)

Použití tohoto modelu, resp. jeho variant, je velmi široké. Například jej lze použít v epidemiologii k modelování šíření infekcí, v informatice k modelování různých algoritmů jako Tree Sort a vyhodnocování jejich vlastností. V neparametrické bayesovské analýze  používáme procesy odvozené od Pólyova modelu k odhadu směsí o neznámém počtu komponent.

---

![denoising](img/denoising.png)
Denoising pomocí neparametrického slovníkového učení - odstranění šumu z obrázku. Zleva: Originál, zašuměný obrázek, odšuměný obrázek, naučený slovník. [M. Zhou et al.: Nonparametric Bayesian dictionary learning for analysis of noisy and incomplete images]

---

![brain](img/denoisingbrain.png)
Denoising MRI obrázku. [Y. Huang et al.: Bayesian nonparametric dictionary learning for compressed sensing MRI]

Zájemci se o Pólya modelu mohou dozvědět hodně z knihy od H.M. Mahmouda: Pólya Urn Models.

---

## Příklady ze slajdů

### 3.1 Dle odhadu je 90% vyrobených integrovaných obvodů plně funkčních (F). Požadavek zákazníka je, aby 99% obvodů bylo plně funkčních. Vyrobené obvody jsou proto otestovány. Studie ukázala, že testem projde jako "akceptovatelných (A)" 80% plně funkčních a 10% vadných (V) obvodů.

**a) Spočtěte pravděpodobnost, že vyrobený obvod projde testem jako "akceptovatelný"**

*Sepíšeme si nejprve, co víme:*

- $P(F) = 0.9$
- $P(V) = 0.1$ *(doplněk)*
- $P(A|F) = 0.8$
- $P(A|V) = 0.1$

*Ptáme se na $P(A)$:*

$$
P(A) = P(A|F)P(F) + P(A|V)P(V) = 0.8 \cdot 0.9 + 0.1 \cdot 0.1 = 0.73.
$$

**b) Splní firma požadavek zákazníka? To jest, jaká je podmíněná pravděpodobnost, že obvod je plně funkční za předpokladu, že prošel testem jako akceptovatelný?**

*Ptáme se na $P(F|A)$, což je inverzní problém, tuto pravděpodobnost nemám = použiji Bayesovu větu. Jsem-li pohodlný si ji pamatovat, triviálně si odvodím, že*

$$
P(F|A)P(A) = P(A|F)P(F) \Rightarrow P(F|A) = \frac{P(A|F)P(F)}{P(A)}.
$$

*Jmenovatel už máme vypočtený z předchozího bodu, tak jej rovnou použijeme a uvidíme, že firma požadavek nesplní.*

$$
P(F|A) = \frac{0.8 \cdot 0.9}{0.73} = 0.986 < 0.99.
$$

**c) Výroba obvodu stojí 2Kč a jeho test 0.2Kč. Obvody, které neprojdou testem, jsou skartovány. Kolik celkem stojí výrobce jeden dodaný obvod?**

*Víme, že z $N$ vyrobených kusů za celkem $N\cdot$ 2.2Kč projde jen $0.73N$. Celkové náklady na dodaný kus jsou tedy*

$$
\frac{2.2 \cdot N}{0.73 \cdot N} = 3.01\text{Kč}.
$$

### 3.2 Senzitivita testu - pravděpodobnost pozitivního testu (tp) pokud je pacient nemocný (pn) - je 95%. Specificita - pravděpodobnost negativního testu (tn) pokud pacient nemocný není (pz) - je 97%. Danou chorobou trpí 5% populace (pn, tzv. prevalence).

**a) Jaká je pravděpodobnost, že pacient je nemocný, pokud test vyšel pozitivní?**

*Sepíšeme si, co víme a co můžeme snadno dopočítat z doplňků:*

- $P(tp|pn) = 0.95$
- $P(tn|pz) = 0.97$
- $P(pn) = 0.05$
- $P(pz) = 0.95$ *(z doplňku)*
- $P(tp|pz) = 0.03$ *(dtto)*
- $P(tn|pn) = 0.05$ *(dtto)*

*Hledáme $P(pn|tp)$, tedy opět inverzní pravděpodobnost a opět Bayes:*

$$
P(pn|tp)\cdot P(tp) = P(tp|pn)\cdot P(pn) \Rightarrow 
P(pn|tp) = \frac{P(tp|pn)\cdot P(pn)}{P(tp)}.
$$

*Chybí nám jmenovatel, ale víme, že jde o úplnou pravděpodobnost, tedy*

$$
P(tp) = P(tp|pz) P(pz) + P(tp|pn) P(pn) = 0.03\cdot 0.95 + 0.95\cdot 0.05 = 0.95 \cdot 0.08.
$$

*A dosadíme do Bayesovy věty,*

$$
P(pn|tp) = \frac{P(tp|pn)\cdot P(pn)}{P(tp)}
= \frac{0.95\cdot 0.05}{0.95\cdot 0.08} = \frac{5}{8}.
$$

*Nic moc, že?*

**b) A naopak, jaká je pravděpodobnost, že pacient je nemocný, pokud test vyšel negativní?**

*Řešíme úplně analogicky pro $P(pn|tn)$ a dostaneme 0.0027.*

### 3.3 Pólyův model: Mějme zásobník a v něm $r$ červených a $b$ modrých kuliček. Ze zásobníku budeme náhodně tahat kuličku. Po vytažení kuličku do zásobníku vrátíme a přidáme dalších $c$ kuliček té barvy, kterou jsme vytáhli.

**Některé speciální případy:**

- $c=0$ **- Bernoulliho model (opakované tahy s vracením)**
- $c = -1$ **- tahy bez vracení, viz př. 2.4.**

**a) Určete pravděpodobnost, že v prvních třech po sobě následujících tazích vytáhneme červenou kuličku (r).**

*Použijeme vzoreček pro úplnou pravděpodobnost, neboť nám jde o průnik jevů "v prvním tahu r" a "v druhém tahu r" a "ve třetím tahu r", označíme $r_1, r_2, r_3$. Jde o jednoduché podíly počtu příznivých a celkového počtu všech možností:"

$$
\begin{aligned}
P(r_1 \cap r_2 \cap r_3) 
&= P(r_1)\cdot P(r_2|r_1)\cdot P(r_3|r_1\cap r_2) \\
&= \frac{r}{r+b} \cdot \frac{r+c}{r+c+b} \cdot \frac{r+2c}{r+2c+b}.
\end{aligned}
$$

**b) Jaká je pravděpodobnost, že jsme v prvním tahu vytáhli modrou kuličku, jestliže ve třetím tahu vytáhneme červenou kuličku?**


$$
P(B_1|R_3) = \frac{P(R_3|B_1) P(B_1)}{P(R_3)} = \frac{\frac{r}{r+c+b} \frac{b}{r+b}}{\frac{r}{r+b}} = \frac{b}{r+b+c}.
$$

### 3.4 První hokejista ($H_1$) vstřelí při každém pokusu gól s pravděpodobností 4/5. Druhý $H_2$ s pravděpodobností 3/4. Třetí $H_3$ s pravděpodobností 2/3. Samostatných nájezdů ke konci zápasu se účastnili tito tři hráči a padly právě 2 góly. S jakou pravděpodobností se třetí hokejista netrefil?

*Pravděpodobnost úspěchu či neúspěchu je mezi hokejisty nezávislá. Můžeme tedy brát jejich pravděpodobnosti jako míru případného úspěchu či neúspěchu. Víme následující:*

- $P(H_1) = \frac{4}{5} \quad \Rightarrow \quad P(H_1^C) = \frac{1}{5}$,
- $P(H_2) = \frac{3}{4} \quad \Rightarrow \quad P(H_2^C) = \frac{1}{4}$,
- $P(H_3) = \frac{2}{3} \quad \Rightarrow \quad P(H_3^C) = \frac{1}{3}$.

*Počítat budeme míru dotazovaného jevu $H_1 H_2 H_3^C$ dělenou mírou všech jevů kdy padly dva góly, tj. $H_1^C H_2 H_3, H_1 H_2^C H_3, H_1 H_2 H_3^C$:*

$$
\begin{aligned}
P(H_3^C | 2\ góly) 
&= \frac{P(H_1 H_2 H_3^C)}{P(H_1^C H_2 H_3) + P(H_1 H_2^C H_3) + P(H_1 H_2 H_3^C)} \\
&= \frac{\frac{4}{5} \frac{3}{4} \frac{1}{3}}{
\frac{1}{5} \frac{3}{4} \frac{2}{3} +
\frac{4}{5} \frac{1}{4} \frac{2}{3} +
\frac{4}{5} \frac{3}{4} \frac{1}{3}} 
= \frac{6}{13}.
\end{aligned}
$$

### 3.5 Při zkoušce z PST, jejíž úspěšnost byla jen 60%, jsme od studentů zjišťovali, jaké materiály použili při studiu.

- **Z těch, kteří uspěli (U), 20% použilo jen fitwiki (F), 75% i své poznámky (p), 5% nepoužilo žádné materiály ($\emptyset$).**
- **Z těch, kteří neuspěli (N), se 60% učilo jen z fitwiki (F), 5% i z jiných materiálů (p) a 35% se neučilo vůbec ($\emptyset$).**

**a) Jaká je pravděpodobnost, že student uspěl při zkoušce, jestliže se učil jen z fitwiki?**

*Shrneme si, co víme:*

- $P(F|U)=0.2$
- $P(F\cap p|U)=0.75$
- $P(\emptyset|U) = 0.05$
- $P(F|N) = 0.6$
- $P(F\cap p|N)=0.05$
- $P(\emptyset|N) = 0.35$
- $P(U) = 0.6 \quad\Rightarrow P(N) = 0.4$

*Ptáme se na úspěch za podmínky fitwiki, tedy $P(U|F)$, což je inverzní pravděpodobnost a budeme tedy potřebovat Bayese. Pro tentokrát jej už napíšeme v celé parádě (zvítězivše nad pohodlností :-))*

$$
P(U|F) = \frac{P(F|U) \cdot P(U)}{P(F|U)\cdot P(U) + P(F|N)\cdot P(N)}
= \frac{0.2 \cdot 0.6}{0.2\cdot 0.6 + 0.6\cdot 0.4} = \frac{1}{3}.
$$

**b) Jaký podíl studentů se při studiu učil i z jiných poznámek, než jen z fitwiki?**

*Ptáme se na úplnou pravděpodobnost (resp. míru) jevu $\{F\cap p\}$, tedy potřebujeme vzorec pro úplnou pravděpodobnost:*

$$
P(F\cap p) = P(F\cap p|U)\cdot P(U) + P(F\cap p|N)\cdot P(N) = 0.75 \cdot 0.6 + 0.05 \cdot 0.4 = 0.47.
$$