**Materiály vznikají průběžně a jsou bez záruky - prosím o report chyb :-)**

---

In [1]:
import numpy as np
from scipy.special import comb
np.set_printoptions(precision=3)

# Téma 2: Podmíněná pravděpodobnost

> **Definice**
>
> Buďte $A$ a $B$ jevy a $P(B) > 0$. **Podmíněnou pravděpodobností** $A$ za podmínky $B$ nazýváme
> 
>$$
P(A|B) = \frac{P(A\cap B)}{P(B)}.
$$

## Příklad - ilustrační

Máme dvě férové - tedy vyvážené - kostky. Máme spočítat pravděpodobnost, že na první padla 2 za předpokladu (*podmínky*!), že součet čísel na obou kostkách je nejvýše 5.

![podminena](img/podminena-2kostky.png)

Jak je patrné, je vždy dobré si raději pečlivě rozepsat nebo rozkreslit vše, co známe. Zkušenost nás pak naučí si vybírat, co opravdu potřebujeme.

Zabývejme se nyní tímto problémem: Máme ze znalosti předchozího určit $P(K_1=2)$, tedy *marginální pravděpodobnost*. Celkem triviálně víme, že to je $\frac{1}{6}$, ale ukažme si to pomocí podmíněných pravděpodobností, tedy za podmínky že buď byl součet nejvýše pět či více jak pět:

$$
\begin{aligned}
P(K_1=2) 
&= P(K_1=2|K_1+K_2\leq 5) P(K_1+K_2\leq 5) \\ &+  P(K_1=2|K_1+K_2> 5) P(K_1+K_2 > 5) \\
&= P(\{K_1\} \cap \{K_1+K_2\leq 5\}) + P(\{K_1\} \cap \{K_1+K_2 > 5\}) \\
&= \frac{3}{36} + \frac{3}{36} = \frac{1}{6},
\end{aligned}
$$

což vidíme odpovídá obrázku. O tom je i věta o úplné pravděpodobnosti.

> **Věta o úplné pravděpodobnosti**
>
> Nechť $B_1, \ldots, B_n$ je rozklad $\Omega$ takový, že pro každé $i$ je $P(B_i)>0$. Potom pro každý jev $A$ platí
>
>$$
P(A) = \sum_{i=1}^n P(A|B_i) P(B_i).
$$

Věta o úplné pravděpodobnosti vlastně napovídá, jak se dostat k pravděpodobnosti jevu $A$. Stačí se prostě vzít v potaz všechny varianty, které jej podmiňují a přes ně vysčítat. To názorně demonstrují následující příklady.

### Příklad

Hostujeme zdrojové kódy ve verzovacím systému na serveru, k němuž se můžeme připojit pomocí 3 protokolů - https, ssh a git. Kvůli různým nastavením firewallů apod. u různých ISP se k repozitáři dostaneme (OK) s následujícími pravděpodobnostmi:

- $P(OK|https) = 0.99$
- $P(OK|ssh) = 0.3$
- $P(OK|git) = 0.1$

Máme určit pravděpodobnost, že se k repozitáři dostaneme na první pokus, pokud vybíráme protokoly se stejnou pravděpodobností.

*Řešení: abychom se k repozitáři dostali, musíme být úspěšní s https NEBO ssh NEBO gitem,*

$$
\begin{aligned}
P(OK) &= P(OK|https)\cdot P(https) + P(OK|ssh)\cdot P(ssh) + P(OK|git)\cdot P(git) \\
&= 0.99 \cdot \frac{1}{3} + 0.3 \cdot \frac{1}{3} + 0.1 \cdot \frac{1}{3} = 0.463.
\end{aligned}
$$

> **Definice: Nezávislost jevů**
>
> Jevy $A$ a $B$ se nazývají nezávislé, pokud
>
> $$
P(A\cap B) = P(A|B)\cdot P(B) = P(B|A)\cdot P(A) = P(A) \cdot P(B).
$$

Velmi jednoduše řečeno, nezávislost jevů znamená, že jeden jev neovlivňuje pravděpodobnost druhého. Z toho tedy plyne navíc $P(A|B) = P(A)$, viz definice nezávislosti. Z příkladu níže vidíme, že neplatí, že $A, B$ jsou nezávislé, pokud $A\cap B = \emptyset$.


A vrátíme se tedy ještě jednou ke kostce. Máme nyní určit pravděpodobnost, že na první kostce padla 2 za podmínky, že na druhé kostce padlo liché číslo:

$$
\begin{aligned}
P(K_1=2|K_2=\{1,3,5\}) &= 
\frac{P(\{K_1=2\} \cap \{K_2=\{1,3,5\}\})}{P(\{K_2=\{1,3,5\}\})} \\
&= \frac{\frac{1}{6} \cdot \frac{3}{6}}{\frac{3}{6}}
= \frac{1}{6} = P(K_1=2).
\end{aligned}
$$

(Rozepište nebo rozkreslete si to!)

### Příklad na podmíněné pravděpodobnosti
Uvažujeme strojové rozpoznávání textu v závislosti na světelných podmínkách. To můžeme popsat podmíněnou pravděpodobností $P(R|S)$, kde R zastupuje "rozpoznání" a S "světelné podmínky". To je vlastně **model** pro R v závislosti na S. Zapišme pomocí tabulky:

$P(R|S)$| Dobré | Přijatelné | Špatné 
--- | :---: | :---: | :---:
Rozpoznáno | 0.99 | 0.6 | 0.3 
Nerozpoznáno | 0.01 | 0.4 | 0.7 

Uvažujme dále, že pravděpodobnost světelných podmínek $P(S)$ je rozdělena takto:

$P(S)$ | Dobré | Přijatelné | Špatné 
--- | :---: | :---: | :---: 
$P(S)$ | 0.6 | 0.3 | 0.1 

Potom pro průniky jednotlivých jevů dostaneme pravděpodobnosti:

$P(R\cap S)$ | Dobré | Přijatelné | Špatné | $P(R)$
--- | :---: | :---: | :---: | :---:
Rozpoznáno | 0.594 | 0.18 | 0.03 | 0.804
Nerozpoznáno | 0.006 | 0.12 | 0.07 | 0.196
$P(S)$ | 0.6 | 0.3 | 0.1 | 1

Hodnoty pro $P(S)$ a $P(R)$ dostáváme podle věty o úplné pravděpodobnosti.

**Všimněte si jedné důležité vlastnosti, dobře patrné na součtech sloupců: Když sčítáme pravěpodobnost průnikových jevů přes celý prostor jednoho z jevů, tedy používáme větu o úplné pravděpodobnosti, tak vlastně "vyeliminujeme" daný jev. Tomu se říká marginalizace a uslyšíme o ní více v problematice náhodných veličin.**

> **Věta: Multiplikativní zákon**
>
> Nechť pro jevy $A_1, \ldots, A_n$ je $P(A_1\cap \cdots \cap A_n)>0$. Pak platí
>
> ![multi](img/multiplikativni.jpg)

Strom samozřejmě není součástí věty, jen názorně demonstruje, co nám multiplikativní zákon říká: Pravděpodobnost jedné konkrétní cesty v grafu. Až se budeme zabývat náhodnými veličinami, zjistíme, že toto pravidlo se tam jmenuje *řetězové*, neboť zřetězuje proměnné do sdružené pravděpodobnosti.

### Příklad
Chráníme server portknockingem, který otevírá port 22. Portknocking funguje na portech 1025-2048/tcp, je třeba poslat libovolné pakety v pořadí 1111/tcp, 1234/tcp, 1122/tcp, přičemž nesmí mezi nimi být paket na jiný port. Jaká je pravděpodobnost, že útočník port 22 náhodně otevře, pokud pošle libovolně 3 pakety na uvedený rozsah portů v náhodném pořadí, bez opakování portů?

$$
\begin{aligned}
P(1111\cap 1234\cap 1122) &= P(1111) \cdot P(1234|1111) \cdot (1122|1111\cap 1234) \\
&= \frac{1}{1024} \cdot \frac{1}{1023} \cdot \frac{1}{1022}.
\end{aligned}
$$

Pokud by na pořadí portů nezáleželo, tak bychom přešli od podmíněných pravděpodobností k nepodmíněným.

In [2]:
print("záleží-li na pořadí: ", 1/(1024 * 1023 * 1022))
print("pokud by nezáleželo: ", 1/comb(1024, 3))

záleží-li na pořadí:  9.340572890064714e-10
pokud by nezáleželo:  5.604343734038829e-09


# Bayesova věta

> **Bayesova věta**
>
> Nechť $B_1, \ldots, B_n$ je rozklad $\Omega$ takový, že pro každé $j$ je $P(B_j)>0$. Dále nechť $A$ je náhodný jev s $P(A)>0$. Potom platí
>
> $$
P(B_j|A) = \frac{P(A|B_j) P(B_j)}{P(A)}.
$$

$P(A)$ ve jmenovateli je právě z věty o úplné pravděpodobnosti, proto

$$
P(B_j|A) = \frac{P(A|B_j) P(B_j)}{\sum_{i=1}^n P(A|B_i) P(B_i)}.
$$

Bayesovu větu si nemusíme pamatovat, plyne jednoduše z rovnosti

$$
P(A|B_j) P(B_j) = P(B_j|A) P(A).
$$

Proto se jí někdy říká inverzní pravděpodobnost, neboť se ptáme na podmíněnou pravděpodobnost s prohozenými argumenty před a za podmínkou.

### Příklad: Palomares B-52 crash & H-bomb - baby version

V roce 1966 došlo při tankování za letu ke [srážce B-52 s KC-135 nad Španělskem u města Palomares](https://en.wikipedia.org/wiki/1966_Palomares_B-52_crash). Výsledkem bylo několik mrtvých, 4 rozházené vodíkové bomby, z toho jedna ztracená, u dvou explodovaly iniciační nálože a rozmetaly radioaktivní část bomby po okolí. Při hledání - a úspěšném nalezení - čtvrté byl použit bayesovský aparát. Zkusíme si baby verzi hledání bomby.

Máme určit pravděpodobnosti lokace bomby ve třech hrubě rozdělených oblastech $S_1, S_2, S_3$, kterým přidělíme rovnoměrnou apriorní pravděpodobnost, tedy $\frac{1}{3}$ každé.

![Palomares map](img/palomaresmap.jpg)

Jelikož se našla součást padáku, předpokládá se, že se úspěšně otevřel. Experti na základě meteo údajů kvantifikovali pravděpodobnosti, že pro každou danou oblast vanul příznivý vítr. Všimněte si, že podmíněné pravděpodobnosti $P(V|S_1)$ pro vítr se nemusí sčítat do jedničky! (Rozmyslete - a poté porovnejte s příkladem o rozpoznávání textu. Všimněte si navíc, že by bylo možné udělat pěkné tabulky i zde a sčítat řádky, sloupce...)

|Pravděpodobnost/oblast | $S_1$ | $S_2$ | $S_3$ |
|---|---|---|---|
|$P(V|S_i)$ | 0.1 | 0.3 | 0.4 |
|$P(S_i)$ | 1/3 | 1/3 | 1/3 |

**Analýza:**

Z uvedených údajů tedy plyne:

Ptáme se na inverzní pravděpodobnost k $P(V|S_i)$, tedy na $P(S_i|V)$ - použijeme Bayesovu větu, kterou si nejprve z pohodlnosti odvodíme pro tento konkrétní případ ze vzorce pro pravděpodobnosti průniku podmíněných jevů:

$$
P(S_i|V) \cdot P(V) = P(V|S_i) \cdot P(S_i).
$$

Tedy

$$
\begin{aligned}
P(S_i|V) 
= \frac{P(V|S_i) \cdot P(S_i)}{P(V)}
= \frac{P(V|S_i) \cdot P(S_i)}{\sum_{i=1}^{3} P(V|S_i)\cdot  P(S_i)}
\end{aligned}
$$

Dosazením dostáváme pro jednotlivé oblasti pravděpodobnosti:

In [5]:
P_V__Si = np.array([.1, .3, .4])
P_Si = np.ones(3) / 3

P_V = np.sum(P_V__Si * P_Si)
P_Si__V = P_V__Si * P_Si
P_Si__V /= P_V
print(P_V)
print("Aposteriorní pravděpodobnosti oblastí: ", P_Si__V)
print("Kontrola - suma P(Si|V): ", P_Si__V.sum())
print("Kontrola - rozdíl pstí průniků: ", np.sum(P_Si__V * P_V) - np.sum(P_V__Si * P_Si))

0.26666666666666666
Aposteriorní pravděpodobnosti oblastí:  [0.125 0.375 0.5  ]
Kontrola - suma přes oblasti:  1.0
Kontrola - rozdíl pstí průniků:  0.0


### Příklad

Stojíme před big data problémem. [HST (Hubble Space Telescope)](https://en.wikipedia.org/wiki/Hubble_Space_Telescope) nasnímkoval část hlubokého vesmíru a je potřeba z nepředzpracovaných dat získat co největší informaci o počtu galaxií v dané oblasti. K tomu použijeme klasifikační metodu, která - jak víme z předchozích experimentů - má následující vlastnosti ($G$ = True Galaxy, $X$ = True non-Galaxy, $T_G$ = Test Galaxy, $T_X$ =  Test non-Galaxy).

- $P(T_G|G) = 0.92$
- $P(T_X|X) = 0.97$
- $P(G) = 0.005$

Jaká je pravděpodobnost, že na snímku je galaxie, pokud to klasifikátor tvrdí? A jaká je pravděpodobnost, že tam ta galaxie není?

*Řešení:*

*Dopíšeme si zbytek pravděpodobností:*

- $P(T_G|X) = 0.03$
- $P(T_X|G) = 0.08$
- $P(X) = 0.995$

*Hledáme $P(G|T_G)$, tedy inverzní pravděpodobnost k $P(T_G|G)$. Odvodíme si Bayesův vzorec:*

$$
P(T_G|G) P(G) = P(G|T_G) P(T_G) \Rightarrow P(G|T_G) = \frac{P(T_G|G) P(G)}{P(T_G)},
$$

kde z věty pro úplnou pravděpodobnost dostaneme

$$
P(T_G) = P(T_G|G)\cdot P(G) + P(T_G|X)\cdot P(X)
$$

Že na snímku galaxie není je jev opačný, tedy $P(X|T_G) = 1 - P(G|T_G)$. Můžeme ale rovněž spočítat podle Bayesova vzorce pro kontrolu. Stačí jen vyměnit čitatel ve zlomku.

In [4]:
P_TG__G = 0.92
P_TX__X = 0.97
P_G = 0.005
P_X = 1 - P_G
P_TX__G = 1 - P_TG__G
P_TG__X = 1 - P_TX__X
P_TG = P_TG__G * P_G + P_TG__X * P_X
P_G_TG = P_TG__G * P_G
P_X_TG = P_TG__X * P_X
P_G__TG = P_G_TG / P_TG
P_X__TG = P_X_TG / P_TG
print("Pravděpodobnost TG: {0:.3f}".format(P_TG))
print("Pravděpodobnost TG & G: {0:.3f}".format(P_G_TG))
print("Pravděpodobnost TG & X: {0:.3f}".format(P_X_TG))
print("Pravděpodobnost G|TG: {0:.3f}".format(P_G__TG))
print("Pravděpodobnost X|TG: {0:.3f}".format(P_X__TG))
print("Kontrola: ", P_G__TG + P_X__TG)

Pravděpodobnost TG: 0.034
Pravděpodobnost TG & G: 0.005
Pravděpodobnost TG & X: 0.030
Pravděpodobnost G|TG: 0.134
Pravděpodobnost X|TG: 0.866
Kontrola:  1.0


Uvedený problém dopočítávání různých vlastností klasifikátorů je velmi frekventovaný. Dobře vlastnosti shrnuje tzv. [matice záměn - confusion matrix](https://en.wikipedia.org/wiki/Confusion_matrix)

Vášnivým čtenářům je rozhodně nutné doporučit knihu od [S.B. McGrayneho "_The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy_"](https://www.amazon.com/Theory-That-Would-Not-Die/dp/0300188226) - beletristicky zpracovaná historie využití bayesovské teorie. A navíc je dost čtivá :-)

# Pólyúv model (urna)

(Základní) Pólyúv model, pojmenovaný po Georgi Pólyovi, popisuje následující proces:

- V urně je $r$ červených (R) a $b$ modrých (B) kuliček (red, blue).
- Náhodně vybereme jednu kuličku a vrátíme ji zpět (výběr s opakování, vracením).
- Do urny přidáme $c$ kuliček téže barvy, jako měla kulička vybraná.

Strom jednotlivých tahů a stavů urny vypadá následovně:
![Polya](img/polyatree.png)

Pólyúv model s kladným $c$ je někdy charakterizován jako "rich get richer", nicméně model má celkově velmi zajímavé a současně maličko neintuitivní vlastnosti. Označíme $R_i$ a $B_i$ jev, že v $i$tém tahu byla vytažena kulička červená nebo modrá kulička. Potom:

$$
P(R_1) = \frac{r}{r+b}, \qquad P(B_1)=\frac{b}{r+b},\\
P(R_{i}) = \frac{r}{r+b}, \qquad P(B_i) = \frac{b}{r+b}, \\
P(R_i|R_1) = \frac{r+c}{r+c+b}, \qquad P(R_i|B_1) = \frac{r}{r+c+b},
$$

analogicky poslední řádek pro $B_i$. Toto lze snadno dokázat indukcí, jež je ovšem poněkud hodně rozepisovací, proto ji vynecháme. Hezké intuitivní vysvětlení je např. na StackExchange [tady](https://math.stackexchange.com/questions/378810/a-problem-on-polyas-urn-scheme) nebo včetně obrázku [tady](https://math.stackexchange.com/questions/1441545/intuitive-heuristic-explanation-of-polyas-urn)

Použití tohoto modelu, resp. jeho variant, je velmi široké. Například jej lze použít v epidemiologii k modelování šíření infekcí, v informatice k modelování různých algoritmů jako Tree Sort a vyhodnocování jejich vlastností. V neparametrické bayesovské analýze  používáme procesy odvozené od Pólyova modelu k odhadu směsí o neznámém počtu komponent.

---

![denoising](img/denoising.png)
Denoising pomocí neparametrického slovníkového učení - odstranění šumu z obrázku. Zleva: Originál, zašuměný obrázek, odšuměný obrázek, naučený slovník. [M. Zhou et al.: Nonparametric Bayesian dictionary learning for analysis of noisy and incomplete images]

---

![brain](img/denoisingbrain.png)
Denoising MRI obrázku. [Y. Huang et al.: Bayesian nonparametric dictionary learning for compressed sensing MRI]

Zájemci se o Pólya modelu mohou dozvědět hodně z knihy od H.M. Mahmouda: Pólya Urn Models.

## Příklady ze slajdů

### 2.1: Předpokládejme vyváženou kostku.

**a) Jaká je pravděpodobnost, že padne čtyřka?**

$$
P(4) = \frac{1}{6}.
$$

**b) Jaká je pravděpodobnost, že padne čtyřka za předpokladu, že padlo sudé číslo?**

* *Víme: $P(sudé) = P(2,4,6) = \frac{3}{6}=\frac{1}{2}$. Dále víme, že $\{4\}\cap\{2,4,6\} = {4}$. Tedy*

$$
P(4|sudé) = P(4|\{2,4,6\})= \frac{P(\{4\}\cap\{2,4,6\})}{P(\{2,4,6\})} = \frac{\frac{1}{6}}{\frac{3}{6}} = \frac{1}{3}.
$$

**c) Jak se výsledek změní, pokud vím, že sudá padají 2x častěji než lichá?**

* *Víme:*

|strana| 1 | 2  | 3 | 4  | 5 | 6  |
|---|---|----|---|----|---|----|
|P(strana)| p | 2p | p | 2p | p | 2p |

$$
P(4|sudé) = P(4|\{2,4,6\})= \frac{P(\{4\}\cap\{2,4,6\})}{P(\{2,4,6\})} = \frac{\frac{2p}{9p}}{\frac{6p}{9p}} = \frac{1}{3}.
$$

### 2.2 O třídě máme následující informace:

- **Ve třídě je 70% chlapců (H),**
- **10% z chlapců hraje fotbal (F),**
- **žádná z dívek (D) fotbal nehraje.**

**a) Kolik procent dětí ve třídě hraje fotbal?**

*Víme, že:*

- $P(H) = 0.7$
- $P(D) = 0.3$
- $P(F|H) = 0.1$
- $P(F|D) = 0$

$$
\begin{aligned}
P(F) &= P(F\cap H) + P(F \cap D) \\
&= P(F|H)P(H) + P(F|D)P(D) \\
&= 0.1 \cdot 0.7 + 0 \cdot 0.3 = 0.07.
\end{aligned}
$$

**b) Jak se výsledek změní, pokud 5% dívek začne hrát fotbal?**

*Nyní* $P(F|D) = 0.05$

$$
\begin{aligned}
P(F) &= P(F\cap H) + P(F \cap D) \\
&= P(F|H)P(H) + P(F|D)P(D) \\
&= 0.1 \cdot 0.7 + 0.05 \cdot 0.3 = 0.085.
\end{aligned}
$$

*Pozn.: zde je krásně vidět aplikace míry, protože vlastně nepočítáme přímo pravděpodobnost, ale míru množin :-)*



### 2.3 Dvě losovací urny obsahují stejné modré nebo bílé kuličky.

- **první urna obsahuje 2 bílé (B) a 3 modré (M),**
- **druhá urna obsahuje 3 bílé a 4 modré,**
- **z první urny náhodně vytáhneme kuličku a přendáme ji do druhé,**
- **potom z druhé urny vytáhneme kuličku a podíváme se na ni.**

**Jaká je pravděpodobnost, že kulička vytažená z druhé urny bude mít modrou barvu?**

*Kreslit, kreslit, kreslit...*
![urny](img/ex-urny.jpg)

### 2.4 Tahání kuliček z urny

- **Urna obsahuje $b$ modrých a $r$ červených kuliček.**
- **Postupně je náhodně losujeme a nevracíme je zpět.**

**Ukažte, že pravděpodobnost toho, že první červená kulička bude vytažena až v $(k+1)$ tahu, se rovná**

$$
\frac{\binom{r+b-k-1}{r-1}}{\binom{r+b}{b}}.
$$

**Řešte úlohu pomocí multiplikativního zákona. Lze ji řešit i kombinatoricku úvahou?**

*Označme jevy*

- $A_1$ - *1. tažená je modrá*
- $A_2$ - *2. tažená je modrá*
- *atd.*
- $A_k$ - *$k$. tažená je modrá*
- $A_{k+1}$ - *$(k+1)$. tažená je červená*

*Potom podle multiplikativního zákona (zohledňujeme že v každém dalším tahu pravděpodobnost dané kuličky odpovídá pravděpodobnosti zbývajících kuliček dané barvy a daného počtu):*

$$
\begin{aligned}
P(A_1 \cup \cdots \cap A_k \cap A_{k+1})
&= P(A_1) P(A_2|A_1) P(A_3|A_1\cap A_2) \ldots P(A_{k+1}|A_1\cap\ldots\cap A_k)
\end{aligned}
$$

![ballcomb](img/ballcomb.jpg)
*Pokud máte problém najít kombinační čísla pomocí násobení "jedničkami", napište si výsledek a snažte se to do něj upravit.*

### 2.5 Máme balíček 52 whistových karet (barvy: srdce, káry, píky, kříže; hodnoty 2,...,10, J, Q, K, A).

**a) Jsou jevy "vytažení srdcové karty" (S) a "vytažení dámy" (Q) nezávislé?**

*Víme, že:*

- $P(Q) = \frac{4}{52}$
- $P(S) = \frac{1}{4}$

*Tedy:*
$$
\begin{aligned}
P(Q\cap S) &= P(Q) \cdot P(S)?\\
\frac{1}{52} &= \frac{1}{4} \frac{4}{52}=\frac{1}{52} \qquad\Rightarrow{ANO, nezávislé}.
\end{aligned}
$$

**b) Jak se výsledek změní, přidáme-li do balíčku jednoho (více) žolíků?**

*Žolík může zastupovat libovolnou kartu, tedy:*

- $P(S) = \frac{14}{53}$
- $P(Q) = \frac{5}{53}$

$$
\frac{2}{53} \ne \frac{5}{53} \frac{14}{53} = \frac{70}{53} \qquad \text{NE, nejsou nezávislé}.
$$

**c) Jak by musel žolík fungovat, aby jevy byly nezávislé?**

*Např. žolíky různých barev.*

### 2.7 Nechť $A$ a $B$ jsou nezávislé jevy. Ukažte, že také $A^C$ a $B$ jsou nezávislé a tudíž i $A^C$ a $B^C$ jsou nezávislé.

*Jelikož $A\cap A^C = \Omega$, platí*

$$
P(B) = P((A\cup A^C)\cap B) = P(A\cap B) + P(A^C \cap B).
$$

*Tedy*

$$
P(A^C) P(B) = (1-P(A))P(B) = P(B)-P(A)P(B) = P(B)-P(A\cap B) = P(A^C\cap B).
$$

### 2.8 Házíme vyváženou kostkou 2x po sobě. Jaká je pravděpodobnost, že součet hodů bude větší než 7, za předpokladu, že v prvním hodu padla čtyřka?

*Viz úvodní příklad*
$$
P(K_1+K_2 \geq 7|K_1=4) = \frac{P(\{K_1+K_2\geq 7\}\cup\{K_1=4\}}{P(K_1=4)} = \frac{3/36}{1/6} = \frac{1}{2}.
$$

### 2.9 Mezi body A, B vedou dvě silnice a mezi body B, C vedou také dvě silnice. V zimě může být nezávisle na ostatních každá z těchto 4 silnic zablokována sněhem s pravděpodobností $p$. Jaká je pravděpodobnost, že je možné se dostat z bodu A do bodu C?

*Buď můžeme počítat složitě, nebo si uvědomit, že nemožnost postupu A-B, tedy jevu nemožného, je pravděpodobnost $p$. Tedy opačný jev má pravděpodobnost $(1-p^2)$. Jelikož je v zadání jasně "nezávisle", potom pro cestu B-C platí totéž a pro A-B-C vlivem nezávislosti $(1-p^2)^2$.*

### 2.10 Předpokládejme, že

- **pravděpodobnosti, že se narodí chlapec nebo dívka jsou stejné,**
- **pohlaví dvou různých dětí (i u téže rodičů) jsou nezávislé.**

**Vidím fotku, na které jsou rodiče a dvě děti v kostýmech (není poznat pohlaví). Kamarád mi prozradil, že alespoň jedno z dětí je hoch (H).**

**a) Jaká je pravděpodobnost, že i druhé dítě je hoch?**

*Víme:*
- $P(H) = P(D) = \frac{1}{2}$
- $P(HD) = P(HH) = P(DH) = P(DD) = \frac{1}{4}$

*Tedy:*

$$
P(HH|\{HD, DH, HH\}) = \frac{P(\{HH\}\cap\{HH, HD, DH\})}{P(HH, HD, DH)}
= \frac{\frac{1}{4}}{\frac{3}{4}} = \frac{1}{3}.
$$

**b) Jestliže nám kamarád prozradí, že alespoň jedno z dětí je hoch narozený v pondělí, a děti se rodí ve všech dnech rovnoměrně, jak se změní odpověď?**

*Nyní:*

- $P(H_p) = P(D_p) = \frac{1}{7}$ (hoch či dívka v pondělí)

*Bayesovou větou:*

$$
\begin{aligned}
P(HH|H_p) &= \frac{P(HH\cap H_p)}{P(H_p)} \\
&= \frac{P(HH) \cdot P(H_p|HH)}
{P(H_p|HH)P(HH) + P(H_p|HD)P(HD) + P(H_p|HH)P(DH) + P(H_p|HH)P(DD)} \\
&= \frac{\frac{1}{4} [1-(1-\frac{1}{7})^2]}
{\frac{1}{4}[1-(1-\frac{1}{7})^2] + \frac{1}{7}\frac{1}{4} + \frac{1}{7}\frac{1}{4} + 0} = \frac{13}{27}
\end{aligned}
$$

Tento příklad je znám jako [boy or girl paradox](https://en.wikipedia.org/wiki/Boy_or_Girl_paradox)

### 2.11 Galtonův paradox

**Hodíme třemi férovými mincemi. Minimálně dvě ukazují stejný výsledek (hlava H nebo orel O). Je vyrovnaná šance, že třetí bude hlava nebo orel. Takže pravděpodobnost, že budou všechny tři stejné, je $P(HHH) = P(OOO) = \frac{1}{2}$. Souhlasíte?**

*Ne, velmi jednoduše - všech jevů je 8, příznivé jsou 2, tedy 1/4. Pravděpodobnost podmínky je totiž 1!*

### 2.12 Společnost 5 mužů a 10 žen se náhodně rozdělí na pět skupin po třech osobách. Určete pravděpodobnost, že v každé skupině bude právě jeden muž.

*Existuje několik možností, jak tento problém řešit. Můžeme např. uvažovat, že umístíme prvního muže. Následně vybíráme pro druhého ze 14 volných pozic jednu z 12 přípustných. U třetího z 13 volných je 9 přípustných atd.:*

$$
\frac{12}{14}\cdot\frac{9}{13}\cdot\frac{6}{12}\cdot\frac{3}{11} = \frac{3^5}{\binom{15}{5}}.
$$

*Alternativně jdeme po mužích postupně a k nim vybíráme ženy s pravděpodobnostmi $\frac{10}{14}\frac{9}{13}$ u prvního, $\frac{8}{11}\frac{7}{10}$ u druhého atd.*

### 3.1 Dle odhadu je 90% vyrobených integrovaných obvodů plně funkčních (F). Požadavek zákazníka je, aby 99% obvodů bylo plně funkčních. Vyrobené obvody jsou proto otestovány. Studie ukázala, že testem projde jako "akceptovatelných (A)" 80% plně funkčních a 10% vadných (V) obvodů.

**a) Spočtěte pravděpodobnost, že vyrobený obvod projde testem jako "akceptovatelný"**

*Sepíšeme si nejprve, co víme:*

- $P(F) = 0.9$
- $P(V) = 0.1$ *(doplněk)*
- $P(A|F) = 0.8$
- $P(A|V) = 0.1$

*Ptáme se na $P(A)$:*

$$
P(A) = P(A|F)P(F) + P(A|V)P(V) = 0.8 \cdot 0.9 + 0.1 \cdot 0.1 = 0.73.
$$

**b) Splní firma požadavek zákazníka? To jest, jaká je podmíněná pravděpodobnost, že obvod je plně funkční za předpokladu, že prošel testem jako akceptovatelný?**

*Ptáme se na $P(F|A)$, což je inverzní problém, tuto pravděpodobnost nemám = použiji Bayesovu větu. Jsem-li pohodlný si ji pamatovat, triviálně si odvodím, že*

$$
P(F|A)P(A) = P(A|F)P(F) \Rightarrow P(F|A) = \frac{P(A|F)P(F)}{P(A)}.
$$

*Jmenovatel už máme vypočtený z předchozího bodu, tak jej rovnou použijeme a uvidíme, že firma požadavek nesplní.*

$$
P(F|A) = \frac{0.8 \cdot 0.9}{0.73} = 0.986 < 0.99.
$$

**c) Výroba obvodu stojí 2Kč a jeho test 0.2Kč. Obvody, které neprojdou testem, jsou skartovány. Kolik celkem stojí výrobce jeden dodaný obvod?**

*Víme, že z $N$ vyrobených kusů za celkem $N\cdot$ 2.2Kč projde jen $0.73N$. Celkové náklady na dodaný kus jsou tedy*

$$
\frac{2.2 \cdot N}{0.73 \cdot N} = 3.01\text{Kč}.
$$

### 3.2 Senzitivita testu - pravděpodobnost pozitivního testu (tp) pokud je pacient nemocný (pn) - je 95%. Specificita - pravděpodobnost negativního testu (tn) pokud pacient nemocný není (pz) - je 97%. Danou chorobou trpí 5% populace (pn, tzv. prevalence).

**a) Jaká je pravděpodobnost, že pacient je nemocný, pokud test vyšel pozitivní?**

*Sepíšeme si, co víme a co můžeme snadno dopočítat z doplňků:*

- $P(tp|pn) = 0.95$
- $P(tn|pz) = 0.97$
- $P(pn) = 0.05$
- $P(pz) = 0.95$ *(z doplňku)*
- $P(tp|pz) = 0.05$ *(dtto)*
- $P(tn|pn) = 0.03$ *(dtto)*

*Hledáme $P(pn|tp)$, tedy opět inverzní pravděpodobnost a opět Bayes. Opět z odvodíme lenosti si pamatovat :-)*

$$
P(pn|tp)\cdot P(tp) = P(tp|pn)\cdot P(pn) \Rightarrow 
P(pn|tp) = \frac{P(tp|pn)\cdot P(pn)}{P(tp)}.
$$

*Chybí nám jmenovatel, ale víme, že jde o úplnou pravděpodobnost, tedy*

$$
P(tp) = P(tp|pz) P(pz) + P(tp|pn) P(pn) = 0.05\cdot 0.95 + 0.95\cdot 0.03 = 0.95 \cdot 0.08.
$$

*A dosadíme do Bayesovy věty,*

$$
P(pn|tp) = \frac{P(tp|pn)\cdot P(pn)}{P(tp)}
= \frac{0.95\cdot 0.05}{0.95\cdot 0.08} = \frac{5}{8}.
$$

*Nic moc, že?*

**b) A naopak, jaká je pravděpodobnost, že pacient je nemocný, pokud test vyšel negativní?**

*Řešíme úplně analogicky pro $P(pn|tn)$ a dostaneme 0.0027.*

### 3.3 Pólyův model: Mějme zásobník a v něm $r$ červených a $b$ modrých kuliček. Ze zásobníku budeme náhodně tahat kuličku. Po vytažení kuličku do zásobníku vrátíme a přidáme dalších $c$ kuliček té barvy, kterou jsme vytáhli.

**Některé speciální případy:**

- $c=0$ **- Bernoulliho model (opakované tahy s vracením)**
- $c = -1$ **- tahy bez vracení, viz př. 2.4.**

**a) Určete pravděpodobnost, že v prvních třech po sobě následujících tazích vytáhneme červenou kuličku (r).**

*Použijeme vzoreček pro úplnou pravděpodobnost, neboť nám jde o průnik jevů "v prvním tahu r" a "v druhém tahu r" a "ve třetím tahu r", označíme $r_1, r_2, r_3$. Jde o jednoduché podíly počtu příznivých a celkového počtu všech možností:"

$$
\begin{aligned}
P(r_1 \cap r_2 \cap r_3) 
&= P(r_1)\cdot P(r_2|r_1)\cdot P(r_3|r_1\cap r_2) \\
&= \frac{r}{r+b} \cdot \frac{r+c}{r+c+b} \cdot \frac{r+2c}{r+2c+b}.
\end{aligned}
$$

**b) Jaká je pravděpodobnost, že jsme v prvním tahu vytáhli modrou kuličku, jestliže ve třetím tahu vytáhneme červenou kuličku?**


$$
P(B_1|R_1) = \frac{P(R_3|B_1) P(B_1)}{P(R_3)} = \frac{\frac{r}{r+c+b} \frac{b}{r+b}}{\frac{r}{r+b}} = \frac{b}{r+b+c}.
$$

### 3.4 První hokejista ($H_1$) vstřelí při každém pokusu gól s pravděpodobností 4/5. Druhý $H_2$ s pravděpodobností 3/4. Třetí $H_3$ s pravděpodobností 2/3. Samostatných nájezdů ke konci zápasu se účastnili tito tři hráči a padly právě 2 góly. S jakou pravděpodobností se třetí hokejista netrefil?

*Pravděpodobnost úspěchu či neúspěchu je mezi hokejisty nezávislá. Můžeme tedy brát jejich pravděpodobnosti jako míru případného úspěchu či neúspěchu. Víme následující:*

- $P(H_1) = \frac{4}{5} \quad \Rightarrow \quad P(H_1^C) = \frac{1}{5}$,
- $P(H_2) = \frac{3}{4} \quad \Rightarrow \quad P(H_2^C) = \frac{1}{4}$,
- $P(H_3) = \frac{2}{3} \quad \Rightarrow \quad P(H_3^C) = \frac{1}{3}$.

*Počítat budeme míru dotazovaného jevu $H_1 H_2 H_3^C$ dělenou mírou všech jevů kdy padly dva góly, tj. $H_1^C H_2 H_3, H_1 H_2^C H_3, H_1 H_2 H_3^C$:*

$$
\begin{aligned}
P(H_2^C | 2\ góly) 
&= \frac{P(H_1 H_2 H_3^C)}{P(H_1^C H_2 H_3) + P(H_1 H_2^C H_3) + P(H_1 H_2 H_3^C)} \\
&= \frac{\frac{4}{5} \frac{3}{4} \frac{1}{3}}{
\frac{1}{5} \frac{3}{4} \frac{2}{3} +
\frac{4}{5} \frac{1}{4} \frac{2}{3} +
\frac{4}{5} \frac{3}{4} \frac{1}{3}} 
= \frac{6}{13}.
\end{aligned}
$$

### 3.5 Při zkoušce z PST, jejíž úspěšnost byla jen 60%, jsme se od studentů zjišťovali, jaké materiály použili při studiu.

- **Z těch, kteří uspěli (U), 20% použilo jen fitwiki (F), 75% i své poznámky (p), 5% nepoužilo žádné materiály ($\emptyset$).**
- **Z těch, kteří neuspěli (N), se 60% učilo jen z fitwiki (F), 5% i s jiných materiálů (p) a 35% se neučilo vůbec ($\emptyset$).**

**a) Jaká je pravděpodobnost, že student uspěl při zkoušce, jestliže se učil jen z fitwiki?**

*Shrneme si, co víme:*

- $P(F|U)=0.2$
- $P(F\cap p|U)=0.75$
- $P(\emptyset|U) = 0.05$
- $P(F|N) = 0.6$
- $P(F\cap p|N)=0.05$
- $P(\emptyset|N) = 0.35$
- $P(U) = 0.6 \quad\Rightarrow P(N) = 0.4$

*Ptáme se na úspěch za podmínky fitwiki, tedy $P(U|F)$, což je inverzní pravděpodobnost a budeme tedy potřebovat Bayese. Pro tentokrát jej už napíšeme v celé parádě (zvítězivše nad pohodlností :-))*

$$
P(U|F) = \frac{P(F|U) \cdot P(U)}{P(F|U)\cdot P(U) + P(F|N)\cdot P(N)}
= \frac{0.2 \cdot 0.6}{0.2\cdot 0.6 + 0.6\cdot 0.4} = \frac{1}{3}.
$$

**b) Jaký podíl studentů se při studiu učil i z jiných poznámek, než jen z fitwiki?**

*Ptáme se na úplnou pravděpodobnost (resp. míru) jevu $\{F\cap p\}$, tedy potřebujeme vzorec pro úplnou pravděpodobnost:*

$$
P(F\cap p) = P(F\cap p|U)\cdot P(U) + P(F\cap p|N)\cdot P(N) = 0.75 \cdot 0.6 + 0.05 \cdot 0.4 = 0.47.
$$