## Wzory

### Wzór Bayesa

$$p(\theta\mid x) = \dfrac{p(x\mid \theta)\cdot p(\theta)}{p(x)}$$

Jeśli $\theta$ może przyjmować tylko skończenie wiele wartości, tzn. $\theta\in\{\theta^1, \ldots, \theta^T\}$, to możemy zapisać:

$$p(x) = p(x, \theta = \mathrm{cokolwiek}) = p(x, \theta=\theta^1) + \ldots + p(x, \theta=\theta^T) = p(x\mid\theta=\theta^1)p(\theta=\theta^1) + \ldots + p(x\mid\theta=\theta^T)p(\theta=\theta^T)$$

i wstawić to do powyższego wzoru (po co? tak będzie wygodniej, o czym przekonamy się za chwilę):

$$p(\theta\mid x) = \dfrac{p(x\mid \theta)\cdot p(\theta)}{p(x\mid\theta=\theta^1)p(\theta=\theta^1) + \ldots + p(x\mid\theta=\theta^T)p(\theta=\theta^T)}$$

Sam wzór Bayesa wynika wprost z definicji, więc jest dość prosty. Znacznie ciekawsze będzie to, co z nim zrobimy.

### Wzór Bayesa pisany hiperpoprawnie

Po dwóch stronach równości mamy dwie funkcje dwóch parametrów: $x$ oraz $\theta$. Jeśli chcemy mieć równość liczb, a nie funkcji, to powinniśmy wybrać jakąś wartość $x$ - niech to będzie np. $x^1$ - oraz wartość $\theta$ - powiedzmy $\theta^t$ dla pewnego $t\in\{1, \ldots, T\}$ - i napisać:

$$p(\theta = \theta^t\mid x = x^1) = \dfrac{p(x = x^1\mid\theta=\theta^t)\cdot p(\theta=\theta^t)}{p(x=x^1)}$$


### Zadanie (niepunktowane)

Udowodnić wzór Bayesa.

### Wzór Bayesa - więcej zmiennych

Zamiast $x$ i $\theta$ oczywiście możemy wstawić do wzoru Bayesa więcej zmiennych. Zasada jest podobna, np.:

$$p(\theta,\alpha\mid x,y,z) = \dfrac{p(x,y,z\mid \theta,\alpha)\cdot p(\theta,\alpha)}{p(x,y,z)}$$

### Zadanie (niepunktowane)

Jeśli np. $\theta\in\{\theta^1, \ldots, \theta^T\}$ oraz $\alpha\in\{\alpha^1, \ldots, \alpha^A\}$, to na co możemy podmienić $p(x,y,z)$ w mianowniku?

## UCZENIE maszynowe

Wróćmy teraz do pytania z końca poprzedniego notebooka.

Odpowiedź, która brzmi sensownie, ale jest nieprawdziwa:

"Dane pochodzą i.i.d. z pewnego rozkładu prawdopodobieństwa $p$. Ten rozkład istnieje naprawdę, ale go nie znamy. Uczenie polega na znalezieniu tego rozkładu przy pomocy danych treningowych. Potem, mając ten rozkład, możemy wnioskować o zbiorze testowym. Przykładem może być sprawdzanie, czy moneta jest symetryczna. Rzucamy 1000 razy monetą i twierdzimy, że prawdopodobieństwo wypadnięcia orła to liczba wyrzuconych orłów podzielona przez liczbę rzutów."

In [1]:
import numpy as np
from collections import Counter
rng = np.random.RandomState(seed=43)
# 0 - orzeł, 1 - reszka
samples = [rng.choice(2) for _ in range(1000)]
counted = Counter(samples)
print(counted)
print("p(x=ORZEŁ) =", float(counted[0]/1000.))

Counter({0: 503, 1: 497})
p(x=ORZEŁ) = 0.503


Czyli moneta jest niesymetryczna? A może skoro jesteśmy tak blisko 50%, to moneta jednak jest symetryczna?

Czy jeśli ktoś nas zapyta, jaki będzie wynik następnego rzutu monetą, to powinniśmy stwierdzić, że moneta jest niesymetryczna i nie wiemy, czy też obstawić orła, bo zgodnie z eksperymentem wypada częściej?

Skąd w ogóle wiemy, że moneta może być niesymetryczna? A co jeśli moneta może być tylko niesymetryczna na korzyść reszki, tzn. albo moneta jest perfekcyjnie symetryczna, albo reszka wypada częściej? Czy wtedy powinniśmy stwierdzić, że moneta z naszego eksperymentu jest symetryczna, bo wypadło więcej orłów, czy też jednak stwierdzić, że jest niesymetryczna, bo przecież bardzo ciężko wykonać perfekcyjnie symetryczną monetę?

itp. itd.

Jeśli faktycznie zakładamy, że uczenie polega na wybieraniu rozkładu spośród dostępnych, to do każdego z powyższych pytań trzeba od nowa tworzyć strategię znalezienia odpowiedzi. To niedobrze.

### Uczenie bayesowskie

Odpowiedź, która brzmi dziwnie, ale jest poprawna:

Nie ma czegoś takiego, jak uczenie się rozkładu. Żeby wykonać jakiekolwiek wnioskowanie statystyczne, musimy już mieć rozkład prawdopodobieństwa na wszystkich możliwych światach - oznaczmy go $p$. Ten rozkład nigdy się nie zmienia, jest on niezależny od czasu, obserwacji itp. Nasz świat to wynik jednego losowania z tego rozkładu.

Możemy zapisać:
$$p(\mathrm{nasz\ świat}) = p(\mathrm{nasza\ przeszłość}, \mathrm{nasza\ przyszłość})$$

Jeśli chcemy mieć w ogóle możliwość wnioskowania o przyszłości na podstawie przeszłości, to musi zachodzić __nierówność__:

$$p(\mathrm{nasza\ przyszłość}\mid\mathrm{dowolna\ przeszłość}) = p(\mathrm{nasza\ przyszłość}) \neq p(\mathrm{nasza\ przyszłość}\mid\mathrm{nasza\ przeszłość})$$

A więc założenie i.i.d. rozumiane dosłownie nie zachodzi - każda następna obserwacja jest zależna od poprzednich.

### A teraz dużo wyjaśnień

_Skąd bierzemy rozkład $p$ na wszystkich możliwych światach?_

Trzeba go zgadnąć. Ewentualnie trzeba się z nim urodzić.

_Co jeśli źle zgadniemy rozkład $p$?_

Mamy problem. Duży. Wtedy nawet jeśli perfekcyjnie przeprowadzimy wnioskowanie na podstawie znanych nam obserwacji (przeszłości), to i tak nasze wnioski o przyszłości będą niepoprawne.

_Czy nie da się jakoś sprawdzić, że nasze $p$ jest poprawne?_

Nie.

_Co z wnioskowaniem na temat przeszłości?_

Jeśli chcemy mówić o wnioskowaniu na temat przeszłości, to trzeba dodać założenie, że tylko część przeszłości została zaobserwowana (z definicji cała przyszłość jest niezaobserwowana). Nie ma znaczenia to, że przeszłość się już "wydarzyła". Jeśli jej nie zaobserwowaliśmy, to z naszego punktu widzenia jest ona nieodróżnialna od przyszłości i wzory są analogiczne:

$$p(\mathrm{nasz\ świat}) = p(\mathrm{nasza\ przeszłość\ zaobserwowana}, \mathrm{nasza\ przeszłość\ niezaobserwowana},\mathrm{nasza\ przyszłość})$$

Wtedy nasza wiedza o niezaobserwowanej przeszłości jest tożsama z rozkładem:

$$p(\mathrm{nasza\ przeszłość\ niezaobserwowana}\mid\mathrm{nasza\ przeszłość\ zaobserwowana})$$

Możemy już w ogóle nie myśleć o świecie w kategoriach przeszłości i przyszłości, ale skupić się na podziale na "zdarzenia zaobserwowane" i "zdarzenia niezaobserwowane". Wtedy możemy napisać:

$$p(\mathrm{nasz\ świat}) = p(\mathrm{zdarzenia\ zaobserwowane}, \mathrm{zdarzenia\ niezaobserwowane})$$

i wtedy nasza wiedza opisana jest rozkładem:

$$p(\mathrm{zdarzenia\ niezaobserwowane}\mid\mathrm{zdarzenia\ zaobserwowane})$$


### Komentarz do powyższych wyjaśnień

_Czy świat naprawdę tak działa?_

Nikt nie wie.

## Podstawy Machine Learningu: najprostszy model świata, wzór Bayesa, założenie i.i.d.

Kiedy ktoś mówi o założeniu i.i.d., to tak naprawdę ma na myśli następujący model $p$:
* mamy pewien parametr $\theta$, którego nigdy nie będziemy w stanie zaobserwować,
* znamy zbiór wszystkich możliwych wartości parametru $\theta$ i znamy rozkład $p(\theta)$,
* obserwacje $x_1, x_2, \ldots$ są i.i.d., ale __przy ustalonym $\theta$__,
* znamy rozkład warunkowy $p(x\mid\theta)$.

Zapis $x_1, x_2, \ldots$ oznacza, że obserwacji może być dowolnie dużo, potencjalnie nieskończenie wiele.

W efekcie możemy napisać definicję całego rozkładu $p$:

$p(\theta, x_1=x^1, x_2=x^2, \ldots) := $

$p(x_1=x^1, x_2=x^2,\ldots\mid\theta)p(\theta) = $

$p(x_1=x^1\mid\theta)p(x_2=x^2\mid\theta)\ldots p(\theta) = $

$p(x=x^1\mid\theta)p(x=x^2\mid\theta)\ldots p(\theta)$

### Zadanie (niepunktowane)

Wytłumaczyć powyższe równości.

Co one oznaczają?

Czym się różnią?

Która równość wynika z którego z powyższych założeń i w jaki sposób?

### Kilka słów o parametrze $\theta$

Parametr $\theta$ najłatwiej zrozumieć, korzystając z __niepoprawnej__ definicji uczenia maszynowego. Mówiła ona, że obserwując dane treningowe "wybieramy" rozkład, z którego one pochodzą. Wtedy:
* znamy zbiór wszystkich możliwych wartości parametru $\theta$ ---oznacza--- zdefiniowaliśmy rodzinę rozkładów, z której wybierzemy najlepszy,
* obserwacje $x_1, x_2, \ldots$ są i.i.d., ale przy ustalonym $\theta$ ---oznacza--- wierzymy, że istnieje jeden "prawdziwy" rozkład i dane są z niego losowane niezależnie,
* znamy rozkład warunkowy $p(x\mid\theta)$ ---oznacza--- każda wartość liczbowa $\theta$ odpowiada jednemu rozkładowi na $x$ - mówimy, że jest to rodzina rozkładów na $x$ sparametryzowana parametrem $\theta$.

Nowym założeniem jest: "znamy rozkład $p(\theta)$". Interpretujemy ten rozkład jako tzw. _wiedzę a priori_. Jest to nasze przekonanie o tym, który z możliwych rozkładów na $x$ jest bardziej prawdopodobny, przy czym nie patrzymy jeszcze w ogóle na zbiór treningowy.

O parametrze $\theta$ oraz o zbiorze testowym należy myśleć jako o zmiennych niezaobserwowanych. Jeśli ktoś woli interpretację przeszłość-przyszłość, to może myśleć następująco:
* rozkład wszystkich możliwych światów to rozkład $p$ zdefiniowany jak powyżej,
* w dalekiej przeszłości w naszym świecie została wylosowana i ustalona wartość parametru $\theta$, niestety nie jest nam ona znana i nigdy jej nie poznamy,
* od chwili ustalenia wartości $\theta$ wszystkie sample są i.i.d. z rozkładu $p(x\mid\theta)$,
* zbiór treningowy to nasza zaobserwowana przeszłość,
* zbiór testowy to nasza przyszłość.

### Jak, gdzie i po co używać wzoru Bayesa

Załóżmy, ze mamy $N$ obserwacji w zbiorze treningowym: $x_1=x^1, x_2=x^2, \ldots, x_N=x^N$. Chcielibyśmy wnioskować na tej podstawie o wartości $x_{N+1}$, a więc chcemy policzyć:

$$p(x_{N+1}\mid x_1=x^1, x_2=x^2, \ldots, x_N=x^N)$$

Zrobimy to "na raty" - to znaczy najpierw spróbujemy wnioskować o $\theta$ na podstawie zbioru treningowego, a następnie o $x_{N+1}$ na podstawie $\theta$. Pierwszą część umożliwi nam wzór Bayesa, druga będzie prosta, bo $p(x_{N+1}\mid\theta) = p(x\mid\theta)$.

Zapiszmy to wzorem. Ale zanim to zrobimy, umówmy się jeszcze, że:
* cały ciąg obserwacji $x_1=x^1, x_2=x^2, \ldots, x_N=x^N$ oznaczamy literką $D$ jak _Dataset_,
* wszystkie możliwe wartości $\theta$ to: $\theta^1, \theta^2, \ldots, \theta^T$.

Teraz wzory:

$p(x_{N+1}\mid x_1=x^1, x_2=x^2, \ldots, x_N=x^N) = p(x_{N+1}\mid D) = $ 

$p(x_{N+1}\mid\theta=\theta^1)p(\theta=\theta^1\mid D) + \ldots + p(x_{N+1}\mid\theta=\theta^T)p(\theta=\theta^T\mid D) = $

$\sum_{t=1}^T p(x_{N+1}\mid\theta=\theta^t)p(\theta=\theta^t\mid D)$

### Zadanie z gwiazdką * (niepunktowane)

Zgaduję, że w tym momencie (lub, niestety, znacznie wcześniej) wzorów jest za dużo, żeby wszystkie od razu rozumieć. Dlatego zróbmy zadanie.

Dlaczego $p(x_{N+1}\mid D) = \sum_{t=1}^T p(x_{N+1}\mid\theta=\theta^t, D)p(\theta=\theta^t\mid D)$? Wytłumaczyć słownie, co ten wzór oznacza, i przeliczyć, że się zgadza.

Dlaczego mogliśmy napisać zamiast powyższego wzór $p(x_{N+1}\mid D) = \sum_{t=1}^T p(x_{N+1}\mid\theta=\theta^t)p(\theta=\theta^t\mid D)$? Wytłumaczyć różnicę między tymi dwoma wzorami, wytłumaczyć słownie, dlaczego oba wzory są poprawne, rozpisać formalny dowód.

### Prior, likelihood, posterior

Jedyną niewiadomą w powyższych wzorach jest $p(\theta=\theta^t\mid D)$. __Teraz__ użyjemy wzoru Bayesa:

$$p(\theta=\theta^t\mid D) = \dfrac{p(D\mid\theta=\theta^t)p(\theta=\theta^t)}{p(D)} = \dfrac{p(D\mid\theta=\theta^t)p(\theta=\theta^t)}{\sum_{t=1}^T p(D\mid\theta=\theta^t)p(\theta=\theta^t)}$$

Koniec liczenia.

Teraz ważne nazwy:
* $p(\theta=\theta^t)$ w liczniku to tzw. __prior__ albo __wiedza a priori__, czyli wszystko to, co wiemy o wartościach $\theta$ bez patrzenia na zbiór treningowy $D$,
* $p(D\mid\theta=\theta^t)$ w liczniku to tzw. __likelihood__, który mówi nam, jak bardzo prawdopodobny byłby dataset $D$, gdybyśmy znali prawdziwą wartość $\theta$ i wynosiłaby ona $\theta^t$,
* $p(\theta=\theta^t\mid D)$ po lewej stronie równości to tzw. __posterior__ albo __wiedza a posteriori__, czyli wszystko to, co wiemy o wartościach $\theta$ po obejrzeniu zbioru treningowego $D$.

Prior jest bardzo ważną częścią naszego modelu świata $p$. Zły prior utrudnia lub wręcz uniemożliwia dobre uczenie. Dobry prior przyspiesza uczenie. Niestety z dobrym priorem jest ten sam problem, co z modelem świata - trzeba go zgadnąć albo sie z nim urodzić.

W praktyce da się zadziałać trochę lepiej. Mianowicie można wziąć posterior z innego problemu jako prior. Czy ktoś umie podać tu przykład z życia?

### MAP, MLE

Wzór $p(x_{N+1}\mid D) = \sum_{t=1}^T p(x_{N+1}\mid\theta=\theta^t)p(\theta=\theta^t\mid D)$ z grubsza podsumowuje wszystko, co możemy wyciągnąć ze zbioru treningowego $D$. __Nie da się__ nauczyć lepiej.

Oczywiście w praktyce wzór ten jest nie do policzenia...

Główny problem to wielkość $T$. Jeśli np. mamy problem regresji liniowej z 10 parametrami, a każdy z nich jest czterobajtowym floatem, to $T = 2^{320}$.

Cały Machine Learning to sztuka znalezienia dobrego przybliżenia powyższego wzoru. Omówmy na koniec dwa najpopularniejsze.

#### Maximum A Posteriori

Szukamy takiego $\theta^t$, które zmaksymalizuje wartość liczbową posteriora:

$$\hat\theta = \operatorname{arg}\max_{\theta^t} p(\theta=\theta^t\mid D)$$

a następnie "wybieramy" to jedno $\hat\theta$ i tylko na jego podstawie dokonujemy predykcji:

$$p(x_{N+1}\mid D) \cong p(x_{N+1}\mid\theta=\hat\theta)$$

innymi słowy liczymy na to, że:

$$p(\theta=\hat\theta\mid D)\cong 1$$

i wtedy:

$$\sum_{t=1}^T p(x_{N+1}\mid\theta=\theta^t)p(\theta=\theta^t\mid D) \cong p(x_{N+1}\mid\theta=\hat\theta)$$


#### Maximum Likelihood Estimator

Szukamy takiego $\theta^t$, które zmaksymalizuje wartość liczbową posteriora:

$$\hat\theta = \operatorname{arg}\max_{\theta^t} p(D\mid\theta=\theta^t)$$

Jeśli $T$ jest skończoną liczbą naturalną, wtedy MLE to MAP z jednostajnym priorem. Jednostajny prior w praktyce jest złym pomysłem.

### Zadanie (niepunktowane)

Mamy monetę, o której nie wiemy, czy jest symetryczna. Niech $\theta$ przyjmuje wartości z przedziału $[0, 1]$ i reprezentuje prawdopodobieństwo wylosowania orła. Nasz prior to:
* $p(\theta=0.3) = 0.2$
* $p(\theta=0.5) = 0.7$
* $p(\theta=0.7) = 0.1$

Niech $x$ oznacza rzuty monetą. Załóżmy, że $x_1 = \mathrm{ORZEŁ}$.

1. Zdefiniować $p(x\mid\theta)$.
2. Policzyć $p(x_2 = \mathrm{ORZEŁ} \mid x_1 = \mathrm{ORZEŁ})$
3. Policzyć (podać liczbowe prawdopodobieństwa) rozkład $p(x_1, x_2)$. Pokazać, że to __nie__ są zmienne niezależne.
4. Policzyć $p(x_2)$ metodą MAP.
5. Policzyć $p(x_2)$ metodą MLE.