<img style="float: right;" src="ml_figures/MLE-logo.png" width=200>

# MUM 2023-24 Uczenie Maximum Likelihood Estimation MLE 

## Parametry modelu
<img style="float: left;" src="ml_figures/maximum_likelihood_estimation.gif" width=496>

* __model__ ma __parametry__ - oznaczamy je $\theta$
  * w modelu sieci neuronowych będą to **wagi**
  * nie mylić z __hiperparametrami__ - parametry są __uczone__, hiperparametry należy __wybrać ręcznie__
  * hiperparametry mogą być optymalizowane, jednak **nie przez minimalizację funkcji kosztu**
* __nauczony model__ ma ustalone wartości $\widehat\theta$
* dla różnych ustalonych wartości $\widehat\theta$ nauczony model opisuje __różne rozkłady prawdopodobieństwa__
* uczenie metodą Maximum Likelihood oznacza znalezienie takich wartości $\widehat\theta$, które **maksymalizują likelihood zbioru treningowego** dla uczonego modelu
  * zbiór treningowy to $D_{Tr}$
  * nazwa "Maximum Likelihood Estimator" (MLE) opisuje cały proces uczenia


### Model generatywny
* model generatywny jest **statystycznym** modelem obliczającym rozkład łącznego prawdopodobieństwa $p(x,y)$ dla zmiennej **obserwowanej** x i zmiennej *docelowej** (target) y
  * wartości generowane przez model zależą od parametrów, więc zamiast $p(\mathbf{x})$ piszemy teraz
$$p(\mathbf{x}\mid\theta)$$
    * zbiór treningowy to
$$D_{Tr} = \{\mathbf{x}_1, \ldots, \mathbf{x}_N\}$$
  * **likelihood** zbioru treningowego dla ustalonych parametrów $\widehat\theta$ to
$$p(\mathbf{x}=\mathbf{x}_1 \mid\theta=\widehat\theta)\cdot\ldots\cdot p(\mathbf{x}=\mathbf{x}_N\mid\theta=\widehat\theta) = \prod_{n=1}^N p(\mathbf{x}=\mathbf{x}_n \mid\theta=\widehat\theta)$$
  * **uwaga** - jeśli model generatywny nie daje nam wprost wzoru na likelihood przykładu $p(\mathbf{x}=\mathbf{x}_n \mid\theta=\widehat\theta)$, to musimy umieć zdefiniować jakieś sprytne przybliżenie
  * często jest to pisane $\mathcal{L}(\theta\mid x)=p_\theta(x)$
    * **likelihood** $\mathcal{L}$ modelu $p_\theta(x)$ z parametryzacją przy danych $x$

### Model dyskryminatywny
* model dyskryminatywny podaje rozkład prawdopodobieństwa **warunkowego** $p(x\mid y)$ dla zmiennej celu y pod warunkiem zmiennej x
  * zamiast $p(y\mid\mathbf{x})$ piszemy teraz
$$p(y\mid\mathbf{x},\theta)$$
  * zbiór treningowy to
$$D_{Tr} = \{(\mathbf{x}_1, y_1), \ldots, (\mathbf{x}_N, y_N)\}$$
  * likelihood zbioru treningowego dla ustalonych parametrów $\widehat\theta$ to
$$p(y=y_1\mid\mathbf{x}=\mathbf{x}_1,\theta=\widehat\theta)\cdot\ldots\cdot p(y=y_N\mid\mathbf{x}=\mathbf{x}_N,\theta=\widehat\theta) = \prod_{n=1}^N p(y=y_n\mid\mathbf{x}=\mathbf{x}_n,\theta=\widehat\theta)$$

## Mean Log Likelihood
<img style="float: left;" src="ml_figures/maximum_likelihood_estimation.gif" width=400>

* powyżej pojawiają się iloczyny $N$ prawdopodobieństw
* jeśli $N$ jest duże (zazwyczaj jest _bardzo_ duże), obliczenia mogą być niestabilne numerycznie
* logarytm (naturalny) pozwala zamienić iloczyn na sumę
    * model generatywny
        $$\ln\left(\prod_{n=1}^N p(\mathbf{x}=\mathbf{x}_n \mid\theta=\widehat\theta)\right) = \sum_{n=1}^N\ln[p(\mathbf{x}=\mathbf{x}_n \mid\theta=\widehat\theta)]$$
    * model dyskryminatywny
        $$\ln\left(\prod_{n=1}^N p(y=y_n\mid\mathbf{x}=\mathbf{x}_n,\theta=\widehat\theta)\right) = \sum_{n=1}^N \ln[p(y=y_n\mid\mathbf{x}=\mathbf{x}_n,\theta=\widehat\theta)]$$
* logarytm jest funkcją __silnie rosnącą__ - maksymalizowanie likelihood jest __równoważne__ maksymalizowaniu log likelihood
* zazwyczaj chcemy też zamienić sumę na __średnią__
    * model generatywny
        $$\dfrac{1}{N}\sum_{n=1}^N\ln[p(\mathbf{x}=\mathbf{x}_n \mid\theta=\widehat\theta)]$$
    * model dyskryminatywny
        $$\dfrac{1}{N}\sum_{n=1}^N\ln[p(y=y_n\mid\mathbf{x}=\mathbf{x}_n,\theta=\widehat\theta)]$$
* średnia sprawia, że maksymalizowana funkcja ma __podobny rząd wielkości__ dla __różnych rozmiarów zbioru treningowego__

## Funkcja kosztu

1. chcemy __minimalizować__ funkcję kosztu
2. chcemy __maksymalizować__ mean log likelihood
3. najprostsze rozwiązanie - funkcja kosztu to __negative mean log likelihood__ (dodajemy znak minus)

Niech 
$$\begin{align}
p(x)&\sim\mathcal{N}(\mu, \sigma^2)\\
p(x;\mu, \sigma^2)&\sim\dfrac{1}{\sqrt{2\pi\sigma^2}}\left[-\dfrac{1}{2}\left(\dfrac{x-\mu}{\sigma}\right)^2\right]
\end{align}$$
gdzie każde $p(x;\mu,\sigma^2)$ jest likelihood $x$ dla parametrów $[\mu, \sigma^2]$
* chcemy znaleźć $\theta$ takie, że z największą szansą będą generować te dane
* w ten sposób problemem jest maksymalizacja (maximum likelihood estimation, MLE) $$\hat\theta=\arg\max_\theta\mathcal{L}(\theta\mid x)=\arg\max_\theta p_\theta(x)$$
* wychodząc z założenia IID możemy zapisać cel jako
$$
\begin{align}\hat\theta&=\arg\max_\theta\prod_{i=1}^Np\theta(x_i)=\arg\max_\theta\sum_{i=1}^N\log{}p_\theta(x_i)\\
&=\arg\max_\theta\dfrac{1}{N}\sum_{i=1}^N\log{}p_\theta(x_i)
\end{align}$$
* z czego dostajemy **negative log-likelihood**
$$\hat\theta=\arg\min_\theta-\mathbb{E}_{x\sim{}p_{\theta^\ast}(x)}[\log{}p_\theta(x)]$$

### model dyskryminatywny
Dla rozkładu normalnego
$$\log{}p_\theta(y\mid x)=-N\log\sigma-\dfrac{N}{2}\log2\pi-\sum_{i=1}^N\dfrac{\|x_i^T\theta-y_i\|}{2\sigma^2}$$
  * tu występuje założenie o szumie o rozkładzie normalnym
  * okazuje się, że średniokwadratowa funkcja kosztu jest bezpośrednią konsekwencją tego założenia

## Uwagi
* MLE daje jedynie estymacje punktowe funkcji kosztu i nie pozwala wnioskować na temat rozkładów kosztu