## Zadanie regresji

1. $y$ jest liczbą rzeczywistą
2. w kodzie to po prostu float

## Model

1. oznaczmy model literą $M$
2. parametry $\theta$, nauczone parametry $\widehat\theta$
3. w problemie regresji __model jest funkcją__
$$M: (\mathbf{x}, \theta) \mapsto \widehat{\mathbf{p}}$$
4. można oznaczyć nauczony model $M_{\widehat\theta}$ i wtedy
$$M_{\widehat\theta}: \mathbf{x} \mapsto \widehat{p}$$
5. $\widehat{p}$ to rozkład prawdopodobieństwa na $\mathbb{R}$
  * jak model może zwrócić rozkład prawdopodobieństwa?
  * w wypadku dyskretnym mógł zwrócić wektor długości $K$, który opisywał wszystkie prawdopodobieństwa po kolei
  * tutaj musimy opisać rozkład na całej prostej

## Funkcja, która zwraca rozkład ciągły

1. __"umawiamy się"__ z modelem na pewną __rodzinę rozkładów prawdopodobieństwa__
2. model __zwraca liczbę__ lub __wektor liczb__
3. my traktujemy tę liczbę (wektor) jako __parametry rozkładu__ z ustalonej rodziny
4. parametry rozkładu to __output__ modelu, a __nie parametry__ modelu!
5. przykład
  * rodzina rozkładów normalnych $\mathcal{N}(\mu, 1)$ o stałej wariancji
  * model zwraca $\mu\in\mathbb{R}$
  * my interpretujemy liczbę $\mu$ jako rozkład $\mathcal{N}(\mu, 1)$
6. skąd model "wie", że się z nim umówiliśmy?
  * model "wie", że ma zwrócić liczbę
  * model "wie", że minimalizujemy funkcję kosztu
  * my definiujemy funkcję kosztu - dobieramy ją tak, żeby zgadzała się z naszymi oczekiwaniami

## Maximum Likelihood w regresji - Mean Squared Error

1. model zwraca liczbę $\mu\in\mathbb{R}$
  * $M_{\widehat\theta}(\mathbf{x}_n) = \mu_n$
  * interpretujemy liczbę $\mu$ jako rozkład normalny $\mathcal{N}(\mu, 1)$
  * możemy myśleć, że $\mu_n$ to __"prawdziwa"__ etykieta dla $\mathbf{x}_n$, do której w zbiorze treningowym __dodano szum gaussowski__ $\mathcal{N}(0, 1)$

2. maksymalizujemy __warunkowe__ likelihood
  * likelihood $y_n$ pod warunkiem $\mathbf{x}_n$
  * iloczyn po wszystkich parach $(\mathbf{x}_n, y_n)$ - __założenie I.I.D.__!
  * wzór na likelihood
$$ \mathcal{N}(\mu_1, 1)(y_1)\cdot\ldots\cdot\mathcal{N}(\mu_N, 1)(y_N) = \prod_{n=1}^N \dfrac{1}{\sqrt{2\pi}}\exp\big(\dfrac{-(y_n-\mu_n)^2}{2}\big)$$
  * negative mean log likelihood
$$\ln[\sqrt{2\pi}] + \dfrac{1}{N}\sum_{n=1}^N \dfrac{(y_n-\mu_n)^2}{2} = const + \dfrac{1}{2}\dfrac{1}{N}\sum_{n=1}^N (y_n-\mu_n)^2$$

3. czyli tak naprawdę minimalizujemy $\dfrac{1}{N}\sum_{n=1}^N (y_n-\mu_n)^2$
  * __błąd średniokwadratowy__ (_mean squared error_)
  * liczony pomiędzy wszystkimi etykietami $y_n$ a wszystkimi predykcjami $\mu_n$

4. przypominamy model generatywny na rozkładzie normalnym
  * model estymuje parametry używając
    * estymatora średniej
    * obciążonego estymatora wariancji
  * jeśli zbiór treningowy ma jeden element $x$, to
    * $\widehat\mu = x$
    * $\widehat\sigma = 0$
      * ale $\sigma$ musi być dodatnia!
      * "nieskończenie wąski" rozkład normalny
      * w tym wypadku w regresji nie ma tego problemu, bo ustalamy wariancję $\sigma^2 = 1$

<img src="../ml_figures/gaussian_regression.png" width="70%">

### Wnioski

1. niech pewna wartość $\mathbf{x}$ występuje __dokładnie raz__ w zbiorze treiningowym
  * załóżmy, że na $n$-tej pozycji
    * $\mathbf{x}$ = $\mathbf{x}_n$
  * model uczony maximum likelihood stwierdzi, że
    * $\widehat{p}(y\mid\mathbf{x}_n) = \mathcal{N}(y_n, 1)$
    * model __zapamięta__ lub __memoryzuje__ etykietę poprzez zapamiętanie średniej rozkładu normalnego
    * prawdziwy rozkład $p(y\mid\mathbf{x}_n)$ może być zupełnie inny, ale mamy tylko jedną parę do estymacji

2. niech pewna wartość $\mathbf{x}$ występuje __kilka razy__ w zbiorze treiningowym
  * jak teraz wygląda $\widehat{p}(y\mid\mathbf{x}_n)$?
    * przypomnieć sobie model generatywny
  * czy to jest lepsza estymacja prawdziwego $p(y\mid\mathbf{x}_n)$?
  * zazwyczaj $\mathbf{x}$ pochodzi z rozkładu ciągłego
    * żadna wartość $\mathbf{x}$ nie występuje wielokrotnie w zbiorze treningowym

3. załóżmy, że etykieta $y$ jest niezależna od $\mathbf{x}$
  * model powinien się nauczyć zwracać zawsze rozkład $p(y)$
  * gdyby model wiedział, że etykieta jest niezależna, to mógłby estymować $p(y)$ ze wszystkich $N$ przykładów $y_n$, nie patrząc w ogóle na $\mathbf{x}_n$
  * czego nauczy się model?

4. załóżmy, że w __bliskim otoczeniu__ pewnego $\mathbf{x}_n$ rozkład warunkowy $p(y\mid\mathbf{x})\simeq p(y\mid\mathbf{x}_n)$
  * niech $\mathbf{x}_{n_1}, \mathbf{x}_{n_2}, \ldots, \mathbf{x}_{n_M}$ leżą w bliskim otoczeniu $\mathbf{x}_n$
  * gdyby model wiedział, że rozkład $p(y\mid\mathbf{x})$ jest tu mniej więcej taki sam, to mógłby estymować go przy użyciu $M$ przykładów $y_{n_1}, \ldots, y_{n_M}$
  * czego nauczy się model?

5. co jeśli źle się umówiliśmy z modelem
  * prawdziwy rozkład $p(y\mid\mathbf{x_n})$ nie jest rozkładem normalnym
  * czego nauczy się model, jeśli będzie myślał, że uczy się rozkładu normalnego?
    * załóżmy nawet, że ma dużo sampli $y$ dla ustalonego $\mathbf{x}$

## Inne funkcje kosztu

1. podamy jeden konkretny przykład - __Mean Absolute Error__
  * minimalizujemy $\dfrac{1}{N}\sum_{n=1}^N |y_n-\mu_n|$
  * to odpowiada "umowie", że model zwraca średnią __rozkładu Laplace'a__
    * wzór na gęstość
    $$ \dfrac{1}{2}\exp\big(-|x-\mu|\big)$$
    * czy widać, że negative mean log likelihood to, z dokładnością do stałych, mean absolute error?

2. w praktyce można zdefiniować inną "sensowną" funkcję kosztu
  * "sensowna" to taka, która najlepiej rozwiązuje konkretny problem
  * z reguły nie trzeba się zastanawiać, jakiemu rozkładowi ona odpowiada
  * ale warto się zastanowić
  * __na egzaminie obowiązkowo trzeba umieć połączyć funkcję kosztu z rozkładem prawdopodobieństwa__

## Oznaczenia

1. od tej pory będziemy mówili, że dla $\mathbf{x}_n$ model zwraca $\widehat{y_n}$
2. w zależności od funkcji kosztu $\widehat{y_n}$ może oznaczać różne rzeczy, np.
  * MSE - średnia rozkładu normalnego
  * MAE - średnia rozkładu Laplace'a