# MUM 2023-24 Funkcje kosztu

## Funkcja kosztu (cost function, loss function, error function)
<img style="float: left;" src="ml_figures/mse-l1-huber.png" width=480>

* standardowo uczymy sieci neuronowe algorytmami gradientowymi
  * musimy podać cel optymalizacji, a funkcja go opisująca potrzebuje  być różniczkowalna
  * funkcja kosztu musi łączyć wszystkie cele w postaci wartości liczbowej, ew. wektora, co pozwoli na porównanie różnych alternatywnych możliwości rozwiązania
  * funkcja kosztu musi odpowiadać zadaniu
  * funkcja powinna mapować rozwiązania na gładką powierzchnię w przestrzeni rozwiązań
    * dla danego problemu i danej architektury, przestrzeń wag i przestrzeń
* podstawy podejść do uczenia w notebookach
   * [Twierdzenie Bayesa](./stat_04_Twierdzenie_Bayesa.ipynb)
   * oraz [Regularyzacja](24_Regularyzacja.ipynb)

## Problemy regresji w uczeniu MLE
<img style="float: right;" src="ml_figures/classification-multi.png" width=40>

* `nn.MSELoss()` dla kwadratu różnicy
* `nn.L1Loss()` dla wartości bezwzględnej różnicy
* **uwaga**: poniżej wszędzie $x$ odpowiada predykcji modelu, a $y$ prawdziwej (true) wartości
* kwadrat różnicy rośnie bardzo szybko
  * to wprowadza bardzo duże wartości dla outlierów, utrudniając uczenie i jakimś rozwiązaniem może być połączenie L2 i L1
  * `nn.HuberLoss` 
    $$l_k=\begin{cases}
    0.5*(x_k-y_k)^2&if\;|x_k-y_k|<\delta\\
    \delta*(|x_k-y_k|-0.5*\delta)
    \end{cases}$$ (dla $\delta=1$ równoważne `nn.SmoothL1Loss`)
  * `nn.SmoothL1Loss`
  $$l_k=\begin{cases}
    0.5*(x_k-y_k)^2/\beta&if\;|x_k-y_k|<\beta\\
    |x_k-y_k|-0.5*\beta
    \end{cases}$$

## Problemy klasyfikacji w MLE
* dla MLE zwykle _entropię krzyżową_
  * mierzy całkowitą entropię między rozkładami: rozkładem danych i rozkładem predykcji
* `nn.CrossEntropyLoss()` $l_k=-\dfrac{\exp(x_{x_k, y_k})}{\sum_c\exp(x_{k,c})}\cdot{}y_k$ dla $y_k\in\{0,1\}$
  * $x$ są **logitami** (indeks $k$ jest indeksem przykładu w batchu)
* `nn.BCELoss` mierzy binarną entropię krzyżową $l_k=-\big(y_k\log{}x_k+(1-y_k)\log(1-x_k)\big)$
  * `nn.BCELoss` obcina wartości tak by $log()\geq-100$
* `nn.BCEWithLogitsLoss` $l_k=-\big(y_k\log{}\sigma(x_k)+(1-y_k)\log(1-\sigma(x_k))\big)$
  * funkcja *sigmoidalna* $\sigma()$ poprawia numeryczną stabilność przez działanie na logitach
* `nn.NLLLoss` jest wygodna dla wieloklasowej klasyfikacji (C klas) $l_k=-x_k$
  * odpowiednik logarytmu *eksponencjalnej* funkcji kosztu $\exp(-x_ky_k)$ dla $y\in\{0, 1\}$

<img style="float: left;" src="ml_figures/loss-robustness.png" width=480>

* zwykle można dodać wagi do przykładów/klas by poprawić trade-off precision-recall, a także gdy zbiór jest niezbalansowany

## i wiele innych
* `nn.KLDivLoss` wykorzystująca dywergencję Kullback-Leiblera
  * KL mierzy ile bitów potrzeba aby rozkład $P$ opisać rozkładem $Q$ (niesymetryczna)
* dla problemów uczenia kontrastowego
* dla zadań gdy mamy więcej niż jedną prawdziwą pozycję wektora odpowiedzi
  * w problemach *multi-class* wektor ma jedną wartość $1$ na poprawnej odpowiedzi, poza tym zera
  * w problemach *multi-label* odpowiedzi poprawnych może być więcej