# Функции потерь (функции ошибки)

## Литература

1. ["Нейронные сети и компьютерное зрение" - Samsung Russia Open Education](https://stepik.org/lesson/241448/step/2?auth=login&unit=213792)
2. "Глубокое обучение. Погружение в мир нейронных сетей" - Николенко, Кадурин, Архангельская
3. [Wiki - Метод максимального правдоподобия](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BC%D0%B0%D0%BA%D1%81%D0%B8%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%B0%D0%B2%D0%B4%D0%BE%D0%BF%D0%BE%D0%B4%D0%BE%D0%B1%D0%B8%D1%8F)
4. [Лекция про метод максимума правдоподобия](https://www.youtube.com/watch?v=ewe27he5hTY&ab_channel=%D0%91%D0%9E%D0%A0%D0%98%D0%A1%D0%91%D0%9E%D0%AF%D0%A0%D0%A8%D0%98%D0%9D%D0%9E%D0%92%D0%A1%D0%9E%D0%94%D0%9D%D0%90%D0%9D%D0%90%D0%A3%D0%9A%D0%98)
5. [Cross Entropy and Log Likelihood](http://www.awebb.info/probability/2017/05/18/cross-entropy-and-log-likelihood.html)
6. [Энтропия и кросс-энтропия](https://dementiy.github.io/notes/cross-entropy/)
7. [Визуальная теория информации (часть 2)](https://habr.com/ru/articles/484756/)

## Что такое функция потерь

Функция потерь (loss function) — скалярная функция, которая показывает "стоимость" ошибки алгоритма в задаче: $\mathcal{L}(\hat y, y)$, где $y$ - фактическое выходное значение, а $\hat y$ - прогноз.

Свойства функции потерь:
* Она дифференцируемая
    * Если же в каком-то небольшом множестве точек производная функции потерь не определена, мы можем ее доопределить
* Не вырожденная, то есть не принимает значение ноль практически во всех своих точках

## Откуда берутся функции потерь

**Метод максимального правдоподобия** (MLE — maximum likelihood estimation) — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.

Метод максимального правдоподобия помогает получать различные функции потерь из предположений о том, как распределены данные. Будем считать, что объекты $x_i$ ($i=1 \ldots N$) в некоторой задаче машинного обучения были получены независимо друг от друга, то есть $p(x_1, x_2) = p(x_1)p(x_2)$. Тогда вероятность получения такого набора: $\prod_{i=1}^N p_\theta(x_i)$.

Выборка $x_i$ была порождена распределением $P_{\theta}$, где $\theta \in \Theta$  — неизвестные параметры (например, веса нейронной сети). Нам нужно каким-то образом подобрать параметры $\theta$ так, чтобы получить верные ответы для объекта $x_{N+1}$, про который мы предполгаем, что он был сгенерирован той же функцией распределения. То есть, подобрать некоторое распределение $Q_{\theta}$.

Как подобрать параметры, учитывая, что наши измерения содержат шум (погрешности измерения)? Нужно написать такую функцию, передав в которую параметры мы получим, что вероятность имеющегося набора данных $x_i$ является максимальной, то есть $\prod_{i=1}^N p_\theta(x_i) \rightarrow \max_\theta$

Эта функция называется **функцией правдоподобия**: $L(\mathbf {x} \mid \theta )\colon \Theta \to \mathbb {R}$, где $\mathbf {x} \in \mathbb {R}^{n}$. Тогда точечная оценка $\hat\theta$ максимального правдоподобия является оценкой этих параметров:

$$\hat\theta = \text{argmax}_{\theta \in \Theta} L(x_1 \ldots x_N \mid \theta) = \text{argmax}_{\theta \in \Theta} \prod_{i=1}^N p_\theta(x_i)$$

Чтобы упростить задачу, перейдем от максимизации произведения к максимизации суммы при помощи логарифмирования. Это работает благодаря особенностям функции логарифма, которая монотонно возрастает, то есть "сохраняет" максимум для последовтельности чисел.

$$\hat\theta = \text{argmax}_{\theta \in \Theta} \sum_{i=1}^N \log{(p_\theta(x_i))}$$

Например, мы решаем задачу **регрессии**, и $x_i$ были порождены нормальным распределением: $p_\theta(x_i) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{-(x-\mu)^2}{2 \sigma^2}}$. Пусть $\theta = \mu$ (забудем пока, что $\sigma$ - тоже настраиваемый параметр). Тогда:

$$\sum_{i=1}^N log{(p_\mu(x_i))} = -N log{(\sqrt{2 \pi})} - N log{(\sigma)} - \frac{1}{2 \sigma^2} \sum_{i=1}^N (x_i - \mu)^2 \rightarrow \max_\mu$$

Несложно заметить, что максимизацию этого выражения можно свести к минимизации выражения $\sum_{i=1}^N (x_i - \mu)^2$, то есть **методу наименьших квадратов** или **функции ошибки MSE**.

Пусть теперь мы решаем задачу **бинарной классификации**, и $x_i$ были порождены биномиальным распределением с настраиваемым параметром $p$, соответствующая функция вероятности того, что класс 1 встретится среди примеров $K$ раз: $P(X = K) = C_N^K p^K (1 - p)^{N-K}$. Тогда:

$$\sum_{i=1}^N log{(C_N^K p^K (1 - p)^{N-K})} = log{(C_N^K)} + K log{(p)} + (N-K)log{(1-p)}$$

Отбросим слагаемые, которые не зависят от $p$ и получим, что:

$$\frac{K}{N} log{(p)} + (1 - \frac{K}{N}) log{(1 - p)} \rightarrow \max_p$$

Также можно показать, что производная по $p$ от полученного выражения:

$$\frac{K}{N} \frac{1}{p} - (1 - \frac{K}{N}) \frac{1}{1-p} = 0 \Longrightarrow p = \frac{K}{N}$$

Таким образом, мы получили **функцию ошибки бинарную кросс-энтропию**: 

$$\mathcal{L}(p, \hat p) = \hat p log{(p)} + (1 - \hat p) log{(1 - p)}$$

где $\hat p = \frac{K}{N}$ - таргетное значение (смотри постановку задачи), а $p$ - предполагаемая принадлежность к классу 1.

> Замечание!

Бинарная кросс-энтропия тесно связана с **дивергенцией Кульбака-Лейбнера** - несимметричной мерой разницы между двумя вероятностными распределениями. В теории информации это количеством информации, которое теряется при приближении истинного распределения $P$ с помощью распределения-приближения $Q$:
$$KL(P||Q) = \int \log{\frac{dP}{dQ}dP},$$
где интеграл берется по всему пространству исходов, которое у $P$ и $Q$ должно быть общее.

Подробнее можно [почитать у Дьяконова](https://alexanderdyakonov.wordpress.com/2018/03/12/%d0%bb%d0%be%d0%b3%d0%b8%d1%81%d1%82%d0%b8%d1%87%d0%b5%d1%81%d0%ba%d0%b0%d1%8f-%d1%84%d1%83%d0%bd%d0%ba%d1%86%d0%b8%d1%8f-%d0%be%d1%88%d0%b8%d0%b1%d0%ba%d0%b8/#more-6139).

## Функции ошибки для задачи регрессии

Пример функции активации выходного слоя $\hat y$ - **линейная**.

### Mean Squared Error (MSE)

$\mathcal{L}(\hat y, y) = (\hat y - y)^2$

Residual sum of squares: $RSS = \sum (\hat y - y)^2$

В Pytorch: nn.MSELoss

### Mean Abosolute Error (MAE)

$\mathcal{L}(\hat y, y) = |\hat y - y|$

В Pytorch: nn.L1Loss

### Mean Squared Logarithmic Error (MSLE)

$\mathcal{L}(\hat y, y) = (log{(y + 1)} - log{(\hat y + 1)})^2$

### HuberLoss

Комбинация $L_1$ и $L_2$ лосс-функций, более устойчивая к выбросам.

$L_{\delta }(\hat y, y)={\begin{cases}{\frac {1}{2}}(y - \hat y)^{2}&{\text{if}}|y-\hat y|\leq \delta ,\\\delta \,|y-\hat y|-{\frac {1}{2}}\delta ^{2}&{\text{if}} |y-\hat y|> \delta\end{cases}}$

В Pytorch: nn.HuberLoss

### SmoothL1Loss

Комбинация $L_1$ и $L_2$ лосс-функций, более устойчивая к выбросам.

$L_{\delta }(\hat y, y)={\begin{cases}{\frac {1}{2\delta}}(y - \hat y)^{2}&{\text{if}}|y-\hat y|\leq \delta ,\\|y-\hat y|-{\frac{\delta}{2}}&{\text{if}} |y-\hat y|> \delta\end{cases}}$

В Pytorch: nn.SmoothL1Loss

<img src="pictures/regr_losses.png" width=600 height=600 />

## Функции ошибки для задачи бинарной классификации

Пример функции активации выходного слоя: **сигмоидная** ($\hat y = \sigma(z)$). Она хорошо подходит для интерпретации вероятности, так как ее значения находятся в интервале от 0 до 1.

Функции активации из предыдущего раздела не подойдут в этой задаче, так как их использование приведет к [параличу нейронной сети](https://stepik.org/lesson/204985/step/5?auth=login&unit=178760).

### [0-1 loss](https://www.baeldung.com/cs/ai-0-1-loss-function)

Число верных предсказаний (accuracy).

$\mathcal{L}(\hat y, y) = [sign(\hat y) = y]$

Является кусочно-постоянной функцией, поэтому плохо отражает небольшие изменения в работе модели и плохо пригодна для оптимизации.

### Бинарная кросс-энтропия (BCE - Binary Cross-Entropy)

$\mathcal{L}(\hat y, y) = y log(\hat y) + (1 - y) log(1 - \hat y)$

В Pytorch: nn.BCELoss

### Hinge Loss

$\mathcal{L}(\hat y, y) = \max{(0, 1 - \hat y y)}$

Кусочно-линейная (SVM)

### Squared Hinge Loss

$\mathcal{L}(\hat y, y) = \max{(0, 1 - \hat y y)^2}$

### BCEWithLogitsLoss

Комбинация слоя с сигмоидой и BCELoss.

В Pytorch: nn.BCEWithLogitsLoss

<img src="pictures/clf_losses.png" width=600 height=600 />

## Функции ошибки для задачи многоклассовой классификации

Пример функции активации выходного слоя: **софтмакс**.

### [Cross-Entropy Loss (logloss)](https://en.wikipedia.org/wiki/Cross_entropy)

$\mathcal{L}(\hat y, y) = - \sum_{i=1}^{N classes} y_i log{(\hat y)}$

В Pytorch: nn.CrossEntropyLoss

### Дивергенция Кульбака-Лейбнера

$\mathcal{L}(\hat y, y) = y (log (y) - log (\hat y))$

В Pytorch: nn.KLDivLoss

### Sparse Multiclass Cross-Entropy Loss

В Pytorch:
* nn.NLLLoss
* nn.PoissonNLLLoss
* nn.GaussianNLLLoss

## Что еще есть в pytorch?

* nn.HingeEmbeddingLoss
* nn.CTCLoss
* nn.MarginRankingLoss
* nn.MultiLabelMarginLoss
* nn.SoftMarginLoss
* nn.MultiLabelSoftMarginLoss
* nn.CosineEmbeddingLoss
* nn.MultiMarginLoss
* nn.TripletMarginLoss
* nn.TripletMarginWithDistanceLoss