# Функция потерь (Loss/Cost function)

---

**Источники:**

[Функция потерь](https://ru.wikipedia.org/wiki/%D0%A4%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F_%D0%BF%D0%BE%D1%82%D0%B5%D1%80%D1%8C)

[Loss function](https://en.wikipedia.org/wiki/Loss_function)

[Функция потерь (Loss function)](https://wiki.loginom.ru/articles/loss-function.html)

[Функция потерь и эмпирический риск](https://neerc.ifmo.ru/wiki/index.php?title=%D0%A4%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F_%D0%BF%D0%BE%D1%82%D0%B5%D1%80%D1%8C_%D0%B8_%D1%8D%D0%BC%D0%BF%D0%B8%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B8%D1%81%D0%BA)

[Cost Function is No Rocket Science!](https://www.analyticsvidhya.com/blog/2021/02/cost-function-is-no-rocket-science/)

[Функции оценки, потерь, оптимизации – основы алгоритма Машинного Обучения](https://id-lab.ru/posts/developers/funkcii/)

---

## Описание

**Функция потерь (loss function / cost function / error function)** — функция, которая в теории статистических решений **характеризует потери при неправильном принятии решений на основе наблюдаемых данных**.

В математической статистике и машинном обучении **функция потерь — это функция, которая отображает некоторое событие в виде действительного числа, интуитивно представляя некоторую "стоимость", связанную с событием**.

Если решается задача оценки параметра сигнала на фоне помех, то функция потерь является **мерой расхождения между истинным значением оцениваемого параметра и оценкой параметра**.

В статистике функция потерь обычно **используется для оценки параметров моделей**, а рассматриваемое событие **является разностью между оцененным и истинным значениями для каждого наблюдения набора данных**.

**Задача оптимизации (например, градиентный спуск) стремится минимизировать функцию потерь.**

Примеры:
- В контексте экономики это обычно экономические издержки или потери.
- В классификации это "штраф" модели за неправильное распознавание примера. 
- В управлении финансовыми рисками функция сопоставляется с денежными потерями.
- Средняя квадратичная ошибка (MSE) для задач регрессии.
- ...

## Виды функций потерь

**На выбор функции потерь влияют особенности решаемой задачи.**

Общего правила выбора функции потерь не существует.

Обозначения:
- $a$ - идеальная модель (функция).
- $a(x)$ - истинное значение выходов модели (при обучении с учителем).
- $y$ - реальная модель (функция).
- $y(x)$ - фактическое значение выходов модели.
- $L(a,x)$ - функция потерь.

Чаще всего используются следующие функции потерь:
- Простая (simple).
    - $L(a, x)=a(x)-y(x)$
    - Равна разности истинного и фактического выходов модели.
    - Используется в тех случаях, где важен знак ошибки, например, при обучении нейронных сетей.


- Двоичная / Пороговая функция потерь (0-1 loss function).
    - $L(a,x)=[a(x) \neq y(x)]$
    - Используется в **бинарной классификации**.
    - Потери определяются появлением двух взаимоисключающих состояний выхода модели.


- Квадратичная.
    - $L(a, x)=(a(x)-y(x))^2$
    - Преимуществом квадратичной функции потерь являются инвариантность к знаку — значение функции всегда положительно. Т.е. независимо от знака ошибки результат будет один и тот же.
    - Квадратичная функция потерь используется в моделях, параметры которых оцениваются на основе метода наименьших квадратов, например, линейной **регрессии**.


- Логистическая.
    - $L(a,x)=\cfrac{ln(1+e^{-y(x)a(x)})}{ln2}$


- Кросс-энтропия / Log loss.
    - $t(y,x)=\cfrac{1+y(x)}{2}$, $L(a,x)=-t*ln(a(x))-(1-t)*ln(1-a(x))$


- Прямоугольная.


- Экспоненциальная (функция потерь с насыщением).


- Hinge loss.
    - $L(a,x)=max(0,1-a(x)*y(x))$

## Эмпирический риск (Empirical risk)

Понятие функции потерь тесно связано с эмпирическим риском.

**Эмпирический риск — средняя величина ошибки на обучающей выборке.**

Как правило, **на тестовой выборке значение эмпирического риска будет больше, чем на обучающей выборке**.

## Метод минимизации эмпирического риска (МЭР, Empirical risk minimization, ERM)

Логично предположить, что если алгоритм хорошо показывает себя на обучающей выборке, то и на реальных данных он будет работать неплохо.

Так подходим к конструктивному методу обучения — методу минимизации эмпирического риска.

**Метод простой, общий, конструктивный и зачастую сводит задачу обучения к численному поиску минимума в модели алгоритма.**

Основное достоинство заключается в том, что это конструктивный и универсальный **подход, позволяющий сводить задачу обучения к задачам численной оптимизации**.

Основной **недостаток — явление переобучения**, которое возникает практически всегда при использовании метода минимизации эмпирического риска.

Оптимизаторы:

- <img src="images/cost_function.png" width=400>


- В алгоритме **классического градиентного спуска** начинаем со случайных параметров модели и вычисляем ошибку для каждой итерации обучения, продолжая обновлять параметры, чтобы приблизиться к минимальным значениям.

- **Пакетный (batch) градиентный спуск**: использует все обучающие данные для обновления параметров модели в каждой итерации.

- **Мини-пакетный (mini-batch) градиентный спуск**: вместо использования всех данных, мини-пакетный градиентный спуск делит тренировочный набор на меньший размер, называемый партией, и обозначаемый буквой "b". Таким образом, мини-пакет "b" используется для обновления параметров модели на каждой итерации.


- **Стохастический Градиентный Спуск (SGD)** обновляет параметры, используя только один обучающий параметр на каждой итерации. Такой параметр обычно выбирается случайным образом.

- **Стохастический градиентный спуск** часто предпочтителен для оптимизации функций затрат, когда есть сотни тысяч обучающих или более параметров, поскольку он будет сходиться быстрее, чем пакетный градиентный спуск.


- <img src="images/batch-stochastic-mini-gd.png" height=300 width=300 />


- <img src="images/batch-stochastic-mini-gd_in_one.png" height=400 width=400 />


- **AdaGrad (адаптивный градиентный алгоритм, adaptive gradient algorithm)** является модификацией стохастического алгоритма градиентного спуска с отдельной для каждого параметра скоростью обучения.


- **RMSProp (Root Mean Square Propagation)** — это метод, в котором скорость обучения настраивается для каждого параметра.


- **Adam (сокращение от "метод адаптивной оценки моментов", Adaptive Moment Estimation)**  — это обновление оптимизатора RMSProp.


- ...