# Функции потерь в машинном обучении

## Предпосылки

Перед нами стоит задача регрессии, у нас есть:

- Объекты
- Целевая переменная $y$

Наша цель — построить модель $\alpha(x)$, которая по описанию объекта $x$ будет выдавать прогноз $\alpha(x)$, максимально близкий к истинному значению $y$.

Для построения такой модели у нас есть **обучающая выборка** - набор объектов, для которых мы уже знаем правильные ответы. Обозначать мы ее будем так: $X^l = \{(x_1, y_1), (x_2, y_2), \dotsc, (x_l, y_l)\} = \{(x_i, y_i)\}_{i=1}^l$, где $l$ — количество объектов в обучающей выборке и $x_i \in \mathbb{R}^n$.

В нашем случае модель $\alpha(x)$ будет линейной функцией от признаков объекта $x$:

$$\alpha(x) = w_0 + w_1 x_1 + w_2 x_2 + \dotsc + w_n x_n,$$

где $w_0, w_1, \dotsc, w_n$ — параметры модели **(веса)**, которые нам предстоит найти.

Также модель можно записать в векторном виде:

- Вектор весов: $w = (w_1, \dotsc, w_n)^T$
- Скалярное произведение: $\langle w, x \rangle = w_1 x_1 + w_2 x_2 + \dotsc + w_n x_n$

Тогда:

$$\alpha(x) = w_0 + \langle w, x \rangle$$

Можно избавиться от свободного члена $w_0$, добавив в вектор признаков фиктивный признак $x_0 = 1$. Тогда вектор признаков будет иметь вид: $x = (1, x_1, x_2, \dotsc, x_n)^T$. Вектор весов: $w = (w_0, w_1, \dotsc, w_n)^T$. В этом случае модель можно записать так:

$$\alpha(x) = \langle w, x \rangle$$

Прекрасно! Теперь мы хотим найти такие веса $w$, чтобы модель $\alpha(x)$ наилучшим образом приближала целевую переменную $y$ на обучающей выборке $X^l$. Но как нам это сделать? Для этого нам нужна **функция потерь**, которая будет измерять качество нашей модели.

## Mean Squared Error (MSE)

Для одного объекта она определяется как:

$$L(y, a) = (a - y)^2,$$

где $a$ - предсказание модели, $y$ - истинное значение целевой переменной. Для всей выборки функция потерь будет выглядеть так:

$$Q(w) = MSE(\alpha, X) = \frac{1}{l} \sum_{i = 1}^l (\alpha(x_i) - y_i)^2$$

Поскольку $\alpha(x_i) = \langle w, x_i \rangle$, мы можем подставить это выражение:

$$Q(w) = \frac{1}{l} \sum_{i = 1}^l (\langle w, x_i \rangle - y_i)^2$$

По итогу мы получили задачу оптимизации:
$$w^* = \arg \min_{w} Q(w) = \arg \min_{w} \frac{1}{l} \sum_{i = 1}^l (\langle w, x_i \rangle - y_i)^2$$