# Функции потерь в машинном обучении

## Предпосылки

Перед нами стоит задача регрессии, у нас есть:

- Объекты
- Целевая переменная $y$

Наша цель — построить модель $\alpha(x)$, которая по описанию объекта $x$ будет выдавать прогноз $\alpha(x)$, максимально близкий к истинному значению $y$.

Для построения такой модели у нас есть **обучающая выборка** - набор объектов, для которых мы уже знаем правильные ответы. Обозначать мы ее будем так: $X^l = \{(x_1, y_1), (x_2, y_2), \dotsc, (x_l, y_l)\} = \{(x_i, y_i)\}_{i=1}^l$, где $l$ — количество объектов в обучающей выборке и $x_i \in \mathbb{R}^n$.

В нашем случае модель $\alpha(x)$ будет линейной функцией от признаков объекта $x$:

$$\alpha(x) = w_0 + w_1 x_1 + w_2 x_2 + \dotsc + w_n x_n,$$

где $w_0, w_1, \dotsc, w_n$ — параметры модели **(веса)**, которые нам предстоит найти.

Также модель можно записать в векторном виде:

- Вектор весов: $w = (w_1, \dotsc, w_n)^T$
- Скалярное произведение: $\langle w, x \rangle = w_1 x_1 + w_2 x_2 + \dotsc + w_n x_n$

Тогда:

$$\alpha(x) = w_0 + \langle w, x \rangle$$

Можно избавиться от свободного члена $w_0$, добавив в вектор признаков фиктивный признак $x_0 = 1$. Тогда вектор признаков будет иметь вид: $x = (1, x_1, x_2, \dotsc, x_n)^T$. Вектор весов: $w = (w_0, w_1, \dotsc, w_n)^T$. В этом случае модель можно записать так:

$$\alpha(x) = \langle w, x \rangle$$

Прекрасно! Теперь мы хотим найти такие веса $w$, чтобы модель $\alpha(x)$ наилучшим образом приближала целевую переменную $y$ на обучающей выборке $X^l$. Но как нам это сделать? Для этого нам нужна **функция потерь**, которая будет измерять качество нашей модели.

## Mean Squared Error (MSE)

Для одного объекта она определяется как:

$$L(y, a) = (a - y)^2,$$

где $a$ - предсказание модели, $y$ - истинное значение целевой переменной. Для всей выборки функция потерь будет выглядеть так:

$$Q(w) = MSE(\alpha, X) = \frac{1}{l} \sum_{i = 1}^l (\alpha(x_i) - y_i)^2$$

Отсюда же мы понимаем, что $Q(w) \geq 0$

Поскольку $\alpha(x_i) = \langle w, x_i \rangle$, мы можем подставить это выражение:

$$Q(w) = \frac{1}{l} \sum_{i = 1}^l (\langle w, x_i \rangle - y_i)^2$$

По итогу мы получили задачу оптимизации:

$$w^* = \arg \min_{w} Q(w) = \arg \min_{w} \frac{1}{l} \sum_{i = 1}^l (\langle w, x_i \rangle - y_i)^2$$

Поэтому возьмем производную!

$$\frac{\partial Q}{\partial w_j} = \frac{\partial}{\partial w_j} \left[ \frac{1}{l} \sum_{i = 1}^l (\langle w, x_i \rangle - y_i)^2 \right] = \frac{1}{l} \sum_{i = 1}^l \frac{\partial}{\partial w_j}(\langle w, x_i \rangle - y_i)^2$$

Понимаем, что:

$$\frac{\partial}{\partial w_j}(\langle w, x_i \rangle - y_i)^2 = 2(\langle w, x_i \rangle - y_i) \cdot \frac{\partial}{\partial w_j}(\langle w, x_i \rangle - y_i) = 2(\langle w, x_i \rangle - y_i) x_{ij}$$

Поэтому:

$$\frac{\partial Q}{\partial w_j} = \frac{2}{l} \sum_{i = 1}^l (\langle w, x_i \rangle - y_i) x_{ij}$$

Отсюда уже можем получить сам градиент:

$$\nabla Q = \left( \frac{\partial Q}{\partial w_0}, \frac{\partial Q}{\partial w_1}, \dotsc, \frac{\partial Q}{\partial w_n} \right)^T = \frac{2}{l} \sum_{i = 1}^l (\langle w, x_i \rangle - y_i) x_i$$

И его можем записать в матричном виде:

$$\nabla Q = \frac{2}{l} X^T (X w - y)$$

Тк $X w = (\alpha(x_1), \dotsc, \alpha(x_l))$, а умножая на $X^T$ мы по сути умножаем каждую ошибку на соответствующий вектор признаков $x_i$.

Теперь вычислим Гессиан:

$$\frac{\partial^2 Q}{\partial w_k \partial w_j} = \frac{\partial}{\partial w_k} \frac{2}{l} \sum_{i = 1}^l (\langle w, x_i \rangle - y_i) x_{ij} = \frac{2}{l} \sum_{i = 1}^l \frac{\partial}{\partial w_k} (\langle w, x_i \rangle - y_i) x_{ij} = \frac{2}{l} \sum_{i = 1}^l x_{ij} \cdot x_{ik}$$

Или в матричном виде:

$$H = \nabla^2 Q = \frac{2}{l} X^T X$$

Заметим, что матрица $X^T X$ является матрицей Грама, а значит она положительно полуопределена. Следовательно, Гессиан $H$ тоже положительно полуопределен, а значит функция потерь $Q(w)$ — выпуклая функция. Это значит, что любой найденный нами локальный минимум будет также и глобальным минимумом $:)$

Прекрасно! Теперь мы знаем, что минимум существует. Но как его найти? Попробуем аналитически.

Приравниваем градиент к нулю:

$$\nabla Q = \frac{2}{l} X^T (X w - y) = 0$$

$$X^T (X w - y) = 0$$

$$X^T X w = X^T y$$

Если матрица $X^T X$ обратима, то мы можем найти решение:

$$w^* = (X^T X)^{-1} X^T y$$

Вообще матрица $(X^T X)^{-1} X^T$ называется псевдообратной. Она находит проекцию вектора $y$ на линейное пространство, натянутое на столбцы матрицы $X$. То есть мы ищем такую линейную комбинацию столбцов $X$, которая будет максимально близка к вектору $y$.

Какие есть недостатки у аналитического решения?
- Вычисление обратной матрицы имеет сложность $O(n^3)$
- Матрица $X^T X$ может быть необратима _(например, когда признаки линейно зависимы)_
- При больших данных может быть сложно хранить всю матрицу в памяти, тк занимает $O(n^2)$

Поэтому сейчас мы перейдем к градиентному спуску $:)$

Вспомним, что градиент - вектор частных производных, который показывает направление наискорейшего возрастания функции. Следовательно, чтобы найти минимум функции, нужно двигаться в направлении, противоположном градиенту! Этим и будем мы пользоваться.

Алгоритм градиентного спуска:

Начинаем с какой-то начальной точки $w^{(0)}$ _(обычно выбирают нулевой вектор или случайный вектор)_. Затем на каждой итерации $t$ делаем шаг в направлении антиградиента:

$$w^{(t+1)} = w^{(t)} - \eta \nabla Q(w^{(t)})$$

где:
- $\eta$ — это **шаг обучения** (learning rate), который определяет, насколько большим будет наш шаг
- $\nabla Q(w^{(t)})$ — градиент функции потерь в точке $w^{(t)}$
- $w^{(t)}$ — вектор весов на итерации $t$

Теперь подставим наш градиент, который мы вычислили ранее:

$$w^{(t+1)} = w^{(t)} - \eta \cdot \frac{2}{l} X^T (X w^{(t)} - y)$$

Однако, теперь есть вопрос, когда останавливать алгоритм? Вот несколько распространенных критериев остановки:
- По числу итераций
- По изменению весов: если веса почти не изменяются: $||w^{(t+1)} - w^{(t)}|| < \epsilon$
- По изменению функции потерь: если значение функции потерь почти не изменяется: $|Q(w^{(t+1)}) - Q(w^{(t)})| < \epsilon$

Что же, перейдем к реализации!