# Линейная регрессия

## Модель
Рассмотрим первую простую модель линейной регрессии, которая выглядит так:
$$
y = \sum_{i=1}^{n} w_ix_i + b,
$$
где $x_i$ - входы модели, $y$ - выход, $w_i$ и $b$ - параметры модели, которые мы будем обучать.

Заметим, что сумма $\sum_{i=1}^{n} w_ix_i$ является скалярным произведением векторов $\vec{w} = (w_1, w_2, ..., w_n)$ и $\vec{x} = (x_1, x_2, ..., x_n)$, поэтому нашу модель можно записать проще:
\begin{equation*}
y = \vec{w}^T \vec{x} + b
\end{equation*}

Проделаем, небольшой трюк, который ещё больше облегчит запись. Для этого перенесём смещение $b$ в конец вектора $\vec{w}$, а в $\vec{x}$ допишем фиктивную единицу, получим $\vec{w} = (w_1, w_2, ..., w_n, b)$, $\vec{x} = (x_1, x_2, ..., x_n, 1)$. Таким образом, придём к записи:
\begin{equation*}
y = \vec{w}^T \vec{x}
\tag{1}
\end{equation*}
В дальнейшем в качестве нашей модели будем использовать именно последнее вырадение.

## Функционал потерь

Пусть имеется выборка $X^{N} = (x_i)^{N}_{i=1}, Y^N = (y_i)^N_{i=1}$. Воспользуемся описанной ранее функцией **среднеквадратической ошибки (MSE - Mean Squarred Error)**:
$$
\begin{equation*}
MSE = \frac{1}{N} \sum_{i=1}^N (g(x_i|\theta)-y_i)^2
\tag{2}
\end{equation*}$$,
где $x_i$ - входной вектор размера n. $y_i$ - ответ в виде числа, $g(x_i|\theta)$ - модель, $\theta$ - параметры модели. Подставив линейную регрессию (1) вместо модели $g$ в наш функционал потерь получим:
$$
\begin{equation*}
MSE = \frac{1}{N} \sum_{i=1}^N (\vec{w}^T \vec{x_i}-y_i)^2
\tag{3}
\end{equation*}$$

Большинство алгоритмов машинного обучения в том или ином виде включает оптимизацию, т.е. нахождение минимума или максимума функции f(x) при изменении x. Обычно задачу оптимизации формулируют в терминах нахождения минимума. Для нахождения максимума достаточно применить алгоритм минимизации к функции –f(x). Функция, для которой мы ищем минимум или максимум, называется *целевой функцией*. Если речь идет о минимизации, то употребляют также 
термины *функция стоимости*, *функция потерь* или *функция ошибок*. В этом курсе все эти термины будут использоваться как синонимы.

Мы дожны спроектировать алгоритм машинного обучения, который, наблюдая обучающую выборку $X^N, Y^N$, улучшает веса модели $\vec{w}$ таким образом, чтобы функционал качетва MSE был наименьшим. 

# Небольшое отступление

Предполагается, что слушатели курса знакомы с основами математического анализа и линейной алгебры, но всё же сделаем краткий обзор некоторых необходимых понятий. 

Пусть дана дифференцируемая функция $f(x)$. Точки, в которых $f′(x) = 0$, называются *критическими*, или *стационарными*. 

*Локальным минимумом* называется точка, в которой $f(x)$ меньше, чем во всех точках 
малой окрестности, поэтому уменьшить $f(x)$ путем изменения аргумента $x$ на небольшую величину невозможно. *Локальным максимумом* называется точка, в которой $f(x)$ больше, чем во всех точках малой окрестности, поэтому невозможно увеличить $f(x)$ путем изменения аргумента $x$ на небольшую величину. Некоторые критические 
точки не являются ни минимумами, ни максимумами. Они называются *седловыми
точками*. Далее на рис. показаны примеры всех критических точек.

Для функций нескольких переменных следует ввести понятие частной производной. Пусть $f(x_1, x_2, ..., x_n)$ - функция от нескольких переменных. Для удобства введём вектор $x = (x_1, x_2, ..., x_n)$. 

*Частная производная* $\delta/\delta x_i f(x)$ показывает, как изменяется $f$ при изменении 
аргумента $x$ только в одном направлении $x_i$. *Градиент* обобщает понятие производной 
на вектор: *градиентом* функции $f$ называется вектор всех ее частных производных, 
он обозначается $\nabla_x f(x)$. i-м элементом градиента является частная производная $f$ по 
$x_i$: 

$$\nabla_x f(x) = (\frac{\delta f}{\delta x_1}, \frac{\delta f}{\delta x_2}, ..., \frac{\delta f}{\delta x_n}).$$ 

В многомерном случае критическими называются точки, в которых все элементы 
градиента равны 0.

И, наконец, запишем несколько полезных свойств градиента:

\begin{equation*}
\nabla_w \vec w^T \vec a =  \vec a
\tag{4}
\end{equation*}

\begin{equation*}
\nabla_w \vec w^T \vec w = 2 \vec w
\tag{5}
\end{equation*}

\begin{equation*}
\nabla_{\vec w} \vec w^TA \vec w = (A+A^T) \vec w
\tag{6}
\end{equation*}

Где $a, w$ - векторы длины $n$, $A$ - матрица $n \times n$. Предлагается доказать данные свойства самостоятельно в качестве упражнения.

# Точная формула

Для минимизации MSE мы можем просто приравнять градиент по w к 0 и решить получившееся уравнение:
$$\nabla_{\vec{w}} MSE = 0$$
$$\nabla_{\vec{w}} \frac{1}{N} \sum_{i=1}^N (\vec{w}^T \vec{x_i}-y_i)^2  = 0
$$

Перепишем уравнение в векторную форму, воспользовавшись умножением матриц $X=X^N, Y=Y^N$.
$$\nabla_{\vec{w}}(X\vec{w} - Y)^T(X\vec{w}-Y)=0$$

Раскрывая скобки, получаем:
$$\nabla_{\vec{w}}(\vec{w}^T X^T X \vec w - \vec w^TX^TY - Y^T \vec w X + Y^T Y) = 0$$

Возьмём градиент по $\vec w$, пользуясь правилами (4)-(6).
$$2X^T X \vec w - 2X^T Y = 0$$
$$\vec w = (X^T X)^{-1} X^T Y$$

Заметим, что обратная матрица $(X^T X)^{-1}$ может существовать не всегда. Для решения этой проблемы воспользуемся псевдоинверсией, обозначив её как $+$.

\begin{equation*}
\vec w = (X^T X)^+ X^T Y
\tag{7}
\end{equation*}

# Градиентный спуск



![title](images\gradient_descent_surf_example.jpg)