<h1 style="color:black" align="center">Линейная регрессия</h1>

<h1 style="color:#008B8B">1. Линейные модели</h1>

Такие модели сводятся к суммированию значений признаков с некоторыми весами:

$\large a(x) = w_0 + \sum\limits_{j=1}^d w_j x_j$

Параметрами модели являются веса или коэффициенты $w_j$. Вес $w_0$ также называется
свободным коэффициентом или сдвигом (bias).

Добавим фиктивный признак равный $1$, тогда запись можно упросить до следующего вида:

$\large a(x) = \sum\limits_{j=0}^d w_j x_j$

$\large a(x) = \langle w, x \rangle$

<h1 style="color:#008B8B">2. Область применимости линейных моедлей</h1>

Сформулируем задачу: 

$x$ - кваритра в Москве;

$y$ - рычночная стоимость.

$\large a(x) = w_0 + w_1 \text{(площадь)} + w_2\text{(количество комнат)} + w_2 \text{(расстояние до метро)}$

Проблема модели заключается в том, что признаки независимо влияют на стоимость квартиры. Если увеличиваетя площадь квартиры, то цена увеличивается только засчёт площади квартиры в линейном виде, при этом растрояние до метро и все остальные признаки не оказывают влияния.
Например, если квартира расположена близко от метро, то цена должна увеличиваться быстрее при росте площади.

### 1) Категориальные признаки

$x_j$ - категориальные признаки

$C = \{c_1, \ldots, c_m\}$ - множество значений признака

Заменим на $m$ бинарных признаков $b_1(x), \ldots, b_m(x)$, где $b_i(x) = [x_j = c_i]$.

При этом, признаки $b_1(x), \ldots, b_m(x)$ являются линейно зависимыми: 

$b_1(x), \ldots, b_m(x) = 1$

И модель принимает следующий вид:

$\large a(x) = w_0 + w_1 [x_j = c_1] + \ldots + w_m [x_j = c_m] + \text{\{Взаимодействие других признаков\}}$

### 2) Бинаризация числовых признаков

На графике видно, что цена квартиры имеет максимальную стоимость, если расположены на относительном расстоянии от метро. Если же квартира очень близко или далекто от метро, тогда стоимость начинает падать:

<img src="img/2_1.png">

Проблема заключается в том, если обучить модель на этих данных, тогда мы не сможем учесть эту зависимость. С уменьшением расстояния до метро цена будет увеличиваться, но это не так, модель не учитывает форму распределения данных. Чтобы это произошло, необходимо применить бинаризацию числовых признаков, а именно, разобъём множество значений признака на бины:

<img src="img/2_2.png">


<h1 style="color:#008B8B">3. Измерение ошибки в задачах регрессии</h1>

### 1) MSE

$\large L(y, a) = (a - y)^2$

$\large \text{MSE}(a, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} (a(x_i) - y_i)^2$

### 2) MAE

$\large L(y, a) = |a - y|$

$\large \text{MAE}(a, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} |a(x_i) - y_i|$

Предположим, у нас имеются фактические значения объекта $y$ и предсказание модеи $a(x)$:

|$$y$$     |$$a(x)$$ |$$|a(x) - y|$$ |$$(a(x)-y)^2$$|
|:--------:|:-------:|:-------------:|:------------:|
|1         |2        |1              |1             |
|1000      |2        |996004         |998           |

Если изменить веса иодели так, чтобы прогноз сталы на еденицу ближе к ответу для каждого объекта:

|$$y$$     |$$a(x)$$ |$$|a(x) - y|$$ |$$(a(x)-y)^2$$|
|:--------:|:-------:|:-------------:|:------------:|
|1         |2        |0              |0             |
|1000      |3        |994009         |997           |

Изменив прогноз на еденицу, ошибка для $\text{MSE}$ на втором объекте уменьшилась на $2000$, а для $\text{MAE}$ ошибка уменьшилась на еденицу. Это говорит о том, что модель для уменьшения функционала ошибки будет подбирать веса так, чтобы минимизировать выбросы. В случае $\text{MAE}$ ошибка на двух объекта изменилась только на еденицу, что говорит о устойчивости модели к выбросам.

### 3) Функция Хубера

### 4) Несимметричные функции потерь

<h1 style="color:#008B8B">4. Обучение линейной регрессии</h1>

Заметим, что здесь мы переписали выражение функционала ошибки, заменив $a(x)$ на скалярное призведение $\left \langle w,x \right \rangle$, после чего мы уже имеем функцию, а не функционал ошибки, так как $Q$ зависит не от некоторой функции $a(x)$, а от вектора весов $w$, и оптимизировать нужно именно по нему, что гораздо проще. Другими словами, в функционал ошибки необходимо подставить только веса, после чего произвести скалярное произведение весов на $x_i$ объект и получить предсказание модели.

$\large Q(w, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} (\langle w, x_i \rangle - y_i)^2 \to \min_{w}$

Запишем эту задачу в матричном виде:

$\large X = \begin{pmatrix}
  x_{11} & x_{12} & \ldots & x_{1d}\\
  \ldots & \ldots & \ldots & \ldots\\
  x_{\ell 1} & x_{\ell 2} & \ldots & x_{\ell d} 
\end{pmatrix}$ - Матрица объекты-признаки

$\large y = \begin{pmatrix}
  y_{1}\\
  \ldots\\
  y_{\ell} 
\end{pmatrix}$
$\large w = \begin{pmatrix}
  w_{1}\\
  \ldots\\
  w_{d} 
\end{pmatrix}$

Теперь можно записать $\text{MSE}$ в матричном виде:

$\large Q(w, X) = \frac{1}{\ell} \|X_w - y\|_2^2 \to \min_{w}$

$\large X_w = \begin{pmatrix}
  \langle w, x_1 \rangle\\
  \ldots\\
  \langle w, x_{\ell} \rangle 
\end{pmatrix}$

Применив матричные производные получаем одно решение:

$\large w = (X^T X)^{-1} X^T y$ - (только если $X$ полного ранга)

<h1 style="color:#008B8B">5. Градиентный спуск и оценивание градиента</h1>

<h2 style="color:#008B8B">5.1 Градиентный спуск</h2>

**1)** $\large w^{(0)}$ - начальное приближение

Дальше необходимо сместиться в сторону, куда функция убывает быстрее всего, для этого необходимо найти антиградиент функции в точке с начальным приближением и двигаться в сторону наискорейшего убывания функции, а после произвести замену весов.

$\large \nabla_w Q(w^{(k-1)}, X)$ - значение градиента функции потерь в точке $w^{(k-1)}$

**2)** $\large w^{(k)} = w^{k-1} - \eta_k \nabla_w Q(w^{(k-1)}, X)$ - шаг градиентного спуска

**3) Процесс остановки**

1. $\large \|w^{(k)} - w^{(k-1)} \| < \epsilon$ - Если на $k$ шаге вектор весов мало отличается от вектора весов на $k-1$ шаге, тогда производится остановка.

2. $\large \|Q(w^{(k)}, X) - Q(w^{(k-1)}, X)\| < \epsilon$ - Если ошибка на обучении не меняется с предыдущим шагом

**4) Сходимость**

$\large \nabla_w Q(w, X) \approx 0$ - Гарантируется, что при некоторых условиях градиентый спуск сходится к точке где градиент равен нулю (Это может быть минимум, максимум или седловая точка). 

Почти все функционалы ошибок для линейных моделей строго выпуклые, значит у данных функционалов одна точка и это точка глобального минимума. Для линейных моделей с матрицей полного ранга точка минимума будет одна и она будет являеться глобальной.

Если решений несколько, тогда генерируем несколько начальных приближений и выбираем наименьшюу точку. Данный метод позволяет найти глобальный минимум, если имеются локальные минимумы.

<h2 style="color:#008B8B">5.2 Оценивание градиента</h2>

## Полный градиент
Функционал ошибки $\text{MSE}$ для линейной модели принимает следующий вид:

$\large Q(w, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} (\langle w, x_i \rangle - y_i)^2$

Как правило, в задачах машинного обучения функционал $Q(w, X)$ представим в
виде суммы $\ell$ функций:

$\large Q(w, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} q_i(w)$

Пример того, чему равняется $q_i(w) = (\langle w, x_i \rangle - y_i)^2$.Проблема метода градиентного спуска (5.1) состоит в том, что на каждом шаге
необходимо вычислять градиент всей суммы:

$\large \nabla_w Q(w, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} \nabla_w q_i(w)$ - Полный градиент

## Стохастический градиентный спуск (SGD)

Оценить градиент суммы функций можно градиентом одного случайно взятого
слагаемого:

$\large \nabla_w Q(w) \approx \nabla_w q_{i_k}(w)$, где $i_k$ — случайно выбранный номер слагаемого из функционала. В этом случае мы получим метод стохастического градиентного спуска:

$\large w^{(k)} = w^{(k - 1)} - \eta_k \nabla q_{i_k}(w^{(k - 1)})$

Есть теорема, которая гласит, что если подобрать длину шага так, что ряд длин шагов расходился $\sum\limits_{k=1}^{\infty} \eta_k = \infty$, а ряд квадратов длин шагов сходился $\sum\limits_{k=1}^{\infty} \eta_k^2 < \infty$, тогда градиент обязательно сойдётся к минимуму. Тогда возникает вопрос, а какую длину шага использовать? (Методичка).

**Заметка по скорости сходимости:**
Для полного градиента:

$\large Q(w^{(k)}) - Q(w^{*}) = O(\frac{1}{k})$, где $Q(w^{*})$ -  точка оптимума.

Для стохастического градиента:

$\large Q(w^{(k)}) - Q(w^{*}) = O(\frac{1}{\sqrt{k}})$

В стохастическом градиенте скорость сходимости ниже, что требует больше шагов. Но один шаг в SGD выполняется быстрее, так как не надо каждый раз считать градиент. Поэтому стохастический градиент сходится быстрее полного градиента.

**Mini-batch GD**

Можно повысить точность оценки градиента, используя несколько слагаемых
вместо одного

$\large \nabla_w Q(w) \approx \frac{1}{n} \sum\limits_{j = 1}^{n} \nabla_w q_{i_{kj}}(w)$

где $i_{kj}$- случайно выбранные номера слагаемых из функционала ($j$ пробегает значения от $1$ до $n$), а $n$ - параметр метода, размер пачки объектов для одного градиентного шага. С такой оценкой мы получим метод mini-batch gradient descent,
который часто используется для обучения дифференцируемых моделей.