<h1 style="color:black" align="center">Линейная регрессия</h1>

<h1 style="color:#008B8B">1. Линейные модели</h1>

Такие модели сводятся к суммированию значений признаков с некоторыми весами:

$\large a(x) = w_0 + \sum\limits_{j=1}^d w_j x_j$

Параметрами модели являются веса или коэффициенты $w_j$. Вес $w_0$ также называется
свободным коэффициентом или сдвигом (bias).

Добавим фиктивный признак равный $1$, тогда запись можно упросить до следующего вида:

$\large a(x) = \sum\limits_{j=0}^d w_j x_j$

$\large a(x) = \langle w, x \rangle$

<h1 style="color:#008B8B">2. Область применимости линейных моедлей</h1>

Сформулируем задачу: 

$x$ - кваритра в Москве;

$y$ - рычночная стоимость.

$\large a(x) = w_0 + w_1 \text{(площадь)} + w_2\text{(количество комнат)} + w_2 \text{(расстояние до метро)}$

Проблема модели заключается в том, что признаки независимо влияют на стоимость квартиры. Если увеличиваетя площадь квартиры, то цена увеличивается только засчёт площади квартиры в линейном виде, при этом растрояние до метро и все остальные признаки не оказывают влияния.
Например, если квартира расположена близко от метро, то цена должна увеличиваться быстрее при росте площади.

### 1) Категориальные признаки

$x_j$ - категориальные признаки

$C = \{c_1, \ldots, c_m\}$ - множество значений признака

Заменим на $m$ бинарных признаков $b_1(x), \ldots, b_m(x)$, где $b_i(x) = [x_j = c_i]$.

При этом, признаки $b_1(x), \ldots, b_m(x)$ являются линейно зависимыми: 

$b_1(x), \ldots, b_m(x) = 1$

И модель принимает следующий вид:

$\large a(x) = w_0 + w_1 [x_j = c_1] + \ldots + w_m [x_j = c_m] + \text{\{Взаимодействие других признаков\}}$

### 2) Бинаризация числовых признаков

На графике видно, что цена квартиры имеет максимальную стоимость, если расположены на относительном расстоянии от метро. Если же квартира очень близко или далекто от метро, тогда стоимость начинает падать:

<img src="img/2_1.png">

Проблема заключается в том, если обучить модель на этих данных, тогда мы не сможем учесть эту зависимость. С уменьшением расстояния до метро цена будет увеличиваться, но это не так, модель не учитывает форму распределения данных. Чтобы это произошло, необходимо применить бинаризацию числовых признаков, а именно, разобъём множество значений признака на бины:

<img src="img/2_2.png">


<h1 style="color:#008B8B">3. Измерение ошибки в задачах регрессии</h1>

### 1) MSE

$\large L(y, a) = (a - y)^2$

$\large \text{MSE}(a, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} (a(x_i) - y_i)^2$

### 2) MAE

$\large L(y, a) = |a - y|$

$\large \text{MAE}(a, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} |a(x_i) - y_i|$

Предположим, у нас имеются фактические значения объекта $y$ и предсказание модеи $a(x)$:

|$$y$$     |$$a(x)$$ |$$|a(x) - y|$$ |$$(a(x)-y)^2$$|
|:--------:|:-------:|:-------------:|:------------:|
|1         |2        |1              |1             |
|1000      |2        |996004         |998           |

Если изменить веса иодели так, чтобы прогноз сталы на еденицу ближе к ответу для каждого объекта:

|$$y$$     |$$a(x)$$ |$$|a(x) - y|$$ |$$(a(x)-y)^2$$|
|:--------:|:-------:|:-------------:|:------------:|
|1         |2        |0              |0             |
|1000      |3        |994009         |997           |

Изменив прогноз на еденицу, ошибка для $\text{MSE}$ на втором объекте уменьшилась на $2000$, а для $\text{MAE}$ ошибка уменьшилась на еденицу. Это говорит о том, что модель для уменьшения функционала ошибки будет подбирать веса так, чтобы минимизировать выбросы. В случае $\text{MAE}$ ошибка на двух объекта изменилась только на еденицу, что говорит о устойчивости модели к выбросам.

## Средний стохастический градиент (stochastic average gradient)

В начале выбираем начальное приближение $w^{(0)}$, после этого необходимо посчитать градиент по все слогаемым из функционала, через $z_i^{(0)}$ обозначим градиенты отдельных слогаемых:

$\large z_i^{(0)} = \nabla q_i(w^{(0)}), \qquad i = 1, \ldots, \ell$

На $k$-й итерации обновляем $z_i$ следующим образом: выбирается случайное слагаемое $i_k$ и для него пересчитываем градиент. А для всех остальных объектов мы переносим оценку градиента с прошлого шага:

$\large z_i^{(k)} = \begin{cases}
    \nabla q_i(w^{(k - 1)}),
    \quad
    &\text{если}\ i = i_k;\\
    z_i^{(k - 1)}
    \quad
    & i \ne i_k.
\end{cases}$

Иными словами, пересчитывается один из градиентов слагаемых. Оценка градиента вычисляется как среднее вспомогательных переменных то есть мы используем все слагаемые, как в полном градиенте, но при этом почти все слагаемые берутся с предыдущих шагов, а не пересчитываются:

$\large \nabla_w Q(w^{(k-1)}, X) \approx \frac{1}{\ell} \sum\limits_{i = 1}^{\ell} z_i^{(k)}$

Наконец, делается градиентный шаг:

$\large w^{(k)} = w^{k-1} - \eta_k \nabla_w Q(w^{(k-1)}, X)$

$\large w^{(k)} = w^{(k - 1)} - \eta_k \frac{1}{\ell} \sum\limits_{i = 1}^{\ell} z_i^{(k)}$

Данный метод имеет такой же порядок сходимости для выпуклых и гладких функционалов,
как и обычный градиентный спуск:

$\large Q(w^{(k)}) - Q(w^*) = O(\frac{1}{k})$


<h2 style="color:#008B8B">5.3 Модификации градиентного спуска</h2>

Вспомним как выглядит шаг 

$\large w^{(k)} = w^{k-1} - \eta_k \nabla_w Q(w^{(k-1)}, X)$, а на месте $\nabla_w Q(w^{(k-1)}, X)$ можно использовать оценку градиента заместо полного градиента.

### Метод импульса (momentum)

**Первая проблема градиентного спуска:**

В случае, когда линии уровня вытянуты, тогда градиент будет ортоганален линиям уровня. Но проблема заключается в траектории оптимизации градиента, что тратит много времени.

Если построить линии уровня, то мы увидим, что по оси $x$ мы движемся в одном направлении, а по оси $y$ происходят колебания вверх и вниз. Для устранения колебаний и сохранения поступательных движений вдоль оси $x$ необходимо просуммировать вектора и тогда осцилляции по оси $y$ сократят друг друга, а движение по оси $x$ останется.

**Реализация**

В самом начале, необходимо инициализировать дополнительную переменную нулём:

$\large h_0 = 0$

Дальше пересчитаем переменную следующим образом:

$\large h_k = \alpha h_{k - 1} + \eta_k \nabla_w Q(w^{(k-1)})$

Здесь $\alpha$ — параметр метода, определяющей скорость затухания градиентов с предыдущих шагов. Шаг будет выглядеть следующим образом:

$\large w^{(k)} = w^{(k-1)} - h_k$

Получается, что в $h_k$ с некоторым затуханием $\alpha$ мы накапливаем все пердыдущие градиенты, а после уже шагаем в сторону усреднённого градиента.

### AdaGrad и RMSprop

**Вторая проблема** (Для стохастического градиента)

Пусть имеется разреженный признак $x_j$ - почти на всех объектах нулевой (One-hot encoding). В линейной модели данный признак будет иметь следующий вид:

$\large a(x) = \ldots + w_j x_j + \ldots$

Если $x_j = 0$, тогда частная производная по $w_j$ тоже будет равна нулю:

$\large x_j = 0 \Longrightarrow \frac{\partial Q}{\partial w_j} = 0$ А это значит, что на большенстве шагов $w_j$ не будет изменяться. И проблема заключается в том, что $\eta_k$ убывает по мере роста $k$. На начальных итерациях $\eta_k$ имеет большое значение, так как мы можем $1000$ итераций не изменять вес $w_j$, а $\eta_k$ будет убывать, то когда попадается не нулевой признак $w_j$, но длина шаг может быть маленькой, так как мы прошли $1000$ итераций и не разу не изменили $w_j$.

Если признаки редко принимают не нулевые значения, тогда необходимо для таких признаков изменять длину шага другим образом.

### AdaGrad

методе AdaGrad предлагается сделать свою длину шага для каждой компоненты вектора параметров.При этом шаг будет тем меньше, чем более длинные шаги мы делали на предыдущих итерациях:

$\large G_{kj} = G_{k-1,j} + (\nabla_w Q(w^{(k-1)}))_j^2$ Где $k$ - номер итерации. $j$ - номер признака.

$\large w_j^{(k)} = w_j^{(k-1)} - \frac{\eta_k}{\sqrt{G_{kj} + \epsilon}} (\nabla_w Q(w^{(k-1)}))_j$

$G_kj$ - Накапливается информация о том, насколько большой шаг по $w_j$ 

### RMSprop

У метода AdaGrad есть большой недостаток: переменная $G_{kj}$ монотонно растёт,
из-за чего шаги становятся всё медленнее и могут остановиться ещё до того,
как достигнут минимум функционала.
Проблема решается в методе RMSprop, где используется экспоненциальное затухание градиентов:

$\large G_{kj} = \alpha G_{k-1,j} + (1 - \alpha) (\nabla_w Q(w^{(k-1)}))_j^2$

В этом случае размер шага по координате зависит в основном от того, насколько
быстро мы двигались по ней на последних итерациях.

### Adam - (Написать) сомешает два метода выше