<h1 style="color:black" align="center">Линейная регрессия</h1>

<h1 style="color:#008B8B">1. Линейные модели</h1>

Такие модели сводятся к суммированию значений признаков с некоторыми весами:

$\large a(x) = w_0 + \sum\limits_{j=1}^d w_j x_j$

Параметрами модели являются веса или коэффициенты $w_j$. Вес $w_0$ также называется
свободным коэффициентом или сдвигом (bias).

Добавим фиктивный признак равный $1$, тогда запись можно упросить до следующего вида:

$\large a(x) = \sum\limits_{j=0}^d w_j x_j$

$\large a(x) = \langle w, x \rangle$

<h1 style="color:#008B8B">2. Область применимости линейных моедлей</h1>

Сформулируем задачу: 

$x$ - кваритра в Москве;

$y$ - рычночная стоимость.

$\large a(x) = w_0 + w_1 \text{(площадь)} + w_2\text{(количество комнат)} + w_2 \text{(расстояние до метро)}$

Проблема модели заключается в том, что признаки независимо влияют на стоимость квартиры. Если увеличиваетя площадь квартиры, то цена увеличивается только засчёт площади квартиры в линейном виде, при этом растрояние до метро и все остальные признаки не оказывают влияния.
Например, если квартира расположена близко от метро, то цена должна увеличиваться быстрее при росте площади.

### 1) Категориальные признаки

$x_j$ - категориальные признаки

$C = \{c_1, \ldots, c_m\}$ - множество значений признака

Заменим на $m$ бинарных признаков $b_1(x), \ldots, b_m(x)$, где $b_i(x) = [x_j = c_i]$.

При этом, признаки $b_1(x), \ldots, b_m(x)$ являются линейно зависимыми: 

$b_1(x), \ldots, b_m(x) = 1$

И модель принимает следующий вид:

$\large a(x) = w_0 + w_1 [x_j = c_1] + \ldots + w_m [x_j = c_m] + \text{\{Взаимодействие других признаков\}}$

### 2) Бинаризация числовых признаков

На графике видно, что цена квартиры имеет максимальную стоимость, если расположены на относительном расстоянии от метро. Если же квартира очень близко или далекто от метро, тогда стоимость начинает падать:

<img src="img/2_1.png">

Проблема заключается в том, если обучить модель на этих данных, тогда мы не сможем учесть эту зависимость. С уменьшением расстояния до метро цена будет увеличиваться, но это не так, модель не учитывает форму распределения данных. Чтобы это произошло, необходимо применить бинаризацию числовых признаков, а именно, разобъём множество значений признака на бины:

<img src="img/2_2.png">


<h1 style="color:#008B8B">3. Измерение ошибки в задачах регрессии</h1>

### 1) MSE

$\large L(y, a) = (a - y)^2$

$\large \text{MSE}(a, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} (a(x_i) - y_i)^2$

### 2) MAE

$\large L(y, a) = |a - y|$

$\large \text{MAE}(a, X) = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} |a(x_i) - y_i|$

Предположим, у нас имеются фактические значения объекта $y$ и предсказание модеи $a(x)$:

|$$y$$     |$$a(x)$$ |$$|a(x) - y|$$ |$$(a(x)-y)^2$$|
|:--------:|:-------:|:-------------:|:------------:|
|1         |2        |1              |1             |
|1000      |2        |996004         |998           |

Если изменить веса иодели так, чтобы прогноз сталы на еденицу ближе к ответу для каждого объекта:

|$$y$$     |$$a(x)$$ |$$|a(x) - y|$$ |$$(a(x)-y)^2$$|
|:--------:|:-------:|:-------------:|:------------:|
|1         |2        |0              |0             |
|1000      |3        |994009         |997           |

Изменив прогноз на еденицу, ошибка для $\text{MSE}$ на втором объекте уменьшилась на $2000$, а для $\text{MAE}$ ошибка уменьшилась на еденицу. Это говорит о том, что модель для уменьшения функционала ошибки будет подбирать веса так, чтобы минимизировать выбросы. В случае $\text{MAE}$ ошибка на двух объекта изменилась только на еденицу, что говорит о устойчивости модели к выбросам.

### 3) Функция Хубера

### 4) Несимметричные функции потерь

<h1 style="color:#008B8B">4. Обучение линейной регрессии</h1>

$\large \text{MSE} = \frac{1}{\ell} \sum\limits_{i=1}^{\ell} (\langle w, x_i \rangle - y_i)^2 \to \min_{w}$

Запишем эту задачу в матричном виде:

$\large X = \begin{pmatrix}
  x_{11} & x_{12} & \ldots & x_{1d}\\
  \ldots & \ldots & \ldots & \ldots\\
  x_{\ell 1} & x_{\ell 2} & \ldots & x_{\ell d} 
\end{pmatrix}$ - Матрица объекты-признаки

$\large y = \begin{pmatrix}
  y_{1}\\
  \ldots\\
  y_{\ell} 
\end{pmatrix}$
$\large w = \begin{pmatrix}
  w_{1}\\
  \ldots\\
  w_{d} 
\end{pmatrix}$

Теперь можно записать $\text{MSE}$ в матричном виде:

$\large \text{MSE} = \frac{1}{\ell} \|X_w - y\|_2^2 \to \min_{w}$

$\large X_w = \begin{pmatrix}
  \langle w, x_1 \rangle\\
  \ldots\\
  \langle w, x_{\ell} \rangle 
\end{pmatrix}$

Применив матричные производные получаем одно решение:

$\large w = (X^T X)^{-1} X^T y$ - (только если $X$ полного ранга)

<h1 style="color:#008B8B">5. Градиентный спуск и оценивание градиента</h1>