# Линейная регрессия
$$a(x) = w_0 + w_1 x_1 + ... + w_d x_d$$
- $w_0$ - свободный коэффициент, сдвиг, bias. Без свободного коэффициента модель гарантированно будет давать нулевой прогноз при нулевых значениях всех признаков, а это ограничивает возможности по подгонке под данные


- $w_i$ - веса, коэффициенты, параметры модели
- $d+1$ - количество параметров

$$a(x) = w_0 + w_1 x_1 + ... + w_d x_d = w_0 + <w,x>$$

Для удобства и возможности применять скалярное произведения добавим единичный признак:

$$a(x) = w_0 * 1 + w_1 x_1 + ... + w_d x_d = <w,x>$$

$$a(x) = w_0 + w_1 (площадь \_ квартиры) + w_2 (район) + w_3 (расстояние \_ до \_ метро)$$
### Что делать, если признаки не числовые (район)?
- район - категориальный признак, нужно закодировать.
- one-hot кодирование, бинарное кодирование
- Вместо одного категориального признака заведём много бинарных. Первый признак - это индикатор того, что исходный категориальный признак равен первой категории, второй признак - равенство второй категории. Это значит, что только один бинарный признак будет равен единице, остальные - нули. 
| Район | 
| --- | 
|Чкаловский|
|Эльмаш|
|Уралмаш|
|Эльмаш|
|Чкаловский|

| Чкаловский | Эльмаш | Уралмаш |
| --- | --- | --- |
|1|0|0|
|0|1|0|
|0|0|1|
|0|1|0|
|1|0|0|


$$a(x) = w_0 + w_1 (площадь) + w_2 (квартира \ находится\ в\ Чкаловском\ р-не?) + w_3 (квартира \ находится\ на\ Эльмаше?) + w_4 (квартира \ находится\ на\ Уралмаше?) $$



### Что делать, если зависимость нелинейная (расстояние до метро)?
<img src = 'images/underground.png'>
Разобьем на линейные отрезки (новые признаки).
Если расстояние до метро попало в интервал от $t_0$ до $t_1$, то признак равен 1. Остальные признаки попадания в интервал равны 0.

$$a(x) = w_0 + w_1 *(площадь) + ... + w_3 * [t_0 <= x_3 < t_1] + ... + w_{3+n}[t_{n-1} <= x_3 < t_n]$$

Модель линейной регрессии применима, если трансформировать все признаки специально под неё, например, использовать one-hot кодирование категориальных признаков или бинаризацию числовых

## Модель линейной регрессии
$$a(x) = <w, x>$$


- Берём объект $x_i$, считаем прогноз модели $<w,x_i>$, вычитаем истинный ответ $y_i$, возводим в квадрат, усредняем по всей выборке. Нужно найти $w$, при котором ошибка будет как можно меньше. 

Перепишем задачу оптимизации в матричном виде:



__Матрица объекты-признаки:__
$$\begin{pmatrix} x_{11} & x_{12} & \dots & x_{1d} \\ x_{21} & x_{22} & \dots & x_{2d} \\ \dots & \dots & \dots & \dots \\ x_{l1} & x_{l2} & \dots & x_{ld} \end{pmatrix}$$
Каждая строка соответствует объекту, столбцы - признаки. 

$$\begin{pmatrix} w_1 \\ w_2 \\ \dots \\ w_d \end{pmatrix}$$
__Применение линейной модели:__
$$a(x) = <w, x> = w_1 x_1 + \dots + w_d x_d$$

__Нужно получить вектор прогнозов на всей обучающей выборке:__
$$\begin{pmatrix} \sum _{i=1} ^ d w_i x_{1i} \\ \sum _{i=1} ^ d w_i x_{2i} \\ \dots \\ \sum _{i=1} ^ d w_i x_{li} \end{pmatrix}$$
Первая строка - сумма всех признаков первого объекта с весами.

__Матричное умножение:__
$$AB=C$$
$$c_{ij} = \sum_{p=1}^{k} a_{ip}b_{pj}$$
_Скалярное умножение i-строки первой матрицы на j-столбец второй матрицы_

__Результат применения линейной модели к выборке X:__
$$Xw=\begin{pmatrix} x_{11} & x_{12} & \dots & x_{1d} \\ x_{21} & x_{22} & \dots & x_{2d} \\ \dots & \dots & \dots & \dots \\ x_{l1} & x_{l2} & \dots & x_{ld} \end{pmatrix} * \begin{pmatrix} w_1 \\ w_2 \\ \dots \\ w_d \end{pmatrix}=\begin{pmatrix} \sum _{i=1} ^ d w_i x_{1i} \\ \sum _{i=1} ^ d w_i x_{2i} \\ \dots \\ \sum _{i=1} ^ d w_i x_{li} \end{pmatrix}=\begin{pmatrix} <w, x_1> \\ \dots \\ <w,x_l>\end{pmatrix}$$

__Cреднеквадратическая ошибка:__
$$\displaystyle {\frac{1}{l} \sum _{i=1}^{l}{(<w,x_i> - y_i)^2 -> min_w}}$$
__Отклонения прогнозов от ответов:__
$$Xw-y=\begin{pmatrix} <w, x_1> - y_1 \\ \dots \\ <w,x_l> - y_l\end{pmatrix}$$
$Xw$ - прогнозы

$y$ - истинные ответы
__Средний квадрат отклонения:__
Евклидова норма:
$$||z|| = \sqrt {\sum _{j=1} ^ n z_{j}^2}$$
Можно возвести в квадрат:
$$||z||^2 = \sum _{j=1} ^ n z_{j}^2$$

__MSE в матричном виде:__
$$\displaystyle {\frac{1}{l} ||Xw-y||^2 = \frac{1}{l} \sum _{i=1}^{l}{(<w,x_i> - y_i)^2 -> min_w}}$$

_Умножаем матрицу объекты-признаки $X$ на $w$, вычитаем истинные ответы $y$, берем квадрат евклидовой нормы и делим на $l$_

_В numpy: np.square(X.dot(w)-y).mean()_

## Обучение линейной регрессии
Требуется найти $w$
$$Q(w_1, \dots, w_d)=\sum _{i=1} ^{l} (w_1 x_1 + \dots + w_d x_d -y_i)^2$$
Производная:
$$\displaystyle{\lim_{x \to x_0} \frac{f(x) - f(x_0)}{x - x_0} = f'(x_0)}$$
<img src = 'images/derivative.png'>
- Зафиксируем точку $x_0$\
- Возьмём точку $x$ рядом с $x_0$
- Посчитаем знаменатель (разница между $x$ и $x_0$)
- Посчитаем числитель (разница между значениями функции в этих точках)
- Разделим


Узнаем, насколько быстро функция растёт между этими двумя точками.
Если приближать $x$ и $x_0$, то в пределе получим производную функции $f$ в точке $x_0$