# AI Community @ Семинар  №3
## Линейная регрессия

© Текущий материал по большей части адаптирован из лекции Open Data Science по [линейным моделям и классификаторам](https://habrahabr.ru/company/ods/blog/323890)

### Немного о типах задач

#### Задачи классификации
$Y = \{-1, +1\}$ - классификация на 2 класса  
$Y = \{1,...,M\}$ - на $M$ не пересекающихся классов  
$Y = \{0, 1\}^M$ - на $M$ классов, которые могут пересекаться
#### Задачи регрессии
$Y = \mathbb{R}$ или $Y = \mathbb{R}^m$
#### Задачи ранжирования
$Y$ - конечное упорядоченное множество

© (адаптировано из [лекции Воронцова К.В. (ШАД)](https://www.youtube.com/watch?v=qLBkB4sMztk))

### Метод линейной регрессии

Задача - необходимо предсказать некоторое интересующее нас значение (пример: цена квартиры) по определенным признакам объектов (пример: жилая площадь, наличие балкона, год постройки дома и т.д.), обладая такой информацией о других примерах.

**Линейная регрессия** - один из самых простых методов машинного обучения. Его модель основана на линейной зависимости $y$ от значений признаков $x$. Отсюда и название метода.
$$y = w_0 + \sum_{i=1}^{m}{w_i*x_i}$$

![Linear Regression](data/linreg.png)
© [Источник](http://uc-r.github.io/linear_regression)

Чтобы сделать формулу более компактной, добавим фиктивную размерность $x_0$:
$$y = \sum_{i=0}^{m}{w_i*x_i} = w^Tx$$

$x_i$ - $i$-ый признак в наших данных (например, площадь квартиры), $x_0$ - фиктивный признак, всегда равен $1$. Наблюдения-признаки описываются матрицей $X_{[nx(m+1)]}$, где по столбцам - наши признаки (плюс фиктивный), а по строкам - известные примеры.

Представим, что наши данные описываются следующей линейной моделью:
$$y = Xw + \epsilon$$
где $y \in \mathbb{R}^n$ целевая переменная, $w$ - вектор параметров (веса), $X$ - матрица наблюдений, $\epsilon$ - случайная ошибка, которую мы не можем прогнозировать.
Для каждого примера в отдельности модель будет выглядеть так:
$$y_i = \sum_{j=0}^{m}w_{j}X_{ij} + \epsilon_i$$

Все, что нам нужно сделать, чтобы предсказывать наше целевое значение $y$, это получить вектор весов $w$. Чтобы это сделать, рассмотрим один из возможных методов, который называется **методом наименьших квадратов (МНК)**. Этот метод ***минимизирует*** среднеквадратичную ошибку между реальным значением зависимой переменной и прогнозом, выданным нашей моделью:
$$L(X, y, w) = \frac{1}{2n} * \sum_{i=1}^{n}{(y_i - w^Tx_i)^2} = \frac{1}{2n} \lVert{y - Xw}\rVert_{2}^{2}=\frac{1}{2n} (y - Xw)^T(y - Xw)$$
$L$ - функция ошибки (loss function). Она встречается в машинном обучении повсюду, и обычно наша цель - минимизировать эту функцию, т.е. найти такое значение параметра, при котором она принимает наименьшее значение.

Для того чтобы посчитать минимальное значение нашей функции ошибки, достаточно приравнять ее градиент по вектору $w$ к $0$ и решить соответствующее уравнение относительно $w$. Градиент - это вектор частных производных по каждой из компонент вектора, по которому мы его считаем. В данном случае, это $w$.  
Такое простое решение вытекает из того, что наша функция ошибки выпуклая, и ее минимум находится как раз в точке единственного экстремума:

$$\frac{\partial L}{\partial w} = \frac{\partial}{\partial w} \frac{1}{2n} (y^Ty - 2y^TXw + w^TX^TXw) = \frac{1}{2n} (-2X^Ty + 2X^TXw)$$

$$\frac{\partial L}{\partial w} = 0 \iff \frac{1}{2n} (-2X^Ty + 2X^TXw) = 0$$
$$\iff -X^Ty + X^TXw = 0 \iff X^TXw = X^Ty \iff w = (X^TX)^{-1}X^Ty$$

Таким образом, мы получили искомый вектор весов $w$:
$$w = (X^TX)^{-1}X^Ty$$
Теперь для того, чтобы предсказать целевое значение для нового примера данных $x_{new}$, мы просто подставляем найденный $w$ и $x_{new}$ в нашу модель линейной регрессии:
$$y = w^Tx_{new}$$