# Урок 2. Продвинутый уровень понимания линейной регрессии


Как понять, насколько хорошо наша модель "выучилась" по данным - насколько хорошо она попала в центр облака точек? Давайте введём какую-то меру качества модели - тогда мы сможем говорить, что модель обучается, когда растёт мера качества ( о метриках качества мы поговорим в следующем урове этого модуля), Процесс машинного обучения сводится к тому, чтобы по опыту (обучающей выборке) $D$ подобрать такие коэффициенты линейной регрессии, что мера качества $L$ будет максимальной. Хорошей мерой качества $L$ для задачи регрессии является среднее значение квадрата разности между фактическим значением $y$ и прогнозом $\hat{y}$ - такая метрика называется *Mean Square Error* (берём со знаком минус, т.к. при увеличении качества модели метрика должна расти).
$$
L(\hat{y}, y) = -\frac{1}{N}\sum_{i=1}^{N}\left(y_i - \hat{y_i}\right)^2
$$

Линейная регрессия относится в задачам обучения с учителем: опыт $D$ (который в ML называют *обучающей выборкой*) в нашем случае - это набор пар $x_i, y_i$ таких, что

$$
D = \{(x_i, y_i) \}_{i=\overline{1,N}}
$$

Где $y_i$ - это "правильный" ответ (значение переменной $y$) на обучающем примере $x_i$, а $N$ - количество обучающих примеров. В задаче линейной регрессии $y \in R$, то есть предсказывать нужно  непрерывную величину (в отличие от задачи глассификации, где предсказания должны быть дискретными)

Каждый объект $x_i$ является совокупностью признаков $x_i^1,\ldots, x_i^k$. Размерность признакового пространства может быть разной, т.е. $x_i \in R^k$, где $k$ может принимать значения от 1 (в задаче прогнозирования роста человека по его весу) до десятков тысяч (например, в задаче анализа текстов). Вот, например, как выглядит регрессия в трёхмерном пространстве

![3d_lin_reg](https://248006.selcdn.ru/public/Data-science-4/img/3d_lin_reg.png)

В случае многомерной линейной регрессии для $n-1$ измерений нам нужно будет выучить не два коэффициента $a$ и $b$, а $n$ коэффициентов - по одному на каждую координату $x_i$ плюс один коэффициент-свободный член

$$
L(\hat{y}, y) = \frac{1}{N}\sum_{i=1}^{N}\left(y_i - \hat{y_i}\right)^2 = \frac{1}{N}\sum_{i=1}^{N}\left(y_i -  \sum_{j=1}^{n}w_jx_i^j\right)^2
$$

В этой формуле:

* $N$ - размер обучающей выборки (собрали информацию по 124 домам: $N=124$)
* $i$ - порядковый номер объекта из обучающей выборки
* $y_i$ - значение целевого признака (например, стоимость дома или рост человека) у объекта под номером $i$
* $\hat{y}_i$ - значение целевого признака, которое предсказала линейная регрессия

Дальше мы расписываем, как предсказание $\hat{y}_i$ получается по фичам:
$$
\hat{y}_i = \sum_{j=1}^{n}w_jx_i^j
$$

в этой формуле

* $n$ - количество фичей (если по площади дома предсказываем цену, то $n=1$, у нас одна фича 
* $w_j$ - коэффициент при фиче под номером $j$, который показывает силу влияния этой фици на целевую переменную например $w_1$ $=$ `сила влияния площадь дома на его цену`
* $x_i^j$ - фича под номером $j$ у объекта под номером $i$

Говоря математическим языком, *задача линейной* регрессии заключается в том, чтобы восстановить функцию зависимости $y$ тот $x$ в виде *линейной комбинации* признаков объекта. Сами признаки называются *фичами* (как и в других задачах машинного обучения):
$$
\forall x_i: \hat{y_i} = w_0 + w_1x_i^1 + \ldots + + w_nx_i^n = \sum_{j=1}^{n}w_jx_i^j = \overline{x}_i^T\overline{w}
$$

Если перейти от одного объекта обучающей выборки ко всей выборке с множеством объектом, то формулу **RMSE** удобно для дальнейших вычислений переписать в т.н. матричной форме (подробнее см. в [статье про линейную регрессию](https://ru.wikipedia.org/wiki/Линейная_регрессия) )
$$
Q_{\text{emp}} = \frac{1}{2N}\sum_{i=1}^{N}(y_i - \hat{y_i})^2 = \frac{1}{2N}\sum_{i=1}^{N}(y_i - \overline{x}_i^T\overline{w})^2 = \frac{1}{2N}||\overline{Y}-\overline{X}^T\overline{w}||^2 = \frac{1}{2N}\left(\overline{Y}-\overline{X}^T\overline{w}\right)^T\left(\overline{Y}-\overline{X}^T\overline{w}\right)
$$

Такой вид функции потерь называется RSS - *resudal squares sum*, на русский переводится как *остаточная сумма квадратов*.

В этой формуле:

* $Y$ - вектор-столбец с истинными значениями целевой переменной $y$ размерности $N \times 1$, где $N$ - размер обучающей выборки
* $X$ - матрица с фичами размерости $N \times n$, где $N$ - размер обучающей выборки, а $n$ - число фичей
* $w$ - вектор коэффициентов линейной регрессии размерности $1 \times n$, где $n$ - количество фичей

Где $\hat{y_i}$ - ответ нашего алгоритма машинного обучения $h(x, \theta)$ на примере $x_i$. Чем больше значение $L$ (т.е. чем ближе оно к нулю, т.к. берём со знаком минус) тем лучше наша модель повторяет опыт $X \in m \times n$ - матрицу, где m - количество примеров в обучающей выборке, а $m$ - размерность пространства признаков. $w$ - это вектор параметров модели, который хотим обучить.

Значение коэффициентов линейной регрессии $w$ которые будут являться решением нашей задачи, можно найти аналитически, он достигается тогда, когда значения коэффициентов равны следующей величине (в матричном виде)
$$
\overline{w} = \left(X^TX\right)^{-1}X^T\overline{y}
$$

Давайте посмотрим, как обучить модель линейной регрессии, пользуясь только библиотечными функциями - имеенно их вы будете применять при решении реальных задач на работе

Сначала реализуем вспомогательную функцию для печати чисел  питоновского типа *float* в красивом виде без большого количества знаков после запятой: 

In [1]:
def ndprint(a, format_string ='{0:.2f}'):
    """Функция, которая распечатывает список в красивом виде"""
    return [format_string.format(v,i) for i,v in enumerate(a)]

Загружаем исходные данные - датасет с ценами на дома в Бостоне. Это стандартный датасет, который используется для демонстрации алгоритмов настолько часто, что включён прямо в исходный код библиотеки sklearn.

In [2]:
from sklearn.datasets import load_boston

boston_dataset = load_boston()

features = boston_dataset.data
y = boston_dataset.target

print('Матрица Объекты X Фичи  (размерность): %s %s' % features.shape)
print('\nЦелевая переменная y (размерность): %s' % y.shape)


# текстовое описание датасета  - распечатать, если интересно print('\n',boston_dataset.DESCR)

Матрица Объекты X Фичи  (размерность): 506 13

Целевая переменная y (размерность): 506


In [22]:
import pandas as pd
boston_df=pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
boston_df['target']=boston_dataset.target
boston_df

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,target
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.0900,1.0,296.0,15.3,396.90,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.90,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.90,5.33,36.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0.0,0.573,6.593,69.1,2.4786,1.0,273.0,21.0,391.99,9.67,22.4
502,0.04527,0.0,11.93,0.0,0.573,6.120,76.7,2.2875,1.0,273.0,21.0,396.90,9.08,20.6
503,0.06076,0.0,11.93,0.0,0.573,6.976,91.0,2.1675,1.0,273.0,21.0,396.90,5.64,23.9
504,0.10959,0.0,11.93,0.0,0.573,6.794,89.3,2.3889,1.0,273.0,21.0,393.45,6.48,22.0


Мы будем работать с датасетом в котором 506 наблюдений. У каждого наблюдения 13 фичей. Таким образом наша модель - это вектор $w$ в котором 13 компонент $w_1,\ldots,w_n$ - по одному коэффициенту на каждую фичу.

Код для аналитического вычисления коэффициентов линейной регрессии по формуле $\overline{w} = \left(X^TX\right)^{-1}X^T\overline{y}$

In [13]:
from numpy.linalg import inv

# вычисляем к-ты линейной регрессии
w_analytic = inv(
    features.T.dot(features)
).dot(
    features.T
).dot(
    y
)
print("Аналитически определённые коэффициенты \n%s" % ndprint(w_analytic))

Аналитически определённые коэффициенты 
['-0.09', '0.05', '-0.00', '2.85', '-2.87', '5.93', '-0.01', '-0.97', '0.17', '-0.01', '-0.39', '0.01', '-0.42']


Чтобы проверить, насколько хорошо мы реализовали аналитическое вычисление коэффициентов, воспользуемся готовой библиотечной реализацией. Библиотечная реализация вычисляет коэффициенты не с помощью перемножения матриц (как мы) а с помощью *приближённых* [методов для численного решения](https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.lstsq.html)

In [14]:
from sklearn.linear_model import LinearRegression

# обучаем модель "из коробки"
reg = LinearRegression().fit(features, y)
print("Коэффициенты, вычисленные моделью sklearn \n%s" % ndprint(reg.coef_))

Коэффициенты, вычисленные моделью sklearn 
['-0.11', '0.05', '0.02', '2.69', '-17.77', '3.81', '0.00', '-1.48', '0.31', '-0.01', '-0.95', '0.01', '-0.52']


In [25]:
reg.predict(features[0:5]), boston_dataset.target[0:5]

(array([30.00384338, 25.02556238, 30.56759672, 28.60703649, 27.94352423]),
 array([24. , 21.6, 34.7, 33.4, 36.2]))

Мы реализовали обучение модели линейной регрессии на языке Python, причём полученные коэффициенты в целом совпадают с результатами, полученными с помощью класса `sklearn.linear_model.LinearRegression`, который вычисляет коэффициенты приближённо. На практике пользуются именно библиотечной функцией, потому что при наличии большого количества точке и большого количества фичей "самописная" реализация будет работать дольше