# <center>Неоднородные СЛАУ</center>

Начнём с **алгоритма классической линейной регрессии по методу наименьших квадратов** (*OLS*, *Ordinary Least Squares*). 

Совокупность уравнений первой степени, в которых каждая переменная и коэффициенты в ней являются вещественными числами, называется **системой линейных алгебраических уравнений (СЛАУ)** и в общем случае записывается как:

$$\left\{ \begin{array}{c} a_{11}x_1+a_{12}x_2+\dots +a_{1m}x_m=b_1 \\ a_{21}x_1+a_{22}x_2+\dots +a_{2m}x_m=b_2 \\ \dots \\ a_{n1}x_1+a_{n2}x_2+\dots +a_{nm}x_m=b_n \end{array} \right.\ (1),$$

где

* $n$ — количество уравнений;
* $m$ — количество переменных;
* $x_i$ — неизвестные переменные системы;
* $a_{ij}$ — коэффициенты системы;
* $b_i$ — свободные члены системы.

СЛАУ (1) называется **однородной**, если все свободные члены системы равны 0 $b_1=b_2=⋯=b_n=0$:

$$\textrm{С}\textrm{Л}\textrm{А}\textrm{У}-\textrm{о}\textrm{д}\textrm{н}\textrm{о}\textrm{р}\textrm{о}\textrm{д}\textrm{н}\textrm{а}\textrm{я},\ \textrm{е}\textrm{с}\textrm{л}\textrm{и}\ \forall b_i=0$$

$$\left\{\begin{array}{c} x_{1}+x_{2}=0 \\ x_{1}+2 x_{2}=0 \end{array}\right.$$

СЛАУ (1) называется **неоднородной**, если хотя бы один из свободных членов системы отличен от 0:

$$\textrm{С}\textrm{Л}\textrm{А}\textrm{У}-\textrm{н}\textrm{е}\textrm{о}\textrm{д}\textrm{н}\textrm{о}\textrm{р}\textrm{о}\textrm{д}\textrm{н}\textrm{а}\textrm{я},\ \textrm{е}\textrm{с}\textrm{л}\textrm{и}\ \exists b_i\neq 0$$

$$\left\{\begin{array}{c} x_{1}+x_{2}=1 \\ x_{1}+2 x_{2}=2 \end{array}\right.$$

СЛАУ можно записать в матричном виде:

$$\begin{gathered} A \vec{w}=\vec{b} \\ \left(\begin{array}{cccc} a_{11} & a_{12} & \ldots & a_{1 m} \\ a_{21} & a_{22} & \ldots & a_{2 m} \\ \ldots & \ldots & \ldots & \ldots \\ a_{n 1} & a_{n 2} & \ldots & a_{n m} \end{array}\right)\left(\begin{array}{c} w_1 \\ w_2 \\ \ldots \\ w_m \end{array}\right)=\left(\begin{array}{c} b_1 \\ b_2 \\ \ldots \\ b_n \end{array}\right) \end{gathered}$$

где

* $A$ — матрица системы,  
* $w$ — вектор неизвестных коэффициентов, 
* $b$ — вектор свободных коэффициентов. 

**Расширенной матрицей системы $(A|b)$ неоднородных СЛАУ** называется матрица, составленная из исходной матрицы и вектора свободных коэффициентов (записывается через вертикальную черту):

$$(A \mid \vec{b})=\left(\begin{array}{cccc|c} a_{11} & a_{12} & \ldots & a_{1 m} & b_{1} \\ a_{21} & a_{22} & \ldots & a_{2 m} & b_{2} \\ \ldots & \ldots & \ldots & \ldots & \ldots \\ a_{n 1} & a_{n 2} & \ldots & a_{n m} & b_{n} \end{array}\right)$$

Пусть исходная система будет следующей:

$$\left\{\begin{array}{c} w_{1}+w_{2}=1 \\ w_{1}+2 w_{2}=2 \end{array}\right.$$

Запишем её в матричном виде:

$$\begin{gathered} \left(\begin{array}{ll} 1 & 1 \\ 1 & 2 \end{array}\right)\left(\begin{array}{l} w_1 \\ w_2 \end{array}\right)=\left(\begin{array}{l} 1 \\ 2 \end{array}\right) \\ A \vec{w}=\vec{b} \end{gathered}$$

Тогда расширенная матрица системы будет иметь вид:

$$(A \mid b)=\left(\begin{array}{ll|l} 1 & 1 & 1 \\ 1 & 2 & 2 \end{array}\right)$$

Существует три случая при решении неоднородных СЛАУ:

1) **«Идеальная пара»**

Это так называемые определённые системы линейных уравнений, имеющие единственные решения.

2) **«В активном поиске»**

Неопределённые системы, имеющие бесконечно много решений.

3) **«Всё сложно»**

Это самый интересный для нас случай — переопределённые системы, которые не имеют точных решений.

## <center>Случай "Идеальная пара"</center>

Самый простой случай решения неоднородной СЛАУ — когда система имеет единственное решение. Такие системы называются **совместными**.

На вопрос о том, когда СЛАУ является совместной, отвечает главная теорема СЛАУ — теорема Кронекера — Капелли (также её называют критерием совместности системы).

**Теорема Кронекера — Капелли**:

Неоднородная система линейный алгебраических уравнений $A \vec{w} = \vec{b}$ является совместной тогда и только тогда, когда ранг матрицы системы **$A$ равен** рангу расширенной матрицы системы $(A|\vec{b})$ и **равен** количеству независимых переменных $m$:

$$rk(A) = rk(A|\vec{b}) = m \leftrightarrow \exists ! \vec{w} = (w_{1}, w_{2}, \ldots w_m)^T$$

Причём решение системы будет равно:

$$\vec{w} = A^{-1} \vec{b}$$

> Здесь значок $\exists !$ переводится как «существует и причём единственное».

> **Важно!** **Ограничения** этого метода: его можно применять только для квадратных невырожденных матриц (тех, у которых определитель не равен 0).

**Резюмируем**

У нас есть квадратная система с $m$ неизвестных. Если ранг матрицы коэффициентов $A$ равен рангу расширенной матрицы $(A | b)$ и равен количеству переменных $(rk(A)=rk(\vec{b})=m)$, то в системе будет ровно столько независимых уравнений, сколько и неизвестных $m$, а значит будет единственное решение.

Вектор свободных коэффициентов $b$ при этом линейно независим со столбцами матрицы $A$, его разложение по столбцам $A$ единственно.

## <center>Случай "В активном поиске"</center>

**Следствие №1 из теоремы Кронекера — Капелли**:

Если ранг матрицы системы $A$ равен рангу расширенной матрицы системы $(A|\vec{b})$, но меньше, чем количество неизвестных $m$, то система имеет бесконечное множество решений:

$$rk(A) = rk(A | \vec{b}) < m  \leftrightarrow  \infty \ решений$$

**Резюмируем** 

Если ранги матриц $A$ и $(A|\vec{b})$ всё ещё совпадают, но уже меньше количества неизвестных ($rk(A) = rk(A | \vec{b}) < m$), значит, уравнений не хватает для того, чтобы определить систему полностью, и решений будет бесконечно много.

На языке линейной алгебры это значит, что вектор $\vec{b}$ линейно зависим со столбцами матрицы $A$, но также и сами столбцы зависимы между собой, поэтому равнозначного разложения не получится, т. е. таких разложений может быть сколько угодно.

## <center>Случай "Всё сложно"</center>

**Следствие №2 из теоремы Кронекера — Капелли**:

Если ранг матрицы системы $A$ меньше, чем ранг расширенной матрицы системы $(A|\vec{b})$, то система несовместна, то есть не имеет точных решений:

$$rk(A)  < rk(A | \vec{b})  \leftrightarrow  \nexists \ решений$$

Получается, что идеальное решение найти нельзя, но чуть позже мы увидим, что такие системы возникают в задачах регрессии практически всегда, а значит нам всё-таки хотелось бы каким-то образом её решать. Можно попробовать найти приблизительное решение — вопрос лишь в том, какое из всех этих решений лучшее.

Найдем наилучшее приближение для $w_1$, $w_2$, если:

$$\left\{\begin{array}{l} w_1+w_2=1 \\ w_1+2 w_2=2 \text { или } \\ w_1+w_2=12 \end{array}\left(\begin{array}{ll} 1 & 1 \\ 1 & 2 \\ 1 & 1 \end{array}\right) \cdot\left(\begin{array}{l} w \\ w \end{array}\right)=\left(\begin{array}{c} 1 \\ 2 \\ 12 \end{array}\right)\right.$$

Обозначим приближённое решение как $\hat{w}$. Приближением для вектора $b$ будет $\hat{b} = A \hat{w}$. Также введём некоторый вектор ошибок $e = b - \hat{b} = b - A \hat{w}$.

Например, если мы возьмём в качестве вектора $\hat{w}$ вектор $\hat{w}_1=(1, 1)^T$, то получим:

$$\begin{gathered} \hat{b}=A \widehat{w}_1=\left(\begin{array}{ll} 1 & 1 \\ 1 & 2 \\ 1 & 1 \end{array}\right) \cdot\left(\begin{array}{l} 1 \\ 1 \end{array}\right)=\left(\begin{array}{l} 2 \\ 3 \\ 2 \end{array}\right) \\ e_1=b-A \widehat{w}_1=\left(\begin{array}{c} 1 \\ 2 \\ 12 \end{array}\right)-\left(\begin{array}{l} 2 \\ 3 \\ 2 \end{array}\right)=\left(\begin{array}{c} -1 \\ -1 \\ 10 \end{array}\right) \end{gathered}$$

$$\begin{gathered} \hat{b}=A \widehat{w}_1=\left(\begin{array}{ll} 1 & 1 \\ 1 & 2 \\ 1 & 1 \end{array}\right) \cdot\left(\begin{array}{l} 1 \\ 1 \end{array}\right)=\left(\begin{array}{l} 2 \\ 3 \\ 2 \end{array}\right) \\ e_1=b-A \widehat{w}_1=\left(\begin{array}{c} 1 \\ 2 \\ 12 \end{array}\right)-\left(\begin{array}{l} 2 \\ 3 \\ 2 \end{array}\right)=\left(\begin{array}{c} -1 \\ -1 \\ 10 \end{array}\right) \end{gathered}$$

Теперь возьмём в качестве вектора $\hat{w}_2 = (4, -1)^T$, получим:

$$\begin{gathered} \hat{b}=A \widehat{w}_2=\left(\begin{array}{ll} 1 & 1 \\ 1 & 2 \\ 1 & 1 \end{array}\right) \cdot\left(\begin{array}{c} 4 \\ -1 \end{array}\right)=\left(\begin{array}{l} 3 \\ 2 \\ 3 \end{array}\right) \\ e_2=b-A \widehat{w}_2=\left(\begin{array}{c} 1 \\ 2 \\ 12 \end{array}\right)-\left(\begin{array}{l} 3 \\ 2 \\ 3 \end{array}\right)=\left(\begin{array}{c} -2 \\ 0 \\ 9 \end{array}\right) \end{gathered}$$

$$\begin{gathered} \hat{b}=A \widehat{w}_2=\left(\begin{array}{ll} 1 & 1 \\ 1 & 2 \\ 1 & 1 \end{array}\right) \cdot\left(\begin{array}{c} 4 \\ -1 \end{array}\right)=\left(\begin{array}{l} 3 \\ 2 \\ 3 \end{array}\right) \\ e_2=b-A \widehat{w}_2=\left(\begin{array}{c} 1 \\ 2 \\ 12 \end{array}\right)-\left(\begin{array}{l} 3 \\ 2 \\ 3 \end{array}\right)=\left(\begin{array}{c} -2 \\ 0 \\ 9 \end{array}\right) \end{gathered}$$

Конечно, нам хотелось бы, чтобы ошибка была поменьше. Но какая из них поменьше? Векторы сами по себе сравнить нельзя, но зато можно сравнить их длины.

$$\left\|e_1 \right\| = \sqrt{(-1)^2 + (-1)^2 + (10)^2} = \sqrt{102}$$

$$\left\|e_2 \right\| = \sqrt{(-2)^2 + 0^2 + 9^2} = \sqrt{85}$$

Видно, что вторая ошибка всё-таки меньше, соответственно, приближение лучше. Но в таком случае из всех приближений нам нужно выбрать то, у которого длина вектора ошибок минимальна, если, конечно, это возможно.

$$\left\|e \right\| \rightarrow min$$

Проблема поиска оптимальных приближённых решений неоднородных переопределённых СЛАУ стояла у математиков вплоть до XIX века. До этого времени математики использовали частные решения, зависящие от вида уравнений и размерности. Впервые данную задачу для общего случая решил Гаусс, опубликовав метод решения этой задачи, который впоследствии будет назван *методом наименьших квадратов (МНК)*. В дальнейшем Лаплас прибавил к данному методу теорию вероятности и доказал оптимальность МНК-оценок с точки зрения статистики.

> Cтоит отметить, что обычно *OLS*-оценку (*МНК*) выводят немного иначе, а именно минимизируя в явном виде длину вектора ошибок по коэффициентам $\hat{w}$, вернее, даже квадрат длины для удобства вычисления производных.

> $$\left\|\vec{e} \right\| \rightarrow min$$

> $$\left\|\vec{e} \right\|^2 \rightarrow min$$

> $$\left\|\vec{b} - A \vec{w} \right\|^2 \rightarrow min$$

> Формула получится точно такой же, какая есть у нас, просто способ вычислений будет не геометрический, а аналитический.

**Резюмируем** 

Если ранг матрицы $A$ меньше ранга расширенной системы $(A|\vec{b})$, то независимых уравнений больше, чем переменных $(rkA<(A|\vec{b})<m)$, а значит некоторые из них будут противоречить друг другу, то есть решений у системы нет.

Говоря на языке линейной алгебры, вектор $b$ линейно независим со столбцами матрицы $A$, а значит его нельзя выразить в качестве их линейной комбинации.

Однако можно получить приближённые решения по методу наименьших квадратов ($OLS-оценка - \hat{b} = (A^{T}A)^{-1}\cdot A^{T} b$), идеей которого является ортогональная проекция вектора $b$ на столбцы матрицы $A$.

# <center>Линейная регрессия по МНК</center>

В задаче регрессии обычно есть **целевая переменная**, которую мы хотим предсказать. Её, как правило, обозначают буквой $y$. Помимо целевой переменной, есть **признаки** (их также называют **факторами** или **регрессорами**). Пусть их будет $k$ штук:

$$y - таргет$$

$$x_1,x_2, … ,x_k - признаки / факторы / регрессоры$$

В задаче регрессии есть $N$ (как правило, их действительно много) наблюдений. Это наша обучающая выборка или датасет, представленный в виде таблицы. В столбцах таблицы располагаются векторы признаков $\vec{x_i}$.

$$\begin{gathered} \vec{y} \in \mathbb{R}^N \\ \overrightarrow{x_1}, \overrightarrow{x_2}, \ldots, \overrightarrow{x_k} \in \mathbb{R}^N \\ \left(\begin{array}{c} y_1 \\ y_2 \\ \ldots \\ y_N \end{array}\right), \quad\left(\begin{array}{c} x_{11} \\ x_{12} \\ \ldots \\ x_{1 N} \end{array}\right), \ldots,\left(\begin{array}{c} x_{k 1} \\ x_{k 2} \\ \ldots \\ x_{k N} \end{array}\right) \end{gathered}$$

В качестве регрессионной модели мы будем использовать **модель линейной регрессии**.

$$y=w_0+w_1x_1+w_2x_2+…+w_kx_k,$$

$$y=(\vec{w}, \vec{x})$$

Здесь $\vec{w}=(w_0,w_1,…,w_k)^T$ обозначают веса (коэффициенты уравнения линейной регрессии), а $\vec{x}=(1,x_1, x_2,…, x_k)^T$.

> Наличие коэффициента $w_0$ говорит о том, что мы строим регрессию с константой, или, как ещё иногда говорят, с **интерсептом** (вектор из единиц, он же **регрессор-константа**).

Как правило, $N$ гораздо больше $k$ (количество строк с данными в таблице намного больше количества столбцов) и система переопределена, значит точного решения нет. Поэтому можно найти только приближённое.

Финальная формула *OLS*-оценки для коэффициентов:

$$\hat{\vec{w}} = (A^T A)^{-1} A^T \vec{y}$$

In [1]:
# Пример на Python
# Загрузка библиотек
import numpy as np # для работы с массивами
import pandas as pd # для работы с DataFrame 
from sklearn import datasets # для импорта данных
import seaborn as sns # для визуализации статистических данных
import matplotlib.pyplot as plt # для построения графиков

In [2]:
# column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'PRICE']
# boston_data = pd.read_csv('data/housing.csv', header=None, delimiter=r"\s+", names=column_names)
# boston_data

In [3]:
# # составляем матрицу А и вектор целевой переменной
# CRIM = boston_data['CRIM']
# RM = boston_data['RM']
# A = np.column_stack((np.ones(506), CRIM, RM))
# y = boston_data[['PRICE']]
# print(A)

In [4]:
# # вычислим OLS-оценку для коэффициентов
# w_hat = np.linalg.inv(A.T@A)@A.T@y
# print(w_hat.values)

In [5]:
# # Теперь составим прогноз нашей модели
# # добавились новые данные:
# CRIM_new = 0.1
# RM_new = 8
# # делаем прогноз типичной стоимости дома
# PRICE_new = w_hat.iloc[0]+w_hat.iloc[1]*CRIM_new+w_hat.iloc[2]*RM_new
# print(PRICE_new.values)

In [6]:
# # короткий способ сделать прогноз
# new=np.array([[1,CRIM_new,RM_new]])
# print('prediction:', (new@w_hat).values)

Алгоритм построения модели линейной регрессии по *МНК* реализован в классе `LinearRegression`, находящемся в модуле `sklearn.linear_model`. Для вычисления коэффициентов (обучения модели) нам достаточно передать в метод `fit()` нашу матрицу с наблюдениями и вектор целевой переменной, а для построения прогноза — вызвать метод `predict()`:

```python
from sklearn.linear_model import LinearRegression
# создаём модель линейной регрессии
model = LinearRegression(fit_intercept=False)
# вычисляем коэффициенты регрессии
model.fit(A, y)
print('w_hat:', model.coef_)
new_prediction = model.predict(new)
print('prediction:', new_prediction)
```

> Здесь при создании объекта класса `LinearRegression` мы указали `fit_intercept=False`, так как в нашей матрице наблюдений $A$ уже присутствует столбец с единицами для умножения на свободный член $w_0$. Его повторное добавление не имеет смысла.

## <center>Проблемы в классической МНК-модели</center>

Как и у любого метода, у классической *OLS*-регрессии есть свои **ограничения**. Если матрица $A^T A$ вырождена (сингулярна) или близка к вырожденной, то хорошего решения у классической модели не получится. Такие данные называют **плохо обусловленными**.

Борьба с вырожденностью матрицы $A^T A$ часто сводится к устранению «плохих» (зависимых) признаков. Для этого анализируют корреляционную матрицу признаков или матрицу их значений. Но иногда проблема может заключаться, например, в том, что один признак измерен в тысячных долях, а другой — в тысячах единиц. Тогда коэффициенты при них могут отличаться в миллион раз, что потенциально может привести к вырожденности матрицы $A^T A$.

В устранении этой проблемы может помочь знакомая нам **нормализация/стандартизация данных**.

В реализации линейной регрессии в *sklearn* предусмотрена **борьба с плохо определёнными (близкими к вырожденным и вырожденными) матрицами**. Для этого используется метод под названием **сингулярное разложение (SVD)**. Данный метод позволяет всегда получать корректные значения при обращении матриц. Суть метода заключается в том, что в *OLS*-формуле мы на самом деле используем не саму матрицу $A$, а её диагональное представление из сингулярного разложения, которое гарантированно является невырожденным. Вот и весь секрет.

Правда, открытым остаётся вопрос: можно ли доверять коэффициентам, полученным таким способом, и интерпретировать их? 

В дальнейшем мы увидим, что делать этого лучше не стоит: возможна такая ситуация, при которой коэффициенты при линейно зависимых факторах, которые получаются в результате применения линейной регрессии через сингулярное разложение, могут получиться слишком большими по модулю.

На самом деле сингулярное разложение зашито в функцию `np.linalg.lstsq()`, которая позволяет в одну строку построить модель линейной регрессии по МНК:

```python
# классическая OLS-регрессия в numpy с возможностью получения решения даже для вырожденных матриц
np.linalg.lstsq(A, y, rcond=None)
```
![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/e26bc6270fd2878dbae71e3d17b4b8f6/asset-v1:SkillFactory+MIPTDS+SEPT22+type@asset+block/MATHML_md2_3_14.png)

Функция возвращает четыре значения:

1) вектор рассчитанных коэффициентов линейной регрессии;
2) сумму квадратов ошибок, *MSE* (она не считается, если ранг матрицы $A$ меньше числа неизвестных, как в нашем случае);
3) ранг матрицы $A$;
4) вектор из сингулярных значений, которые как раз и оберегают нас от ошибки (о них мы поговорим позже).

# <center>Стандартизация векторов</center>

**Нормализация** — это процесс приведения признаков к единому масштабу, например от 0 до 1. Пример — *min-max*-нормализация:

$$x_{scaled} =  \frac{x - x_{min}}{x_{max} - x_{min}}$$

**Стандартизация** — это процесс приведения признаков к единому масштабу характеристик распределения — нулевому среднему и единичному стандартному отклонению:

$$x_{scaled} =  \frac{x - x_{mean}}{x_{std}}$$

В линейной алгебре под стандартизацией вектора $\vec{x} \in R^n$ понимается несколько другая операция, которая проходит в два этапа:

1) **Центрирование вектора** — это операция приведения среднего к 0:

$$\vec{x}_{cent} = \vec{x} - \vec{x}_{mean}$$

2) **Нормирование вектора** — это операция приведения диапазона вектора к масштабу от -1 до 1 путём деления центрированного вектора на его длину:

$$\vec{x}_{st} =  \frac{\vec{x}_{cent}}{ \| \vec{x}_{cent} \| }$$

где $\vec{x}_{mean}$ — вектор, составленный из среднего значения вектора $\vec{x}$, а $\| \vec{x}_{cent} \|$ — длина вектора $\vec{x}_{cent}$.

В результате стандартизации вектора всегда получается новый вектор, длина которого равна 1:

$$\| \vec{x}_{st} \|  = 1$$

До стандартизации мы прогоняли регрессию $y$ на регрессоры $x_1, x_2, …, x_k$ и константу. Всего получалось $k+1$ коэффициентов.

После стандартизации мы прогоняем регрессию стандартизованного $y$ на стандартизованные регрессоры **без константы**!

Математика говорит, что регрессия исходного $y$ на исходные («сырые») признаки c константой точно такая же, как регрессия стандартизированного на стандартизированные признаки без константы. В чём же разница? Математически — ни в чём.

На прогноз модели линейной регрессии, построенной по МНК, и её качество стандартизация практически не влияет. Масштабы признаков будут иметь значение только в том случае, если для поиска коэффициентов вы используете численные методы, такие как градиентный спуск (SGDRegressor из sklearn).

Однако с точки зрения интерпретации важности коэффициентов разница есть. Если вы занимаетесь отбором наиболее важных признаков по значению коэффициентов линейной регрессии на нестандартизированных данных, это будет не совсем корректно: один признак может изменяться от 0 до 1, а второй — от -1000 до 1000. Коэффициенты при них также будут различного масштаба. Если же вы посмотрите оценки коэффициентов регрессии после стандартизации, то они будут в едином масштабе, что даст более цельную и объективную картину.

Более важный бонус заключается в том, что **после стандартизации матрица Грама признаков** как по волшебству **превращается в корреляционную матрицу**. На свойства корреляционной матрицы опираются такие алгоритмы, как метод главных компонент и сингулярное разложение, а так как «сырая» и стандартизированная регрессия математически эквивалентны, то имеет смысл исследовать стандартизированную, а результаты обобщить на «сырую».

```python
# составляем матрицу наблюдений без дополнительного столбца из единиц
A = boston_data[['CHAS', 'LSTAT', 'CRIM','RM']]
y = boston_data[['PRICE']]
# стандартизируем векторы в столбцах матрицы A
A_cent = A - A.mean()
A_st = A_cent/np.linalg.norm(A_cent, axis=0)
A_st.describe().round(2)
```

> Обратите внимание, что для функции `linalg.norm()` обязательно необходимо указать параметр `axis=0`, так как по умолчанию норма считается для всей матрицы, а не для каждого столбца в отдельности.

Для получения стандартизированных коэффициентов нам также понадобится стандартизация целевой переменной $y$ по тому же принципу:

```python
# стандартизируем вектор целевой переменной
y_cent = y - y.mean()
y_st = y_cent/np.linalg.norm(y_cent)
```
Формула для вычисления коэффициента та же, что и раньше, только матрица $A$ теперь заменяется на $A_{st}$, а $y$ — на $y_{st}$:

```python
# вычислим OLS-оценку для стандартизированных коэффициентов
w_hat_st=np.linalg.inv(A_st.T@A_st)@A_st.T@y_st
print(w_hat_st.values)
```

**Сделаем важный вывод**

Для того чтобы проинтерпретировать оценки коэффициентов линейной регрессии (понять, каков будет прирост целевой переменной при изменении фактора на 1 условную единицу), нам достаточно построить линейную регрессию в обычном виде без стандартизации и получить обычный вектор $\hat{\vec{w}}$.

Однако, чтобы корректно говорить о том, какой фактор оказывает на прогноз большее влияние, необходимо рассматривать стандартизированную оценку вектора коэффициентов $\hat{\vec{w}}_{st}$.

Взглянем на матрицу Грама для стандартизированных факторов:

```python
# матрица Грама
A_st.T @ A_st
```

На самом деле мы с вами только что вычислили **матрицу выборочных корреляций** наших исходных факторов.

> Матрицу корреляций можно получить только в том случае, если производить стандартизацию признаков как векторы (делить на длину центрированного вектора $\vec{x}_{st}$). Другие способы стандартизации/нормализации признаков не превращают матрицу Грама в матрицу корреляций.

## <center>Корреляционная матрица</center>

**Корреляционная матрица $C$** — это матрица выборочных корреляций между факторами регрессий.

$$C=corr(X)$$

Корреляцию можно измерять различным способами:

* корреляцией Пирсона;
* корреляцией Спирмена;
* корреляцией Кендалла.

В этом модуле мы будем говорить именно о **корреляции Пирсона**. Она измеряет тесноту линейных связей между непрерывными числовыми факторами и может принимать значения от -1 до +1. Как и любая статистическая величина, корреляция бывает **генеральной** и **выборочной**.

**Генеральная (истинная) корреляция** — это теоретическая величина, которая отражает общую линейную зависимость между случайными величинами $X_i$ и $X_j$. Забегая вперёд скажем, что данная характеристика является абстрактной и вычисляется для **генеральных совокупностей** — всех возможных реализаций $X_i$ и $X_j$. В природе такой величины не существует, она есть только в теории вероятностей.

**Выборочная корреляция** — это корреляция, вычисленная на ограниченной выборке. Это уже ближе к нашей теме. Выборочная корреляция отражает линейную взаимосвязь между факторами $\vec{x}_{i}$ и $\vec{x}_{j}$, реализации которых представлены в выборке.

>  Корреляция фактора с самим собой всегда равна 1: $c_{ii}=1$, то есть $c_{11}=c_{22}=1$. Так происходит потому, что скалярное произведение вектора с самим собой всегда даёт 1 по свойствам скалярного произведения.

> В *NumPy* матрица корреляций вычисляется функцией `np.corrcoef()`:

```python
x_1 = np.array([1, 2, 6])
x_2 = np.array([3000, 1000, 2000])
np.corrcoef(x_1, x_2)
```

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/e2daaabe9c82df18ac6fb0820b2d1e5a/asset-v1:SkillFactory+MIPTDS+SEPT22+type@asset+block/MATHML_md2_4_27.png)

> В *Pandas* матрица корреляций вычисляется методом `corr()`, вызванным от имени *DataFrame*.

На практике корреляция с точки зрения линейной алгебры означает следующее:

* Если корреляция $c_{ij} =1$, значит векторы $\vec{x}_i$ и $\vec{x}_j$ пропорциональны и сонаправлены.

* Если корреляция $c_{ij} =-1$, значит векторы $\vec{x}_i$ и $\vec{x}_j$ пропорциональны и противонаправлены.

* Если корреляция $c_{ij} =0$, значит векторы $\vec{x}_i$ и $\vec{x}_j$ ортогональны друг другу и, таким образом, являются линейно независимыми.

Во всех остальных случаях между факторами  и  существует какая-то линейная взаимосвязь, причём чем ближе модуль коэффициента корреляции к 1, тем сильнее эта взаимосвязь.

|Сила связи|Значение коэффициента корреляции|
|----------|--------------------------------|
|Отсутствие связи или очень слабая связь|0…+/- 0.3|
|Слабая связь|+/- 0.3…+/- 0.5|
|Средняя связь|+/- 0.5…+/- 0.7|
|Сильная связь|+/- 0.7…+/- 0.9|
|Очень сильная или абсолютная связь|+/- 0.9…+/-1|

Таким образом, матрица корреляций — это матрица Грама, составленная для стандартизированных столбцов исходной матрицы наблюдений $A$. Она всегда (в теории) симметричная. На главной диагонали этой матрицы стоят 1, а на местах всех остальных элементов — коэффициенты корреляции между факторами $\vec{x}_i$ и $\vec{x}_j$.

Если коэффициент корреляции больше 0, то взаимосвязь между факторами прямая (растёт один — растёт второй), в противном случае — обратная (растёт один — падает второй).

**Резюмируем**

* Корреляция — это мера линейной зависимости между признаками.

* Чем больше по модулю корреляция между каким-нибудь фактором и целевым признаком, тем лучше:

$$\left|corr(\vec{x}_{i}, \vec{y}) \right| \rightarrow 1 - хорошо$$

* Чем больше по модулю корреляция между факторами, тем хуже:

$$\left|corr(\vec{x}_{i}, \vec{x}_{j}) \right| \rightarrow 1 - плохо$$

* Чем больше линейно зависимых факторов, тем меньше ранг.

Можно выделить **два неприятных случая**:

1) **Чистая коллинеарность**

    Некоторые факторы являются линейно зависимыми между собой. Это влечёт к уменьшению ранга матрицы факторов. Корреляции между зависимыми факторами близки к +1 или -1. Матрица корреляции вырождена.

2) **Мультиколлинеарность**

    Формально линейной зависимости между факторами нет, и матрица факторов имеет максимальный ранг. Однако корреляции между мультиколлинеарными факторами по-прежнему близки к +1 или -1, и матрица корреляции практически вырождена, несмотря на то что имеет максимальный ранг.

Таким образом, чистая коллинеарность провоцирует больше проблем, но её легче заметить. Мультиколлинеарность же может быть скрытой, и заметить её не так просто.

In [7]:
# Задание 4.7

v = np.array([5, 1, 2])
u = np.array([4, 2, 8])
print('{:.2f}'.format(np.corrcoef(u, v)[0][1]))

0.05


In [8]:
# Задание 4.8

x_1 = np.array([5.1, 1.8, 2.1, 10.3, 12.1, 12.6])
x_2 = np.array([10.2, 3.7, 4.1, 20.5, 24.2, 24.1])
x_3 = np.array([2.5, 0.9, 1.1, 5.1, 6.1, 6.3])
C = np.corrcoef([x_1, x_2, x_3])
print('Rank:', np.linalg.matrix_rank(C))
print('Determinant: {:.7f}'.format(np.linalg.det(C)))
print(C)

Rank: 3
Determinant: 0.0000005
[[1.         0.99925473 0.99983661]
 [0.99925473 1.         0.99906626]
 [0.99983661 0.99906626 1.        ]]


# <center>Полиномиальная регрессия</center>

**Полином (многочлен)** от $k$ переменных $x_1, \ x_2, \ ..., \ x_k$ — это выражение (функция) вида:

$$P\left(x_{1}, x_{2}, \ldots, x_{k}\right)=\sum_{I} w_{i} x_{1}^{i_{1}} x_{2}{ }^{i_{2}} \ldots x_{k}^{i_{k}},$$

где

* $I=(i_1, i_2, \ ...., \ i_k)$  — набор из $k$ целых неотрицательных чисел — степеней полинома;

* $w_I$ — числа, называемые коэффициентами полинома. 

Когда переменная всего одна, полином будет записываться как:

$$P(x) = \sum_{I} w_i x^i = w_0 + w_1 x^1 + w_2 x^2 + ... + w_k x^k$$

Видно, что на самом деле полином — это линейная комбинация из различных степеней переменной $x$, взятой с какими-то коэффициентами, причём некоторые из коэффициентов могут быть нулевыми.

Максимальная степень при переменной $x$ называется **степенью полинома**.

Полином степени $k$ способен описать абсолютно любую зависимость. Для этого ему достаточно задать набор наблюдений — точек, через которые он должен пройти (или пройти приблизительно). Вопрос стоит только в степени этого полинома — $k$.

![image.png](https://lms-cdn.skillfactory.ru/assets/courseware/v1/b87e9ca1eebf310f078dd18ab27b6b91/asset-v1:SkillFactory+MIPTDS+SEPT22+type@asset+block/MATHML_md2_6_2.png)

**Цель обучения** модели полиномиальной регрессии степени та же, что и для линейной регрессии: найти такие коэффициенты $w_i$, при которых ошибка между построенной функцией и обучающей выборкой была бы наименьшей из возможных.

Для того чтобы определить количество коэффициентов в регрессии, есть формула:

$$c = \frac{n!}{(n-d)!d!},$$

$$n = k + d,$$

где $k$ — количество факторов, $d$ — степень полинома, а $!$ — символ факториала.

Мы уже знакомились с полиномиальными признаками, генерация которых реализована в классе *PolynomialFeatures* из модуля `preprocessing`. 

Создайте матрицу наблюдений $A_{poly}$ со сгенерированными полиномиальными признаками.

1) Для начала составим обычную матрицу наблюдений $A$, расположив векторы в столбцах. Обратите внимание, что вектор из 1 мы не будем добавлять в матрицу (за нас это сделает генератор полиномиальных признаков):

In [9]:
A = np.array([
    [1, 3, -2, 1, 5, 13, 1],
    [3, 4, 5, -2, 4, 11, 3],
    [4, 5, 2, 2, 6, 8, -1],
]).T
print(A)

[[ 1  3  4]
 [ 3  4  5]
 [-2  5  2]
 [ 1 -2  2]
 [ 5  4  6]
 [13 11  8]
 [ 1  3 -1]]


2) Затем импортируем класс `PolynomialFeatures` из библиотеки `sklearn`. Создадим объект этого класса, указав при инициализации степень полинома равной 2. Также укажем, что нам нужна генерация столбца из 1 (параметр `include_bias=True`):

In [10]:
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2, include_bias=True)

3) Осталось только вызвать метод `fit_transform()` от имени этого объекта и передать в него нашу матрицу наблюдений $A$. Для удобства выведем результат в виде *DataFrame*:

In [11]:
A_poly = poly.fit_transform(A)
display(pd.DataFrame(A_poly))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1.0,1.0,3.0,4.0,1.0,3.0,4.0,9.0,12.0,16.0
1,1.0,3.0,4.0,5.0,9.0,12.0,15.0,16.0,20.0,25.0
2,1.0,-2.0,5.0,2.0,4.0,-10.0,-4.0,25.0,10.0,4.0
3,1.0,1.0,-2.0,2.0,1.0,-2.0,2.0,4.0,-4.0,4.0
4,1.0,5.0,4.0,6.0,25.0,20.0,30.0,16.0,24.0,36.0
5,1.0,13.0,11.0,8.0,169.0,143.0,104.0,121.0,88.0,64.0
6,1.0,1.0,3.0,-1.0,1.0,3.0,-1.0,9.0,-3.0,1.0


Итак, мы получили нашу матрицу $A_{poly}$. Давайте посмотрим на её столбцы:

* столбец 0 — единичный, он отвечает за слагаемое с нулевой степенью полинома (любое число в степени 0 даёт единицу).

* столбцы 1, 2 и 3 — это наши исходные признаки (векторы $\vec{x}_1$, $\vec{x}_2$ и $\vec{x}_3$).

* столбцы 4, 5 и 6 — произведения первого столбца со всеми столбцами: $\vec{x}_1 \vec{x}_1=\vec{x}_{1}^{2}$, $\vec{x}_1 \vec{x}_2$ и $\vec{x}_1 \vec{x}_3$ соответственно.

* столбцы 7 и 8 — произведения второго столбца со столбцами 2 и 3: $\vec{x}_2 \vec{x}_2=\vec{x}_{2}^{2}$ и $\vec{x}_2 \vec{x}_3$.

* столбец 9 — произведение третьего столбца с самим собой: $\vec{x}_3 \vec{x}_3=\vec{x}_{3}^{2}$.

Таким образом, при генерации полиномиальных признаков объект `PolynomialFeatures` сначала создаёт исходные факторы, затем умножает каждый из них на все факторы и повторяет процедуру. При этом, если комбинация $\vec{x}_i \vec{x}_j$ уже была сгенерирована ранее, то комбинация $\vec{x}_j \vec{x}_i$ не рассматривается.

Чтобы не дублировать код, объявим функцию `polynomial_regression()`. Она будет принимать на вход матрицу наблюдений, вектор ответов и степень полинома, а возвращать матрицу с полиномиальными признаками, вектор предсказаний и коэффициенты регрессии, найденные по МНК:

In [12]:
def polynomial_regression(X, y, k):
    poly = PolynomialFeatures(degree=k, include_bias=True)
    X_poly = poly.fit_transform(X)
    w_hat = np.linalg.inv(X_poly.T@X_poly)@X_poly.T@y
    y_pred = X_poly @ w_hat
    return X_poly, y_pred, w_hat

*Тут рассматривается датасет про квартиры, который у меня не прогрузился.*

```python
# считаем матрицу корреляций (без столбца из единиц)
C = pd.DataFrame(A_poly5[:, 1:]).corr()
# считаем ранг корреляционной матрицы
print('Ранг корреляционной матрицы:', np.linalg.matrix_rank(C))
# считаем количество факторов (не включая столбец из единиц)
print('Количество факторов:', A_poly5[:, 1:].shape[1])
# Ранг корреляционной матрицы: 110
# Количество факторов: 125
```

```python
# считаем матрицу корреляций (без столбца из единиц)
C = pd.DataFrame(A_poly4[:, 1:]).corr()
# считаем ранг корреляционной матрицы
print('Ранг корреляционной матрицы:', np.linalg.matrix_rank(C))
# считаем количество факторов (не включая столбец из единиц)
print('Количество факторов:', A_poly4[:, 1:].shape[1])
## Ранг корреляционной матрицы: 69
## Количество факторов: 69
```

Для полинома четвёртой степени ранг матрицы корреляций максимален, то есть равен количеству факторов (не включая единичный столбец). Поэтому и коэффициенты регрессии полинома четвёртой степени находятся в адекватных пределах.

А теперь посмотрим, что будет, если использовать для построения полиномиальной регрессии **реализацию из библиотеки *sklearn***. Создадим функцию `polynomial_regression_sk` — она будет делать то же самое, что и прошлая функция, но средствами *sklearn*. Дополнительно будем смотреть также стандартное отклонение (разброс) по коэффициентам регрессии.

```python
def polynomial_regression_sk(X, y, k):
    poly = PolynomialFeatures(degree=k, include_bias=False)
    X_poly = poly.fit_transform(X)
    lr = LinearRegression().fit(X_poly, y)
    y_pred = lr.predict(X_poly)
    return X_poly, y_pred, lr.coef_

A = boston_data[['LSTAT', 'PTRATIO', 'RM', 'CRIM']]
y = boston_data[['PRICE']]

for k in range(1, 6):
    A_poly, y_pred, w_hat = polynomial_regression_sk(A, y, k)
    print(
        "MAPE для полинома степени {} — {:.2f}%, СКО — {:.0f}".format(
            k, mean_absolute_percentage_error(y, y_pred)*100, w_hat.std()
        )

    )
## MAPE для полинома степени 1 — 18.20%, СКО — 2
## MAPE для полинома степени 2 — 13.41%, СКО — 5
## MAPE для полинома степени 3 — 12.93%, СКО — 9
## MAPE для полинома степени 4 — 10.74%, СКО — 304
## MAPE для полинома степени 5 — 9.02%, СКО — 17055
```

Секрет в том, что в *sklearn* для построения линейной регрессии используется не сама матрица наблюдений $A$, а её сингулярное разложение, которое гарантированно является невырожденным — из него исключаются линейно зависимые факторы. Таким образом, даже несмотря на немаксимальный ранг корреляционной матрицы, построить полином пятой степени всегда получится.

Однако коэффициенты полинома пятой степени обладают значительно бόльшим разбросом, чем другие модели. Разброс будет всё больше расти при увеличении степени полинома. Коэффициенты не будут отражать реальной зависимости в данных и будут построены так, чтобы компенсировать линейную зависимость факторов, то есть будут неустойчивыми.

К тому же, как мы уже знаем, чем выше степень полинома, тем выше шанс переобучения: модель может быть настолько сложной, что попросту попытается пройти через все точки в обучающем наборе данных, не уловив общей закономерности.

In [13]:
# Задание 6.4

A = np.array([
    [1, 1, 1, 1],
    [1, 3, -2, 9],
    [1, 9, 4, 81]
]).T
y = np.array([3, 7, -5, 21])
print(np.round(np.linalg.inv(A.T@A)@A.T@y, 1))
## [ 0.1  2.5 -0. ]

[ 0.1  2.5 -0. ]


# <center>Регуляризация</center>

Обучим модель полиномиальной регрессии третьей степени. Будем использовать данные о жилье в Бостоне и возьмём следующие четыре признака: `LSTAT`, `CRIM`, `PTRATIO` и `RM`.

Для оценки качества модели будем использовать кросс-валидацию и сравнивать среднее значение метрики на тренировочных и валидационных фолдах. Кросс-валидацию организуем с помощью функции `cross_validate` из модуля `model_selection`.

В качестве метрики используем среднюю абсолютную процентную ошибку — *MAPE*.

In [14]:
from sklearn.model_selection import cross_validate

```python
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]
 
# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)
 
# создаём модель линейной регрессии
lr = LinearRegression()
 
# оцениваем качество модели на кросс-валидации, метрика — MAPE
cv_results = cross_validate(lr, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))	
 
## MAPE на тренировочных фолдах: 12.64 %
## MAPE на валидационных фолдах: 24.16 %
```

Показатели качества отличаются практически в два раза, что говорит о высоком разбросе модели.

**Регуляризация** — это способ уменьшения переобучения моделей машинного обучения путём намеренного увеличения смещения модели для уменьшения её разброса.

Регуляризация для линейной регрессии преследует сразу несколько целей. Однако далее мы увидим, что все эти цели на самом деле взаимосвязаны:

* предотвратить переобучение модели;
* включить в функцию потерь штраф за переобучение;
* обеспечить существование обратной матрицы $(A^T A)^{-1}$;
* не допустить огромных коэффициентов модели.

**Метод множителей Лагранжа**. Прелесть данного метода в том, что он позволяет свести условную задачу оптимизации к безусловной, то есть благодаря Лагранжу мы можем перейти от системы к одному уравнению.

Метод множителей Лагранжа говорит, что записанная система с ограничением эквивалентна следующей записи:

$$L(\vec{w}, \alpha)=\|\vec{y}-A \vec{w}\|^{2}+\alpha\left(\|\vec{w}\|_{L_{p}}\right)^{p} \rightarrow \min$$

В машинном обучении множитель Лагранжа  принято называть **коэффициентом регуляризации**. Он отвечает за «силу» регуляризации. Чем он больше, тем меньшие значения может принимать слагаемое $\ {\left({‖\overrightarrow{w}‖}_{L_p}\right)}^p$, то есть тем сильнее ограничения на норму весов. В этом и была наша цель — ограничить веса.

## <center>L2-регуляризация</center>

**L2-регуляризация (Ridge)**, или **регуляризация по Тихонову** — это регуляризация, в которой порядок нормы $p=2$. 

В случае L2-регуляризации мы накладываем ограничение на длину вектора весов $\vec{w}$.

Преимущество этой формулы в том, что, если $\alpha >0$, то матрица $A^T A+\alpha E$ гарантированно является невырожденной, даже если матрица $A^T A$ таковой не является. Так получается за счёт того, что по диагонали матрицы $A^T A$ мы добавляем поправки, которые создают линейную независимость между столбцами матрицы.

Напомним, что за реализацию линейной регрессии в *sklearn* отвечает класс *Ridge*. Основной параметр модели, на который стоит обратить внимание — `alpha`, коэффициент регуляризации из формулы Тихонова.

```python
from sklearn.linear_model import Ridge
```

Сразу отметим, что для успешной сходимости численных методов оптимизации, которые используются для решения задачи условной оптимизации, необходима стандартизация (нормализация) исходных данных, которая не требовалась для аналитического МНК в классической линейной регрессии (`LinearRegression`).

Здесь под стандартизацией мы понимаем именно приведение распределения признака к нулевому среднему и единичному стандартному отклонению (`StandardScaler`), а не стандартизацию векторов, о которой мы говорили в этом модуле.

```python
from sklearn.preprocessing import StandardScaler
```

```python
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]
# инициализируем стандартизатор StandardScaler
scaler = StandardScaler()
# подгоняем параметры стандартизатора (вычисляем среднее и СКО)
X = scaler.fit_transform(X)
# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)
# создаём модель линейной регрессии c L2-регуляризацией
ridge = Ridge(alpha=20, solver='svd')
# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(ridge, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))
## MAPE на тренировочных фолдах: 12.54 %
## MAPE на валидационных фолдах: 17.02 %
```

In [15]:
# Задание 7.4

A = np.array([
    [1, 1, 1, 1, 1],
    [5, 9, 4, 3, 5],
    [15, 18, 18, 19, 19],
    [7, 6, 7, 7, 7]
]).T
y = np.array([24, 22, 35, 33, 36])
E = np.eye(4)
# коэффициент регуляризации
alpha = 1
# получаем оценку коэффициентов регрессии по МНК с регуляризацией Тихонова
w_hat_ridge = np.linalg.inv(A.T@A+alpha*E)@A.T@y
print(np.round(w_hat_ridge, 2))

[-0.09 -1.71  1.91  0.73]


## <center>L1-регуляризация</center>

**L1-регуляризацией, Lasso (Least Absolute Shrinkage and Selection Operator)**, называется регуляризация, в которой порядок нормы $p=1$.

Таким образом, в случае L1-регуляризации мы ограничиваем сумму модулей весов модели. Такая величина называется нормой Манхэттена (расстоянием городских кварталов).

В *sklearn* L1-регуляризация реализована в классе *Lasso*, а заданная выше оптимизационная задача решается **алгоритмом координатного спуска (Coordinate Descent)**.

```python
from sklearn.linear_model import Lasso
```

```python
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]

# инициализируем стандартизатор StandardScaler
scaler = StandardScaler()
# подгоняем параметры стандартизатора (вычисляем среднее и СКО)
X = scaler.fit_transform(X)

# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)

# создаём модель линейной регрессии c L1-регуляризацией
lasso = Lasso(alpha=0.1, max_iter=10000)

# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(lasso, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))
## MAPE на тренировочных фолдах: 12.44 %
## MAPE на валидационных фолдах: 16.44 %
```

## <center>Elastic-Net</center>

Последний вид регуляризации (хотя их на самом деле больше), который мы рассмотрим, называется **Elastic-Net (эластичная сетка)**. Это комбинация L1- и L2-регуляризации.

Идея Elastic-Net состоит в том, что мы вводим ограничение как на норму весов порядка $p=1$, так и на норму порядка $p=2$.

В *sklearn* эластичная сетка реализована в классе *ElasticNet* из пакета с линейными моделями — `linear_model`. За коэффициент $\alpha$ отвечает параметр `alpha`, за коэффициент $\lambda$ — `l1_ratio`.

```python
from sklearn.linear_model import ElasticNet
```