# MATH&ML-2 Линейная алгебра в констекте линейных методов. Часть2
###  Содержание <a class="anchor" id=0></a>

- [2. Неоднородные СЛАУ](#2)
- [3. Линейная регрессия МНК](#3)
- [4. Стандартизация векторов и матрица корреляции](#4)
- [5. Практика. Лин.регрессия МНК](#5)
- [6. Полиноминальная регрессия](#6)
- [7. Регуляция](#7)
- [7.1 $L_2$ Регуляция](#7-1)
- [7.2 $L_1$ Регуляция](#7-2)
- [7.3 Elastic-Net](#7-3)
- [8. Практика. Полиноминальная регрессия и регуляция](#8)
- [9. Итоги](#9)

# 2. Неоднородные СЛАУ <a class="anchor" id=2></a>

[к содержанию](#0)


>Совокупность уравнений первой степени, в которых каждая переменная и коэффициенты в ней являются вещественными числами, называется **системой линейных алгебраических уравнений** (`СЛАУ`) и в общем случае записывается как:
>
>$\left\{ \begin{array}{c} a_{11}x_1+a_{12}x_2+\dots +a_{1m}x_m=b_1 \\ a_{21}x_1+a_{22}x_2+\dots +a_{2m}x_m=b_2 \\ \dots \\ a_{n1}x_1+a_{n2}x_2+\dots +a_{nm}x_m=b_n \end{array} \right.\ (1),$
>
>где
>
>* $n$— количество уравнений;
>
>* $m$ — количество переменных;
>
>* $x_i$ — неизвестные переменные системы;
>
>* $a_{ij}$ — коэффициенты системы;
>
>* $b_i$ — свободные члены системы.
>
>
>
>СЛАУ (1) называется **однородной**, если все свободные члены системы равны 0 $b_1=b_2=⋯=b_n=0$:
>
>$\textrm{С}\textrm{Л}\textrm{А}\textrm{У}-\textrm{о}\textrm{д}\textrm{н}\textrm{о}\textrm{р}\textrm{о}\textrm{д}\textrm{н}\textrm{а}\textrm{я},\ \textrm{е}\textrm{с}\textrm{л}\textrm{и}\ \forall b_i=0$
>
>
>
>СЛАУ (1) называется **неоднородной**, если хотя бы один из свободных членов системы отличен от 0:
>
>$\textrm{С}\textrm{Л}\textrm{А}\textrm{У}- \textrm{н}\textrm{е}\textrm{о}\textrm{д}\textrm{н}\textrm{о}\textrm{р}\textrm{о}\textrm{д}\textrm{н}\textrm{а}\textrm{я},\ \textrm{е}\textrm{с}\textrm{л}\textrm{и}\ \exists b_i\neq 0$
>
>
>
>**Решением** СЛАУ (1) называется такой набор значений неизвестных переменных $x_1,x_2,…,x_n$ при котором каждое уравнение системы превращается в равенство.
>
>
>
>СЛАУ (1) называется **определённой**, если она имеет только одно решение, и **неопределённой**, если возможно больше одного решения.

Вспомним, что СЛАУ можно записать в матричном виде:

$A\overrightarrow{x}=\overrightarrow{b}$

$\left( \begin{array}{cccc} a_{11} & a_{12} & \dots & a_{1m} \\ a_{21} & a_{22} & \dots & a_{2m} \\ \dots & \dots & \dots & \dots \\ a_{n1} & a_{n2} & \dots & a_{nm} \end{array} \right) \cdot \left( \begin{array}{c} x_1 \\ x_2 \\ \dots \\ x_m \end{array} \right)=\left( \begin{array}{c} b_1 \\ b_2 \\ \dots \\ b_n \end{array} \right)$

где $A$ — матрица системы, $\overrightarrow{x}$ — вектор неизвестных коэффициентов, а $b$ — вектор свободных коэффициентов. 

Давайте введём новое для нас определение.

>**Расширенной матрицей системы $(A|b)$ неоднородных СЛАУ** называется матрица, составленная из исходной матрицы и вектора свободных коэффициентов (записывается через вертикальную черту):
>
>$(A \mid \vec{b})=\left(\begin{array}{cccc|c} a_{11} & a_{12} & \ldots & a_{1 m} & b_{1} \\ a_{21} & a_{22} & \ldots & a_{2 m} & b_{2} \\ \ldots & \ldots & \ldots & \ldots & \ldots \\ a_{n 1} & a_{n 2} & \ldots & a_{n m} & b_{n} \end{array}\right)$

Расширенная матрица системы — это обычная матрица. Черта, отделяющая коэффициенты $a_{ij}$ от свободных членов $b_i$ — чисто символическая. 

Над расширенной матрицей неоднородной СЛАУ можно производить те же самые действия, что и над обычной, а именно:

* складывать/вычитать между собой строки/столбцы матрицы;
* умножать строки/столбцы на константу;
* менять строки/столбцы местами.



Приведём пример расширенной матрицы системы. Пусть исходная система будет следующей:

$\left\{\begin{array}{c} w_{1}+w_{2}=1 \\ w_{1}+2 w_{2}=2 \end{array}\right.$

Запишем её в матричном виде:

$\left(\begin{array}{cc} 1 & 1 \\ 1 & 2  \end{array} \right) \cdot \left(\begin{array}{c} w_1 \\ w_2  \end{array} \right) = \left(\begin{array}{c} 1 \\ 2  \end{array} \right)$

Тогда расширенная матрица системы будет иметь вид:

$(A \mid b)=\left(\begin{array}{cc|c} 1 & 2 & 1 \\ 1 & 2 & 2 \\ \end{array}\right)$

***

Существует три случая при решении неоднородных СЛАУ:

* **«Идеальная пара»**

Это так называемые определённые системы линейных уравнений, имеющие **единственные решения**.

* **«В активном поиске»**

Неопределённые системы, имеющие **бесконечно много решений**.

* **«Всё сложно»**

Это самый интересный для нас случай — переопределённые системы, которые **не имеют точных решений**.

>**Примечание**. В данной классификации неоднородных СЛАУ допущено упрощение в терминологии. На самом деле неопределённые системы — это те, в которых независимых уравнений меньше, чем неизвестных. Они могут иметь бесконечно много решений (быть совместными) или ни одного решения (быть несовместными, если уравнения противоречат друг другу).
>
>На практике, например в обучении регрессий, этот случай практически не встречается.
>
>Что касается переопределённых систем, то в них, помимо несовместности (отсутствия решений), количество независимых уравнений превышает количество неизвестных — это тот самый случай, что мы видим в регрессионном анализе.

## СЛУЧАЙ «ИДЕАЛЬНАЯ ПАРА»

>Самый простой случай решения неоднородной СЛАУ — когда система **имеет единственное решение**. Такие системы называются **совместными**.

На вопрос о том, когда СЛАУ является совместной, отвечает главная теорема СЛАУ — теорема **Кронекера — Капелли** (также её называют **критерием совместности системы**).

***

**Теорема Кронекера — Капелли:**

Неоднородная система линейный алгебраических уравнений $A\overrightarrow{w} = \overrightarrow{b}$ является совместной тогда и только тогда, когда ранг матрицы системы $A$ равен рангу расширенной матрицы системы $(A|b)$ и равен количеству независимых переменных $m$:

$rk(A) = rk(A|\overrightarrow{b}) = m \leftrightarrow \exists ! \overrightarrow{w} = (w_{1}, w_{2}, \ldots w_m)^T$

Причём решение системы будет равно:

$\overrightarrow{w} = A^{-1} \overrightarrow{b}$

***



Пример №1

$\left\{\begin{array}{c} w_{1}+w_{2}=1 \\ w_{1}+2 w_{2}=2 \end{array}\right.$

где  $w_1$ и $w_2$ — неизвестные переменные.

При решении системы «в лоб» получим:

$\left\{\begin{array}{c} w_{1}+w_{2}=1 \\ w_{1}+2 w_{2}=2 \end{array}\right. \Rightarrow \left\{\begin{array}{c} w_{1}+w_{2}=1 \\ w_{2}=2 \end{array}\right. \Rightarrow \left\{\begin{array}{c} w_{1}=0 \\ w_{2}=0 \end{array}\right.$

Интерпретация:

$\left( \begin{array}{c} 1 \\ 2 \end{array}\right) = 0 \cdot \left( \begin{array}{c} 1 \\ 1 \end{array}\right) + 1 \cdot \left( \begin{array}{c} 1 \\ 2 \end{array}\right)$

На языке линейной алгебры это означает что вектор $(1, 2)^T$ линейно выражается через векторы коэффициентов системы $(1, 1)^T$ и $(1, 2)^T$.

В матричном виде система запишется, как:

$A\overrightarrow{w}=\overrightarrow{b} \text{где}A = \left( \begin{array}{cc} 1 & 1 \\ 1 & 2 \end{array}\right), \overrightarrow{w}=\left( \begin{array}{c} w_1 \\ w_2 \end{array}\right), \overrightarrow{b}=\left( \begin{array}{c} b_1 \\ b_2 \end{array}\right) $ 

Преобразование уравнений будем таким же, как и при преобразовании расширенной матрицы системы $(A|b)$, вычитая сначала первую строку из второй, а затем — результат из первой, получим то же решение, что и решение «в лоб».

$(A|\overrightarrow{b})=\left(\begin{array}{cc|c} 1 & 1 & 1  \\ 1 & 2 & 2 \end{array} \right) \Rightarrow \left(\begin{array}{cc|c} 1 & 1 & 1  \\ 0 & 1 & 1 \end{array} \right) \Rightarrow \left(\begin{array}{cc|c} 1 & 0 & 0  \\ 0 & 1 & 1 \end{array} \right) \Rightarrow \left\{\begin{array}{c} w_1=0  \\ w_2=0 \end{array} \right.$

Других решений у системы нет. 

Посмотрим на ранги матрицы $А$ и расширенной матрицы $(A|b)$ (количество ступеней в ступенчатых матрицах):

$rk(A)=\left(\begin{array}{cc} 1 & 0 \\ 0 & 1\end{array}\right)=2$

$rk(A|b)=\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 1\end{array}\right)=2$

$rk(A)=rk(A|b)$

Они совпадают и равны количеству неизвестных, а это и гарантирует существование и **единственность решения**. То есть в общем случае, чтобы узнать, сколько решений существует у системы, её необязательно было бы решать — достаточно было бы найти ранги матриц $rk(A)$ и $rk(A|b)$ .

***
Тут возникает вопрос: «Можно ли найти решение одной формулой?»

Для удобства перепишем систему без стрелок:

$Aw=b$

Так как матрица квадратная и невырожденная, у неё обязательно есть обратная матрица.

Умножим на $A^{-1}$ слева обе части уравнения. Стоит напомнить, что произведение матриц **не перестановочно**, поэтому есть разница, с какой стороны умножать.

$A^{-1} \cdot Aw = A^{-1}\cdot b$

$w=A^{-1}\cdot b$

>**Важно**! Отсюда явно видны ограничения этого метода: его можно применять только **для квадратных невырожденных матриц** (тех, у которых определитель не равен 0).

Убедимся в правильности формулы. Найдём произведение матрицы $A^{-1}$ и вектора-столбца $b$:

$A^{-1}\cdot b=\left( \begin{array}{cc} 1 & 1 \\ 1 & 2 \end{array}\right)^{-1} \cdot \left(\begin{array}{c} 1 \\ 2 \end{array}\right)=\left( \begin{array}{cc} 2 & -1 \\ -1 & 1 \end{array}\right) \cdot \left(\begin{array}{c} 1 \\ 2 \end{array}\right) = \left(\begin{array}{c} 0 \\ 1 \end{array}\right)$ 

***

**Резюмируем ↓**

У нас есть квадратная система с $m$ неизвестных. Если ранг матрицы коэффициентов $A$ **равен** рангу расширенной матрицы $(A|b)$ и **равен** количеству переменных $(rk(A)=rk(\overrightarrow{b}))=m$, то в системе будет ровно столько независимых уравнений, сколько и неизвестных $m$, а значит будет **единственное** решение.

Вектор свободных коэффициентов $b$ при этом линейно независим со столбцами матрицы $A$, его разложение по столбцам $A$ **единственно**.

## СЛУЧАЙ «В АКТИВНОМ ПОИСКЕ»

?А что, если система **не удовлетворяет теореме Кронекера — Капелли**? То есть ранг матрицы системы равен расширенному рангу матрицы, но не равен количеству неизвестных. Неужели тогда система нерешаема?

На этот вопрос отвечает первое следствие из теоремы ↓

**Следствие №1** из теоремы Кронекера — Капелли:

Если ранг матрицы системы $A$ равен рангу расширенной матрицы системы $(A|b)$, **но меньше**, чем количество неизвестных $m$, то система имеет бесконечное множество решений:

$rk(A) = rk(A | \vec{b}) < m  \leftrightarrow  \infty \ решений$

Решим систему уравнений:

$w_1+w_2+w_3=10$

Да, уравнение одно, но формально оно является неоднородной СЛАУ.

Итак, мы имеем одно уравнение на три неизвестных, значит две координаты из трёх вектора $w$ мы можем задать как угодно. Например, зададим вторую и третью как $\alpha$ и $\beta$. Тогда первая будет равна $10-\alpha-\beta$.

$w=\left( \begin{array}{c} {10-\alpha-\beta} \\ \alpha \\ \beta \end{array} \right)$ где $\alpha, \beta \in \mathbb{R}$

Вместо переменных $\alpha$ и $\beta$ мы можем подставлять любые числа и всегда будем получать равенство. 

Составим расширенную матрицу:

$(A|b)=(\begin{array}{} 1 & 1 & 1|10 \end{array})$

Её ранг, как и ранг $A$, равен 1, что меньше числа неизвестных $m=3$:

$rk(A) = rk(A | \vec{b}) = 1 < 3$

Такая ситуация, по следствию из теоремы Кронекера — Капелли, говорит о существовании и не единственности решения, то есть решений **бесконечно много**.

***

**Резюмируем ↓
**
Если ранги матриц $A$ и $(A|b)$ всё ещё совпадают, но уже меньше количества неизвестных $(rk(A) = rk(A | \vec{b}) < m)$, значит, уравнений не хватает для того, чтобы определить систему полностью, и решений будет бесконечно много.

На языке линейной алгебры это значит, что вектор $\overrightarrow{b}$ линейно зависим со столбцами матрицы $A$, но также и сами столбцы зависимы между собой, поэтому равнозначного разложения не получится, т. е. таких разложений может быть сколько угодно.

## СЛУЧАЙ «ВСЁ СЛОЖНО»

А теперь посмотрим на самый интересный для нас случай. Его формально регламентирует второе следствие из теоремы Кронекера — Капелли.

**Следствие №2 из теоремы Кронекера — Капелли**:

Если ранг матрицы системы $A$ меньше, чем ранг расширенной матрицы системы $(A|b)$, то система несовместна, то есть не имеет точных решений:

$rk(A)  < rk(A | \vec{b})  \leftrightarrow  \nexists \ решений$

Решим систему уравнений:

$\left\{\begin{array}{c} w_1+w_2=1 \\ w_1+2 w_2=2 \\ w_1+w_2=12 \end{array}\right.$

Посмотрим на первое и третье уравнение — очевидно, что такая система не имеет решений, так как данные уравнения противоречат друг другу.

Но давайте обоснуем это математически. Для этого запишем расширенную матрицу системы:

$(A|b)=\left(\begin{array}{cc|c} 1 & 1 & 1 \\ 1 & 2 & 2 \\ 1 & 1 & 12 \end{array}\right)$

Посчитаем ранги матриц $A$ и $(A|b)$:

$rk(A)=rk\left(\begin{array}{cc} 1 & 1  \\ 1 & 2 \\ 1 & 1 \end{array}\right) \Rightarrow I-III \Rightarrow rk\left(\begin{array}{cc} 1 & 1  \\ 1 & 2 \end{array}\right) \Rightarrow II-I \Rightarrow rk\left(\begin{array}{cc} 1 & 1  \\ 0 & 1 \end{array}\right)=2$

$rk(A|b)=rk\left(\begin{array}{ccc} 1 & 1 & 1 \\ 1 & 2 & 2 \\ 1 & 1 & 12 \end{array}\right) \Rightarrow III-I, II-I \Rightarrow rk\left(\begin{array}{cc} 1 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 12\end{array}\right)=3$

Итак, $rk(A)=2$, в то время как $rk(A|b)=3$. Это и есть критерий **переопределённости системы уравнений**: ранг матрицы системы меньше ранга расширенной матрицы системы.

Получается, что идеальное решение найти нельзя, но чуть позже мы увидим, что такие системы возникают в задачах регрессии практически всегда, а значит нам всё-таки хотелось бы каким-то образом её решать. Можно попробовать найти приблизительное решение — вопрос лишь в том, какое из всех этих решений лучшее.

Найдем наилучшее приближение для $w_1$, $w_2$, если:

$\left\{\begin{array}{c} w_1+w_2=1 \\ w_1+2 w_2=2 \\ w_1+w_2=12 \end{array}\right. \Rightarrow \left(\begin{array}{cc} 1 & 1  \\ 1 & 2 \\ 1 & 1 \end{array}\right)\cdot \left(\begin{array}{c} w  \\ w \end{array}\right)=\left(\begin{array}{c} 1 \\ 2 \\ 12 \end{array}\right)$

Обозначим приближённое решение как $\hat{w}$. Приближением для вектора $b$ будет $\hat{b}=A \hat{w}$. Также введём некоторый вектор ошибок $e=b-\hat{b}=b-A \hat{w}$.

>**Примечание**. Здесь мы снова опустили стрелки у векторов $b$, $\hat{b}$ и $\hat{w}$ для наглядности.

Например, если мы возьмём в качестве вектора $\hat{w}$ вектор $\hat{w_1}=(1,1)^T$, то получим:

$\hat{b}=A\hat{w_1}=\left(\begin{array}{cc} 1 & 1 \\ 1 & 2 \\ 1 & 1\end{array}\right)\cdot\left(\begin{array}{c} 1 \\ 1  \end{array}\right)=\left(\begin{array}{c} 2 \\ 3 \\ 2 \end{array}\right)$

$e_1=b-A\hat{w_1}=\left(\begin{array}{c} 1 \\ 2 \\ 12\end{array}\right) - \left(\begin{array}{c} 2 \\ 3 \\ 2\end{array}\right)=\left(\begin{array}{c} -1 \\ -1 \\ 10 \end{array}\right)$

Теперь возьмём в качестве вектора $\hat{w_2}=(4, -1)^T$, получим:

$\hat{b}=A\hat{w_2}=\left(\begin{array}{cc} 1 & 1 \\ 1 & 2 \\ 1 & 1\end{array}\right)\cdot\left(\begin{array}{c} 4 \\ -1  \end{array}\right)=\left(\begin{array}{c} 3 \\ 2 \\ 3 \end{array}\right)$

$e_2=b-A\hat{w_2}=\left(\begin{array}{c} 1 \\ 2 \\ 12\end{array}\right) - \left(\begin{array}{c} 3 \\ 2 \\ 3\end{array}\right)=\left(\begin{array}{c} -2 \\ -1 \\ 9 \end{array}\right)$

>Конечно, нам хотелось бы, чтобы ошибка была поменьше. Но какая из них поменьше? Векторы сами по себе сравнить нельзя, **но зато можно сравнить их длины**.

$\left\|e_1 \right\| = \sqrt{(-1)^2 + (-1)^2 + (10)^2} = \sqrt{102}$

$\left\|e_2 \right\| = \sqrt{(-2)^2 + 0^2 + 9^2} = \sqrt{85}$

>Видно, что вторая ошибка всё-таки меньше, соответственно, приближение лучше. Но в таком случае из всех приближений нам нужно выбрать то, у которого длина вектора ошибок минимальна, если, конечно, это возможно.
>
>$||e||\rightarrow min$
>

***

>**Примечание**. Проблема поиска оптимальных приближённых решений неоднородных переопределённых СЛАУ стояла у математиков вплоть до XIX века. До этого времени математики использовали частные решения, зависящие от вида уравнений и размерности. Впервые данную задачу для общего случая решил Гаусс, опубликовав метод решения этой задачи, который впоследствии будет назван методом наименьших квадратов (МНК). В дальнейшем Лаплас прибавил к данному методу теорию вероятности и доказал оптимальность МНК-оценок с точки зрения статистики.

Сейчас мы почувствуем себя настоящими математиками и попробуем решить эту задачу самостоятельно с помощью простой геометрии и знакомых нам операций над матрицами.

Вспомним, что на языке линейной алгебры неразрешимость системы

$\left(\begin{array}{cc} 1 & 1  \\ 1 & 2 \\ 1 & 1 \end{array}\right)\cdot \left(\begin{array}{c} w  \\ w \end{array}\right)=\left(\begin{array}{c} 1 \\ 2 \\ 12 \end{array}\right)$

означает, что попытка выразить вектор $(1,2,12)^T$ через $(1,1,1)^T$ и $(1,2,1)^T$ не будет успешной, так как они **линейно независимы**.

Геометрически это означает, что вектор свободных коэффициентов $\textcolor{brown}{b}$ (коричневый) не лежит в одной плоскости со столбцами матрицы $\textcolor{blue}{A}$ (синие векторы).

<img src=m2_img1.png>

Идея состояла в том, что наилучшим приближением для коричневого вектора будет ортогональная проекция на синюю плоскость — $\textcolor{cyan}{голубой}$ вектор. Так происходит потому, что наименьший по длине вектор ошибок — $\textcolor{red}{красный}$ — должен быть перпендикулярен к синей плоскости:

$e=b-\hat{b}$

В прошлом модуле мы производили расчёты интуитивно, а теперь настала пора вывести формулу.

Давайте умножим наши уравнения слева на $A^T$:

$A^T\cdot\textcolor{cyan}{A\hat{w}}=A^T\cdot\textcolor{brown}{b}$

Идея заключается в следующем: справа мы найдём скалярное произведение столбцов матрицы $A$ на вектор $b$, а слева — произведение столбцов $A$ на приближённый вектор $\hat{b}$ (по сути, на голубую проекцию).

Упростим уравнение, перемножив всё, что содержит только числа. В левой части умножим $A^T$ на $A$, в правой — умножим $A^T$ на $b$. Тогда слева получим матрицу 2×2 — это не что иное, как матрица Грама столбцов $A$.

>Столбцы $A$ линейно независимы, а это значит, что, по свойству матрицы Грама, $A^T\cdot A$  — невырожденная квадратная матрица (её определитель не равен нулю, и для неё существует обратная матрица). Получившаяся система — один в один случай «идеальная пара» (ранг матрицы, как и ранг расширенной матрицы, равен 2, в чём несложно убедиться), а это значит, что теперь мы можем её решить.

$\left(\begin{array}{} 3 & 4 \\ 4 & 6 \end{array}\right)\cdot\left(\begin{array}{} \hat{w} \\ \hat{w} \end{array}\right) = \left(\begin{array}{} 15 \\ 17 \end{array}\right)$

$\left(\begin{array}{} 3 & 4 \\ 4 & 6 \end{array}\right)$ - матрица Грамма столбцов $A$

$A^T\cdot A=Gram(\left(\begin{array}{} 1 \\ 1 \\ 1 \end{array}\right),\left(\begin{array}{} 1 \\ 2 \\ 1 \end{array}\right))$

Но ведь мы не могли решить изначальную задачу, так как она была переопределена, а эту — можем. **Как так получилось**?

Мы потребовали, чтобы у приближения $\hat{b}$ были с векторами $(1,1,1)^T$ и $(1,2,1)^T$ такие же скалярные произведения, как у $b$. Это и означает что $\hat{b}$ — ортогональная проекция на нашу синюю плоскость, в которой лежат столбцы матрицы $A$, и в этой плоскости мы можем найти коэффициенты.

Мы с вами отлично умеем решать системы типа «Идеальная пара». Для этого нам нужно найти обратную матрицу $(A^T\cdot A)^{-1}$ и умножить на неё слева всё уравнение. Так мы и получим наше приближение:

$(A^TA)\cdot\hat{w}=A^Tb$

Находим определитель матрицы $(A^TA)$: 

$\mathbb{det}(A^TA) = 3\cdot6-4\cdot4=2$

Находим обратную матрицу $(A^TA)^{-1}$:

$(A^TA)^{-1}=\left(\begin{array}{cc} 3 & 4 \\ 4 & 6\end{array}\right)^{-1}=\frac{1}{2}\left(\begin{array}{cc} 6 & -4 \\ -4 & 3\end{array}\right)=\left(\begin{array}{cc} 3 & -2 \\ -2 & 1.5\end{array}\right)$

Умножаем всё уравнение на обратную матрицу слева:

$(A^TA)^{-1}\cdot(A^TA)\cdot\hat{w}=(A^TA)^{-1}\cdot A^T\cdot b$

$\hat{w}=(A^TA)^{-1}\cdot A^T\cdot b$

И, наконец, вот он — долгожданный приближённый вектор $\hat{w}$:

$\hat{w}=\left(\begin{array}{cc} 3 & -2 \\ -2 & 1.5\end{array}\right)\cdot\left(\begin{array}{} 15 \\ 17\end{array}\right)=\left(\begin{array}{} 11 \\ -4.5\end{array}\right)$

***

⭐ **Пришло время открытий!**

Только что мы геометрическим образом вывели формулу оценки решения методом наименьших квадратов (`МНК` или `OLS`, Ordinary Least Squares).

>**Примечание**. Стоит отметить, что полученная матричная формула не зависит от размерностей и конкретных значений, а значит применима не только в нашем локальном случае, но и в общем.

Нам осталось выполнить проверку полученных результатов, чтобы убедиться в верности решения.

Вычислим голубой вектор $\hat{b}$. Для этого возьмём линейную комбинацию столбцов матрицы $А$ с найденными нами коэффициентами $\hat{w_1}$ и $\hat{w_2}$

$\hat{b}=A\hat{w}=\hat{w_1}\cdot\left(\begin{array}{} 1\\1\\1\end{array}\right)+\hat{w_2}\cdot\left(\begin{array}{} 1\\2\\1\end{array}\right)=11\cdot\left(\begin{array}{} 1\\1\\1\end{array}\right)-4.5\cdot\left(\begin{array}{} 1\\2\\1\end{array}\right)=\left(\begin{array}{} 6.5\\2\\6.5\end{array}\right)$

Вычислим вектор ошибок $e$:

$e=b-\hat{b}=b-A\hat{w}=\left(\begin{array}{} 1\\2\\12\end{array}\right)-\left(\begin{array}{} 6.5\\2\\6.5\end{array}\right)=\left(\begin{array}{} -5.5\\0\\5.5\end{array}\right)$

Убедимся, что данный вектор действительно ортогонален столбцам матрицы $А$. Для этого найдём их скалярные произведения:

$(e,A_1)=e^T\cdot A_1=(-5.5, 0, 5.5) \cdot \left(\begin{array}{} 1\\1\\1\end{array}\right) = 0$

$(e,A_2)=e^T\cdot A_2=(-5.5, 0, 5.5) \cdot \left(\begin{array}{} 1\\2\\1\end{array}\right) = 0$

Скалярные произведения равны 0, а это означает, что вектор ошибок $\textcolor{red}e$ действительно ортогонален всей синей плоскости, а голубой вектор $\textcolor{cyan}{\hat{b}}$ приближённого значения является ортогональной проекцией коричневого вектора $\textcolor{brown}b$.

>**Примечание**. Прежде чем перейти к выводам, стоит отметить, что обычно `OLS`-оценку выводят немного иначе, а именно минимизируя в явном виде длину вектора ошибок по коэффициентам $\hat{w}$, вернее, даже квадрат длины для удобства вычисления производных.
>
>$||\overrightarrow{e}||\rightarrow min$
>
>$||\overrightarrow{e}||^2\rightarrow min$
>
>$||\overrightarrow{b}-A\overrightarrow{w}||^2\rightarrow min$
>
>Формула получится точно такой же, какая есть у нас, просто способ вычислений будет не геометрический, а аналитический. Мы вернёмся к этому способу, когда будем обсуждать оптимизацию функции многих переменных в разделе по математическому анализу.

Наконец, мы может подвести итоги для случая «Всё сложно».

***

**Резюмируем ↓**

Если ранг матрицы $A$ меньше ранга расширенной системы $(A|b)$, то независимых уравнений больше, чем переменных $(rkA<(A|b)<m)$, а значит некоторые из них будут противоречить друг другу, то есть решений у системы нет.

Говоря на языке линейной алгебры, вектор $b$ линейно независим со столбцами матрицы $A$, а значит его нельзя выразить в качестве их линейной комбинации.

Однако можно получить приближённые решения по методу наименьших квадратов (`OLS` - оценка - $\hat{b}=(A^TA)^{-1}\cdot A^Tb$), идеей которого является ортогональная проекция вектора $b$ на столбцы матрицы $A$.

Найдите `OLS`-оценку для коэффициентов $w_1$, $w_2$ СЛАУ:

$\left\{\begin{array}{c} w_1+2w_2=1 \\ -3w_1+w_2=4 \\ w_1+2w_2=5 \\ w_1-w_2=0\end{array}\right.$

In [34]:
import numpy as np
A = np.array([[1,2],[-3,1],[1,2],[1,-1]])
b = np.array([1,4,5,0])
b = np.reshape(b,(4,1))


1. Вычислите матрицу Грама столбцов $A:A^{T}A=$

In [40]:
A.T@A

array([[12,  0],
       [ 0, 10]])

2. Вычислите матрицу $(A^{T}A)^{-1}$. Она имеет вид:

In [43]:
a_a = np.linalg.inv(A.T@A)
a_a

array([[0.08333333, 0.        ],
       [0.        , 0.1       ]])

3. Вычислите $A^{T} \overrightarrow{b}$

In [44]:
a_b = A.T@b
a_b

array([[-6],
       [16]])

4. Вычислите вектор оценок коэффициентов $\overrightarrow{w}$.

In [45]:
a_a@a_b

array([[-0.5],
       [ 1.6]])

# 3. Линейная регрессия МНК <a class="anchor" id=3></a>

[к содержанию](#0)

В задаче регрессии обычно есть **целевая переменная**, которую мы хотим предсказать. Её, как правило, обозначают буквой $y$. Помимо целевой переменной, есть **признаки** (их также называют **факторами** или **регрессорами**). Пусть их будет $k$ штук:

$y$ — целевая переменная

$x_1, x_2, \dots, x_k$ — признаки/факторы/регрессоры

Поставить задачу — значит ответить на два вопроса:

1. Что у нас есть?

2. Что мы хотим получить?

В задаче регрессии есть $N$ (как правило, их действительно много) наблюдений. Это наша обучающая выборка или датасет, представленный в виде таблицы. В столбцах таблицы располагаются векторы признаков $\overrightarrow{x_i}$.

$\overrightarrow{y} \in \mathbb{R}^N$

$x_1, x_2, \dots, x_k\in \mathbb{R}^N$

$\left(\begin{array}{} y_1 \\ y_2 \\ \dots \\ y_N\end{array}\right), \left(\begin{array}{} x_1 \\ x_2 \\ \dots \\ x_N\end{array}\right), \dots, \left(\begin{array}{} x_k1 \\ x_k2 \\ \dots \\ x_kN\end{array}\right)$

То есть и целевая переменная, и признаки представлены векторами из векторного пространства $\mathbb{R}^N$ — каждого вектора $N$ координат.

В качестве регрессионной модели мы будем использовать **модель линейной регрессии**. Мы предполагаем, что связь между целевой переменной и признаками линейная. Это означает, что:

$y=w_0+w_1x_1+w_2x_2+…+w_kx_k,$

или 

$y=(\overrightarrow{w}, \overrightarrow{x})$

Здесь $\overrightarrow{w}=(w_0,w_1,…,w_k)^T$ обозначают веса (коэффициенты уравнения линейной регрессии), а $\overrightarrow{x}=(1,x_1, x_2,…, x_k)^T$.

>Наличие коэффициента $w_0$ говорит о том, что мы строим регрессию с константой, или, как ещё иногда говорят, с **интерсептом**.

Пока что коэффициенты $w$ нам неизвестны. Как же их найти?

Для этого у нас есть $N$ наблюдений — обучающий набор данных.

Давайте попробуем подобрать такие веса $w$, чтобы для каждого наблюдения наше равенство было выполнено. Таким образом, получается $N$ уравнений на $k+1$ неизвестную.

$\left(\begin{array}{} y_1 \\ y_2 \\ \dots \\ y_N\end{array}\right)=w_0\cdot \left(\begin{array}{} 1 \\ 2 \\ \dots \\ 1 \end{array}\right)+w_1 \cdot\left(\begin{array}{} x_11 \\ x_12 \\ \dots \\ x_1N\end{array}\right)+ \dots +w_k\cdot \left(\begin{array}{} x_k1 \\ x_k2 \\ \dots \\ x_kN\end{array}\right)$

Или в привычном виде систем уравнений:

$\left\{\begin{array}{} w_0 1+w_1 x_{11} + \dots +w_k x_{k1}=y_1 \\ w_0 1+w_1 x_{12} + \dots +w_k x_{k2}=y_2 \\ \dots \\ w_0 1+w_1 x_{1N} + \dots +w_k x_{kN}=y_N \end{array}\right.$

>Говоря на языке машинного обучения, мы хотим обучить такую модель, которая описывала бы зависимость целевой переменной от факторов на обучающей выборке.

Как правило, $N$ гораздо больше $k$ (количество строк с данными в таблице намного больше количества столбцов) и система переопределена, значит точного решения нет. Поэтому можно найти только приближённое.

>**Примечание**. Полученной СЛАУ можно дать геометрическую интерпретацию. Если представить каждое наблюдение в виде точки на графике (см. ниже), то уравнение линейной регрессии будет задавать прямую (если фактор один) или гиперплоскость (если факторов $k$ штук). Приравняв уравнение прямой к целевому признаку, мы потребовали, чтобы эта прямая проходила через все точки в нашем наборе данных. Конечно же, это условие не может быть выполнено полностью, так как в данных всегда присутствует какой-то шум, и идеальной прямой (гиперплоскости) не получится, но зато можно построить приближённое решение.
>
><img src=m2_img2.png width=400>
>
>**Обратите внимание**, что у нас появился новый вектор из единиц. Он здесь из-за того, что мы взяли модель с интерсептом. Можно считать, что это новый регрессор-константа. Данная константа тянется из уравнения прямой, которое мы разбирали в модуле «ML-2. Обучение с учителем: регрессия».

Мы уже умеем решать переопределённые системы, для этого мы должны составить матрицу системы $A$, записав в столбцы все наши регрессоры, включая регрессор константу:

$A=\left(\begin{array}{} 1 & x_{11} & \dots & x_{k1} \\ 1 & x_{12} & \dots & x_{k2} \\ \dots & \dots & \dots & \dots \\ 1 & x_{1N} & \cdot & x_{kN} \end{array}\right) \Rightarrow N - строк, k+1 - столбец$

>**Примечание**. В контексте задач машинного обучения матрица $A$ называется **матрицей наблюдений**: по строкам отложены наблюдения (объекты), а по столбцам — характеризующие их признаки. В модулях по машинному обучению мы в основном обозначали её за $X$. Здесь же мы будем придерживаться традиций линейной алгебры и обозначать матрицу за $A$.
>
>**Примечание**. Обратите внимание, что индексация матрицы $A$ отличается от привычной нам индексации матрицы. Например, здесь $x_{12}$ — второе наблюдение первого регрессора. Это чистая формальность. Если обозначать за первый индекс номер наблюдения, а за второй индекс — номер регрессора, мы получим привычную нам нумерацию элементов матрицы (строка-столбец).

Осталось записать финальную формулу `OLS`-оценки для коэффициентов:

$\hat{\overrightarrow{w}} = (A^T A)^{-1} A^T \overrightarrow{y}$

Казалось бы, задача решена, однако это совсем не так, ведь мы искали коэффициенты не просто так, а чтобы сделать прогноз — предсказание на новых данных.

Допустим, у нас есть новое наблюдение по регрессорам, которое характеризуется признаками $\overrightarrow{x}_{NEW} = (x_{1, NEW}, x_{2, NEW}, ..., x_{k, NEW})^T$. Тогда, предсказание будет строиться следующим образом:

$\vec{y}_{NEW} = \vec{w}_0 + \vec{w}_1 x_{1, NEW} + ... + \vec{w}_k x_{k, NEW}$

или

$\vec{y}_{NEW} = (\hat{\vec{w}}, \vec{x}_{NEW})$

Теперь перейдём от формул к практике и решим задачу в контексте.

*** 
Рассмотрим классический датасет для обучения линейной регрессии — `Boston Housing`. В нём собраны усреднённые данные по стоимости недвижимости в 506 районах Бостона. Ниже вы видите фрагмент датасета.

Целевой переменной будет $\textcolor{red}{PRICE}$ — это, в некотором смысле, типичная (медианная) стоимость дома в районе.

Для примера возьмём в качестве регрессоров уровень преступности $\textcolor{blue}{CRIM}$ и среднее количество комнат в доме $\textcolor{blue}{RM}$.

<img src=m2_img3.png width=600>

Запишем нашу модель:

$y=w_0+w_1 \cdot x_1+w_2 \cdot x_2$

Для наглядности обозначим:

$y=w_0+w_1 \cdot CRIM+w_2 \cdot RM$

Составим матрицу регрессоров:

$A=\left(\begin{array}{} 1 & CRIM_1 & RM_1 \\ 1 & CRIM_2 & RM_2 \\ \dots & \dots & \dots \\ 1 & CRIM_N & RM_N \end{array}\right)$

В нашем случае $N=506$, а $k=2$. Размерность матрицы $A$ будет равна $\mathbb{dim}A=(506,3)$. Далее мы применяем формулу для вычисления оценок коэффициентов:

$\hat{\vec{w}} = (A^T A)^{-1} A^T \vec{y}$

Вычисления к этой задаче мы сделаем в `Python` ниже, а пока приведём конечный результат. Если сократить запись до двух знаков после точки, получим следующие коэффициенты:

$\hat{\vec{w}} = (-29.3, \ -0.26, \ 8.4)^T$

То есть:

$\hat{w}_0 = -29.3$

$\hat{w}_1 = -0.26$

$\hat{w}_2 = 8.4$

Мы можем переписать нашу модель для прогноза:

$\hat{y} = -29.3 - 0.26 \cdot CRIM + 8.4 \cdot RM$

Теперь, если у нас появятся новые наблюдения, то есть ещё один небольшой район с уровнем преступности 0.1 на душу населения и средним количеством комнат в доме, равным 8, мы сможем сделать прогноз на типичную стоимость дома в этом районе — 37 тысяч долларов:

$CRIM_{NEW} = 0.1$

$RM_{NEW} = 8$

$\hat{y}_{NEW} = -29.3 -0.26 \cdot 0.1 + 8.4 \cdot 8 \approx 37$

*** 
## → Решение на Python

In [14]:
# Загрузка библиотек
import numpy as np # для работы с массивами
import pandas as pd # для работы с DataFrame 
#from sklearn import datasets # для импорта данных
import seaborn as sns # для визуализации статистических данных
import matplotlib.pyplot as plt # для построения графиков

# загружаем датасет
"""boston = datasets.load_boston()
boston_data = pd.DataFrame(
    data=boston.data, #данные
    columns=boston.feature_names #наименования столбцов
)
boston_data['PRICE'] = boston.target"""
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'PRICE']
boston_data = pd.read_csv('housing.csv', header=None, delimiter=r"\s+", names=column_names)
boston_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


Формируем матрицу $A$ из столбца единиц и факторов $CRIM$ и $RM$, а также вектор целевой переменной $y$:

In [15]:
# составляем матрицу А и вектор целевой переменной
CRIM = boston_data['CRIM']
RM = boston_data['RM']
A = np.column_stack((np.ones(506), CRIM, RM))
y = boston_data[['PRICE']]
print(A)

[[1.0000e+00 6.3200e-03 6.5750e+00]
 [1.0000e+00 2.7310e-02 6.4210e+00]
 [1.0000e+00 2.7290e-02 7.1850e+00]
 ...
 [1.0000e+00 6.0760e-02 6.9760e+00]
 [1.0000e+00 1.0959e-01 6.7940e+00]
 [1.0000e+00 4.7410e-02 6.0300e+00]]


Посмотрим на размерность матрицы $A$:

In [48]:
# проверим размерность
print(A.shape)

(506, 3)


Теперь нам ничего не мешает вычислить оценку вектора коэффициентов $w$ по выведенной нами формуле МНК:

In [49]:
# вычислим OLS-оценку для коэффициентов
w_hat = np.linalg.inv(A.T@A)@A.T@y
print(w_hat.values)

[[-29.24471945]
 [ -0.26491325]
 [  8.39106825]]


Теперь составим прогноз нашей модели:

In [50]:
# добавились новые данные:
CRIM_new = 0.1
RM_new = 8
# делаем прогноз типичной стоимости дома
PRICE_new = w_hat.iloc[0]+w_hat.iloc[1]*CRIM_new+w_hat.iloc[2]*RM_new
print(PRICE_new.values)

[37.85733519]


Согласитесь, такая запись вычисления оценки стоимости слишком длинная и неудобная, особенно если факторов не два, как у нас, а 200. Более короткий способ сделать прогноз — вычислить скалярное произведение вектора признаков и коэффициентов регрессии.

Для удобства дальнейшего использования оформим характеристики нового наблюдения в виде матрицы размером $(1, 3)$:

In [51]:
new=np.array([[1,CRIM_new,RM_new]])
print('prediction:', (new@w_hat).values)

prediction: [[37.85733519]]


>**Примечание**. Обратите внимание, что, решая задачу с помощью `Python`, мы получили немного другой результат прогноза стоимости. Это связано с тем, что при выполнении ручного расчёта мы округлили значения коэффициентов и получили менее точный результат.

Мы уже знаем, что алгоритм построения модели линейной регрессии по МНК реализован в классе `LinearRegression`, находящемся в модуле `sklearn.linear_model`. Для вычисления коэффициентов (обучения модели) нам достаточно передать в метод `fit()` нашу матрицу с наблюдениями и вектор целевой переменной, а для построения прогноза — вызвать метод `predict()`:

In [52]:
from sklearn.linear_model import LinearRegression
# создаём модель линейной регрессии
model = LinearRegression(fit_intercept=False)
# вычисляем коэффициенты регрессии
model.fit(A, y)
print('w_hat:', model.coef_)
new_prediction = model.predict(new)
print('prediction:', new_prediction)

w_hat: [[-29.24471945  -0.26491325   8.39106825]]
prediction: [[37.85733519]]


>Примечание. Здесь при создании объекта класса `LinearRegression` мы указали `fit_itercept=False`, так как в нашей матрице наблюдений $A$ уже присутствует столбец с единицами для умножения на свободный член $w_0$. Его повторное добавление не имеет смысла.

Сделайте прогноз типичной стоимости (в тыс. долларов) дома в городе с уровнем преступности $CRIM=0.2$ и средним количеством комнат в доме $RM=6$. В качестве модели используйте линейную регрессию, оценка вектора коэффициентов которой равна: $\hat{\vec{w}} = (-29.3, \ -0.26, \ 8.4)$

In [53]:
# добавились новые данные:
CRIM_new = 0.2
RM_new = 6
# делаем прогноз типичной стоимости дома
PRICE_new = w_hat.iloc[0]+w_hat.iloc[1]*CRIM_new+w_hat.iloc[2]*RM_new
print(PRICE_new.values)

[21.04870738]


## ПРОБЛЕМЫ В КЛАССИЧЕСКОЙ МНК-МОДЕЛИ

Заметим, что в уравнении классической `OLS`-регрессии присутствует очень важный множитель $A^TA$:

$\vec{w}=\left(A^{T} A\right)^{-1} A^{T}\vec{y}$

Вы могли заметить, что это матрица Грама значений наших признаков, включая признак-константу.

Вспомним свойства этой матрицы: 

* квадратная (размерности $k+1$ на $K+1$, где $k$ — количество факторов);

* симметричная.

>Как и у любого метода, у классической `OLS`-регрессии есть свои **ограничения**. Если матрица $A^TA$ вырождена или близка к вырожденной, то хорошего решения у классической модели не получится. Такие данные называют **плохо обусловленными**.

***

Корректна ли модель классической `OLS`-регрессии, если

$\vec{y}=\left(\begin{array}{} 1\\2\\5\\1\end{array}\right), \vec{x_1}=\left(\begin{array}{} 2\\1\\1\\2\end{array}\right), \vec{x_2}=\left(\begin{array}{} -2\\-1\\-1\\-2\end{array}\right)$

Запишем матрицу $A$ и вычислим $A^TA$:

$A=(\vec{1}, \vec{x_1}, \vec{x_2})=\left(\begin{array}{} 1&2&-2\\1&1&-1\\1&1&-1\\1&2&-2\end{array}\right)$

$A^TA=\left(\begin{array}{} 1&1&1&1\\2&1&1&2\\-2&-1&-1&-2\end{array}\right)\cdot\left(\begin{array}{} 1&2&-2\\1&1&-1\\1&1&-1\\1&2&-2\end{array}\right)=\left(\begin{array}{} 4&6&-6\\6&10&-10\\-6&-10&10\end{array}\right)$

Как видите, две последние строки матрицы $A^TA$ являются пропорциональными. Это говорит о том, что матрица вырождена $(det A^T A =0)$ или её ранг $(rkA)$ меньше количества неизвестных $(3)$, а значит обратной матрицы $(A^TA)^{-1}$ к ней не существует. Отсюда следует, что классическая `OLS`-модель **неприменима для этих данных**.

>Борьба с вырожденностью матрицы $A^TA$ часто сводится к устранению «плохих» (зависимых) признаков. Для этого анализируют корреляционную матрицу признаков или матрицу их значений. Но иногда проблема может заключаться, например, в том, что один признак измерен в тысячных долях, а другой — в тысячах единиц. Тогда коэффициенты при них могут отличаться в миллион раз, что потенциально может привести к вырожденности матрицы $A^TA$.

В устранении этой проблемы может помочь знакомая нам **нормализация/стандартизация данных**.

## ОСОБЕННОСТИ КЛАССА LINEAR REGRESSION БИБЛИОТЕКИ SKLEARN

Давайте посмотрим, что «скажет» `Python`, если мы попробуем построить модель линейной регрессии на вырожденной матрице наблюдений, используя классическую формулу линейной регрессии.

In [54]:
# создадим вырожденную матрицу А
A = np.array([
    [1, 1, 1, 1], 
    [2, 1, 1, 2], 
    [-2, -1, -1, -2]]
).T
y = np.array([1, 2, 5, 1])
# вычислим OLS-оценку для коэффициентов
w_hat=np.linalg.inv(A.T@A)@A.T@y
print(w_hat) 

LinAlgError: Singular matrix

Как и ожидалось, мы получили ошибку, говорящую о том, что матрица $A^TA$ — сингулярная (вырожденная), а значит обратить её не получится. Что и требовалось доказать — с математикой всё сходится.

⭐ Настало время фокусов!

Попробуем обучить модель линейной регрессии `LinearRegression` из модуля `sklearn`, используя нашу вырожденную матрицу :

In [57]:
# создаём модель линейной регрессии
model = LinearRegression(fit_intercept=False)
# вычисляем коэффициенты регрессии
model.fit(A, y)
print('w_hat:', model.coef_)

w_hat: [ 6.   -1.25  1.25]


Никакой ошибки не возникло! Более того, у нас даже получились вполне адекватные оценки коэффициентов линейной регрессии $\hat{\vec{w}}$.

?Но ведь мы только что использовали формулу для вычисления коэффициентов при расчётах вручную и получали ошибку. Как мы могли получить результат, если матрица $A^TA$ вырожденная? Существование обратной матрицы для неё противоречит законам линейной алгебры. Неужели это очередной случай, когда «мнения» математики и Python расходятся?

На самом деле, не совсем. Здесь нет никакой магии, ошибки округления или бага. Просто в реализации линейной регрессии в `sklearn` предусмотрена **борьба с плохо определёнными (близкими к вырожденным и вырожденными) матрицами**.

>Для этого используется метод под названием **сингулярное разложение** (`SVD`). О нём мы будем говорить отдельно, однако уже сейчас отметим тот факт, что данный метод позволяет всегда получать корректные значения при обращении матриц.
>
>Если вы хотите понять, почему так происходит, ознакомьтесь с этой [статьёй](https://towardsdatascience.com/understanding-linear-regression-using-the-singular-value-decomposition-1f37fb10dd33).
>
>**Суть метода** заключается в том, что в `OLS`-формуле мы на самом деле используем не саму матрицу $A$, а её диагональное представление из сингулярного разложения, которое гарантированно является невырожденным. Вот и весь секрет.

?Правда, открытым остаётся вопрос: **можно ли доверять коэффициентам**, полученным таким способом, и интерпретировать их? 

В дальнейшем мы увидим, что делать этого лучше не стоит: возможна такая ситуация, при которой коэффициенты при линейно зависимых факторах, которые получаются в результате применения линейной регрессии через сингулярное разложение, могут получиться слишком большими по модулю. Они могут измеряться миллионами, миллиардами и более высокими порядками, что не будет иметь отношения к действительности. Такие коэффициенты не подлежат интерпретации.

Заметим, что в случае использования решения через сингулярное разложение для линейно зависимых столбцов коэффициенты будут всегда получаться одинаковыми по модулю, но различными по знаку: $w_1=-1.25$ и $w_2=1.25$. Неудивительно, ведь второй и третий столбцы матрицы $A$ линейно зависимы с коэффициентом $-1$.

Запишем итоговое уравнение линейной регрессии:

$y=w_{0} \overrightarrow{1}+w_{1} \vec{x}_{1}+w_{2} \vec{x}_{2}=6-1.25 \cdot \vec{x}_{1}+1.25 \cdot \vec{x}_{2},$

поставим столбцы матрицы $A$ в данное уравнение, чтобы получить прогноз:

$\vec{y}=6\left(\begin{array}{} 1\\1\\1\\1\end{array}\right)-1.25\left(\begin{array}{} 2\\1\\1\\2\end{array}\right)+1.25\left(\begin{array}{} -2\\-1\\-1\\-2\end{array}\right)=\left(\begin{array}{} 1\\3.5\\3.5\\1\end{array}\right)$

>**Примечание**. На самом деле сингулярное разложение зашито в функцию `np.linalg.lstsq()`, которая позволяет в одну строку построить модель линейной регрессии по МНК:
>
>классическая `OLS`-регрессия в numpy с возможностью получения решения даже для вырожденных матриц
>
>`np.linalg.lstsq(A, y, rcond=None)`
>
>Функция возвращает четыре значения:
>
>* вектор рассчитанных коэффициентов линейной регрессии;
>
>* сумму квадратов ошибок, `MSE` (она не считается, если ранг матрицы $A$ меньше числа неизвестных, как в нашем случае);
>
>* ранг матрицы $A$;
>
>* вектор из сингулярных значений, которые как раз и оберегают нас от ошибки (о них мы поговорим позже).
>
>Обратите внимание, что мы получили те же коэффициенты, что и с помощью `sklearn`. При этом ранг матрицы $A$ равен 2, что меньше количества неизвестных коэффициентов. Это ожидаемо говорит о вырожденности матрицы $A$ и, как следствие, матрицы $A^TA$.

*** 
## Резюмируем ↓

* Для поиска коэффициентов модели линейной регрессии используется МНК-оценка: 

$\vec{w}=\left(A^{T} A\right)^{-1} A^{T} \vec{y}$

* Полученная матричная формула не зависит от размерности матрицы наблюдений $A$ и работает при любом количестве объектов/признаков в данных.

* Для реализации обучения модели линейной регрессии по `МНК` в `sklearn` используется класс `LinearRegression`.

* Для предотвращения обращения вырожденной матрицы $A$ в `LinearRegression` вместо самой матрицы используется её сингулярное разложение. Поэтому на практике при построении модели линейной регрессии вместо ручного вычисления обратной матрицы с помощью `np.inv()` приоритетнее пользоваться именно `LinearRegression` из `sklearn` (или `np.linalg.lstsq()`).

Данный метод оберегает от ошибки только при обращении плохо обусловленных и вырожденных матриц и не гарантирует получение корректных коэффициентов линейной регрессии.

# 4. Стандартизация векторов и матрица корреляции <a class="anchor" id=4></a>

[к содержанию](#0)

## СТАНДАРТИЗАЦИЯ ВЕКТОРОВ

В модулях по разведывательному анализу данных и машинному обучению мы не раз говорили о преобразованиях признаков путём нормализации и стандартизации. Вспомним, что это такое ↓

>**Нормализация** — это процесс приведения признаков к единому масштабу, например от 0 до 1. Пример — min-max-нормализация:
>
>$x_{scaled} =  \frac{x - x_{min}}{x_{max} - x_{min}}$
>
>**Стандартизация** — это процесс приведения признаков к единому масштабу характеристик распределения — нулевому среднему и единичному стандартному отклонению:
>
>$x_{scaled} =  \frac{x - x_{mean}}{x_{std}}$

В линейной алгебре под стандартизацией вектора $\vec{x} \in \mathbb{R}^n$ понимается несколько другая операция, которая проходит в два этапа:

1. Центрирование вектора — это операция приведения среднего к 0:

$\vec{x}_{cent} = \vec{x} - \vec{x}_{mean}$

2. Нормирование вектора — это операция приведения диапазона вектора к масштабу от -1 до 1 путём деления центрированного вектора на его длину:

$\vec{x}_{st} =  \frac{\vec{x}_{cent}}{ \| \vec{x}_{cent} \| },$

где $\vec{x}_{mean}$ — вектор, составленный из среднего значения вектора $\vec{x}$, а $\| \vec{x}_{cent} \|$ — длина вектора  $\vec{x}_{cent}$.

В результате стандартизации вектора всегда получается новый вектор, длина которого равна 1:

$\| \vec{x}_{st} \|  = 1$

**Пример № 1**

Необходимо стандартизировать векторы:

$\vec{x_1}=\left(\begin{array}{} 1\\2\\3 \end{array}\right)$ и $\vec{x_2}=\left(\begin{array}{} 3000\\1000\\2000 \end{array}\right)$

Центрируем:

$\vec{x_1}=\frac{1+2+3}{3}=3$

$\vec{x}_{1cent}=\left(\begin{array}{} 1\\2\\3 \end{array}\right)-\left(\begin{array}{} 3\\3\\3 \end{array}\right)=\left(\begin{array}{} -2\\-1\\3 \end{array}\right)$

$\vec{x_2}=\frac{3000+1000+2000}{3}=2000$

$\vec{x}_{2cent}=\left(\begin{array}{} 3000\\1000\\2000 \end{array}\right)-\left(\begin{array}{} 2000\\2000\\2000 \end{array}\right)=\left(\begin{array}{} 1000\\-1000\\0 \end{array}\right)$

Нормируем:

$\| \vec{x}_{1cent} \| =\sqrt{(-2)^2 + (-1)^2 + 3^2}=\sqrt{14}$

$\| \vec{x}_{1st} \| = \frac{1}{\| \vec{x}_{1cent} \|}\cdot\vec{x}_{1cent}=\frac{1}{\sqrt{14}}\cdot\left(\begin{array}{} -2\\-1\\3 \end{array}\right)\approx\left(\begin{array}{} -0.535\\-0.267\\0.802 \end{array}\right)$

$. $

$\| \vec{x}_{2cent} \| =\sqrt{(1000)^2 + (-1000)^2 + 0^2}=1000\sqrt{2}$

$\| \vec{x}_{2st} \| = \frac{1}{\| \vec{x}_{2cent} \|}\cdot\vec{x}_{2cent}=\frac{1}{1000\sqrt{2}}\cdot\left(\begin{array}{} 1000\\-1000\\0 \end{array}\right)\approx\left(\begin{array}{} 0.707\\-0.707\\0 \end{array}\right)$

Как видите, теперь оба признака имеют значения от -1 до 1 и равный порядок, в отличие от исходных признаков.

Давайте посмотрим, что произойдёт с матрицей Грама после стандартизации векторов $\vec{x}_1$ и $\vec{x}_2$:

**Пример № 2**

Найти матрицу для стандартизированных признаков для

$\vec{x_1}=\left(\begin{array}{} 1\\2\\3 \end{array}\right)$ и $\vec{x_2}=\left(\begin{array}{} 3000\\1000\\2000 \end{array}\right)$

Вычислим попарные скалярные произведения новых признаков:

$G(\vec{x}_{1,st},\vec{x}_{2,st})=G(\left(\begin{array}{} -0.535\\-0.267\\0.802 \end{array}\right),\left(\begin{array}{} 0.707\\-0.707\\0 \end{array}\right))=\left(\begin{array}{} (\vec{x}_{1,st},\vec{x}_{1,st}) & (\vec{x}_{1,st},\vec{x}_{2,st}) \\ (\vec{x}_{2,st},\vec{x}_{1,st}) & (\vec{x}_{2,st},\vec{x}_{2,st})  \end{array}\right)=\left(\begin{array}{} 1 & -0.189 \\ -0.189 & 1 \end{array}\right)$

Как видите, все числа — в диапазоне от -1 до 1. 

>Забегая вперёд, скажем, что это так называемые **выборочные корреляции признаков**, а сама матрица является **матрицей корреляций** или **корреляционной матрицей**. Пока просто запомните, как выглядит эта матрица.

Вот **ещё одна особенность стандартизации** ↓

До стандартизации мы прогоняли регрессию $y$ на регрессоры $x_1, x_2, …, x_k$ и константу. Всего получалось $k+1$ коэффициентов:

$\vec{y}=w_{0}+w_{1} \vec{x}_{1}+w_{2} \vec{x}_{2}+\ldots+w_{k} \vec{x}_{k}$

После стандартизации мы прогоняем регрессию стандартизованного $y$ на стандартизованные регрессоры **без константы**:

$\vec{y}=w_{1_{st}} \vec{x}_{1_{st}}+w_{2_{st}} \vec{x}_{2_{st}}+\ldots+w_{k_{st}} \vec{x}_{k_{st}}$

Математически мы получим одну и ту же регрессию в том смысле, что если пересчитать стандартизированные коэффициенты, мы получим исходные. То же и с прогнозом (пересчёт здесь опустим).

***

**В ЧЁМ БОНУСЫ?**

Математика говорит, что регрессия исходного $y$ на исходные («сырые») признаки c константой точно такая же, как регрессия стандартизированного на стандартизированные признаки без константы. В чём же разница? Математически — ни в чём.

На прогноз модели линейной регрессии, построенной по МНК, и её качество стандартизация практически не влияет. Масштабы признаков будут иметь значение только в том случае, если для поиска коэффициентов вы используете численные методы, такие как градиентный спуск (`SGDRegressor` из `sklearn`). О нём мы поговорим, когда будем знакомиться с алгоритмом градиентного спуска в модуле по оптимизации.

Однако с точки зрения интерпретации важности коэффициентов разница есть. Если вы занимаетесь отбором наиболее важных признаков по значению коэффициентов линейной регрессии на нестандартизированных данных, это будет не совсем корректно: один признак может изменяться от 0 до 1, а второй — от -1000 до 1000. Коэффициенты при них также будут различного масштаба. Если же вы посмотрите оценки коэффициентов регрессии после стандартизации, то они будут в едином масштабе, что даст более цельную и объективную картину.

Более важный бонус заключается в том, что после стандартизации матрица Грама признаков как по волшебству превращается в корреляционную матрицу, о которой пойдёт речь далее. Почему это хорошо? На свойства корреляционной матрицы опираются такие алгоритмы, как метод главных компонент и сингулярное разложение, а так как «сырая» и стандартизированная регрессия математически эквивалентны, то имеет смысл исследовать стандартизированную, а результаты обобщить на «сырую».

**Пример № 3**

Вновь рассмотрим данные о стоимости жилья в районах Бостона.

На этот раз возьмём четыре признака: `CHAS`, `LSTAT`, `CRIM` и `RM`.

In [58]:
boston_data[['CHAS', 'LSTAT', 'CRIM','RM']].describe()

Unnamed: 0,CHAS,LSTAT,CRIM,RM
count,506.0,506.0,506.0,506.0
mean,0.06917,12.653063,3.613524,6.284634
std,0.253994,7.141062,8.601545,0.702617
min,0.0,1.73,0.00632,3.561
25%,0.0,6.95,0.082045,5.8855
50%,0.0,11.36,0.25651,6.2085
75%,0.0,16.955,3.677083,6.6235
max,1.0,37.97,88.9762,8.78


Видим, что каждый из признаков измеряется в различных единицах и изменяется в различных диапазонах: например, `CHAS` лежит в диапазоне от 0 до 1, а вот `CRIM` — в диапазоне от 0.006 до 88.976.

Рассмотрим модель линейной регрессии по МНК без стандартизации. Помним, что необходимо добавить столбец из единиц:

In [59]:
# составляем матрицу наблюдений и вектор целевой переменной
A = np.column_stack((np.ones(506), boston_data[['CHAS', 'LSTAT', 'CRIM','RM']]))
y = boston_data[['PRICE']]
# вычисляем OLS-оценку для коэффициентов без стандартизации
w_hat=np.linalg.inv(A.T@A)@A.T@y
print(w_hat.values)

[[-1.92052548]
 [ 3.9975594 ]
 [-0.58240212]
 [-0.09739445]
 [ 5.07554248]]


Вот наши коэффициенты. Округлим их для наглядности:

$\hat{w}_0 = -1.92$

$\hat{w}_{CHAS} = 4$

$\hat{w}_{LSTAT} = -0.6$

$\hat{w}_{CRIM} = -0.1$

$\hat{w}_{RM} = 5$

Давайте вспомним интерпретацию коэффициентов построенной модели линейной регрессии, которую мы изучали в модуле «ML-2. Обучение с учителем: регрессия». Значение коэффициента $\hat{w}_i$ означает, на сколько в среднем изменится медианная цена (в тысячах долларов) при увеличении $x_i$ на 1.

Например, если количество низкостатусного населения (`LSTAT`) увеличится на 1 %, то медианная цена домов в районе (в среднем) упадёт на 0.1 тысяч долларов. А если среднее количество комнат (`RM`) в районе станет больше на 1, то медианная стоимость домов в районе (в среднем) увеличится на 5 тысяч долларов. 

>Тут в голову может прийти мысль: судя по значению коэффициентов, количество комнат (`RM`) оказывает на стоимость жилья большее влияние, чем процент низкостатусного населения (`LSTAT`). Однако **такой вывод будет ошибочным**. Мы не учитываем, что признаки, а значит и коэффициенты линейной регрессии, лежат в разных масштабах. Чтобы говорить о важности влияния признаков на модель, нужно строить её на стандартизированных данных.

Помним, что для построения стандартизированной линейной регрессии нам не нужен вектор свободных коэффициентов, а значит и столбец из единиц тоже не понадобится.

Сначала центрируем векторы, которые находятся в столбцах матрицы $A$. Для этого вычтем среднее, вычисленное по строкам матрицы $A$ в каждом столбце, с помощью метода `mean()`. Затем разделим результат на длины центрированных векторов, вычисленных с помощью функции `linalg.norm()`.

>**Примечание**. Обратите внимание, что для функции `linalg.norm()` обязательно необходимо указать параметр `axis=0`, так как по умолчанию норма считается для всей матрицы, а не для каждого столбца в отдельности. С определением нормы матрицы и тем, как она считается, вы можете ознакомиться в [документации к функции norm()](https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html).


In [60]:
# составляем матрицу наблюдений без дополнительного столбца из единиц
A = boston_data[['CHAS', 'LSTAT', 'CRIM','RM']]
y = boston_data[['PRICE']]
# стандартизируем векторы в столбцах матрицы A
A_cent = A - A.mean()
A_st = A_cent/np.linalg.norm(A_cent, axis=0)
A_st.describe().round(2)

Unnamed: 0,CHAS,LSTAT,CRIM,RM
count,506.0,506.0,506.0,506.0
mean,-0.0,-0.0,0.0,-0.0
std,0.04,0.04,0.04,0.04
min,-0.01,-0.07,-0.02,-0.17
25%,-0.01,-0.04,-0.02,-0.03
50%,-0.01,-0.01,-0.02,-0.0
75%,-0.01,0.03,0.0,0.02
max,0.16,0.16,0.44,0.16


Теперь векторы имеют одинаковые средние значения и стандартные отклонения. Если вычислить длину каждого из векторов, мы увидим, что они будут равны 1:

In [61]:
print(np.linalg.norm(A_st, axis=0))

[1. 1. 1. 1.]


Для получения стандартизированных коэффициентов нам также понадобится стандартизация целевой переменной $y$ по тому же принципу:

In [62]:
# стандартизируем вектор целевой переменной
y_cent = y - y.mean()
y_st = y_cent/np.linalg.norm(y_cent)

Формула для вычисления коэффициента та же, что и раньше, только матрица $A$ теперь заменяется на $A_{st}$, а $y$ — на $y_{st}$:

In [63]:
# вычислим OLS-оценку для стандартизированных коэффициентов
w_hat_st=np.linalg.inv(A_st.T@A_st)@A_st.T@y_st
print(w_hat_st.values)

[[ 0.11039956]
 [-0.45220423]
 [-0.09108766]
 [ 0.38774848]]


Вновь смотрим на коэффициенты. Помним, что коэффициента $\hat{w}_0$ у нас больше нет:

$\hat{w}_{CHAS} = 0.11$

$\hat{w}_{LSTAT} = -0.45$

$\hat{w}_{CRIM} = -0.09$

$\hat{w}_{RM} = 0.38$

Итак, мы видим картину, прямо противоположную той, что видели ранее. Теперь модуль коэффициента $\left|\hat{w}_{LSTAT, \ st} \right| = 0.45$ будет выше, чем модуль коэффициента $\left|\hat{w}_{RM, \ st} \right| = 0.38$. Значит, процент низкостатусного населения оказывает большее влияние на значение стоимости жилья, чем количество комнат.

Однако теперь интерпретировать сами коэффициенты в тех же измерениях у нас не получится.

***

**Сделаем важный вывод** ↓

Для того чтобы проинтерпретировать оценки коэффициентов линейной регрессии (понять, каков будет прирост целевой переменной при изменении фактора на 1 условную единицу), нам достаточно построить линейную регрессию в обычном виде без стандартизации и получить обычный вектор $\hat{\vec{w}}$.

Однако, чтобы корректно говорить о том, какой фактор оказывает на прогноз большее влияние, необходимо рассматривать стандартизированную оценку вектора коэффициентов $\hat{\vec{w}}_{st}$.

Давайте поближе взглянем на матрицу Грама для стандартизированных факторов:

In [64]:
# матрица Грама
A_st.T @ A_st

Unnamed: 0,CHAS,LSTAT,CRIM,RM
CHAS,1.0,-0.053929,-0.055892,0.091251
LSTAT,-0.053929,1.0,0.455621,-0.613808
CRIM,-0.055892,0.455621,1.0,-0.219247
RM,0.091251,-0.613808,-0.219247,1.0


На самом деле мы с вами только что вычислили **матрицу выборочных корреляций** наших исходных факторов. Мы уже сталкивались с ней много раз в разделах по разведывательному анализу данных и машинному обучению, правда, вычисляли её мы с помощью функции `Pandas`, а теперь научились делать это вручную.

>**Примечание**. Матрицу корреляций можно получить только в том случае, если производить стандартизацию признаков как векторы (делить на длину центрированного вектора $\vec{x}_{st}$). Другие способы стандартизации/нормализации признаков не превращают матрицу Грама в матрицу корреляций.

## КОРРЕЛЯЦИОННАЯ МАТРИЦА

>Напомним, что **корреляционная матрица** $C$ — это матрица выборочных корреляций между факторами регрессий.

$C=\mathbb{corr}(X)$

Корреляция является одной из важнейших статистических характеристик выборки. Как мы уже знаем из модуля «EDA-2. Математическая статистика в контексте EDA», корреляцию можно измерять различным способами:

* корреляцией Пирсона;

* корреляцией Спирмена;

* корреляцией Кендалла.

В этом модуле мы будем говорить именно о **корреляции Пирсона**. Она измеряет тесноту линейных связей между непрерывными числовыми факторами и может принимать значения от -1 до +1.

$c_{ij} = corr(\vec{x}_{i}, \vec{x}_{j})$

Как и любая статистическая величина, корреляция бывает **генеральной** и **выборочной**. Разница очень тонкая, и мы подробнее разберём её в модуле по теории вероятностей.

>**Генеральная (истинная) корреляция** — это теоретическая величина, которая отражает общую линейную зависимость между случайными величинами $X_i$ и $X_j$. Забегая вперёд скажем, что данная характеристика является абстрактной и вычисляется для **генеральных совокупностей** — всех возможных реализаций $X_i$ и $X_j$. В природе такой величины не существует, она есть только в теории вероятностей.

>>**Выборочная корреляция** — это корреляция, вычисленная на ограниченной выборке. Это уже ближе к нашей теме. Выборочная корреляция отражает линейную взаимосвязь между факторами $\vec{x}_i$ и $\vec{x}_j$, реализации которых представлены в выборке.

Выборочная корреляция между факторами высчитывается по громоздкой (на первый взгляд) формуле:

$c_{ij} = corr(\vec{x}_{i}, \vec{x}_{j})=\frac{\sum^n_{l=1}(\vec{x}_{il}-x_{imean})(\vec{x}_{jl}-x_{jmean})}{\sqrt{\sum^n_{l=1}(\vec{x}_{il}-x_{imean})^2\cdot(\vec{x}_{jl}-x_{jmean})^2}}$

Из вычисленных $c_{ij}$ как раз и составляется матрица корреляций $C$. Если факторов $k$ штук, то матрица $C$ будет квадратной размера $dim C =(k,k)$:

$C=\left(\begin{array}{} c_{11}&c_{12}&\dots&c_{1k}\\ c_{21}&c_{22}&\dots&c_{2k}\\ \dots&\dots&\dots&\dots\\ c_{k1}&c_{k2}&\dots&c_{kk}\end{array}\right)$

Давайте разберём представленную выше формулу на простом примере. Но сначала нас вновь будут ждать довольно сложные формулы — не пугайтесь.



**Пример № 1**

Найти выборочную корреляцию факторов:

$\vec{x}_1=\left(\begin{array}{} 1\\ 2\\ 6\end{array}\right)$ и $\vec{x}_1=\left(\begin{array}{} 3000\\ 1000\\ 2000\end{array}\right)$

Смотрим на формулу для выборочной корреляции. Чтобы вычислить коэффициент корреляции $c_{12}$, необходимо предварительно вычислить $\vec{x}_{1mean}$ и $\vec{x}_{2mean}$ — средние значения координат векторов.

Мы уже вычисляли их ранее:

$\vec{x}_{1mean}=\frac{1+2+6}{3}=3$

$\vec{x}_{2mean}=\frac{3000+1000+2000}{3}=2000$

Далее нужно вычислить числитель:

$\sum^{n}_{l=1}(\vec{x}_{1l}-{x}_{1mean})(\vec{x}_{2l}-{x}_{2mean})$

Если присмотреться, можно заметить не что иное, как скалярное произведение векторов $(\vec{x}_{1l}-{x}_{1mean})$ и $(\vec{x}_{2l}-{x}_{2mean})$. Считаем:

$(\vec{x}_{1l}-{x}_{1mean})=\left(\begin{array}{} 1\\ 2\\ 6\end{array}\right)-\left(\begin{array}{} 3\\ 3\\ 3\end{array}\right)=\left(\begin{array}{} -2\\ -1\\ 3\end{array}\right)$

$(\vec{x}_{2l}-{x}_{2mean})=\left(\begin{array}{} 3000\\ 1000\\ 2000\end{array}\right)-\left(\begin{array}{} 2000\\ 2000\\ 2000\end{array}\right)=\left(\begin{array}{} 1000\\ -1000\\ 0\end{array}\right)$

Кажется, мы это уже где-то видели. Да — это векторы $\vec{x}_{1cent}$ и $\vec{x}_{2cent}$, которые мы получили, когда стандартизировали векторы. Посчитаем их скалярное произведение:

$(\vec{x}_{1cent},\vec{x}_{2cent})=\left(\left(\begin{array}{} -2\\ -1\\ 3\end{array}\right),\left(\begin{array}{} 1000\\ -1000\\ 0\end{array}\right)\right)=-2\cdot 1000 + (-1)\cdot (-1000)+3\cdot 0=-1000$

А что в знаменателе?

$\sqrt{\sum^n_{l=1}(\vec{x}_{il}-x_{imean})^2\cdot\sum^n_{l=1}(\vec{x}_{jl}-x_{jmean})^2}$

Это произведение длин векторов $\vec{x}_{1cent}$ и $\vec{x}_{2cent}$.

$\sqrt{\sum^n_{l=1}(\vec{x}_{il}-x_{imean})^2\cdot\sum^n_{l=1}(\vec{x}_{jl}-x_{jmean})^2}=\|\vec{x}_{1cent}\|\cdot\|\vec{x}_{2cent}\|$

Мы также уже считали их в примере по стандартизации:

$\|\vec{x}_{1cent}\|=\sqrt{(-2)^2+(-1)^2+3^2}=\sqrt{14}$

$\|\vec{x}_{2cent}\|=\sqrt{(1000)^2+(-1000)^2+0^2}=1000\sqrt{2}$

Считаем коэффициент корреляции:

$c_{12}=\frac{(\vec{x}_{1cent},\vec{x}_{2cent})}{\|\vec{x}_{1cent}\|\cdot\|\vec{x}_{2cent}\|}=\frac{-1000}{\sqrt{14}\cdot 1000 \cdot \sqrt{2}}=-\frac{1}{\sqrt{28}}\approx-0.189$

Снова знакомые числа. Да — это элемент на побочной диагонали матрицы Грама, вычисленной для стандартизированных векторов $\vec{x}_{1cent}$ и $\vec{x}_{2cent}$, а значит:

$c_{12}=(\vec{x}_{1cent},\vec{x}_{2cent})$

>Если посчитать корреляцию в обратном порядке между факторами $c_{21}=(\vec{x}_{2cent},\vec{x}_{1cent})$, получим то же самое число, ведь скалярное произведение перестановочно: $c_{12}=c_{21}$.

>**Ещё один очевидный факт** → Корреляция фактора с самим собой всегда равна 1: $c_{ii}=1$, то есть $c_{11}=c_{22}=1$. Так происходит потому, что скалярное произведение вектора с самим собой всегда даёт 1 по свойствам скалярного произведения.

Вот мы и нашли нашу матрицу корреляций:

$C=\left(\begin{array}{} c_{11}&c_{12}\\ c_{21}&c_{22} \end{array}\right)=\left(\begin{array}{} 1&-0.189\\ -0.189&1 \end{array}\right)$

Она в точности совпадает с матрицей Грама, вычисленной для стандартизированных векторов $\vec{x}_{1st}$ и $\vec{x}_{2st}$:

$C=G(\vec{x}_{1st},\vec{x}_{2st})$

Но «магия» ещё не закончилась. Давайте подумаем: какова геометрическая интерпретация корреляции?

Присмотритесь к формуле, вспомните свойства скалярного произведения, а затем загляните в ответ:

$c_{ij}=\frac{(\vec{x}_{icent},\vec{x}_{jcent})}{\| \vec{x}_{icent}\|\cdot \|\vec{x}_{jcent} \|}$

Это косинус угла между центрированными векторами $\vec{x}_{icent}$ и $\vec{x}_{jcent}$. По свойству скалярного произведения:

$c_{ij}=corr(\vec{x}_{i},\vec{x}_{j})=cos(\widehat{\vec{x}_{icent},\vec{x}_{jcent}})=\frac{(\vec{x}_{icent},\vec{x}_{jcent})}{\| \vec{x}_{icent}\|\cdot \|\vec{x}_{jcent} \|}$

>**Примечание**. В `NumPy` матрица корреляций вычисляется функцией `np.corrcoef()`:

In [65]:
x_1 = np.array([1, 2, 6])
x_2 = np.array([3000, 1000, 2000])
np.corrcoef(x_1, x_2)

array([[ 1.        , -0.18898224],
       [-0.18898224,  1.        ]])

>Получили тот же результат, что и раньше.
>
>В `Pandas` матрица корреляций вычисляется методом `corr()`, вызванным от имени `DataFrame`.

***

На практике корреляция с точки зрения линейной алгебры означает следующее:

* Если корреляция $c_{ij}=1$, значит векторы $\vec{x}_i$ и $\vec{x}_j$ пропорциональны и сонаправлены.

* Если корреляция $c_{ij}=-1$, значит векторы $\vec{x}_i$ и $\vec{x}_j$ пропорциональны и противонаправлены.

* Если корреляция $c_{ij}=0$, значит векторы $\vec{x}_i$ и $\vec{x}_j$ ортогональны друг другу и, таким образом, являются линейно независимыми.

Во всех остальных случаях между факторами $\vec{x}_i$ и $\vec{x}_j$ существует какая-то линейная взаимосвязь, причём чем ближе модуль коэффициента корреляции к 1, тем сильнее эта взаимосвязь. Вспомним классификацию связей факторов, которую мы рассматривали в модуле «EDA-2. Математическая статистика в контексте EDA»:

<img src=m2_img4.png width=800>

**Промежуточный вывод ↓**

Таким образом, матрица корреляций — это матрица Грама, составленная для стандартизированных столбцов исходной матрицы наблюдений $A$. Она всегда (в теории) симметричная. На главной диагонали этой матрицы стоят 1, а на местах всех остальных элементов — коэффициенты корреляции между факторами $\vec{x}_i$ и $\vec{x}_j$.

Если коэффициент корреляции больше 0, то взаимосвязь между факторами прямая (растёт один — растёт второй), в противном случае — обратная (растёт один — падает второй).

**Пример № 2**

Проинтерпретировать выборочные коэффициенты корреляции:

$corr(\vec{x}, \vec{u}) = 1,corr(\vec{x}, \vec{v}) = -1,corr(\vec{x}, \vec{w}) = 0$

Даны коэффициенты корреляции трёх пар факторов, причём это краевые значения. Что они означают?

* $corr(\vec{x}, \vec{u}) = 1$ означает что $\vec{x}$ и $\vec{u}$ линейно выражаются друг через друга и имеют прямую зависимость (когда растёт один фактор, растёт и другой).

* $corr(\vec{x}, \vec{v}) = -1$ говорит о точно такой же линейной, но обратной взаимосвязи.

* $corr(\vec{x}, \vec{w}) = 0$ означает, что факторы не связаны, то есть один фактор не чувствителен к изменениям другого.

Теперь коэффициенты принимают уже не экстремальные значения:

$corr(\vec{x}, \vec{u}) = 0.73,corr(\vec{x}, \vec{v}) = -0.72,corr(\vec{x}, \vec{w}) = 0.12$

* $corr(\vec{x}, \vec{u}) = 0.73$ говорит о сильной прямой взаимосвязи. Угол между векторами — острый.

* $corr(\vec{x}, \vec{v}) = -0.72$ говорит о сильной обратной взаимосвязи. Угол между векторами — тупой.

* $corr(\vec{x}, \vec{w}) = 0.12$ говорит о слабой прямой взаимосвязи. Угол между векторами острый, но близок к 90 градусам.

**Пример № 3**

Давайте посмотрим на корреляционную матрицу в задаче прогнозирования количества показов квартир агентства недвижимости «Рай в шалаше» в зависимости от разных параметров.

Здесь:

* `Demo 2 w` — количество показов квартир за две недели;
* `Rub` — стоимость аренды в рублях;
* `Area` — площадь квартиры;
* `Liv.Area` — жилая площадь квартиры;
* `Floor` — этаж;
* `Euro` — стоимость аренды в евро;
* `NLiv.Area` — нежилая площадь квартиры.

<img src=m2_img5.png width=800>

Матрица получилась размером `7x7`, однако её `ранг равен 5`, а **определитель — и вовсе 0**. Что это значит? Для начала заметим, что по **главной диагонали** матрицы стоят единицы — это корреляция каждого фактора с самим собой. Разумеется, матрица симметрична: в первой строке и первом столбце расположены корреляции целевого параметра, то есть количества показов со всеми остальными факторами. Чем эти корреляции больше, тем сильнее взаимосвязь факторов.

Подозрительно одинаковыми выглядят **корреляции со стоимостью** аренды в рублях и евро. Корреляция между ними равна 1. Это логично так как факторы пропорциональны с каким-то коэффициентом. Кроме того, также странно **велика корреляция между жилой и общей площадью**. Чистой пропорциональности здесь нет, но из предыдущего модуля мы помним, что жилая, нежилая и общая площади линейно зависимы.

Обратите внимание, что **корреляции с нежилой площадью** не так велики. Итого мы нашли два избыточных набора факторов: один набор пропорционален, другой просто линейно зависим. Это случай чистой коллинеарности. Уберём по одному фактору из каждого, и ранг станет максимальным. 

***

Нежилая площадь имеет самую маленькую корреляцию с целевым параметром, поэтому мы избавимся от неё.

Между рублями и евро нет разницы — оставим рубли, так как они нам привычнее.

<img src=m2_img6.png width=600>

Итак, мы избавились от нежилой площади и аренды в евро. Ранг стал максимальным (то есть равным 5), чистой коллинеарности больше нет, но определитель всё равно маловат. В чём же дело?

Стоимость аренды жилой площади и общей площади сильно коррелируют между собой. Обратите внимание на значения коэффициентов корреляции — они практически равны 1, хотя формально эти факторы линейно независимы. Такие корреляции ощутимо портят картину, что и отражается на определителе.

Давайте оставим только жилую площадь, её корреляция с показами максимальна.

Корреляции между жилой площадью и этажом уже не такие сильные.

<img src=m2_img7.png width=400>

Ранг матрицы теперь равен 3 (как ему и положено), а определитель не так близок к нулю.

***

>**Резюмируем ↓**
>
>* Корреляция — это мера линейной зависимости между признаками.
>
>* Чем больше по модулю корреляция между каким-нибудь фактором и целевым признаком, тем лучше:
>
>$\left|corr(\vec{x}_{i}, \vec{y}) \right| \rightarrow 1$ - хорошо
>
>* Чем больше по модулю корреляция между факторами, тем хуже:
>
>$\left|corr(\vec{x}_{i}, \vec{x}_{j}) \right| \rightarrow 1$ - плохо
>
>* Чем больше линейно зависимых факторов, тем меньше ранг.

Можно выделить два неприятных случая:

1. **Чистая коллинеарность**

Некоторые факторы являются линейно зависимыми между собой. Это влечёт к уменьшению ранга матрицы факторов. Корреляции между зависимыми факторами близки к +1 или -1. Матрица корреляции вырождена.

Такие случаи очень редко встречаются на практике, но если вы таковые заметите, можете смело избавиться от одного из факторов.

2. **Мультиколлинеарность**

Формально линейной зависимости между факторами нет, и матрица факторов имеет максимальный ранг. Однако корреляции между мультиколлинеарными факторами по-прежнему близки к +1 или -1, и матрица корреляции практически вырождена, несмотря на то что имеет максимальный ранг.

Таким образом, чистая коллинеарность провоцирует больше проблем, но её легче заметить. Мультиколлинеарность же может быть скрытой, и заметить её не так просто.

## КАК ОБНАРУЖИТЬ МУЛЬТИКОЛЛИНЕАРНОСТЬ?

* Иногда видно сразу или заметно по контексту, что некоторые факторы будут коррелировать между собой.

* Также можно посмотреть на определитель матрицы корреляции: если он близок к нулю, значит дела обстоят не очень хорошо.

* Важным маркером будут странные результаты стандартной регрессионной формулы, например слишком большие по модулю коэффициенты (вспомните модуль «ML-2. Обучение с учителем: регрессия», где у нас получились запредельные коэффициенты при решении задач) или взаимно обратные коэффициенты (как мы видели в примере в предыдущем юните). 

* И, наконец, исследование спектра матрицы корреляций и числа обусловленности не только позволяет обнаружить мультиколлинераность, но и помогает избавиться от неё.

>Есть много способов борьбы с мультиколлинеарностью. Мы с вами применили самый наивный — **удаление взаимных факторов «на глаз»**. Увы, это получается не всегда.
>
>Два других метода называются по-разному, но по сути делают одно и тоже: это **метод главных компонент** для корреляционной матрицы и **сингулярное разложение** матрицы факторов. О них мы поговорим в следующем модуле. 
>
>Кроме того, можно воспользоваться знакомыми нам **методами регуляризации**, о которых поговорим уже в этом модуле.

## В ЧЁМ ПРОБЛЕМА МУЛЬТИКОЛЛИНЕАРНОСТИ ДЛЯ `LINEAR REGRESSION`?

Несмотря на то что мультиколлинеарность делает матрицу корреляций более вырожденной, она не оказывает прямого влияния на точность модели сама по себе. Проблема полной вырожденности матрицы $(A^TA)$, как мы уже обсуждали ранее, в `sklearn` вполне решается с помощью сингулярного разложения. То есть решение можно получить всегда даже при полной коллинеарности и сильной мультиколлинеарности, несмотря на противоречие с теорией линейной алгебры.

?Однако сможем ли мы доверять такому решению?

*Бывают задачи, где важно не просто построить модель, но и проинтерпретировать её результат — коэффициенты линейной регрессии. Типичный пример — задача кредитного скоринга: в ней важно понять, что влияет на вероятность дефолта заёмщика.*

*Проблема заключается в том, что в случае мультиколлинеарности коэффициенты линейной регрессии становятся неустойчивыми. Например, признак «остаток долга/сумма выдачи» вроде бы должен приводить к уменьшению вероятности дефолта, так как клиенту остаётся выплачивать всё меньшую сумму. Однако мультиколлинеарность приводит к тому, что подобранный в ходе обучения модели коэффициент может сменить знак на противоположный, а признак, с точки зрения модели, может начать говорить об обратном: чем меньше остаётся платить, тем больше вероятность дефолта. Подобный кейс хорошо описан в этой статье — рекомендуем с ней ознакомиться.*

*К тому же, чем больше в данных мультиколлинеарных факторов, тем сильнее увеличивается разброс коэффициентов регрессии. Полная коллинеарность означает, что существует бесконечное количество способов выразить один фактор через линейную комбинацию других. В свою очередь это значит, что есть бесконечное число возможных коэффициентов регрессии , таких, которые дают одни и те же результаты.* 

*Чем больше высококоррелированных факторов в данных, тем больше таких линейных комбинаций и тем больше коэффициенты становятся по модулю, что приводит к проблеме под названием «взрывной рост весов», когда коэффициенты регрессии начинают стремиться к бесконечности, что приводит к «поломке» даже устойчивой к вырожденным матрицам модели.*

In [103]:
x_1 = np.array([5.1, 1.8, 2.1, 10.3, 12.1, 12.6])
x_2 = np.array([10.2, 3.7, 4.1, 20.5, 24.2, 24.1])
x_3 = np.array([2.5, 0.9, 1.1, 5.1, 6.1, 6.3])
A = np.array([x_1,x_2,x_3]).T
corr_a = np.corrcoef(A)
print('rank corr A =',np.linalg.matrix_rank(corr_A))
print('det corr A =',round(np.linalg.det(corr_A),7))

rank corr A = 2
det corr A = 0.0


In [102]:
import pandas as pd
df = pd.DataFrame([x_1,x_2,x_3]).T
print(df)
corr = df.corr()
print('rank corr A =',np.linalg.matrix_rank(corr))
print('det corr A =',round(np.linalg.det(corr),7))

      0     1    2
0   5.1  10.2  2.5
1   1.8   3.7  0.9
2   2.1   4.1  1.1
3  10.3  20.5  5.1
4  12.1  24.2  6.1
5  12.6  24.1  6.3
rank corr A = 3
det corr A = 5e-07


# 5. Практика. Лин.регрессия МНК <a class="anchor" id=5></a>

[к содержанию](#0)

In [1]:
import numpy as np 
import pandas as pd 
import seaborn as sns 
import matplotlib.pyplot as plt 
%matplotlib inline

У Василия, основателя компании «Газ-Таз-Ваз-Нефть», дела идут в гору: в этом году он открывает 100 новых скважин по добыче газа. Однако в целях оптимизации расходов и для потенциального повышения дохода Василию необходимо оценить, сколько денег будет приносить ему каждая из скважин, а также понять, какие факторы потенциально сильнейшим образом влияют на объём добычи газа. Для этого Василий решил нанять вас как специалиста по построению моделей машинного обучения.

Василий представляет вам набор данных о добыче газа на своих скважинах. Файл с данными вы можете скачать здесь.

**Признаки**:

* `Well` — идентификатор скважины;
* `Por` — пористость скважины (%);
* `Perm` — проницаемость скважины;
* `AI` — акустический импеданс ($кг/м^2\cdot 10^6$);
* `Brittle` — коэффициент хрупкости скважины (%);
* `TOC` — общий органический углерод (%);
* `VR` — коэффициент отражения витринита (%);
* `Prod` — добыча газа в сутки (млн. кубических футов).

>Ваша задача — построить регрессионную модель, которая прогнозирует выработку газа на скважине (**целевой признак** — `Prod`) на основе остальных характеристик скважины, и проинтерпретировать результаты вашей модели.

In [2]:
data = pd.read_csv('unconv.zip')
data.head()

Unnamed: 0,Well,Por,Perm,AI,Brittle,TOC,VR,Prod
0,1,12.08,2.92,2.8,81.4,1.16,2.31,4165.196191
1,2,12.38,3.53,3.22,46.17,0.89,1.88,3561.146205
2,3,14.02,2.59,4.01,72.8,0.89,2.72,4284.348574
3,4,17.67,6.75,2.63,39.81,1.08,1.88,5098.680869
4,5,17.52,4.57,3.18,10.94,1.51,1.9,3406.132832


In [9]:
data.describe()

Unnamed: 0,Well,Por,Perm,AI,Brittle,TOC,VR,Prod
count,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0
mean,100.5,14.99115,4.33075,2.96885,48.16195,0.99045,1.9643,4311.219852
std,57.879185,2.971176,1.731014,0.566885,14.129455,0.481588,0.300827,992.038414
min,1.0,6.55,1.13,1.28,10.94,-0.19,0.93,2107.139414
25%,50.75,12.9125,3.1225,2.5475,37.755,0.6175,1.77,3618.064513
50%,100.5,15.07,4.035,2.955,49.51,1.03,1.96,4284.687348
75%,150.25,17.4025,5.2875,3.345,58.2625,1.35,2.1425,5086.089761
max,200.0,23.55,9.87,4.63,84.33,2.18,2.87,6662.622385


Для начала в качестве модели будем использовать простую линейную регрессию.

**Задание 5.1**

Постройте корреляционную матрицу факторов, включив в неё целевой признак. Ответьте на следующие вопросы:

1. Выберите топ-3 факторов, наиболее коррелированных с целевой переменной:

In [3]:
data.corr()

Unnamed: 0,Well,Por,Perm,AI,Brittle,TOC,VR,Prod
Well,1.0,0.068927,0.077928,0.041483,-0.079252,0.022624,-0.007279,0.026817
Por,0.068927,1.0,0.760546,-0.461549,-0.21857,0.711831,0.11186,0.86191
Perm,0.077928,0.760546,1.0,-0.239636,-0.124017,0.471746,0.051023,0.727426
AI,0.041483,-0.461549,-0.239636,1.0,0.127599,-0.531864,0.499143,-0.390835
Brittle,-0.079252,-0.21857,-0.124017,0.127599,1.0,-0.214282,0.317929,0.237155
TOC,0.022624,0.711831,0.471746,-0.531864,-0.214282,1.0,0.299483,0.654445
VR,-0.007279,0.11186,0.051023,0.499143,0.317929,0.299483,1.0,0.323182
Prod,0.026817,0.86191,0.727426,-0.390835,0.237155,0.654445,0.323182,1.0


2. Вычислите ранг полученной матрицы корреляций:

In [5]:
np.linalg.matrix_rank(data.corr())

8

3. Вычислите определитель матрицы корреляций. Ответ округлите до четвёртого знака после точки-разделителя.

In [8]:
round(np.linalg.det(data.corr()),4)

0.0007

Создайте матрицу наблюдений. Обозначьте её за $X$, а вектор правильных ответов — за $y$.

1. Постройте модель линейной регрессии по методу наименьших квадратов. Для этого используйте матричную формулу NumPy. В качестве ответа укажите полученные оценки коэффициентов модели. **Ответ округлите до целого числа**.

In [123]:
X = np.column_stack((np.ones(200), data.drop('Prod', axis=1)))
y = data[['Prod']]
w_hat = np.linalg.inv(X.T@X)@X.T@y
print('w_0',w_hat.values[0])
print('w_well',w_hat.values[1])
print('w_por',w_hat.values[2])
print('w_per',w_hat.values[3])
print('w_pvr',w_hat.values[7])

w_0 [-1232.30802956]
w_well [0.05070036]
w_por [230.17914038]
w_per [116.23900607]
w_pvr [785.25981457]


**Задание 5.3**

1. Постройте прогноз выработки газа для скважины с параметрами, указанными ниже. Чему равна абсолютная ошибка построенного вами прогноза для предложенной скважины (в миллионах кубических футов в день). Ответ округлите до целого числа.

In [124]:
w_hat.iloc[0]

Prod   -1232.30803
Name: 0, dtype: float64

In [125]:
Prod_new = w_hat.iloc[0]+w_hat.iloc[1]*106+w_hat.iloc[2]*15.32+w_hat.iloc[3]*3.71+w_hat.iloc[4]*3.29+w_hat.iloc[5]*55.99+w_hat.iloc[6]*1.35+w_hat.iloc[7]*2.42
Prod_new

Prod    4723.064054
dtype: float64

2. Постройте прогноз выработки газа для всех скважин из обучающего набора данных. Чему равно значение метрики `MAPE` вашей модели? Ответ приведите в процентах (не указывайте знак процента), округлив его до первого знака после точки-разделителя.

In [126]:
# будем умножать столбцы векторы скалярно на соответствующие коэффициенты w_hat и суммировать результаты
y_pred = w_hat.iloc[0][0]+X[:,1]*w_hat.iloc[1][0]+X[:,2]*w_hat.iloc[2][0]+X[:,3]*w_hat.iloc[3][0]+X[:,4]*w_hat.iloc[4][0]+X[:,5]*w_hat.iloc[5][0]+X[:,6]*w_hat.iloc[6][0]+X[:,7]*w_hat.iloc[7][0]

In [127]:
# то же самое чуть изящнее
y_pred_1 = []
for i in range(X.shape[0]):
    y_pred_1.append(np.sum(X[i]*w_hat.T, axis=1))
y_pred_1 = np.array(y_pred_1)

In [128]:
from sklearn import metrics
print('MAPE y_1 score: {:.1f} %'.format(metrics.mean_absolute_percentage_error(y, y_pred) * 100))
print('MAPE y_2 score: {:.1f} %'.format(metrics.mean_absolute_percentage_error(y, y_pred_1) * 100))

MAPE y_1 score: 3.6 %
MAPE y_2 score: 3.6 %


Задание 5.4

Настало время анализа построенной модели. Посмотрите на коэффициенты и сравните их знаки со значениями выборочных корреляций между целевым признаком и факторами, которые вы нашли ранее.

1. Есть ли в вашей модели фактор, при котором коэффициент в модели линейной регрессии противоречит соответствующему коэффициенту корреляции? Например, корреляция говорит, что зависимость между фактором и целью прямая, а модель говорит обратное.

In [130]:
display(data.corr())
w_hat.T

Unnamed: 0,Well,Por,Perm,AI,Brittle,TOC,VR,Prod
Well,1.0,0.068927,0.077928,0.041483,-0.079252,0.022624,-0.007279,0.026817
Por,0.068927,1.0,0.760546,-0.461549,-0.21857,0.711831,0.11186,0.86191
Perm,0.077928,0.760546,1.0,-0.239636,-0.124017,0.471746,0.051023,0.727426
AI,0.041483,-0.461549,-0.239636,1.0,0.127599,-0.531864,0.499143,-0.390835
Brittle,-0.079252,-0.21857,-0.124017,0.127599,1.0,-0.214282,0.317929,0.237155
TOC,0.022624,0.711831,0.471746,-0.531864,-0.214282,1.0,0.299483,0.654445
VR,-0.007279,0.11186,0.051023,0.499143,0.317929,0.299483,1.0,0.323182
Prod,0.026817,0.86191,0.727426,-0.390835,0.237155,0.654445,0.323182,1.0


Unnamed: 0,0,1,2,3,4,5,6,7
Prod,-1232.30803,0.0507,230.17914,116.239006,-365.202301,24.99437,-78.400929,785.259815


In [134]:
X_1 = np.column_stack((np.ones(200), data.drop(['Prod','Well','Perm','TOC'], axis=1)))
y_1 = data[['Prod']]
w_hat_1 = np.linalg.inv(X_1.T@X_1)@X_1.T@y_1
print('w_0',w_hat_1.values[0])
print('w_1',w_hat_1.values[1])
print('w_2',w_hat_1.values[2])
print('w_3',w_hat_1.values[3])
y_pred_1 = []
for i in range(X.shape[0]):
    y_pred_1.append(np.sum(X_1[i]*w_hat_1.T, axis=1))
y_pred_1 = np.array(y_pred_1)
print('MAPE y_2 score: {:.1f} %'.format(metrics.mean_absolute_percentage_error(y, y_pred_1) * 100))

w_0 [-1835.44646069]
w_1 [293.03624565]
w_2 [-200.03091206]
w_3 [27.64098209]
MAPE y_2 score: 4.0 %


In [135]:
data_1 = data.drop(['Well','Perm','TOC'], axis=1)
display(data_1.corr())
w_hat_1.T

Unnamed: 0,Por,AI,Brittle,VR,Prod
Por,1.0,-0.461549,-0.21857,0.11186,0.86191
AI,-0.461549,1.0,0.127599,0.499143,-0.390835
Brittle,-0.21857,0.127599,1.0,0.317929,0.237155
VR,0.11186,0.499143,0.317929,1.0,0.323182
Prod,0.86191,-0.390835,0.237155,0.323182,1.0


Unnamed: 0,0,1,2,3,4
Prod,-1835.446461,293.036246,-200.030912,27.640982,517.402726


# 6. Полиноминальная регрессия <a class="anchor" id=6></a>

[к содержанию](#0)

Полином (многочлен) от $k$ переменных $x_1, \ x_2, \ ..., \ x_k$ — это выражение (функция) вида:

$P\left(x_{1}, x_{2}, \ldots, x_{k}\right)=\sum_{I} w_{i} x_{1}^{i_{1}} x_{2}{ }^{i_{2}} \ldots x_{k}^{i_{k}},$

где

* $I=(i_1, i_2, \ ...., \ i_k)$ — набор из $k$ целых неотрицательных чисел — степеней полинома;
* $w_I$  — числа, называемые коэффициентами полинома.

Пока эта форма записи нам ничего не даёт — она слишком сложная. Давайте рассмотрим пример попроще. Когда переменная всего одна, полином будет записываться как:

$P(x) = \sum_{I} w_i x^i = w_0 + w_1 x^1 + w_2 x^2 + ... + w_k x^k$

Выражение для полинома первой степени уже можно прочитать без особого труда. Видно, что на самом деле полином — это линейная комбинация из различных степеней переменной $x$, взятой с какими-то коэффициентами, причём некоторые из коэффициентов могут быть нулевыми.

>Максимальная степень при переменной $x$ называется степенью полинома.

Самый простой пример полинома от одной переменной — парабола. Это полином второй степени. Вспомним её уравнение:

$y = ax^2 + bx + c,$

где $x$ — это некоторая неизвестная, а коэффициенты $a$, $b$ и $c$ определяют различные параметры этой параболы (направление её ветвей, начало параболы, её растяжение и т. д.).

Ниже представлены возможные варианты расположения параболы в зависимости от коэффициентов $a$, $b$ и $c$ 

<img src=m2_img8.png>

Вспомним, что уравнение $y = ax^2 + bx + c = 0$ определяет точки пересечения параболы с осью абсцисс — осью $X$. Чтобы найти точки пересечения, необходимо решить это квадратное уравнение. Вы наверняка делали это в школе: найти дискриминант, затем квадратные корни и т. д. Сейчас мы не будем этим заниматься, но понимание сути процедуры полезно для общего осознания принципа работы полиномиальной регрессии.

>Несколько простых примеров различных полиномов с числовыми коэффициентами для наглядности:
>
>$y=8+5x+2x^2$ — парабола
>
>$y=5x+x^3$ — кубическая парабола
>
>$y=8x^5+3x^4+x^3+x^2+5x$ — полином пятой степени

Кстати, отметим **важный факт**: уравнение прямой также является частным случае полинома первой степени:

$y=w_0+w_1 x$

## Чем нам так интересны полиномы (особенно степени > 1)?

На самом деле всё очень просто: полином степени  способен описать абсолютно любую зависимость. Для этого ему достаточно задать набор наблюдений — точек, через которые он должен пройти (или пройти приблизительно). Вопрос стоит только в степени этого полинома — . Например, ниже представлено три полинома: первой степени — линейная регрессия, второй степени — квадратичная регрессия и третьей степени — кубическая регрессия.

<img src=m2_img9.png>

Видно, что для полинома первой степени (линейной регрессии) представленная в данных нелинейная зависимость целевой переменной $y$ от фактора $x$, даётся тяжело: ошибка прогноза довольно велика. Два других полинома хорошо описывают поведение точек в пространстве.

>Цель обучения модели полиномиальной регрессии степени та же, что и для линейной регрессии: найти такие коэффициенты $w_i$, при которых ошибка между построенной функцией и обучающей выборкой была бы наименьшей из возможных.

На самом деле для поиска этих коэффициентов мы можем использовать те же самые методы, что и для линейной регрессии, а именно **метод наименьших квадратов**. Мы можем взять уравнение полинома и потребовать, чтобы кривая проходила через точки в обучающей выборке (на графике выше они обозначены синим). Значения точек можно обозначить за $y_1, \ y_2, \ ..., \ y_N$. Тогда мы хотим, чтобы для полинома степени $k$ (от одной переменной) выполнялась система уравнений:

$\left\{ \begin{array}{} w_0+w_1x+w_2x^2+\dots+w_kx^k=y_1 \\ w_0+w_1x+w_2x^2+\dots
+w_kx^k=y_2 \\ \dots \\ w_0+w_1x+w_2x^2+\dots+w_kx^k=y_N \end{array}\right.$

Обычно количество точек в обучающей выборке $N$ значительно больше, чем степень полинома $k$, а значит перед нами переопределённая СЛАУ относительно с $k+1$ неизвестной — $w_i$. Точных решений у системы практически никогда не будет, но мы умеем решать её приближённо. Мы даже вывели формулу для приближённого решения:

$\vec{w}=\left(A^{T} A\right)^{-1} A^{T} \vec{y}$

>Итак, мы вкратце обсудили, как должно выглядеть решение для полинома от одной переменной (от одного фактора). Теперь давайте более подробно остановимся на нюансах решения этой задачи и плавно перейдём к полиномам от нескольких переменных.

Начнём с **квадратичной регрессии** от одной переменной.

Пусть у нас некоторый вектор-фактор $\vec{x}=(x_1, x_2, ..., x_N)^T$, от которого зависит целевая переменная $\vec{y}=(y_1, y_2, ..., y_N)^T$. Будем предполагать, что зависимость нелинейная — допустим, квадратичная, то есть в качестве модели используется уравнение параболы. Тогда мы хотим выразить вектор $\vec{y}$ как линейную комбинацию из векторов $\vec{x}$ и $\vec{x}^2$:

$\vec{y}=w_0 +w_1 \vec{x}+w_2 \vec{x}^2$

или

$\left(\begin{array}{} y_1\\y_2\\ \dots \\y_N \end{array}\right)=w_0+w_1\left(\begin{array}{} x_1\\x_2\\ \dots \\x_N \end{array}\right)+w_2\left(\begin{array}{} x_1\\x_2\\ \dots \\x_N \end{array}\right)^2$

***

### Важное лирическое отступление ↓

У внимательного студента должен был возникнуть вопрос: а что значит возвести вектор в квадрат? На первый взгляд, может показаться, что мы ищем скалярное произведение вектора с самим собой, ведь:

$\vec{x}^2=\vec{x} \cdot \vec{x}=(\vec{x} \cdot \vec{x})$

Однако такой вариант нам не подходит, так как скалярное произведение — это число, а нам нужен именно вектор, иначе у нас не получится составить линейную комбинацию. Поэтому здесь под $\vec{x}^2$ понимается вектор из квадратов координат вектора $\vec{x}$. Тогда:

$\left(\begin{array}{} x_1\\x_2\\ \dots \\x_N \end{array}\right)^2=\left(\begin{array}{} x_{1}^2\\x_{2}^2\\ \dots \\x_{N}^2 \end{array}\right)$

Ещё одно важное замечание: обратите внимание, что, несмотря на то что в нашем уравнении появились квадраты, оно всё равно продолжает быть линейным, так как неизвестным является не вектор $\vec{x}$, а коэффициенты разложения $w_0$, $w_1$ и $w_2$. 

***

Итак, у нас получилась СЛАУ, состоящая из $N$ уравнений на трёх неизвестных:

$\left\{ \begin{array}{} y_1+w_01+w_1x_1+w_2x_{1}^2 \\ y_1+w_01+w_1x_2+w_2x_{2}^2  \\ \dots \\ y_1+w_01+w_1x_N+w_2x_{N}^2  \end{array}\right.$

Давайте для удобства и привычной нумерации переменных обозначим вектор $\vec{z}_1=\vec{x}$, а $\vec{z}_2=\vec{x}^2$. Тогда:

$\vec{z}_1=\left(\begin{array}{} z_{11}\\z_{12}\\ \dots \\z_{1N} \end{array}\right)=\left(\begin{array}{} x_1\\x_2\\ \dots \\x_N \end{array}\right)$, a $\vec{z}_2=\left(\begin{array}{} z_{21}\\z_{22}\\ \dots \\z_{2N} \end{array}\right)=\left(\begin{array}{} x_1^2\\x_2^2\\ \dots \\x_N^2 \end{array}\right)$

Тогда получим уже знакомую нам неоднородную переопределённую СЛАУ:

$\left\{ \begin{array}{} w_01+w_1z_{11}+w_2z_{21} =y_1 \\ w_01+w_1z_{12}+w_2z_{22} =y_2   \\ \dots \\ w_01+w_1z_{1N}+w_2z_{2N} =y_N  \end{array}\right.$

Или в матричном виде:

$A\vec{w}=\vec{y}$

$A=\left(\begin{array}{} 1 & z_{11} & z_{21} \\ 1 & z_{12} & z_{22} \\ \dots \\ 1 & z_{1N} & z_{2N} \end{array}\right)$

$\vec{w}=(w_0, w_1, w_2)^T$

Что мы делаем с такими СЛАУ? Верно — решаем. Правда, только приближённо. Раз система линейная и переопределённая, то МНК — наш лучший выбор. Тогда решение такой системы будет полностью аналогичным формуле для поиска коэффициентов простой линейной регрессии, разве что коэффициентов будет немного побольше:

$\vec{w}=\left(A^{T} A\right)^{-1} A^{T} \vec{y}$

### Пример № 1

Построить квадратичную регрессию на целевую переменную $\vec{y}$ из одного фактора $\vec{x}$ , если:

$\vec{x}=\left(\begin{array}{} 1\\3\\-2\\1 \end{array}\right)$ и $\vec{y}=\left(\begin{array}{} 4\\5\\2\\2 \end{array}\right)$ 

Итак, вот наша полиномиальная модель второй степени (квадратичная регрессионная модель):

$\vec{y}=w_0 +w_1 \vec{x}+w_2 \vec{x}^2$

$\left(\begin{array}{} 4\\5\\2\\2 \end{array}\right)=w_0+w_1\left(\begin{array}{} 1\\3\\-2\\1 \end{array}\right)+w_2\left(\begin{array}{} 1^2\\3^2\\(-2)^2\\1^2 \end{array}\right)$

Нам нужно найти такую линейную комбинацию из векторов $\vec{1}$, $\vec{x}$ и $\vec{x}^2$, которая в сумме давала бы наилучшее приближение для $y%. Записываем систему в матричном виде:

$A\vec{w}=\vec{y}$

$A=\left(\begin{array}{} 1 & z_{11} & z_{21} \\ 1 & z_{12} & z_{22} \\ \dots \\ 1 & z_{1N} & z_{2N} \end{array}\right) = \left(\begin{array}{} 1&1&1^2\\1&3&3^2\\1&-2&(-2)^2\\1&1&1^2 \end{array}\right) = \left(\begin{array}{} 1&1&1\\1&3&9\\1&-2&4\\1&1&1 \end{array}\right)$

$\vec{w}=(w_0,w_1,w_2)^T$

$\vec{y}=(4,5,2,2)^T$

Посчитаем ранг матрицы системы и ранг расширенной матрицы системы на случай, если система определённая и имеет конкретное решение или вовсе имеет бесконечное количество решений:

$rk(A|y)=rk\left(\begin{array}{} 1&1&1|4\\1&3&9|5\\1&-2&4|2\\1&1&1|2\end{array}\right)=rk\left(\begin{array}{} 1&1&1|4\\0&2&5|4\\0&-3&3|1\\0&0&0|-2\end{array}\right)
=rk\left(\begin{array}{} 1&1&1|4\\0&6&24|12\\0&-6&6|3\\0&0&0|-2\end{array}\right)
=rk\left(\begin{array}{} 1&1&1|4\\0&6&24|12\\0&0&30|15\\0&0&0|-2\end{array}\right)$

Видно, что ранг матрицы системы $(rk(A))=3$ всё-таки меньше, чем ранг расширенной матрицы $(rk(A|y))=4$, а значит система не имеет конкретных решений — только приближённые. Найдём их:

$\vec{w}=\left(A^{T} A\right)^{-1} A^{T} \vec{y}$

Для оптимизации процесса считать будем на `Python`:

In [1]:
import numpy as np

A = np.array([
    [1, 1, 1, 1],
    [1, 3, -2, 1],
    [1, 9, 4, 1]
]).T
y = np.array([4, 5, 2, 2])
w_hat = np.linalg.inv(A.T@A)@A.T@y
print(w_hat) 

[2.4        0.46666667 0.13333333]


Таким образом, наш вектор оценок коэффициентов:

$\hat{\vec{w}} = (\hat{w}_0, \hat{w}_1, \hat{w}_2)^T = (2.4, 0.47, 0.13)^T$

Чтобы сделать прогноз для нового наблюдения $x_{new}$, нам нужно поставить его в уравнение полинома с найденными коэффициентами:

$\vec{y}=2.4 +0.47 x_{new} + 0.13 x^{2}_{new}$

Как вы понимаете, один фактор — это слишком тривиальная, далёкая от реальности ситуация. Давайте посмотрим, как выглядит уравнение квадратичной регрессии **для случая двух переменных**.

Пусть у нас есть два фактора $\vec{x}_1$ и $\vec{x}_2$, от которых зависит целевая переменная :

$\vec{x}_1=\left(\begin{array}{}x_{11}\\x_{12}\\\dots\\x_{1N}\end{array}\right)$, $\vec{x}_2=\left(\begin{array}{}x_{21}\\x_{22}\\\dots\\x_{2N}\end{array}\right)$, $\vec{y}=\left(\begin{array}{}y_{1}\\y_{2}\\\dots\\y_{N}\end{array}\right)$

Всё то же самое: будем предполагать, что зависимость нелинейная, а точнее, квадратичная, то есть в качестве модели используется полином второй степени, задающий сложную трёхмерную поверхность, форма которой напрямую зависит от коэффициентов. Заметим, что в функцию уже будут включены попарные произведения факторов $\vec{x}_1$ и $\vec{x}_2$, а коэффициентов будет уже шесть:

$\vec{y}=w_{0}+w_{1} \vec{x}_{1}+w_{2} \vec{x}_{2}+w_{3} \vec{x}_{1}^{2}+w_{4} \vec{x}_{1} \vec{x}_{2}+w_{5} \vec{x}_{2}^{2}$

>**Примечание**. Здесь, как и в предыдущем случае, запись $\vec{x}_1\vec{x}_2$ означает покоординатное (не скалярное!) произведение векторов $\vec{x}_1$ и $\vec{x}_2$.

$\left(\begin{array}{}y_{1}\\y_{2}\\\dots\\y_{N}\end{array}\right)=w_0+w_1\left(\begin{array}{}x_{11}\\x_{12}\\\dots\\x_{1N}\end{array}\right)+w_2\left(\begin{array}{}x_{21}\\x_{22}\\\dots\\x_{2N}\end{array}\right)+w_3\left(\begin{array}{}x_{11}^2\\x_{12}^2\\\dots\\x_{1N}^2\end{array}\right)+w_4\left(\begin{array}{}x_{11}\cdot x_{21}\\x_{12}\cdot x_{22}\\\dots\\x_{1N} \cdot x_{2N}\end{array}\right)+w_5\left(\begin{array}{}x_{21}^2\\x_{22}^2\\\dots\\x_{2N}^2\end{array}\right)$

В матричном виде:

$A\vec{w}=\vec{y}$

$A=\left(\begin{array}{}1&x_{11}&x_{21}&x_{11}^2&x_{11}\cdot x_{21}& x_{21}^2 \\ 1&x_{12}&x_{22}&x_{12}^2&x_{12}\cdot x_{22}& x_{22}^2 \\ \dots \\ 1&x_{1N}&x_{2N}&x_{1N}^2&x_{1N}\cdot x_{2N}& x_{2N}^2 \end{array}\right)$

$\vec{w}=(w_0,w_1,w_2,w_3,w_4,w_5)^T$

$\vec{y}=(y_1,y_2,\dots ,y_N)^T$

Выглядит громоздко, но на деле ничего серьёзного. Если воспринимать все полиномиальные столбцы как обычные столбцы, состоящие из чисел, мы просто снова получим обычную переопределённую неоднородную СЛАУ (если $N$ значительно больше количества признаков $k$):

$A=\left(\begin{array}{}1&z_{11}&z_{21}&z_{31}&z_{41}&z_{51}\\1&z_{12}&z_{22}&z_{32}&z_{42}&z_{52}\\ \dots \\1&z_{1N}&z_{2N}&z_{3N}&z_{4N}&z_{5N} \end{array}\right)$

> Сразу обратим внимание на то, что для того, чтобы система имела точное (была совместной) или хотя бы приближённое решение, нам необходимо, чтобы строк в матрице было как минимум шесть, причём все уравнения должны быть линейно независимыми. Иначе количество строк будет меньше количества столбцов, и тогда решений будет бесконечное множество (по первому следствию теоремы Кронекера — Капелли), а такой случай нам не подходит.

### Что это значит на языке геометрии?

Это значит, что нам нужно как минимум шесть точек в трёхмерном пространстве с осями $\vec{x}_1$, $\vec{x}_2$ и $\vec{y}$, чтобы мы смогли провести через них нашу поверхность, которую задаёт уравнение:

$\vec{y}=w_{0}+w_{1} x_{1}+w_{2} x_{2}+w_{3} x_{1}^{2}+w_{4} x_{1} x_{2}+w_{5} x_{2}^{2}$

### Пример № 2

Построить квадратичную регрессию на целевую переменную $\vec{y}$ из двух факторов $\vec{x}_1$ и $\vec{x}_2$, если:

$\vec{x}_1=\left(\begin{array}{} 1\\3\\-2\\1\\5\\13\\1 \end{array}\right)$, $\vec{x}_2=\left(\begin{array}{} 3\\4\\5\\-2\\4\\11\\3 \end{array}\right)$ и $\vec{y}=\left(\begin{array}{} 4\\5\\2\\2\\6\\8\\-1 \end{array}\right)$

Записываем нашу модель:

$\vec{y}=w_{0}+w_{1} x_{1}+w_{2} x_{2}+w_{3} x_{1}^{2}+w_{4} x_{1} x_{2}+w_{5} x_{2}^{2}$

$\left(\begin{array}{} 4\\5\\2\\2\\6\\8\\-1 \end{array}\right)=w_0+w_1\left(\begin{array}{} 1\\3\\-2\\1\\5\\13\\1 \end{array}\right)+w_2\left(\begin{array}{} 3\\4\\5\\-2\\4\\11\\3 \end{array}\right)+w_3\left(\begin{array}{} 1^2\\3^2\\-2^2\\1^2\\5^2\\13^2\\1^2 \end{array}\right)+w_4\left(\begin{array}{} 1\cdot 3\\3\cdot 4\\-2\cdot 5\\1\cdot (-2)\\5\cdot 4\\13\cdot 11\\1\cdot 3 \end{array}\right)+w_5\left(\begin{array}{} 3^2\\4^2\\5^2\\-2^2\\4^2\\11^2\\3^2 \end{array}\right)$

Записываем систему в матричном виде:

$A\vec{w}=\vec{y}$

$A=\left(\begin{array}{}1&z_{11}&z_{21}&z_{31}&z_{41}&z_{51}\\1&z_{12}&z_{22}&z_{32}&z_{42}&z_{52}\\1&z_{13}&z_{23}&z_{33}&z_{43}&z_{53}\\1&z_{13}&z_{23}&z_{33}&z_{43}&z_{53}\\1&z_{15}&z_{25}&z_{35}&z_{45}&z_{55}\\1&z_{16}&z_{26}&z_{36}&z_{46}&z_{56}\\1&z_{17}&z_{27}&z_{37}&z_{47}&z_{57}\end{array}\right)=\left(\begin{array}{}1&1&3&1&3&9\\1&3&4&9&12&16\\1&-2&5&4&-10&25\\1&1&-2&1&-2&4\\1&5&4&25&20&16\\1&13&11&169&143&121\\1&1&3&1&3&9\end{array}\right)$

$\vec{w}=(w_0,w_1,w_2,w_3,w_4,w_5)^T$

$\vec{y}=(4,5,2,2,6,8,-1)^T$

Видно, что первое и последнее уравнение системы противоречат друг другу. Можно не считать ранг —сразу понятно, что система будет переопределённой и нужно искать приблизительные решения по МНК:

$\vec{w}=\left(A^{T} A\right)^{-1} A^{T} \vec{y}$

Чтобы решить такую задачу, без Python и матричных вычислений точно не обойтись. Переведём наши условия в программную реализацию. С точки зрения программы самое сложное в этой задаче — правильно записать матрицу $A$:

In [2]:
A = np.array([
    [1, 1, 1, 1, 1, 1, 1],
    [1, 3, -2, 1, 5, 13, 1],
    [3, 4, 5, -2, 4, 11, 3],
    [1, 9, 4, 1, 25, 169, 1],
    [3, 12, -10, -2, 20, 143, 3],
    [9, 16, 25, 4, 16, 121, 9]
    
]).T
y = np.array([4, 5, 2, 2, 6, 8, -1])
w_hat = np.linalg.inv(A.T@A)@A.T@y
print(w_hat)

[-2.25799015  2.37672337 -0.1322068  -0.10208147 -0.26501791  0.29722471]


Итак, наш вектор приближений коэффициентов найден:

$\hat{\vec{w}}=(-2.26, 2.38, -0.13, -0.1, -0.27, 0.3)^T$

>Как вы понимаете, вручную считать коэффициенты полиномиальной регрессии — неблагодарное дело. А ведь мы с вами рассмотрели только случай полинома второй степени с двумя факторами. Расти может как степень полинома, так и количество факторов. Можно представить, какую размерность может приобрести система уравнений.
>
>Например, уравнение модели полинома третьей степени для случая двух факторов будет иметь следующий вид:
>
>$\vec{y}=w_{0}+w_{1} \vec{x}_{1}+w_{2} \vec{x}_{2}+w_{3} \vec{x}_{1}^{2}+w_{4} \vec{x}_{1} \vec{x}_{2}+w_{5} \vec{x}_{2}^{2}+w_{6} \vec{x}_{1}^{3}+w_{7} \vec{x}_{1}^{2} \vec{x}_{2}+w_{8} \vec{x}_{2}^{3}+w_{9} \vec{x}_{1} \vec{x}_{2}^{2}$
>
>Количество неизвестных уже равно 10, а факторов пока ещё два. Как говорится, то ли ещё будет...

**Примечание**. Кстати, для того чтобы определить количество коэффициентов в регрессии, есть формула:

$c = \frac{n!}{(n-d)!d!},$

$n = k + d,$

где $k$ — количество факторов, $d$ — степень полинома, а $!$ — символ факториала. Например, для двух факторов и пятой степени полинома будем иметь:

$n=2+5=7$

$c = \frac{n!}{(n-d)!d!} = \frac{7!}{(7-5)!5!} = \frac{7!}{2!5!} = \frac{1 \cdot 2 \cdot 3 \cdot 4 \cdot 5 \cdot 6 \cdot 7}{(1 \cdot 2) \cdot (1 \cdot 2 \cdot 3 \cdot 4 \cdot 5)} = \frac{42}{2} = 21$

То есть в матрице измерений $A$ **будет 21 столбец**.

***

Конечно, вручную создавать полиномиальные столбцы в матрице наблюдений мы не будем. В модуле «ML-2. Обучение с учителем: регрессия» мы с вами уже знакомились с полиномиальными признаками, генерация которых реализована в классе [PolynomialFeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html) из модуля preprocessing. 

### Пример № 3

Строится полиномиальная регрессия второй степени, задано три фактора:

$\vec{x}_1=\left(\begin{array}{} 1\\3\\-2\\1\\5\\13\\1 \end{array}\right), \vec{x}_2=\left(\begin{array}{} 3\\4\\5\\-2\\4\\11\\3 \end{array}\right), \vec{x}_3=\left(\begin{array}{} 4\\5\\2\\2\\6\\8\\-1 \end{array}\right)$

Создайте матрицу наблюдений $A_{poly}$ со сгенерированными полиномиальными признаками.

Для начала составим обычную матрицу наблюдений $A$, расположив векторы в столбцах. Обратите внимание, что вектор из 1 мы не будем добавлять в матрицу (за нас это сделает генератор полиномиальных признаков):

In [3]:
A = np.array([
    [1, 3, -2, 1, 5, 13, 1],
    [3, 4, 5, -2, 4, 11, 3],
    [4, 5, 2, 2, 6, 8, -1],
]).T
print(A)

[[ 1  3  4]
 [ 3  4  5]
 [-2  5  2]
 [ 1 -2  2]
 [ 5  4  6]
 [13 11  8]
 [ 1  3 -1]]


Затем импортируем класс `PolynomialFeatures` из библиотеки `sklearn`. Создадим объект этого класса, указав при инициализации степень полинома равной `2`. Также укажем, что нам нужна генерация столбца из 1 (параметр `include_bias=True`):

In [4]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_absolute_percentage_error
poly = PolynomialFeatures(degree=2, include_bias=True)

Осталось только вызвать метод `fit_transform()` от имени этого объекта и передать в него нашу матрицу наблюдений $A$. Для удобства выведем результат в виде `DataFrame`:

In [6]:
import pandas as pd

A_poly = poly.fit_transform(A)
display(pd.DataFrame(A_poly))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1.0,1.0,3.0,4.0,1.0,3.0,4.0,9.0,12.0,16.0
1,1.0,3.0,4.0,5.0,9.0,12.0,15.0,16.0,20.0,25.0
2,1.0,-2.0,5.0,2.0,4.0,-10.0,-4.0,25.0,10.0,4.0
3,1.0,1.0,-2.0,2.0,1.0,-2.0,2.0,4.0,-4.0,4.0
4,1.0,5.0,4.0,6.0,25.0,20.0,30.0,16.0,24.0,36.0
5,1.0,13.0,11.0,8.0,169.0,143.0,104.0,121.0,88.0,64.0
6,1.0,1.0,3.0,-1.0,1.0,3.0,-1.0,9.0,-3.0,1.0


Итак, мы получили нашу матрицу $A_{poly}$. Давайте посмотрим на её столбцы:

* столбец 0 — единичный, он отвечает за слагаемое с нулевой степенью полинома (любое число в степени 0 даёт единицу).

* столбцы 1, 2 и 3 — это наши исходные признаки (векторы $\vec{x}_1$, $\vec{x}_2$  и $\vec{x}_3$).

* столбцы 4, 5 и 6 — произведения первого столбца со всеми столбцами: $\vec{x}_1\vec{x}_1=\vec{x}_1^2$, $\vec{x}_1\vec{x}_2$ и $\vec{x}_1\vec{x}_3$ соответственно.

* столбцы 7 и 8 — произведения второго столбца со столбцами 2 и 3: $\vec{x}_2\vec{x}_2=\vec{x}_2^2$ и $\vec{x}_2\vec{x}_3$.

* столбец 9 — произведение третьего столбца с самим собой: $\vec{x}_3\vec{x}_2=\vec{x}_3^2$.

Таким образом, при генерации полиномиальных признаков объект `PolynomialFeatures` сначала создаёт исходные факторы, затем умножает каждый из них на все факторы и повторяет процедуру. При этом, если комбинация $\vec{x}_i\vec{x}_j$ уже была сгенерирована ранее, то комбинация $\vec{x}_i\vec{x}_j$ не рассматривается.

А теперь построим модель полиномиальной регрессии **на реальных данных**.

Возьмём все те же данные о стоимости жилья в районах Бостона. Будем использовать следующие четыре признака: `LSTAT`, `CRIM`, `PTRATIO` и `RM`. С их помощью мы построим полиномиальную регрессию от первой до пятой степени включительно, а затем сравним результаты по значению средней абсолютной процентной ошибки (`MAPE`).

Чтобы не дублировать код, объявим функцию `polynomial_regression()`. Она будет принимать на вход матрицу наблюдений, вектор ответов и степень полинома, а возвращать матрицу с полиномиальными признаками, вектор предсказаний и коэффициенты регрессии, найденные по МНК:

In [7]:
def polynomial_regression(X, y, k):
    poly = PolynomialFeatures(degree=k, include_bias=True)
    X_poly = poly.fit_transform(X)
    w_hat = np.linalg.inv(X_poly.T@X_poly)@X_poly.T@y
    y_pred = X_poly @ w_hat
    return X_poly, y_pred, w_hat

Выделяем интересующие нас признаки и строим полиномы:

In [16]:
A = boston_data[['LSTAT', 'PTRATIO', 'RM', 'CRIM']]
y = boston_data[['PRICE']]
 
A_poly, y_pred, w_hat = polynomial_regression(A, y, 1)
A_poly2, y_pred2, w_hat2 = polynomial_regression(A, y, 2)
A_poly3, y_pred3, w_hat3 = polynomial_regression(A, y, 3)
A_poly4, y_pred4, w_hat4 = polynomial_regression(A, y, 4)
A_poly5, y_pred5, w_hat5 = polynomial_regression(A, y, 5)

Посмотрим на качество построенных регрессий, вычислив метрику:

In [17]:
from sklearn.metrics import mean_absolute_percentage_error
 
print('MAPE для полинома 1-й степени {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred)*100))
print('MAPE для полинома 2-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred2)*100))
print('MAPE для полинома 3-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred3)*100))
print('MAPE для полинома 4-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred4)*100))
print('MAPE для полинома 5-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred5)*100))

MAPE для полинома 1-й степени 18.20%
MAPE для полинома 2-й степени  13.41%
MAPE для полинома 3-й степени  12.93%
MAPE для полинома 4-й степени  10.75%
MAPE для полинома 5-й степени  163.95%


Что видим? Полиномиальная регрессия первой степени (линейная регрессия) показывает наименьшее качество предсказания, так как зависимость между факторами и целевым признаком нелинейная. С повышением степени полинома процентная ошибка на обучающей выборке вроде бы падает, однако для полинома пятой степени она резко возрастает и начинает измеряться тысячами процентов. Это означает, что модель вообще не описывает зависимость в исходных данных — её прогноз не имеет никакого отношения к действительности.

**Почему так происходит?**

Проведём небольшое исследование. Для начала посмотрим на коэффициенты регрессии для полинома пятой степени. Смотреть на каждый из них неудобно, их слишком много (126, если быть точными), но можно взглянуть на минимум, максимум и среднее:

In [18]:
display(pd.DataFrame(w_hat5).describe())

Unnamed: 0,PRICE
count,126.0
mean,799.393104
std,21862.09631
min,-108158.224809
25%,-0.65331
50%,-0.000517
75%,0.782735
max,216753.696598


Видно, что в степенях минимального и максимального коэффициентов явно что-то не так — коэффициенты **слишком огромные** (исчисляются миллионами).

Теперь давайте взглянем на корреляционную матрицу для факторов, на которых мы строим полином пятой степени. Корреляцию со столбцом из единиц считать бессмысленно, поэтому мы не будем его рассматривать. Для удобства расчёта матрицы корреляций обернём матрицу  в DataFrame и воспользуемся методом `corr()`:

In [19]:
# считаем матрицу корреляций (без столбца из единиц)
C = pd.DataFrame(A_poly5[:, 1:]).corr()
# считаем ранг корреляционной матрицы
print('Ранг корреляционной матрицы:', np.linalg.matrix_rank(C))
# считаем количество факторов (не включая столбец из единиц)
print('Количество факторов:', A_poly5[:, 1:].shape[1])

Ранг корреляционной матрицы: 110
Количество факторов: 125


>Мы нашли корень проблемы: ранг корреляционной матрицы — 110, в то время как общее количество факторов (не считая единичного столбца) — 125, то есть ранг корреляционной матрицы не максимален. Это значит, что в корреляционной матрице присутствуют единичные корреляции, а в исходной матрице — линейно зависимые столбцы.
>
>Как так вышло? На самом деле всё очень просто: в процессе перемножения каких-то из столбцов при создании полинома пятой степени получился такой полиномиальный фактор, который линейно выражается через другие факторы.
>
>В результате при вычислении обратной матрицы  у нас получилось деление на число, близкое к 0, а элементы обратной матрицы получились просто огромными. Отсюда и появились явно неверные степени коэффициентов, которые дают далёкий от действительности прогноз, что приводит к отрицательной метрике.

Кстати, заметим, что, например, для полинома четвёртой степени ранг матрицы корреляций максимален, то есть равен количеству факторов (не включая единичный столбец):

In [20]:
# считаем матрицу корреляций (без столбца из единиц)
C = pd.DataFrame(A_poly4[:, 1:]).corr()
# считаем ранг корреляционной матрицы
print('Ранг корреляционной матрицы:', np.linalg.matrix_rank(C))
# считаем количество факторов (не включая столбец из единиц)
print('Количество факторов:', A_poly4[:, 1:].shape[1])

Ранг корреляционной матрицы: 69
Количество факторов: 69


Поэтому и коэффициенты регрессии полинома четвёртой степени находятся в адекватных пределах.

In [21]:
display(pd.DataFrame(w_hat4).describe())

Unnamed: 0,PRICE
count,70.0
mean,-50.894226
std,887.341157
min,-6925.40305
25%,-0.187946
50%,-0.000779
75%,0.322237
max,2305.046321


А теперь посмотрим, что будет, если использовать для построения полиномиальной регрессии реализацию из библиотеки `sklearn`. Создадим функцию `polynomial_regression_sk` — она будет делать то же самое, что и прошлая функция, но средствами `sklearn`. Дополнительно будем смотреть также стандартное отклонение (разброс) по коэффициентам регрессии.

In [23]:
from sklearn.linear_model import LinearRegression

def polynomial_regression_sk(X, y, k):
    poly = PolynomialFeatures(degree=k, include_bias=False)
    X_poly = poly.fit_transform(X)
    lr = LinearRegression().fit(X_poly, y)
    y_pred = lr.predict(X_poly)
    return X_poly, y_pred, lr.coef_

A = boston_data[['LSTAT', 'PTRATIO', 'RM', 'CRIM']]
y = boston_data[['PRICE']]

for k in range(1, 6):
    A_poly, y_pred, w_hat = polynomial_regression_sk(A, y, k)
    print(
        "MAPE для полинома степени {} — {:.2f}%, СКО — {:.0f}".format(
            k, mean_absolute_percentage_error(y, y_pred)*100, w_hat.std()
        )

    )

MAPE для полинома степени 1 — 18.20%, СКО — 2
MAPE для полинома степени 2 — 13.41%, СКО — 5
MAPE для полинома степени 3 — 12.93%, СКО — 9
MAPE для полинома степени 4 — 10.74%, СКО — 304
MAPE для полинома степени 5 — 9.02%, СКО — 17055


Очередная «магия» `sklearn` — построение полинома пятой степени прошло успешно.

Почему так получилось, если, строя полином «руками», мы получали противоположный результат?

На самом деле с этим «заклинанием» из библиотеки `sklearn` мы уже знакомились в предыдущих юнитах. Секрет в том, что в `sklearn` для построения линейной регрессии используется не сама матрица наблюдений $A$, а её сингулярное разложение, которое гарантированно является невырожденным — из него исключаются линейно зависимые факторы. Таким образом, даже несмотря на немаксимальный ранг корреляционной матрицы, построить полином пятой степени всегда получится.

Однако коэффициенты полинома пятой степени обладают значительно бόльшим разбросом, чем другие модели. Разброс будет всё больше расти при увеличении степени полинома. Коэффициенты не будут отражать реальной зависимости в данных и будут построены так, чтобы компенсировать линейную зависимость факторов, то есть будут неустойчивыми.

К тому же, как мы уже знаем, чем выше степень полинома, тем выше шанс переобучения: модель может быть настолько сложной, что попросту попытается пройти через все точки в обучающем наборе данных, не уловив общей закономерности. Пример такой переобученной модели представлен ниже:

<img src=m2_img10.png>

***

## Резюмируем ↓

* Модель полиномиальной регрессии — более общий случай линейной регрессии, в котором зависимость целевой переменной от факторов нелинейная.

* Поиск коэффициентов полинома аналогичен линейной регрессии — решение неоднородной СЛАУ. 

* Возможна ситуация, когда какие-то сгенерированные полиномиальные факторы могут линейно выражаться через другие факторы. Тогда ранг корреляционной матрицы будет меньше числа факторов и поиск по классическому МНК-алгоритму не будет успешным.

* В `sklearn` для решения последней проблемы предусмотрена защита — использование сингулярного разложения матрицы $A$. Однако данная защита не решает проблемы неустойчивости коэффициентов регрессии.

* Полиномиальная регрессия имеет сильную склонность к переобучению: чем выше степень полинома, тем сложнее модель и выше риск переобучения.

***

Задание 6.4

С помощью классического МНК найдите коэффициенты полиномиальной регрессии, если используется полином второй степени и задан фактор $\vec{x}$ и целевая переменная $\vec{y}$.

$\vec{y} = w_0 + w_1 \vec{x} + w_2 \vec{x}^2$

$\vec{x}=\left(\begin{array}{c}1 \\3 \\-2 \\9\end{array}\right) \vec{y}=\left(\begin{array}{c}3 \\7 \\-5 \\21\end{array}\right)$

In [24]:
A = np.array([
    [1, 1, 1, 1],
    [1, 3, -2, 9],
    [1, 9, 4, 81]
    
]).T
y = np.array([3, 7, -5, 21])
w_hat = np.linalg.inv(A.T@A)@A.T@y
print(w_hat)

[ 0.11446013  2.46095638 -0.01608801]


# 7. Регуляция <a class="anchor" id=7></a>

[к содержанию](#0)

Обучим модель полиномиальной регрессии третьей степени. Будем использовать данные о жилье в Бостоне и возьмём следующие четыре признака: `LSTAT`, `CRIM`, `PTRATIO` и `RM`.

Для оценки качества модели будем использовать кросс-валидацию и сравнивать среднее значение метрики на тренировочных и валидационных фолдах. Кросс-валидацию организуем с помощью функции `cross_validate` из модуля `model_selection`:

In [1]:
import pandas as pd
from sklearn.model_selection import cross_validate
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_absolute_percentage_error
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'PRICE']
boston_data = pd.read_csv('housing.csv', header=None, delimiter=r"\s+", names=column_names)


В качестве метрики используем среднюю абсолютную процентную ошибку — `MAPE`.

In [2]:
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]
 
# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)
 
# создаём модель линейной регрессии
lr = LinearRegression()
 
# оцениваем качество модели на кросс-валидации, метрика — MAPE
cv_results = cross_validate(lr, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))	

MAPE на тренировочных фолдах: 12.64 %
MAPE на валидационных фолдах: 24.16 %


Что мы видим? Даже при, казалось бы, небольшой, третьей степени полинома мы получили переобучение: на тренировочной выборке $\text{MAPE}=12.64\%$, а вот на тестовой — $\text{MAPE}=24.16\%$. Показатели качества отличаются практически в два раза, что говорит о высоком разбросе модели. Ещё более удручающий результат мы получим, если воспользуемся полиномом большей степени (при желании вы можете проверить это самостоятельно).

Как с этим справиться, мы тоже уже знаем.

* Можно попробовать понизить сложность модели (снизить степень полинома). Но до какой степени? Можно постепенно перебирать степень полинома до тех пор, пока не получим адекватные результаты, но, согласитесь, процедура не очень приятная.

* Можно воспользоваться методами **регуляризации**.

О втором способе как раз и поговорим подробнее с математической точки зрения.

Для начала вспомним, что такое регуляризация.

>**Регуляризация** — это способ уменьшения переобучения моделей машинного обучения путём намеренного увеличения смещения модели для уменьшения её разброса.

Регуляризация для линейной регрессии преследует сразу несколько целей. Однако далее мы увидим, что все эти цели на самом деле взаимосвязаны:

* предотвратить переобучение модели;

* включить в функцию потерь штраф за переобучение;

* обеспечить существование обратной матрицы $(A^TA)^{-1}$;

* не допустить огромных коэффициентов модели.

***
Мы знаем, что большие значения весов — прямое свидетельство переобучения модели линейной регрессии и её нестабильности. Идея регуляризации состоит в наложении ограничения на вектор весов (часто говорят — наложение штрафа за высокие веса). В качестве штрафа принято использовать **норму вектора весов**.

Давайте запишем это на языке линейной алгебры. Вот задача минимизации длины вектора ошибок, о которой мы говорили, когда выводили формулу МНК:

$\left\|\vec{y} - A\vec{w} \right\|^2 \rightarrow min,$

где $\vec{y}$ — вектор истинных ответов, $A$ — матрица наблюдений, $\vec{w}$ — вектор весов линейной регрессии $\vec{w}=(w_0, w_1, w_2, …, w_k)^T$.

Вот её приближённое решение по МНК:

$\vec{w}=\left(A^{T} A\right)^{-1} A^{T} \vec{y}$

Теперь в исходную задачу оптимизации добавим ограничение на норму вектора весов — она не должна превышать некоторого заранее заданного $b$:

$\left\{\begin{array}{}\left\|\vec{y} - A\vec{w} \right\|^2 \rightarrow min, \\ (\left\|\vec{w}\right\|_{Lp})^p \leq b \end{array}\right.$

где $\left\|\vec{w}\right\|_{Lp}$ — норма вектора порядка $p>1$, которая определяется как:

$\|\vec{w}\|_{L_{p}}=\sqrt[p]{\sum_{i=0}^{k}\left|w_{i}\right|^{p}}$

>**Примечание**. Обратите внимание на сумму под знаком корня. У нас она начинается с $i=0$. Однако иногда в литературе, например [здесь](https://dyakonov.org/2019/10/31/линейная-регрессия/), можно встретить $i=1$, то есть свободный член $w_0$ рекомендуется не регуляризировать (не ограничивать). На самом деле это утверждение эвристическое и может как выполняться, так и нет, в зависимости от особенностей реализации. Мы будем придерживаться реализации в `sklearn`, в которой  $w_0$ всё-таки включается в регуляризацию. 

Порядок нормы $p$ в общем случае может быть любой — главное, чтобы она была больше 1. Однако на практике распространены только первая и вторая степени, так называемые $L_1$ - и $L_2$-**регуляризации**. О них мы поговорим ниже, а пока доведём решение задачи до конца и получим общую формулу.

Поставленная задача оптимизации называется **условной** — мы ищем минимум при некотором условии. Мы ещё не умеем решать такие задачи, но обязательно научимся, а пока на минутку заглянем в теорию оптимизации и поговорим о **методе множителей Лагранжа**. Прелесть данного метода в том, что он позволяет свести условную задачу оптимизации к безусловной, то есть благодаря Лагранжу мы можем перейти от системы к одному уравнению.

Метод множителей Лагранжа говорит, что записанная система с ограничением эквивалентна следующей записи:

$L(\vec{w}, \alpha)=\|\vec{y}-A \vec{w}\|^{2}+\alpha\left(\|\vec{w}\|_{L_{p}}\right)^{p} \rightarrow \min,$

где $L(\vec{w},\alpha)$ — функция Лагранжа, которая зависит не только от вектора весов модели $\vec{w}$, но и от некоторой константы $\alpha \geq 0$— множителя Лагранжа.

Это и есть финальный результат, на котором мы пока что остановимся. По сути, ничего особо не изменилось по сравнению с изначальной задачей оптимизации. Добавилось только одно слагаемое — $\alpha ( \| \vec{w} \|_{L_{p}})^p$. Заметим, что если $\alpha=0$, то мы получаем исходную задачу $\| \vec{y} - A\vec{w}  \|^2  \rightarrow min$. Далее мы увидим, что это маленькое слагаемое очень сильно поможет нам победить переобучение модели.

В машинном обучении множитель Лагранжа  принято называть **коэффициентом регуляризации**. Он отвечает за «силу» регуляризации. Чем он больше, тем меньшие значения может принимать слагаемое $\ {\left({‖\overrightarrow{w}‖}_{L_p}\right)}^p$, то есть тем сильнее ограничения на норму весов. В этом и была наша цель — ограничить веса.

# $L_2$-регуляризация  <a class="anchor" id=7-1></a>

[к содержанию](#0)



Начнём мы, как ни странно, с $L_2$-регуляризации, так как она очень наглядно показывает, как регуляризация обеспечивает невырожденность матрицы $A^TA$.

>$L_2$-регуляризация (`Ridge`), или регуляризация по `Тихонову` — это регуляризация, в которой порядок нормы $p=2$. 

Тогда, если подставить $p=2$ в наши формулы, то оптимизационная задача в случае $L_2$-регуляризации будет иметь вид:

${‖\overrightarrow{w}‖}_{L_2}=\sqrt[2]{\sum^k_{i=0}{}{|w}_i{|}^2=}\sqrt{\sum^k_{i=0}{}{(w}_i)^2}$

$\left\{\begin{array}{}\left\|\vec{y} - A\vec{w} \right\|^2 \rightarrow min, \\ (\left\|\vec{w}\right\|_{Lp})^2 \leq b \end{array}\right.$
$\leftrightarrow$
$\left\{\begin{array}{}\left\|\vec{y} - A\vec{w} \right\|^2 \rightarrow min, \\ \sum^k_{i=0}{}{(w}_i)^2 \leq b \end{array}\right.$

>**Примечание**. Видно, что норма порядка $p=2$ на самом деле является знакомой нам длиной вектора. То есть в случае $L_2$-регуляризации мы накладываем ограничение на длину вектора весов $\vec{w}$.

В терминах функции Лагранжа задача будет выглядеть как:

${‖\overrightarrow{y}-A\overrightarrow{w}‖}^2+α\sum^k_{i=0}{}{(w}_i)^2→min$

Как мы отметили ранее, у данной задачи даже есть аналитическое решение, полученное математиком Тихоновым, вот оно:

${\widehat{\overrightarrow{w}}}_{ridge}={\left(A^TA+\alpha E\right)}^{-1}A^T \overrightarrow{y},$

где $E$ — единичная матрица размера $dim (I) =(k+1, k+1)$ вида:

$E=\left(\begin{array}{} 1&0&\dots&0\\0&1&\dots&0\\\dots&\dots&\dots&\dots\\0&0&\dots&1 \end{array}\right)$

>**Примечание**. В других реализациях аналитического решения регуляризации Тихонова, отличных от `sklearn`, где коэффициент $w_0$ не участвует в регуляризации, единичная матрица $E$ заменяется на матрицу $I$, в которой первый столбец и первая строка — **нулевые**. Это делается для того, чтобы исключить коэффициент $w_0$ из регуляризации:

$I=\left(\begin{array}{} 0&0&\dots&0\\0&1&\dots&0\\\dots&\dots&\dots&\dots\\0&0&\dots&1 \end{array}\right)$

Что мы в итоге получаем? Преимущество этой формулы в том, что, если $\alpha>0$, то матрица $A^TA+\alpha E$ гарантированно является невырожденной, даже если матрица $A^TA$ таковой не является. Так получается за счёт того, что по диагонали матрицы $A^TA$ мы добавляем поправки, которые создают линейную независимость между столбцами матрицы.

Продемонстрируем это на примере ↓

### Пример № 1

Построить линейную регрессию с $L_2$-регуляризацией, если:

$\vec{x}_1=\left(\begin{array}{}1\\0\\-3\\2\\4\end{array}\right)$,$\vec{x}_2=\left(\begin{array}{}2\\0\\-6\\4\\8\end{array}\right)$,$\vec{y}=\left(\begin{array}{}4\\3\\-4\\2\\7\end{array}\right)$

Коэффициент регуляризации $\alpha=5$.

Давайте составим матрицу наблюдений $A$ для нашей задачи:

$A=\left(\begin{array}{}1&1&2\\1&0&0\\1&-3&-6\\1&2&4\\1&4&8\end{array}\right)$

Найдём матрицу Грама $A^TA$: 

$A^TA=\left(\begin{array}{}1&1&1&1&1\\1&0&-3&2&4\\1&0&-6&4&8\end{array}\right)\left(\begin{array}{}1&1&2\\1&0&0\\1&-3&-6\\1&2&4\\1&4&8\end{array}\right)=\left(\begin{array}{}5&4&8\\4&30&60\\8&60&120\end{array}\right)$

Очевидно, что матрица $A^TA$ вырождена: её второй и третий столбцы являются пропорциональными с коэффициентом 2. Значит, наша классическая формула МНК  (без сингулярного разложения) не сработает.

$\widehat{\overrightarrow{w}}={\left(A^TA\right)}^{-1}A^T\overrightarrow{y}$

Проверим:

In [3]:
import numpy as np

# матрица наблюдений (включая столбец единиц)
A = np.array([
    [1, 1, 1, 1, 1],
    [1, 0, -3, 2, 4],
    [2, 0, -6, 4, 8]
]).T
# вектор целевого признака
y = np.array([4, 3, -4, 2, 7])
# получаем оценку коэффициентов регрессии по МНК
w_hat = np.linalg.inv(A.T@A)@A.T@y
print(w_hat) 

LinAlgError: Singular matrix

Мы ожидаемо получили ошибку, говорящую о том, что матрица $A$ вырождена. 

Теперь попробуем воспользоваться регуляризацией Тихонова. Для этого составляем матрицу $E$. Она будет размером 3x3 (количество параметров — 3):

$\alpha E=5\cdot\left(\begin{array}{}1&0&0\\0&1&0\\0&0&1\end{array}\right)=\left(\begin{array}{}5&0&0\\0&5&0\\0&0&5\end{array}\right)$

Добавим регуляризационное слагаемое к матрице $A^TA$:

$A^TA+\alpha E=\left(\begin{array}{}5&4&8\\4&30&60\\8&60&120\end{array}\right)+\left(\begin{array}{}5&0&0\\0&5&0\\0&0&5\end{array}\right)=\left(\begin{array}{}10&4&8\\4&35&60\\8&60&125\end{array}\right)$

Видно, что матрица $A^TA+\alpha E$ уже не будет вырожденной: её столбцы уже не являются линейно зависимыми, а значит решение будет существовать.

Попробуем найти вектор оценок весов ${\widehat{\overrightarrow{w}}}_{ridge}$ по формуле:

In [4]:
A = np.array([
    [1, 1, 1, 1, 1],
    [1, 0, -3, 2, 4],
    [2, 0, -6, 4, 8]
]).T
# вектор целевого признака
y = np.array([4, 3, -4, 2, 7])
# единичная матрица
E = np.eye(3)
# коэффициент регуляризации 
alpha = 5
# получаем оценку коэффициентов регрессии по МНК с регуляризацией Тихонова
w_hat_ridge = np.linalg.inv(A.T@A+alpha*E)@A.T@y
print(w_hat_ridge) 

[0.6122449  0.29387755 0.5877551 ]


Работает! Мы получили вектор весов:

$\widehat{\overrightarrow{w}}={\left(0.61,\ 0.29,\ 0.59\right)}^T$

***

>Итак, мы посмотрели, как работает аналитическое решение -регуляризации. Однако в реализации `sklearn` для решения этой задачи поддерживается сразу несколько методов — как численных (координатный спуск, градиентный спуск или [LBFGS](https://ru.wikipedia.org/wiki/Алгоритм_Бройдена_—_Флетчера_—_Гольдфарба_—_Шанно)), так и аналитических (классическая регуляризация Тихонова или она же через SVD-разложение). По умолчанию метод выбирается автоматически. На простых данных все методы будут показывать примерно одинаковые результаты при одном и том же значении коэффициента регуляризации, однако на реальных данных, когда данные не стандартизированы и присутствует сильная мультиколлинеарность между факторами, результат работы каждого из методов решения задачи оптимизации может значительно отличаться. Имейте это в виду при построении модели. Подробнее о методах вы можете прочитать в документации.

Напомним, что за реализацию линейной регрессии в `sklearn` отвечает класс `Ridge`. Основной параметр модели, на который стоит обратить внимание — `alpha`, коэффициент регуляризации из формулы Тихонова.

Давайте обучим модель для решения нашей последней задачи, а затем проверим коэффициенты регрессии. Так как мы заранее заложили в матрицу  столбец из единиц, то, чтобы получить корректное решение, параметр `fit_intercept` следует установить в значение `False`.

In [5]:
from sklearn.linear_model import Ridge

# матрица наблюдений (включая столбец единиц)
A = np.array([
    [1, 1, 1, 1, 1],
    [1, 0, -3, 2, 4],
    [2, 0, -6, 4, 8]
]).T
# вектор целевого признака
y = np.array([4, 3, -4, 2, 7])
# получаем оценку коэффициентов регрессии по МНК с регуляризацией Тихонова
ridge = Ridge(alpha=5, fit_intercept=False)
ridge.fit(A, y)
print(ridge.coef_) 

[0.6122449  0.29387755 0.5877551 ]


Наконец, посмотрим, как регуляризация поможет побороть переобучение модели полиномиальной регрессии на наборе данных о домах в Бостоне. Используем те же самые признаки: `LSTAT`, `CRIM`, `PTRATIO` и `RM`. 

→ Сразу отметим, что для успешной сходимости численных методов оптимизации, которые используются для решения задачи условной оптимизации, необходима стандартизация (нормализация) исходных данных, которая не требовалась для аналитического МНК в классической линейной регрессии (`LinearRegression`).

>**Примечание**. Здесь под стандартизацией мы понимаем именно приведение распределения признака к нулевому среднему и единичному стандартному отклонению (`StandartScaler`), а не стандартизацию векторов, о которой мы говорили в этом модуле. Последнюю также можно использовать в качестве способа масштабирования данных, однако её реализации нет в `sklearn`.

In [6]:
from sklearn.preprocessing import StandardScaler

Воспользуемся моделью полиномиальной регрессии третьей степени с регуляризацией Тихонова (коэффициент регуляризации возьмём равным 20) и проверим её качество на кросс-валидации по метрике `MAPE`.

In [7]:
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]
# инициализируем стандартизатор StandardScaler
scaler = StandardScaler()
# подгоняем параметры стандартизатора (вычисляем среднее и СКО)
X = scaler.fit_transform(X)
# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)
# создаём модель линейной регрессии c L2-регуляризацией
ridge = Ridge(alpha=20, solver='svd')
# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(ridge, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))

MAPE на тренировочных фолдах: 12.54 %
MAPE на валидационных фолдах: 17.02 %


Нам удалось уменьшить ошибку (`MAPE`) на валидационных фолдах кросс-валидации с 24.16% до 17.02% и сократить разницу в метриках, тем самым уменьшив разброс ответов модели.

Задание 7.4

Вычислите коэффициенты линейной регрессии с -регуляризацией, используя аналитическую формулу Тихонова, если:

$\vec{x}_1=\left(\begin{array}{} 5\\9\\4\\3\\5 \end{array}\right),\vec{x}_2=\left(\begin{array}{} 15\\18\\18\\19\\19\\ \end{array}\right),\vec{x}_3=\left(\begin{array}{} 7\\6\\7\\7\\7 \end{array}\right),\vec{y}=\left(\begin{array}{} 24\\22\\35\\33\\36 \end{array}\right),$

In [8]:
# матрица наблюдений (включая столбец единиц)
A = np.array([
    [1, 1, 1, 1, 1],
    [5, 9, 4, 3, 5],
    [15, 18, 18, 19, 19],
    [7, 6, 7, 7, 7]
]).T
# вектор целевого признака
y = np.array([24, 22, 35, 33, 36])
# получаем оценку коэффициентов регрессии по МНК с регуляризацией Тихонова
ridge = Ridge(alpha=1, fit_intercept=False)
ridge.fit(A, y)
print(ridge.coef_) 

[-0.08523045 -1.70784126  1.91141216  0.7293992 ]


## $L_1$-РЕГУЛЯРИЗАЦИЯ  <a class="anchor" id=7-2></a>

[к содержанию](#0)




>$L_1$-регуляризацией, `Lasso` (`Least Absolute Shrinkage and Selection Operator`), называется регуляризация, в которой порядок нормы $p=1$.

Тогда оптимизационная задача в случае $L_1$-регуляризации будет иметь вид:

${‖\overrightarrow{w}‖}_{L_1}=\sqrt[1]{\sum^k_{i=0}{}{|w}_i{|}^1=}\sum^k_{i=0}{}{|w}_i|$

$\left\{\begin{array}{}\left\|\vec{y} - A\vec{w} \right\|^2 \rightarrow min, \\ (\left\|\vec{w}\right\|_1)^1 \leq b \end{array}\right.$
$\leftrightarrow$
$\left\{\begin{array}{}\left\|\vec{y} - A\vec{w} \right\|^2 \rightarrow min, \\ \sum^k_{i=0}{}{(w}_i)^1 \leq b \end{array}\right.$

>Примечание. Таким образом, в случае $L_1$-регуляризации мы ограничиваем сумму модулей весов модели. Такая величина называется [нормой Манхэттена](https://ru.wikipedia.org/wiki/Расстояние_городских_кварталов) (расстоянием городских кварталов).

Запишем полученную систему в терминах метода Лагранжа:

${‖\overrightarrow{y}-A\overrightarrow{w}‖}^2+α\sum^k_{i=0}{}{|w}_i|→min$

***

→ Можно показать, что данная задача имеет аналитическое решение, однако в реализации `sklearn` оно даже не заявлено как возможное для использования в связи с нестабильностью взятия производной от функции модуля, поэтому мы не будем его рассматривать. Ознакомиться с ним вы можете [здесь](http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf).

В `sklearn` $L_1$-регуляризация реализована в классе [Lasso](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html), а заданная выше оптимизационная задача решается **алгоритмом координатного спуска** (`Coordinate` `Descent`).

Давайте посмотрим, как работает Lasso на «игрушечном» примере, а затем применим его для набора данных о домах в Бостоне.

### Пример № 2

Построить линейную регрессию с $L_1$-регуляризацией, если:

$\vec{x}_1=\left(\begin{array}{} 1\\0\\-3\\2\\4 \end{array}\right), \vec{x}_2=\left(\begin{array}{} 2\\0\\-6\\4\\8 \end{array}\right), \vec{y}=\left(\begin{array}{} 4\\3\\-4\\2\\7 \end{array}\right)$

Коэффициент регуляризации $\alpha=0.1$.

Составим матрицу наблюдений $A$ для нашей задачи:

$A=\left(\begin{array}{} 1&1&2\\1&0&0\\1&-3&-6\\1&2&4\\1&4&8 \end{array}\right)$

Из примера №1 мы уже знаем, что матрица Грама $A^TA$ будет вырождена, а значит классического МНК-решения (не беря в расчёт сингулярное разложение) не получится.

Попробуем найти коэффициенты регрессии с помощью $L_1$-регуляризации. Для этого подадим нашу матрицу наблюдений $A$ и вектор целевого признака $\vec{y}$ в модель `Lasso`.

In [11]:
from sklearn.linear_model import Lasso
# матрица наблюдений (включая столбец единиц)
A = np.array([
    [1, 1, 1, 1, 1],
    [1, 0, -3, 2, 4],
    [2, 0, -6, 4, 8]
]).T
# вектор целевого признака
y = np.array([4, 3, -4, 2, 7])
# получаем оценку коэффициентов регрессии с помощью L1-регуляризации
lasso = Lasso(alpha=0.1, fit_intercept=False)
lasso.fit(A, y)
print(lasso.coef_)

[1.14925373 0.         0.71921642]


Вот наша оценка вектора весов:

$\widehat{\overrightarrow{w}}={\left(1.15,\ 0,\ 0.72\right)}^T$

Сразу обращаем внимание, что, в отличие от регуляризации Тихонова, $L_1$-регуляризация «занулила» коэффициент, стоящий при факторе $\vec{x}_1$. Это произошло не случайно, так как это особенность данного метода. Как говорится, «не баг, а фича», причём очень важная. Коэффициенты, стоящие при коллинеарных или высококоррелированных факторах, зануляются. Также чем выше коэффициент регуляризации, тем больше вероятность того, что коррелированные или малозначащие факторы будут исключены из модели. Чуть позже мы рассмотрим геометрическую интерпретацию и поймём, почему так происходит.

А пока давайте применим $L_1$-регуляризацию к нашей полиномиальной модели третьей степени, прогнозирующей типичную цену на дома в районах Бостона.

Так как метод координатного спуска, который применяется для поиска коэффициентов, является численным, то необходима стандартизация исходных данных, чтобы обеспечить ему сходимость. Возьмём в качестве коэффициента регуляризации $\alpha=0.1$ и проверим качество полученной модели с помощью кросс-валидации по метрике `MAPE`:

In [12]:
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]

# инициализируем стандартизатор StandardScaler
scaler = StandardScaler()
# подгоняем параметры стандартизатора (вычисляем среднее и СКО)
X = scaler.fit_transform(X)

# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)

# создаём модель линейной регрессии c L1-регуляризацией
lasso = Lasso(alpha=0.1, max_iter=10000)

# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(lasso, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))

MAPE на тренировочных фолдах: 12.44 %
MAPE на валидационных фолдах: 16.44 %


Видим, что с помощью $L_1$-регуляризации удалось уменьшить ошибку модели (`MAPE`) на валидационных фолдах с 24.16% до 16.44% и сократить разницу в метриках на тренировочных и валидационных фолдах даже лучше, чем с этим справилась $L_2$-регуляризация. Однако на самом деле мы просто удачно выбрали коэффициент регуляризации — при других значениях могли получиться совершенно другие результаты.

## ELASTIC-NET <a class="anchor" id=7-2></a>

[к содержанию](#0)


Последний вид регуляризации (хотя их на самом деле больше), который мы рассмотрим, называется `Elastic`-`Net` (эластичная сетка). Это комбинация $L_1$- и $L_2$-регуляризации.

Идея `Elastic-Net` состоит в том, что мы вводим ограничение как на норму весов порядка $p=1$, так и на норму порядка $p=2$. Тогда оптимизационная задача будет иметь вид:

$\left\{\begin{array}{}\left\|\vec{y} - A\vec{w} \right\|^2 \rightarrow min, \\ \\ (\left\|\vec{w}\right\|_{L_1})^1 \leq b_1 \\ \\ (\left\|\vec{w}\right\|_{L_2})^2 \leq b_2 \end{array}\right.$
$\leftrightarrow$
$\left\{\begin{array}{}\left\|\vec{y} - A\vec{w} \right\|^2 \rightarrow min, \\ \\ \sum^k_{i=0}{}{|w_i|} \leq b_1 \\ \\ \sum^k_{i=0}{}{(w}_i)^2 \leq b_2 \end{array}\right.$

Немного модифицировав формулу функции Лагранжа, которая получается в результате такой задачи условной оптимизации, можно получить финальный результат:

${\|\overrightarrow{y}-A\overrightarrow{w}\|}^2+\alpha \cdot \lambda \sum^k_{i=0}{}{|w}_i|+\frac{\alpha \cdot (1-\lambda )}{2}\sum^k_{i=0}{}{(w}_i)^2\to min$

Здесь коэффициенты $\alpha$ и $\lambda$ отвечают за вклад слагаемых регуляризации.

* Если $\alpha=0$,  получаем классическую МНК-задачу оптимизации.
* Если $\lambda=1$, получаем `Lasso`-регрессию.
* Если $\alpha \neq 0$, $\lambda=0$, получаем `Ridge`-регрессию с коэффициентом $\alpha/2$.

Попробуйте самостоятельно подставить эти значения и убедиться в этом.

Аналитического решения у этой задачи нет, поэтому для её решения в `sklearn`, как и для модели Lasso, используется **координатный спуск.**

В sklearn эластичная сетка реализована в классе [ElasticNet](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html) из пакета с линейными моделями — `linear_model`. За коэффициент $\alpha$ отвечает параметр `alpha`, за коэффициент $\lambda$ — `l1_ratio`.

>Некоторые рекомендации от разработчиков `ElasticNet`:
>
>* Использование параметра `l1_ratio <0.01` приводит к нестабильным результатам.
>* Вместо использования `ElasticNet` с `alpha=0` лучше используйте `LinearRegression`, так как там применяется аналитическое решение, которое позволяет получать более точные решения, чем численный координатный спуск.
П

о традиции рассмотрим «игрушечный» пример работы с `Elastic-Net`, а затем применим эту модель к нашей задаче о домах в Бостоне.

### Пример № 3

Построить линейную регрессию с **Elastic-Net**-регуляризацией, если:

$\vec{x}_1=\left(\begin{array}{} 1\\0\\-3\\2\\4 \end{array}\right), \vec{x}_2=\left(\begin{array}{} 2\\0\\-6\\4\\8 \end{array}\right), \vec{y}=\left(\begin{array}{} 4\\3\\-4\\2\\7 \end{array}\right)$

Решить задачу с тремя комбинациями коэффициентов регуляризации:
1. $\alpha=0.1$ и $\lambda=0.2$
2. $\alpha=0.1$ и $\lambda=0.7$
3. $\alpha=0.1$ и $\lambda=1$

Составим матрицу наблюдений $A$ для нашей задачи:

$A=\left(\begin{array}{} 1&1&2\\1&0&0\\1&-3&-6\\1&2&4\\1&4&8 \end{array}\right)$

Мы уже знаем, что матрица Грама $A^TA$ будет вырождена, а значит классического МНК-решения (не беря в расчёт сингулярное разложение) не получится.

Сразу переходим к построению регрессии с помощью **ElasticNet**.

## Случай 1: $\alpha=0.1$ и $\lambda=0.2$

In [14]:
from sklearn.linear_model import ElasticNet
# матрица наблюдений (включая столбец единиц)
A = np.array([
    [1, 1, 1, 1, 1],
    [1, 0, -3, 2, 4],
    [2, 0, -6, 4, 8]
]).T
# вектор целевого признака
y = np.array([4, 3, -4, 2, 7])
# получаем оценку коэффициентов регрессии 
lasso = ElasticNet(alpha=0.1, l1_ratio=0.2, fit_intercept=False)
lasso.fit(A, y)
print(lasso.coef_)

[1.13492457 0.19525842 0.6237965 ]


Получили оценку вектора коэффициентов:

${\widehat{\overrightarrow{w}}}_{en_1}={\left(1.13,\ 0.2,\ 0.62\right)}^T$

Обратим внимание, что зануления коэффициентов коллинеарных факторов $\vec{x}_1$ и $\vec{x}_2$ не произошло. Каждый из них вошёл в уравнение регрессии с ненулевым коэффициентом.

## Случай 2: $\alpha=0.1$ и $\lambda=0.7$

In [15]:
# получаем оценку коэффициентов регрессии
lasso = ElasticNet(alpha=0.1, l1_ratio=0.7, fit_intercept=False)
lasso.fit(A, y)
print(lasso.coef_)

[1.14379753 0.         0.71993025]


Получили оценку вектора коэффициентов:

${\widehat{\overrightarrow{w}}}_{en_2}={\left(1.14,\ 0,\ 0.72\right)}^T$

Обратим внимание, что произошло зануление коэффициентов. Это неспроста, так как мы понизили влияние $L_2$-регуляризации и одновременно повысили влияние $L_1$-регуляризации, которая, как мы уже знаем, приводит к исключению линейно зависимых факторов.

## Случай 3: $\alpha=0.1$ и $\lambda=1$

In [16]:
# получаем оценку коэффициентов регрессии
lasso = ElasticNet(alpha=0.1, l1_ratio=1, fit_intercept=False)
lasso.fit(A, y)
print(lasso.coef_)

[1.14925373 0.         0.71921642]


Получили оценку вектора коэффициентов:

${\widehat{\overrightarrow{w}}}_{en_3}={\left(1.14,\ 0,\ 0.72\right)}^T$

В округлениях значения не заметно, однако если присмотреться к коэффициентам более внимательно, можно увидеть, что мы получили в точности те же значения, которые получали для модели `Lasso` в примере № 2. Неудивительно, ведь мы обнулили влияние $L_2$-регуляризации, выставив `l1_ratio=1`. По сути, мы использовали чистую модель `Lasso`.

?
Возникает вопрос: какой набор коэффициентов линейной регрессии всё-таки подходит лучше?

Ответить на него можно, только вычислив метрику качества и сравнив ошибки прогнозов каждой из полученных моделей. Мы уверены, вы можете сделать это самостоятельно.

Нам осталось только попробовать применить `Elastic-Net` к данным о недвижимости в Бостоне.

Как и для других моделей с регуляризацией, для `Elastic-Net` также лучше заранее позаботиться о стандартизации данных. В качестве коэффициентов регуляризации возьмём ,  . Качество модели проверим с помощью кросс-валидации на пяти фолдах, метрика — `MAPE`.

In [17]:
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]
# инициализируем стандартизатор StandardScaler
scaler = StandardScaler()
# подгоняем параметры стандартизатора (вычисляем среднее и СКО)
X = scaler.fit_transform(X)
# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)
# создаём модель линейной регрессии c L1- и L2-регуляризациями
lasso = ElasticNet(alpha=0.1, l1_ratio=0.5, max_iter=10000)
# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(lasso, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100)) 

MAPE на тренировочных фолдах: 12.65 %
MAPE на валидационных фолдах: 15.70 %


Итак, `Elastic-Net` позволил нам уменьшить значение `MAPE` на валидационных фолдах с 24.16% до 15.7%. Отличный результат! Он получился лучше, чем у моделей `Ridge` и `Lasso`, но опять же скажем, что так бывает не всегда.

***

→ На практике при использовании моделей с регуляризацией стоит подбирать значения коэффициентов регуляризации с помощью методов подбора гиперпараметров, которые мы изучали в модуле «ML-7. Оптимизация гиперпараметров модели». Только после подбора гиперпараметров можно сделать вывод, какая из моделей показывает наилучшие результаты для решения конкретной задачи. Надеемся, вы помните, как подбираются гиперпараметры (если нет, освежите знания в модуле ML-7).

## *ГЕОМЕТРИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ РЕГУЛЯРИЗАЦИИ

Напоследок поговорим о геометрической интерпретации регуляризации. В дальнейшем, изучая теорию оптимизации, мы увидим, что задача условной оптимизации

$\left\{\begin{array}{}\left\|\vec{y} - A\vec{w} \right\|^2 \rightarrow min, \\ \\ (\left\|\vec{w}\right\|_{L_p})^p \leq b\end{array}\right.$

геометрически означает поиск минимума функции

$L(\overrightarrow{w})= \left\|\overrightarrow{y}-A\overrightarrow{w} \right\|^2=\sum^N_{i=1}{}(y_i-({\overrightarrow{x}}_i,\ \overrightarrow{w}))^2$, которая отражает выпуклую поверхность, на пересечении с фигурой, которая образуется функцией $\psi (\overrightarrow{w})=( \left\|\overrightarrow{w} \right\| _{L_p})^p$, ограниченной некоторым числом $b$.

* В случае $L_1$-регуляризации выражение $\sum^k_{i=0}{}{|w}_i|\le b$ задаёт в пространстве параметров $w$ внутренность ромба с центром в начале координат:

${|w}_0|+{|w}_1|+...+{|w}_k|=b$ — уравнение ромба

* В случае $L_2$-регуляризации выражение $\sum^k_{i=0}{}{(w}_i)^2\le b$ задаёт окружность с центром в начале координат:

${(w}_0)^2+{(w}_1)^2+...+{(w}_k)^2=b$— уравнение окружности

Рассмотрим случай, когда фактор всего один ($k=1$), а в уравнении линейной регрессии присутствуют только два параметра: $w_0$ и $w_1$. Как мы знаем, в математике всё, что справедливо для меньших размерностей, справедливо и для бόльших.

Посмотрим на рисунок ниже. На самом деле мы уже видели его, когда изучали общую постановку задачи регрессии.

<img src=m2_img11.png>

Концентрическими кругами обозначены линии равного уровня функции $L(w)$. Для каждого конкретного набора данных она будет иметь разный вид, но смысл будет тем же. **Голубой** областью обозначены ромб и окружность, которые задаёт $L_1$- и $L_2$-норма вектора весов соответственно.

* Если бы мы использовали классическую линейную регрессию, то МНК приводил бы нас в точку истинного минимума функции $L(w)$ — в центр, из которого исходят концентрические круги. Это была бы некоторая комбинация параметров $w_0$ и $w_1$.

* В случае, когда мы используем модель линейной регрессии с регуляризацией, мы будем пытаться найти такую комбинацию $w_0$ и $w_1$, которая доставляет минимум функции $L(w)$, но при этом не выходит за границы ромба (или окружности). Таким образом, вместо истинного минимума мы находим так называемый **псевдоминимум**.

Заметим, что у ромба вероятность коснуться концентрического круга одной из своих вершин больше, чем у окружности — своей верхней/нижней/правой/левой точкой. Точка касания в вершине ромба — это точка, в которой либо $w_0=0$ либо $w_1=0$. То есть $L_1$-регуляризация склонна с большей вероятностью занулять коэффициенты линейной регрессии, чем $L_2$-регуляризация.

>Величина диагонали ромба и радиуса окружности зависят от величины коэффициента регуляризации $\alpha$: чем больше $\alpha$, тем меньше ромб/окружность, а значит тем дальше псевдоминимум будет находиться от истинного минимума, и наоборот.

# 8. Практика. Полиноминальная регрессия и регуляция <a class="anchor" id=8></a>

[к содержанию](#0)

Ранее, в юните 5, мы смогли построить модель линейной регрессии, которая прогнозирует выработку газа на скважине. Для этого мы с помощью матрицы корреляций и рассуждений отобрали некоррелированные, значимые для предсказания признаки. Далее мы будем использовать именно их (см. задание 5.5).

Мы хотим попробовать улучшить наш результат — метрику `MAPE`. Для этого воспользуемся моделью полиномиальной регрессии третьей степени. Однако теперь мы знаем, что полиномиальным моделям очень легко переобучиться под исходную выборку, поэтому для контроля качества модели мы будем использовать кросс-валидацию.

**Задание 8.1**

Сгенерируйте полиномиальные признаки третьего порядка на факторах, которые вы выбрали для обучения моделей. Для этого воспользуйтесь генератором полиномов `PolynomialFeatures` из библиотеки `sklearn`. Параметр `include_bias` установите в значение `False`.

1. Сколько факторов у вас получилось после генерации полиномиальных признаков?

In [2]:
import pandas as pd
data = pd.read_csv('unconv.zip')
data.head(2)

Unnamed: 0,Well,Por,Perm,AI,Brittle,TOC,VR,Prod
0,1,12.08,2.92,2.8,81.4,1.16,2.31,4165.196191
1,2,12.38,3.53,3.22,46.17,0.89,1.88,3561.146205


In [3]:
data = data.drop(columns=['Well','Perm','TOC'])
data.head(2)

Unnamed: 0,Por,AI,Brittle,VR,Prod
0,12.08,2.8,81.4,2.31,4165.196191
1,12.38,3.22,46.17,1.88,3561.146205


In [9]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_validate
from sklearn.metrics import mean_absolute_percentage_error
A = data.drop('Prod',axis=1)
y=data['Prod']
poly = PolynomialFeatures(degree=3, include_bias=False)
A_poly = poly.fit_transform(A)
print('Кол-во полипризнаков :',A_poly.shape[1])
model = LinearRegression()
cv_results = cross_validate(model, A_poly, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))

Кол-во полипризнаков : 34
MAPE на тренировочных фолдах: 1.77 %
MAPE на валидационных фолдах: 2.68 %


**Задание 8.2**

Теперь попробуем воспользоваться линейной регрессией с регуляризацией. Для начала возьмём $L_1$-регуляризацию.

Обучите модель `Lasso` из библиотеки `sklearn` на полученных полиномиальных факторах, предварительно стандартизировав факторы с помощью `StandardScaler`. Коэффициент регуляризации выставите равным 5.

Оцените среднее значение метрики `MAPE`, используя кросс-валидацию на пяти фолдах.

Чему равны средние значения метрики `MAPE` на тренировочных и валидационных фолдах? 

In [15]:
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso
from sklearn.preprocessing import PolynomialFeatures

data = pd.read_csv('unconv.zip')

X = data.drop(['Prod', 'Perm', 'TOC', 'Well'], axis=1)
y = data['Prod'].values

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

poly = PolynomialFeatures(degree=3, include_bias=False)
X_poly = poly.fit_transform(X_scaled)

lasso = Lasso(alpha=5)
lasso.fit(X_poly, y)

# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(lasso, X_poly, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.1f}'.format(-cv_results['train_score'].mean() * 100))
print('MAPE на валидационных фолдах: {:.1f}'.format(-cv_results['test_score'].mean() * 100))

MAPE на тренировочных фолдах: 1.8
MAPE на валидационных фолдах: 2.3


**Задание 8.3**

Проделаем то же самое с $L_2$-регуляризацией.

Обучите модель `Ridge` из библиотеки `sklearn` на полученных полиномиальных факторах, предварительно стандартизировав факторы с помощью `StandardScaler`. Коэффициент регуляризации выставите равным 1.

Оцените среднее значение метрики `MAPE`, используя кросс-валидацию на пяти фолдах.

Чему равны средние значения метрики `MAPE` на тренировочных и валидационных фолдах? 

In [19]:
from sklearn.linear_model import Ridge

ridge = Ridge(alpha=1)
ridge.fit(X_poly, y)

# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(ridge, X_poly, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.1f}'.format(-cv_results['train_score'].mean() * 100))
print('MAPE на валидационных фолдах: {:.1f}'.format(-cv_results['test_score'].mean() * 100))

MAPE на тренировочных фолдах: 1.8
MAPE на валидационных фолдах: 2.7


# 9. Итоги <a class="anchor" id=9></a>

[к содержанию](#0)

ДОПОЛНИТЕЛЬНЫЕ МАТЕРИАЛЫ:

[Ещё одно объяснение метода наименьших квадратов](http://www.mathprofi.ru/metod_naimenshih_kvadratov.html)

[Более расширенное понятие регуляризации](https://neerc.ifmo.ru/wiki/index.php?title=Регуляризация) (включая регуляризацию через SVD-разложение)