# **Полиномиальная регрессия**

✍ Когда мы знакомились с моделью линейной регрессии в модуле по машинному обучению, мы также кратко затронули и её модификации. Теперь настало время вновь обратиться к ним и посмотреть на них с математической точки зрения.

Начнём с модели **полиномиальной регрессии**.
***
* **Полином (многочлен)** от k переменных x1, x2, ... , xk — это выражение (функция) вида:

![](data/50.PNG)

где

* I = (i1, i2, ... , ik) — набор из k целых неотрицательных чисел — степеней полинома;
* wi — числа, называемые **коэффициентами полинома**.
***
Пока эта форма записи нам ничего не даёт — она слишком сложная. Давайте рассмотрим пример попроще. Когда переменная всего одна, полином будет записываться как:

![](data/51.PNG)

Выражение для полинома первой степени уже можно прочитать без особого труда. Видно, что на самом деле ***полином — это линейная комбинация из различных степеней переменной x***, взятой с какими-то коэффициентами, причём некоторые из коэффициентов могут быть нулевыми.
***
* Максимальная степень при переменной x называется **степенью полинома**.
***

Самый простой пример полинома от одной переменной — парабола. Это полином второй степени. Вспомним её уравнение:

![](data/52.PNG)

где x — это некоторая неизвестная, а коэффициенты a, b и c определяют различные параметры этой параболы (направление её ветвей, начало параболы, её растяжение и т. д.).

Ниже представлены возможные варианты расположения параболы в зависимости от коэффициентов a, b и c.

![](https://lms.skillfactory.ru/assets/courseware/v1/84a7273f958290a20fab5eb38d6fc35c/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_1.png)

Вспомним, что уравнение ![](data/52.PNG) определяет точки пересечения параболы с осью абсцисс — осью X. Чтобы найти точки пересечения, необходимо решить это квадратное уравнение. Вы наверняка делали это в школе: найти дискриминант, затем квадратные корни и т. д. Сейчас мы не будем этим заниматься, но понимание сути процедуры полезно для общего осознания принципа работы полиномиальной регрессии.

![](data/53.PNG)

Кстати, отметим важный факт: **уравнение прямой также является частным случаем полинома первой степени**:

![](data/54.PNG)

Чем нам так интересны полиномы (особенно степени > 1)?

На самом деле всё очень просто: **полином степени k способен описать абсолютно любую зависимость**. Для этого ему достаточно задать набор наблюдений — точек, через которые он должен пройти (или пройти приблизительно). Вопрос стоит только в степени этого полинома — k. Например, ниже представлено три полинома: первой степени — линейная регрессия, второй степени — квадратичная регрессия и третьей степени — кубическая регрессия.

![](https://lms.skillfactory.ru/assets/courseware/v1/b87e9ca1eebf310f078dd18ab27b6b91/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_2.png)

Видно, что для полинома первой степени (линейной регрессии) представленная в данных нелинейная зависимость целевой переменной y от фактора x, даётся тяжело: ошибка прогноза довольно велика. Два других полинома хорошо описывают поведение точек в пространстве.

                            Цель обучения модели полиномиальной регрессии
                            степени та же, что и для линейной регрессии:
                            найти такие коэффициенты wi, при которых ошибка
                            между построенной функцией и обучающей выборкой
                            была бы наименьшей из возможных.

На самом деле для поиска этих коэффициентов мы можем использовать те же самые методы, что и для линейной регрессии, а именно **метод наименьших квадратов**. Мы можем взять уравнение полинома и потребовать, чтобы кривая проходила через точки в обучающей выборке (на графике выше они обозначены синим). Значения точек можно обозначить за y1, y2, ... , yn. Тогда мы хотим, чтобы для полинома степени k (от одной переменной) выполнялась система уравнений:

![](https://lms.skillfactory.ru/assets/courseware/v1/6f584c3e4472cdb52aec95bbeacd834f/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_3.png)

Обычно количество точек в обучающей выборке N значительно больше, чем степень полинома k, а значит перед нами переопределённая СЛАУ относительно с k+1 неизвестной — wi. Точных решений у системы практически никогда не будет, но мы умеем решать её приближённо. Мы даже вывели **формулу для приближённого решения**:

![](data/55.PNG)

Итак, мы вкратце обсудили, как должно выглядеть решение для полинома от одной переменной (от одного фактора). Теперь давайте более подробно остановимся на нюансах решения этой задачи и плавно перейдём к полиномам от нескольких переменных.
***

Начнём с квадратичной регрессии от одной переменной.

![](data/56.PNG)
***
**Важное лирическое отступление**

У внимательного студента должен был возникнуть вопрос: а что значит **возвести вектор в квадрат**? На первый взгляд, может показаться, что мы ищем скалярное произведение вектора с самим собой, ведь:

![](data/567.PNG)

Однако такой вариант нам не подходит, так как скалярное произведение — это число, а нам нужен именно вектор, иначе у нас не получится составить линейную комбинацию. Поэтому здесь под x^2 понимается вектор из квадратов координат вектора x. Тогда:

![](https://lms.skillfactory.ru/assets/courseware/v1/055fbee8574f18951d724eeecd4261eb/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_5.png)

Ещё одно важное замечание: обратите внимание, что, несмотря на то что в нашем уравнении появились квадраты, оно всё равно продолжает быть линейным, так как неизвестным является не вектор x^2, а коэффициенты разложения w0, w1 и w2. 
***
Итак, у нас получилась СЛАУ, состоящая из N уравнений на трёх неизвестных:

![](https://lms.skillfactory.ru/assets/courseware/v1/b4e27c8a2d5b42a1a63ee43fe75674de/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_6.png)

Давайте для удобства и привычной нумерации переменных обозначим вектор z1 = x, а z2 = x^2. Тогда:

![](https://lms.skillfactory.ru/assets/courseware/v1/81364cbadbe659ffbad8119dd5a4a3ff/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_7.png)

Тогда получим уже знакомую нам неоднородную переопределённую СЛАУ:

![](https://lms.skillfactory.ru/assets/courseware/v1/18a113d76be204a00ef0e281bff181c6/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_8.png)

Или в матричном виде:

![](https://lms.skillfactory.ru/assets/courseware/v1/6bd785f68d9fc32ea6630d143bf752ad/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_9.png)

Что мы делаем с такими СЛАУ? Верно — решаем. Правда, только приближённо. Раз система линейная и переопределённая, то МНК — наш лучший выбор. Тогда решение такой системы будет полностью аналогичным формуле для поиска коэффициентов простой линейной регрессии, разве что коэффициентов будет немного побольше:

![](data/58.PNG)

### **Пример № 1**

Построить квадратичную регрессию на целевую переменную y из одного фактора x, если:

![](https://lms.skillfactory.ru/assets/courseware/v1/7f26299bb721728664941b68e1d58e29/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_10.png)

Итак, вот наша полиномиальная модель второй степени (квадратичная регрессионная модель):

![](data/59.PNG)

Нам нужно найти такую линейную комбинацию из векторов 1, x и x^2, которая в сумме давала бы наилучшее приближение для y. Записываем систему в матричном виде:

![](https://lms.skillfactory.ru/assets/courseware/v1/4085b0afbdae208aae78ed0506580f1f/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_12.png)

Посчитаем ранг матрицы системы и ранг расширенной матрицы системы на случай, если система определённая и имеет конкретное решение или вовсе имеет бесконечное количество решений:

![](https://lms.skillfactory.ru/assets/courseware/v1/13c0206f204b2925e15fdac90ee28133/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_13.png)

Видно, что ранг матрицы системы (rk(A) = 3) всё-таки меньше, чем ранг расширенной матрицы (rk(A|y) = 4), а значит система не имеет конкретных решений — только приближённые. Найдём их:

![](data/60.PNG)

**Решение на Python:**

In [1]:
import numpy as np 
import pandas as pd

In [2]:
A = np.array([
    [1, 1, 1, 1],
    [1, 3, -2, 1],
    [1, 9, 4, 1]
]).T
y = np.array([4, 5, 2, 2])
w_hat = np.linalg.inv(A.T@A)@A.T@y
print(w_hat)

[2.4        0.46666667 0.13333333]


Таким образом, наш вектор оценок коэффициентов:

![](data/61.PNG)

Чтобы сделать прогноз для нового наблюдения xnew, нам нужно поставить его в уравнение полинома с найденными коэффициентами:

![](data/62.PNG)
***

Как вы понимаете, один фактор — это слишком тривиальная, далёкая от реальности ситуация. Давайте посмотрим, как выглядит уравнение квадратичной регрессии для случая двух переменных.

Пусть у нас есть два фактора x1 и x2, от которых зависит целевая переменная y:

![](https://lms.skillfactory.ru/assets/courseware/v1/255011059b9aa898586ba18a86583935/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_14.png)

Всё то же самое: будем предполагать, что зависимость нелинейная, а точнее, квадратичная, то есть в качестве модели используется полином второй степени, задающий сложную трёхмерную поверхность, форма которой напрямую зависит от коэффициентов. Заметим, что в функцию уже будут включены попарные произведения факторов x1 и x2, а коэффициентов будет уже шесть:

![](data/63.PNG)

Примечание. Здесь, как и в предыдущем случае, запись x1x2 означает покоординатное (не скалярное!) произведение векторов x1 и x2.

или

![](https://lms.skillfactory.ru/assets/courseware/v1/6b035baeb7ebce0f14079ee2e1db4f52/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_15.png)

В матричном виде:

![](https://lms.skillfactory.ru/assets/courseware/v1/1ba7bef02f0c5a45fc7659517ba8397d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_16.png)

Выглядит громоздко, но на деле ничего серьёзного. Если воспринимать все полиномиальные столбцы как обычные столбцы, состоящие из чисел, мы просто снова получим обычную переопределённую неоднородную СЛАУ (если N значительно больше количества признаков k):

![](https://lms.skillfactory.ru/assets/courseware/v1/a3e1b3cbbaaa07739cd70cd437e8f76a/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_17.png)

Сразу обратим внимание на то, что для того, чтобы система имела точное (была совместной) или хотя бы приближённое решение, нам необходимо, чтобы **строк в матрице было как минимум** шесть, причём все уравнения должны быть линейно независимыми. Иначе количество строк будет меньше количества столбцов, и тогда решений будет бесконечное множество (по первому следствию теоремы Кронекера — Капелли), а такой случай нам не подходит.

**Что это значит на языке геометрии?**

Это значит, что нам нужно как минимум шесть точек в трёхмерном пространстве с осями x1, x2 и y, чтобы мы смогли провести через них нашу поверхность, которую задаёт уравнение:

![](data/63.PNG)

### **Пример № 2**

Построить квадратичную регрессию на целевую переменную y из двух факторов x1 и x2, если:

![](https://lms.skillfactory.ru/assets/courseware/v1/9d4cafa4a79a4c4ac0214866c9e0000a/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_18.png)

Записываем нашу модель:

![](https://lms.skillfactory.ru/assets/courseware/v1/cdad85f6355fe3161a436469f0955401/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_19.png)

Записываем систему в матричном виде:

![](https://lms.skillfactory.ru/assets/courseware/v1/29749b8ca28c10584ccf891c8242727d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_20.png)

Видно, что первое и последнее уравнение системы противоречат друг другу. Можно не считать ранг —сразу понятно, что система будет переопределённой и нужно искать приблизительные решения по МНК:

![](data/55.PNG)

Чтобы решить такую задачу, без Python и матричных вычислений точно не обойтись. Переведём наши условия в программную реализацию. С точки зрения программы самое сложное в этой задаче — правильно записать матрицу A:

In [3]:
A = np.array([
    [1, 1, 1, 1, 1, 1, 1],
    [1, 3, -2, 1, 5, 13, 1],
    [3, 4, 5, -2, 4, 11, 3],
    [1, 9, 4, 1, 25, 169, 1],
    [3, 12, -10, -2, 20, 143, 3],
    [9, 16, 25, 4, 16, 121, 9]
    
]).T
y = np.array([4, 5, 2, 2, 6, 8, -1])
w_hat = np.linalg.inv(A.T@A)@A.T@y
print(w_hat)

[-2.25799015  2.37672337 -0.1322068  -0.10208147 -0.26501791  0.29722471]


Итак, наш вектор приближений коэффициентов найден:

![](data/64.PNG)
***
Как вы понимаете, вручную считать коэффициенты полиномиальной регрессии — неблагодарное дело. А ведь мы с вами рассмотрели только случай полинома второй степени с двумя факторами. Расти может как степень полинома, так и количество факторов. Можно представить, какую размерность может приобрести система уравнений.

Например, уравнение модели полинома третьей степени для случая двух факторов будет иметь следующий вид:

![](data/66.PNG)

Количество неизвестных уже равно 10, а факторов пока ещё два. Как говорится, то ли ещё будет...
***
Примечание. Кстати, для того чтобы определить количество коэффициентов в регрессии, есть формула:

![](data/65.PNG)

Конечно, вручную создавать полиномиальные столбцы в матрице наблюдений мы не будем. В модуле «ML-2. Обучение с учителем: регрессия» мы с вами уже знакомились с полиномиальными признаками, генерация которых реализована в классе **PolynomialFeatures** из модуля **preprocessing**. 

Потренируемся на следующем примере ↓

### **Пример № 3**

Строится полиномиальная регрессия второй степени, задано три фактора:

![](data/67.PNG)

Для начала составим обычную матрицу наблюдений A, расположив векторы в столбцах. Обратите внимание, что вектор из 1 мы не будем добавлять в матрицу (за нас это сделает генератор полиномиальных признаков):

In [4]:
A = np.array([
    [1, 3, -2, 1, 5, 13, 1],
    [3, 4, 5, -2, 4, 11, 3],
    [4, 5, 2, 2, 6, 8, -1],
]).T
print(A)

[[ 1  3  4]
 [ 3  4  5]
 [-2  5  2]
 [ 1 -2  2]
 [ 5  4  6]
 [13 11  8]
 [ 1  3 -1]]


Затем импортируем класс **PolynomialFeatures** из библиотеки sklearn. Создадим объект этого класса, указав при инициализации степень полинома равной 2. Также укажем, что нам нужна генерация столбца из 1 (параметр **include_bias**=True):

In [5]:
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2, include_bias=True)

Осталось только вызвать метод **fit_transform()** от имени этого объекта и передать в него нашу матрицу наблюдений A. Для удобства выведем результат в виде DataFrame:

In [8]:
A_poly = poly.fit_transform(A)
display(pd.DataFrame(A_poly))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1.0,1.0,3.0,4.0,1.0,3.0,4.0,9.0,12.0,16.0
1,1.0,3.0,4.0,5.0,9.0,12.0,15.0,16.0,20.0,25.0
2,1.0,-2.0,5.0,2.0,4.0,-10.0,-4.0,25.0,10.0,4.0
3,1.0,1.0,-2.0,2.0,1.0,-2.0,2.0,4.0,-4.0,4.0
4,1.0,5.0,4.0,6.0,25.0,20.0,30.0,16.0,24.0,36.0
5,1.0,13.0,11.0,8.0,169.0,143.0,104.0,121.0,88.0,64.0
6,1.0,1.0,3.0,-1.0,1.0,3.0,-1.0,9.0,-3.0,1.0


Итак, мы получили нашу матрицу Apoly. Давайте посмотрим на её столбцы:

![](data/68.PNG)

Таким образом, при генерации полиномиальных признаков объект PolynomialFeatures сначала создаёт исходные факторы, затем умножает каждый из них на все факторы и повторяет процедуру. При этом, если комбинация xixj уже была сгенерирована ранее, то комбинация xjxi не рассматривается.

***

А теперь построим модель полиномиальной регрессии на реальных данных.

Возьмём все те же данные о стоимости жилья в районах Бостона. Будем использовать следующие четыре признака: LSTAT, CRIM, PTRATIO и RM. С их помощью мы построим полиномиальную регрессию от первой до пятой степени включительно, а затем сравним результаты по значению средней абсолютной процентной ошибки (MAPE).

Чтобы не дублировать код, объявим функцию **polynomial_regression()**. Она будет принимать на вход матрицу наблюдений, вектор ответов и степень полинома, а возвращать матрицу с полиномиальными признаками, вектор предсказаний и коэффициенты регрессии, найденные по МНК:

In [14]:
def polynomial_regression(X, y, k):
    poly = PolynomialFeatures(degree=k, include_bias=True)
    X_poly = poly.fit_transform(X)
    w_hat = np.linalg.inv(X_poly.T@X_poly)@X_poly.T@y
    y_pred = X_poly @ w_hat
    return X_poly, y_pred, w_hat

In [12]:
from sklearn import datasets # для импорта данных

# загружаем датасет
boston = datasets.load_boston()
boston_data = pd.DataFrame(
    data=boston.data, #данные
    columns=boston.feature_names #наименования столбцов
)
boston_data['PRICE'] = boston.target


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np

        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_ho

Выделяем интересующие нас признаки и строим полиномы:

In [15]:
A = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]
 
A_poly, y_pred, w_hat = polynomial_regression(A, y, 1)
A_poly2, y_pred2, w_hat2 = polynomial_regression(A, y, 2)
A_poly3, y_pred3, w_hat3 = polynomial_regression(A, y, 3)
A_poly4, y_pred4, w_hat4 = polynomial_regression(A, y, 4)
A_poly5, y_pred5, w_hat5 = polynomial_regression(A, y, 5)

Посмотрим на качество построенных регрессий, вычислив метрику:

In [16]:
from sklearn.metrics import mean_absolute_percentage_error
 
print('MAPE для полинома 1-й степени {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred)*100))
print('MAPE для полинома 2-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred2)*100))
print('MAPE для полинома 3-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred3)*100))
print('MAPE для полинома 4-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred4)*100))
print('MAPE для полинома 5-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred5)*100))

MAPE для полинома 1-й степени 18.20%
MAPE для полинома 2-й степени  13.41%
MAPE для полинома 3-й степени  12.93%
MAPE для полинома 4-й степени  10.72%
MAPE для полинома 5-й степени  470.54%


Что видим? Полиномиальная регрессия первой степени (линейная регрессия) показывает наименьшее качество предсказания, так как зависимость между факторами и целевым признаком нелинейная. С повышением степени полинома процентная ошибка на обучающей выборке вроде бы падает, однако для полинома пятой степени она резко возрастает и начинает измеряться тысячами процентов. Это означает, что модель вообще не описывает зависимость в исходных данных — её прогноз не имеет никакого отношения к действительности.

**Почему так происходит?**

Проведём небольшое исследование. Для начала посмотрим на коэффициенты регрессии для полинома пятой степени. Смотреть на каждый из них неудобно, их слишком много (126, если быть точными), но можно взглянуть на минимум, максимум и среднее:

In [17]:
display(pd.DataFrame(w_hat5).describe())

Unnamed: 0,PRICE
count,126.0
mean,1827.374637
std,45541.271004
min,-213771.933237
25%,-0.661564
50%,9e-06
75%,2.606294
max,457926.187798


Видно, что в степенях минимального и максимального коэффициентов явно что-то не так — коэффициенты слишком огромные (исчисляются миллионами).

Теперь давайте взглянем на корреляционную матрицу для факторов, на которых мы строим полином пятой степени. Корреляцию со столбцом из единиц считать бессмысленно, поэтому мы не будем его рассматривать. Для удобства расчёта матрицы корреляций обернём матрицу  в DataFrame и воспользуемся методом **corr()**:

In [18]:
# считаем матрицу корреляций (без столбца из единиц)
C = pd.DataFrame(A_poly5[:, 1:]).corr()
# считаем ранг корреляционной матрицы
print('Ранг корреляционной матрицы:', np.linalg.matrix_rank(C))
# считаем количество факторов (не включая столбец из единиц)
print('Количество факторов:', A_poly5[:, 1:].shape[1])

Ранг корреляционной матрицы: 110
Количество факторов: 125


Мы нашли корень проблемы: ранг корреляционной матрицы — 110, в то время как общее количество факторов (не считая единичного столбца) — 125, то есть ранг корреляционной матрицы не максимален. Это значит, что в корреляционной матрице присутствуют единичные корреляции, а в исходной матрице — линейно зависимые столбцы.

Как так вышло? На самом деле всё очень просто: в процессе перемножения каких-то из столбцов при создании полинома пятой степени получился такой полиномиальный фактор, который линейно выражается через другие факторы.

В результате при вычислении обратной матрицы  у нас получилось деление на число, близкое к 0, а элементы обратной матрицы получились просто огромными. Отсюда и появились явно неверные степени коэффициентов, которые дают далёкий от действительности прогноз, что приводит к отрицательной метрике.

Кстати, заметим, что, например, для полинома четвёртой степени ранг матрицы корреляций максимален, то есть равен количеству факторов (не включая единичный столбец):

In [19]:
# считаем матрицу корреляций (без столбца из единиц)
C = pd.DataFrame(A_poly4[:, 1:]).corr()
# считаем ранг корреляционной матрицы
print('Ранг корреляционной матрицы:', np.linalg.matrix_rank(C))
# считаем количество факторов (не включая столбец из единиц)
print('Количество факторов:', A_poly4[:, 1:].shape[1])

Ранг корреляционной матрицы: 69
Количество факторов: 69


Поэтому и коэффициенты регрессии полинома четвёртой степени находятся в адекватных пределах.

In [20]:
display(pd.DataFrame(w_hat4).describe())

Unnamed: 0,PRICE
count,70.0
mean,-50.81747
std,886.646328
min,-6919.292921
25%,-0.187941
50%,-0.000796
75%,0.322218
max,2304.985151


А теперь посмотрим, что будет, если использовать для построения полиномиальной регрессии реализацию из библиотеки sklearn. Создадим функцию **polynomial_regression_sk** — она будет делать то же самое, что и прошлая функция, но средствами **sklearn**. Дополнительно будем смотреть также стандартное отклонение (разброс) по коэффициентам регрессии.

In [22]:
from sklearn import linear_model

def polynomial_regression_sk(X, y, k):
    poly = PolynomialFeatures(degree=k, include_bias=False)
    X_poly = poly.fit_transform(X)
    lr = linear_model.LinearRegression().fit(X_poly, y)
    y_pred = lr.predict(X_poly)
    return X_poly, y_pred, lr.coef_

A = boston_data[["PTRATIO", "RM", "CRIM"]]
y = boston_data["PRICE"]

for k in range(1, 6):
    A_poly, y_pred, w_hat = polynomial_regression_sk(A, y, k)
    print(
        "MAPE для полинома степени {} — {:.2f}%, СКО — {:.0f}".format(
            k, mean_absolute_percentage_error(y, y_pred)*100, w_hat.std()
        )

    )

MAPE для полинома степени 1 — 21.08%, СКО — 4
MAPE для полинома степени 2 — 16.44%, СКО — 5
MAPE для полинома степени 3 — 15.63%, СКО — 65
MAPE для полинома степени 4 — 15.22%, СКО — 135
MAPE для полинома степени 5 — 14.71%, СКО — 2479


Очередная «магия» sklearn — построение полинома пятой степени прошло успешно.

Почему так получилось, если, строя полином «руками», мы получали противоположный результат?

На самом деле с этим «заклинанием» из библиотеки sklearn мы уже знакомились в предыдущих юнитах. Секрет в том, что в sklearn для построения линейной регрессии используется не сама матрица наблюдений A, а её сингулярное разложение, которое гарантированно является невырожденным — из него исключаются линейно зависимые факторы. Таким образом, даже несмотря на немаксимальный ранг корреляционной матрицы, построить полином пятой степени всегда получится.

Однако коэффициенты полинома пятой степени обладают значительно бόльшим разбросом, чем другие модели. Разброс будет всё больше расти при увеличении степени полинома. Коэффициенты не будут отражать реальной зависимости в данных и будут построены так, чтобы компенсировать линейную зависимость факторов, то есть будут неустойчивыми.

К тому же, как мы уже знаем, чем выше степень полинома, тем выше шанс переобучения: модель может быть настолько сложной, что попросту попытается пройти через все точки в обучающем наборе данных, не уловив общей закономерности. Пример такой переобученной модели представлен ниже:

![](https://lms.skillfactory.ru/assets/courseware/v1/a804e54d76405cd0cc93835a9150e0cf/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md2_6_24.png)

## **Резюмируем**

* Модель полиномиальной регрессии — более общий случай линейной регрессии, в котором зависимость целевой переменной от факторов нелинейная.
* Поиск коэффициентов полинома аналогичен линейной регрессии — решение неоднородной СЛАУ. 
* Возможна ситуация, когда какие-то сгенерированные полиномиальные факторы могут линейно выражаться через другие факторы. Тогда ранг корреляционной матрицы будет меньше числа факторов и поиск по классическому МНК-алгоритму не будет успешным.
* В sklearn для решения последней проблемы предусмотрена защита — использование сингулярного разложения матрицы A. Однако данная защита не решает проблемы неустойчивости коэффициентов регрессии.
* Полиномиальная регрессия имеет сильную склонность к переобучению: чем выше степень полинома, тем сложнее модель и выше риск переобучения.

## **ЗАДАЧИ**

Построена модель полиномиальной регрессии следующего вида:

![](data/69.PNG)

In [23]:
10.4+8*1+0.5*4+3*1+0.4*4*4+0

29.799999999999997

С помощью классического МНК найдите коэффициенты полиномиальной регрессии, если используется полином второй степени и задан фактор x и целевая переменная y.

![](data/70.PNG)

In [39]:
poly = PolynomialFeatures(degree=2, include_bias=True)
X = np.array([[1,3,-2,9]]).T
X_poly = poly.fit_transform(X)

y = np.array([3, 7, -5, 21])
w_hat = np.linalg.inv(X_poly.T@X_poly)@X_poly.T@y
print(w_hat.round(1))

[ 0.1  2.5 -0. ]
