In [31]:
from sklearn.preprocessing import PolynomialFeatures # создание полиномиальных признаков
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

In [13]:
# Полиномиальная регрессия решает две задачи
# Нелинейная взаимосвязь признака и целевой переменной
# Взаимодействие признаков

In [14]:
df = pd.read_csv('Advertising.csv')
X = df.drop('sales', axis=1)
y = df['sales']

In [15]:
polynomial_converver = PolynomialFeatures(degree=2, include_bias=False) # include_bias=False - модель без intercept, degree - макс.степень признака

In [16]:
# Всё это делается до обучения модели

In [17]:
polynomial_converver.fit(X) # анализ признаков
polynomial_features = polynomial_converver.transform(X)

In [18]:
df.iloc[0]

TV           230.1
radio         37.8
newspaper     69.2
sales         22.1
Name: 0, dtype: float64

In [19]:
polynomial_features[0] # видно, что первая три значения соотвествует первой строке из df
# остальное - произведение признаков и их квадраты.
# расположение не по порядку, но это не столь важно

array([2.301000e+02, 3.780000e+01, 6.920000e+01, 5.294601e+04,
       8.697780e+03, 1.592292e+04, 1.428840e+03, 2.615760e+03,
       4.788640e+03])

In [20]:
polynomial_converver.fit_transform(X) # создание признаков за одну операцию

array([[ 230.1 ,   37.8 ,   69.2 , ..., 1428.84, 2615.76, 4788.64],
       [  44.5 ,   39.3 ,   45.1 , ..., 1544.49, 1772.43, 2034.01],
       [  17.2 ,   45.9 ,   69.3 , ..., 2106.81, 3180.87, 4802.49],
       ...,
       [ 177.  ,    9.3 ,    6.4 , ...,   86.49,   59.52,   40.96],
       [ 283.6 ,   42.  ,   66.2 , ..., 1764.  , 2780.4 , 4382.44],
       [ 232.1 ,    8.6 ,    8.7 , ...,   73.96,   74.82,   75.69]])

In [None]:
polynomial_features.shape # размер 9 - т.к. признаков 9

(200, 9)

In [24]:
X_train, X_test, y_train, y_test = train_test_split(polynomial_features, y, test_size=0.3, random_state=101)

In [28]:
model = LinearRegression()
model.fit(X_train,y_train)

In [None]:
test_prediction = model.predict(X_test)
model.coef_ # 9 коэффициентов т.к. полиномиальные признаки второй степени
# чтобы понять, что к чему относится, надо сравнить polynomial_features и X.iloc[0]

array([ 5.17095811e-02,  1.30848864e-02,  1.20000085e-02, -1.10892474e-04,
        1.14212673e-03, -5.24100082e-05,  3.34919737e-05,  1.46380310e-04,
       -3.04715806e-05])

In [33]:
MAE = mean_absolute_error(y_test, test_prediction)
MSE = mean_squared_error(y_test, test_prediction)
RMSE = MSE**(1/2)

In [34]:
MAE 

0.48967980448035886

In [35]:
RMSE

0.6646431757269

In [37]:
# значения метрик было сильно больше, когда была линейная функция => полином годится лучше
# но надо проверять, что тестовые наборы данных были одинаковыми по объему