### Полиномиальные признаки
Объекта класса PolynomialFeatures из модуля preprocessing
<br><https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html>.

In [4]:
import numpy as np #для матричных вычислений
import pandas as pd #для анализа и предобработки данных
import matplotlib.pyplot as plt #для визуализации
import seaborn as sns #для визуализации
from sklearn import linear_model #линейные модели
from sklearn import metrics #метрики
from sklearn import preprocessing # полиномиальные признаки
%matplotlib inline
plt.style.use('seaborn-v0_8')

column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
boston_data = pd.read_csv('data/housing.csv', header=None, delimiter=r"\s+", names=column_names)
boston_data.head()

#Составляем список факторов (исключили целевой столбец)
features = boston_data.drop('MEDV', axis=1).columns
#Составляем матрицу наблюдений X и вектор ответов y
X = boston_data[features]
y = boston_data['MEDV']

In [2]:
# инициализируем функцию по разделению дата сета на тренировочную и тестовую выборки
from sklearn.model_selection import train_test_split #as tts

# Делим выборку 70/30 и установим рандом - 40
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=40)

# вернем результирующие размеры таблиц
print('Train:', X_train.shape, y_train.shape)
print('Train:', X_test.shape, y_test.shape)

Train: (354, 13) (354,)
Train: (152, 13) (152,)


In [7]:
# создаем генератор полиномиальных признаков
poly = preprocessing.PolynomialFeatures(degree=2, include_bias=False)
poly.fit(X_train)

# генерируем полиномиальные признаки для тренировочной выборки
X_train_poly = poly.transform(X_train)

# генерируем полиномиальные признаки для тестовой выборки
X_test_poly = poly.transform(X_test)

# вернем результирующие размеры таблиц
print('Train:', X_train_poly.shape)
print('Train:', X_test_poly.shape)

Train: (354, 104)
Train: (152, 104)


In [8]:
# проверим тип класс таблиц
print(type(X_train_poly))
print(type(X_test_poly))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [9]:
# создаем модель линейной регрессии и находим коэф по МНК
# создаем класс LinearRegression
lr_model_poly = linear_model.LinearRegression()

# обучаем модель по МНК
lr_model_poly.fit(X_train_poly, y_train)

# предик по тренировочной выборке
y_train_predict_poly = lr_model_poly.predict(X_train_poly)

# предикт по тестовой выборке
y_test_predict_poly = lr_model_poly.predict(X_test_poly)

# расчитываем коефф детерминации R2
print('R2 score: {:.3f}'.format(metrics.r2_score(y_train, y_train_predict_poly)))
print('R2 score: {:.3f}'.format(metrics.r2_score(y_test, y_test_predict_poly)))

R2 score: 0.929
R2 score: 0.268


Метрика на тренировочном дата-сете значительно больше чем на тестовом - это говорит о переобучении модели.