# Feature engineering линейных моделей

Линейные модели - хорошие модели, у них есть много плюсов:

* быстро обучаются (даже на больших объемах данных)
* их легко интерпретировать

Но главным недостатком таких моделей является то, что они не учитывают взаимосвязь признаков при предсказании целевой переменной. То есть каждый признак вносит свой независимый вклад в ответ (и эти вклады суммируются).

Чтобы решить эту проблему, существует подход под названием feature engineering, посвященный конструированию новых признаков из исходных.

## Подготовка данных

In [1]:
# Импорт pandas
import pandas as pd
# Импорт датасета из sklearn
from sklearn.datasets import fetch_california_housing

In [2]:
# Загрузим данные
df = fetch_california_housing(as_frame=True)
X = df['data']
y = df['target']

print(X.shape)
X.head(3)

(20640, 8)


Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24


Исходный датаесет содержит 8 признаков (8 колонок)

In [3]:
y.head(3)

0    4.526
1    3.585
2    3.521
Name: MedHouseVal, dtype: float64

In [4]:
from sklearn.model_selection import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.25)

## Обучение модели на исходных данных

In [5]:
from sklearn.linear_model import LinearRegression    # Импорт модели
model = LinearRegression()                           # Создаём модель
model.fit(Xtrain, ytrain)                            # Обучаем модель 
pred = model.predict(Xtest)                          # Делаем предсказание
from sklearn.metrics import mean_squared_error       # Импорт метрик   
mean_squared_error(ytest, pred)**0.5                 # Считаем метрику (будем использовать RMSE, поэтому берём корень из метрики MSE)

0.7308447180186438

## Добавим новые признаки

Добавим полиноминальные признаки 2ой степени

In [6]:
from sklearn.preprocessing import PolynomialFeatures    # Импорт
pf = PolynomialFeatures(degree=2)                       # Добавим полиноминальные признаки 2ой степени 
pf.fit(Xtrain)
Xtrain_new = pf.transform(Xtrain)
Xtest_new = pf.transform(Xtest)
print(Xtrain_new[:1].shape)

(1, 45)


Новый датасет содержит уже не 8, а 45 признаков

## Обучение модели на обогащенных данных

In [7]:
model.fit(Xtrain_new, ytrain)                        # Обучаем модель 
pred2 = model.predict(Xtest_new)                     # Делаем предсказание
from sklearn.metrics import mean_squared_error       # Импорт метрик   
mean_squared_error(ytest, pred2)**0.5                # Считаем метрику (будем использовать RMSE, поэтому берём корень из метрики MSE)

0.6666800174332015

Мы видим, что модель стала более точно предсказывать RMSE(исходн.) = 0.73 > RMSE(обогащ.) = 0.67