# Демонстрация работы полиномиальной регрессии


# План
- Генерация данных  
- Тестирование обычной линейной регрессии на нелинейных данных  
- Тестирование полиномиальной регрессии на нелинейных данных  
- Сравнение двух регрессий


Сгенерируем нелинейно зависимые данные, подадим их на вход линейной и полиномиальной регрессиям, сравним метрики

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, root_mean_squared_error, mean_absolute_error, mean_absolute_percentage_error
from sklearn.model_selection import train_test_split

In [3]:
np.random.seed(42)
n = 500

X1 = np.linspace(-3, 3, n)                             
X2 = np.random.uniform(-10, 10, n)                      
X3 = np.random.normal(0, 1, n)                          
X4 = np.random.binomial(1, 0.5, n)                      

y = 3*X1**3 - 2*X1**2 + 5*X1 + 0.8*X2 + 2*X4 + np.random.normal(0, 3, n)

df = pd.DataFrame({
    'X1': X1,
    'X2': X2,
    'X3': X3,
    'X4': X4,
    'y': y
})

In [4]:
X = df.drop(columns=['y'])
y = df['y']

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [6]:
# Стандартизируем данные
scaler = StandardScaler().fit(X_train)

X_train = scaler.transform(X_train)

X_test = scaler.transform(X_test)

In [7]:
base_model = LinearRegression().fit(X_train, y_train)

pred = base_model.predict(X_test)

In [8]:
mse_base_model = mean_squared_error(y_test, pred)
mae_base_model = mean_absolute_error(y_test, pred)
mape_base_model = mean_absolute_percentage_error(y_test, pred) * 100
rmse_base_model = root_mean_squared_error(y_test, pred)

print(f'mse:{mse_base_model:.2f}|mae{mae_base_model:.2f}|mape:{mape_base_model:.2f}|rmse{rmse_base_model:.2f}')

mse:239.05|mae12.33|mape:185.82|rmse15.46


In [9]:
poly = PolynomialFeatures(degree=3)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

In [10]:
poly_model = LinearRegression().fit(X_train_poly, y_train)

pred_poly = poly_model.predict(X_test_poly)

In [11]:
mse_poly_model = mean_squared_error(y_test, pred_poly)
mae_poly_model = mean_absolute_error(y_test, pred_poly)
mape_poly_model = mean_absolute_percentage_error(y_test, pred_poly) * 100
rmse_poly_model = root_mean_squared_error(y_test, pred_poly)

print(f'mse:{mse_poly_model:.2f}|mae{mae_poly_model:.2f}|mape:{mape_poly_model:.2f}|rmse{rmse_poly_model:.2f}')

mse:11.07|mae2.65|mape:80.53|rmse3.33


In [12]:
print(f"""
| Метрика      | Линейная регрессия | Полиномиальная регрессия |
|--------------|--------------------|---------------------------|
| MSE          | {mse_base_model:.4f}          | {mse_poly_model:.4f}               |
| MAE          | {mae_base_model:.4f}          | {mae_poly_model:.4f}               |
| MAPE (%)     | {mape_base_model:.2f}          | {mape_poly_model:.2f}               |
| RMSE         | {rmse_base_model:.4f}          | {rmse_poly_model:.4f}               |
""")



| Метрика      | Линейная регрессия | Полиномиальная регрессия |
|--------------|--------------------|---------------------------|
| MSE          | 239.0493          | 11.0655               |
| MAE          | 12.3345          | 2.6499               |
| MAPE (%)     | 185.82          | 80.53               |
| RMSE         | 15.4612          | 3.3265               |



Как видим, наши метрики значительно улучшились — эффективность полиномиальной регрессии заметно выше по сравнению с обычной линейной регрессией.