In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

## Регрессия по комбинации базисных функций

Линейные зависимости встречаются в жизни довольно редко. Однако, существует хитрый способ решить задачу при помощи введения базисных функций. Базисные функции применяются к признаковой переменной, образуя новые признаки. Уравнение регрессии в общем случае принимает вид:
$$y^*(\vec{x}) = \theta_0 + \sum_{i=1}^n{f_i(\vec{x}, \vec{\theta}) + \epsilon_i}, $$

### Задача регрессии для экспоненциальной зависимости

Придумаем синтетическую задачу где реальная зависимость выглядит как $y(x) =  \theta_0e^{\theta_1 x}$. Преобразовать к линейному виду такую зависимость можно взяв логарифм от обоих частей:

$$\ln y(x) = ln(\theta_0e^{\theta_1 x}) = ln(\theta_0) + \theta_1x$$

In [None]:
np.random.seed(42)

theta0 = 40
theta1 = 0.2

x = np.linspace(2, 5)
y = theta0 * np.exp(theta1*x + np.random.normal(0, 0.05, size=(x.shape))) 

_ = plt.scatter(x, y)

In [None]:
np.random.seed(42)
model = LinearRegression(fit_intercept=True)

theta0 = 40
theta1 = 0.2

x = np.linspace(2, 5)
y = theta0 * np.exp(theta1 * x + np.random.normal(0, 0.05, size=(x.shape))) 

logy = np.log(y)


model.fit(x[:, None], logy)

theta0_fit = np.exp(model.intercept_)
theta1_fit = model.coef_[0]
yfit = theta0 * np.exp(theta1 * x)

plt.scatter(x, y)
plt.plot(x, yfit, c='r')
_ = plt.title(f'y(x) = {theta0_fit:4.4} * exp({theta1_fit:4.4}x)')


### Задача регрессии для полиномиальной зависимости
А если зависимость представленна полиномом второго порядка? Ну например $y(x) = \theta_0 + \theta_1x + \theta_2x^2$. Чтобы свести задачу к линейной мы можем представить $x^2$ как будто бы независимой признаковой переменной $z$. Тогда зависимость примет вид $y(x) = \theta_0 + \theta_1x + \theta_2z$, что вполне соответствует общей форме задачи линейной регрессии

In [None]:
np.random.seed(42)

a = 4
b = 2
c = -6

x = np.arange(-3, 3, 0.1)
y = a * (x + np.random.normal(0, 0.05, size=x.shape))**2 + b * (x + np.random.normal(0, 0.05, size=x.shape)) + c

_ = plt.scatter(x, y)

In [None]:
np.random.seed(42)

a = 4
b = 2
c = -6

x = np.arange(-3, 3, 0.1)
y = a * (x + np.random.normal(0, 0.05, size=x.shape))**2 + b * (x + np.random.normal(0, 0.05, size=x.shape)) + c
z = x.reshape(-1, 1)**2
X = np.hstack([x.reshape(-1, 1), z])

model = LinearRegression(fit_intercept=True)
model.fit(X, y)

theta0 = model.intercept_
theta1, theta2 = model.coef_
yfit = theta0 + theta1 * x + theta2 * x**2 

plt.scatter(x, y)
plt.plot(x, yfit, c='r')
_ = plt.title(f'y(x) = {theta0:4.4} + {theta1:4.4}x + {theta2:4.4}x^2')