<div style="font-size:18pt; padding-top:20px; text-align:center">СЕМИНАР. <b>Линейная полиномиальная регрессия</b></div><hr>
<div style="text-align:right;">Папулин С.Ю. <span style="font-style: italic;font-weight: bold;">(papulin.study@yandex.ru)</span></div>

<a name="0"></a>
<div><span style="font-size:14pt; font-weight:bold">Содержание</span>
    <ol>
        <li><a href="#1">Линейная регрессия</a></li>
        <li><a href="#2">Полиномиальная регрессия</a>
        <li><a href="#3">Источники</a>
        </li>
    </ol>
</div>

In [None]:
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline

<a name="1"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:16pt; font-weight:bold">1. Линейная регрессия</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

### Генерация данных

In [None]:
# Действительная функция
f = lambda x: 2 + 0.3*x

# Количество элементов выборки
n = 100

# Формирование выборки значений признака X
start_x = 4
length_x = 8
x = stats.uniform.rvs(size=n, loc=start_x, scale=length_x)

# Ошибка (нормальная) для каждого элемента выборки
mu = 0
sigma = 0.5
e = stats.norm.rvs(size=n, loc=mu, scale=sigma)

# Наблюдаемые значения: значение действительной функции + ошибка
y_true = f(x) + e

In [None]:
# График действительной функции для выборки

plt.figure(1, figsize=[12, 4])

plt.subplot(1,3,1)
plt.title("True function")
plt.plot(x, f(x), "-", color="SteelBlue", label="$f(x) = 2 + 0.3x$", zorder=1)
plt.scatter(x, f(x), color="green", label="Sample", zorder=2)
plt.legend()
plt.xlabel("$x$")
plt.ylabel("$f(x)$")
plt.grid(True)

plt.subplot(1,3,2)
plt.title("Error")
plt.scatter(x, e, color="red")
plt.xlabel("$x$")
plt.ylabel("$e$")
plt.grid(True)

plt.subplot(1,3,3)
plt.title("Initial data")
plt.scatter(x, y_true, color="green")
plt.xlabel("$x$")
plt.ylabel("$y_{true}$")
plt.grid(True)

plt.tight_layout()

plt.show()

### Формирование обучающего и тестового подмножеств

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# Разбиение исходных данных на обучающее и тестовое множества
X_train, X_test, y_train, y_test = train_test_split(
    x.reshape(-1,1),  # для обучения модели признаки должны иметь форму матрицы
    y_true, 
    test_size=0.3, 
    random_state=10)

X_train[:5], y_train[:5]

### Обучение

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
# Инициализация модели линейной регрессии
lr_model = LinearRegression()
lr_model

In [None]:
# Обучение
lr_model = lr_model.fit(X_train, y_train)

# Параметры обученной модели
print("Параметры модели:")
print("\tw{} = {}".format(0, lr_model.intercept_))
for indx, coef in enumerate(lr_model.coef_):
    print("\tw{} = {}".format(indx+1, coef))

In [None]:
# Функция предсказания для линейной модели
f_pred = lambda x : x * lr_model.coef_ + lr_model.intercept_

# Предсказания для обучающего множества с использованием метода predict()
y_train__pred = lr_model.predict(X_train)
y_train__pred[:5]

### Ошибка на обучающем подмножестве

In [None]:
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
# Среднеквадратическая ошибка
mse_train = mean_squared_error(y_train, y_train__pred)
mse_train

In [None]:
# Коэффициент детерминации (R^2)
r2_train = r2_score(y_train, y_train__pred)
r2_train

In [None]:
lr_model.score(X_train, y_train)

In [None]:
# График
plt.figure(1, figsize=[6, 4])

plt.subplot(1,1,1)
plt.title("Train data")
plt.vlines(X_train, ymin=y_train, ymax=y_train__pred, colors="black", linestyles="dotted", lw=1, zorder=1)
plt.scatter(X_train, y_train, color="green", zorder=1)
plt.plot(X_train, y_train__pred, "o-", color="red", lw=2, label="predicted", zorder=2)
plt.plot(x, f(x), "-", color="SteelBlue", label="true function", zorder=1)
plt.xlabel("$x$")
plt.ylabel("$\hat{h}(x)$")
plt.legend()

plt.grid(True)

### Проверка на тестовом подмножестве

In [None]:
# Предсказания для тестового множества
y_test__pred = lr_model.predict(X_test)

# Ошибки на тестовом множестве
mse_test = mean_squared_error(y_test, y_test__pred)
r2_test = r2_score(y_test, y_test__pred)

print("Test MSE:", mse_test)
print("Test R^2:", r2_test)

In [None]:
# По умолчанию используется R^2
lr_model.score(X_test, y_test)

In [None]:
# Графики

plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
plt.title("Train data")
plt.vlines(X_train, ymin=y_train, ymax=y_train__pred, colors="black", linestyles="dotted", lw=1, zorder=1)
plt.scatter(X_train, y_train, color="green", zorder=2)
plt.plot(X_train, y_train__pred, "-o", color="red", lw=2, label="predicted", zorder=3)
plt.plot(x, f(x), "-", color="SteelBlue", label="true function", zorder=1)
plt.xlabel("$x$")
plt.ylabel("$\hat{h}(x)$")
plt.legend()
plt.grid(True)


plt.subplot(1,2,2)
plt.title("Test data")
plt.vlines(X_test, ymin=y_test, ymax=y_test__pred, colors="black", linestyles="dotted", lw=1, zorder=1)
plt.scatter(X_test, y_test, color="green", zorder=2)
plt.plot(X_test, y_test__pred, "-o", color="red", lw=2, label="predicted", zorder=3)
plt.plot(x, f(x), "-", color="SteelBlue", label="true function", zorder=1)
plt.xlabel("$x$")
plt.ylabel("$\hat{h}(x)$")
plt.legend()
plt.grid(True)


plt.show()

### Что если зависимость имеет следующий вид?

In [None]:
# Генерация исходных данных
n = 100
x = stats.uniform.rvs(size=n, loc=0, scale=5, random_state=10)
f = lambda x:  np.sin(x)
y_true = stats.norm.rvs(size=n, loc=0, scale=0.2, random_state=10) + f(x)

# График
xx = np.linspace(0, 5, 100)
plt.title("Initial Data")
plt.scatter(x, y_true, color="green", label="observed")
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function", zorder=1)
plt.grid(True)
plt.xlabel("$x$")
plt.ylabel("$y_{true}$")
plt.legend()
plt.show()

In [None]:
# Разделение исходных данных на обучающее и тестовое подмножества
X_train, X_test, y_train, y_test = train_test_split(
    x.reshape(-1,1), 
    y_true, 
    test_size=0.3, 
    random_state=1234)

# Обучение
lr_model = LinearRegression()
lr_model = lr_model.fit(X_train, y_train)

# Предсказания для тестового множества
y_test__pred = lr_model.predict(X_test)

# Ошибки на тестовом множестве
mse_test = mean_squared_error(y_test, y_test__pred)
r2_test = r2_score(y_test, y_test__pred)

print("Test MSE:", mse_test)
print("Test R^2:", r2_test)

In [None]:
# Графики

plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
plt.title("Train data")
plt.vlines(X_train, ymin=y_train, ymax=lr_model.predict(X_train), colors="black", linestyles="dotted", lw=1, zorder=1)
plt.scatter(X_train, y_train, color="green", zorder=2)
plt.plot(X_train, lr_model.predict(X_train), "-o", color="red", lw=2, label="predicted", zorder=3)
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function", zorder=1)
plt.xlabel("$x$")
plt.ylabel("$\hat{h}(x)$")
plt.legend()
plt.grid(True)

plt.subplot(1,2,2)
plt.title("Test data")
plt.vlines(X_test, ymin=y_test, ymax=lr_model.predict(X_test), colors="black", linestyles="dotted", lw=1, zorder=1)
plt.scatter(X_test, y_test,  color="green", zorder=2)
plt.plot(X_test, lr_model.predict(X_test), "-o", color="red", lw=2, label="predicted", zorder=3)
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function", zorder=1)
plt.xlabel("$x$")
plt.ylabel("$\hat{h}(x)$")
plt.legend()
plt.grid(True)

plt.show()

<a name="2"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:16pt; font-weight:bold">2. Полиномиальная регрессия</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from numpy.polynomial.polynomial import polyval

In [None]:
# Исходные данные
plt.title("Initial data")
plt.scatter(x, y_true, color="green")
plt.grid(True)
plt.xlabel("$x$")
plt.ylabel("$y_{true}$")
plt.show()

In [None]:
# Формирование обучающего и тестового подмножеств
X_train, X_test, y_train, y_test = train_test_split(
    x.reshape(-1,1), 
    y_true, 
    test_size=0.3, 
    random_state=1234)

X_train[:5], y_train[:5]

In [None]:
# Полином степени 3: (x^0, x^1, x^2, x^3)
pf = PolynomialFeatures(degree=3)
X_train__poly = pf.fit_transform(X_train)
X_train__poly[:5]

In [None]:
# Обучение
lr_model = LinearRegression(fit_intercept=False)
lr_model = lr_model.fit(X_train__poly, y_train)

# Параметры обученной модели
print("Параметры модели:")
for indx, coef in enumerate(lr_model.coef_):
    print("\tw{} = {}".format(indx, coef))

In [None]:
# Предсказания для обучающем множества
X_train__poly = pf.transform(X_train)
y_train__pred = lr_model.predict(X_train__poly)

# Ошибки на обучающем множестве
mse_train = mean_squared_error(y_train, y_train__pred)
r2_train = r2_score(y_train, y_train__pred)

print("Обучающее множество:")
print("\tTrain MSE:", mse_train)
print("\tTrain R^2:", r2_train)

In [None]:
# Предсказания для тестового множества
X_test__poly = pf.transform(X_test)
y_test__pred = lr_model.predict(X_test__poly)

# Ошибки на тестовом множестве
mse_test = mean_squared_error(y_test, y_test__pred)
r2_test = r2_score(y_test, y_test__pred)

print("Тестовое множество:")
print("\tTest MSE:", mse_test)
print("\tTest R^2:", r2_test)

Использование `Pipeline`

In [None]:
# Формирование последовательности действий
polynomial_transformation = PolynomialFeatures(degree=3)
model = LinearRegression(fit_intercept=False)

step__preprocessing = ("polynomial_transformation", polynomial_transformation)
step__prediction_model = ("linear_model", model)

pipeline = Pipeline([
    step__preprocessing, 
    step__prediction_model])

# Обучение
pipeline = pipeline.fit(X_train, y_train)

# Параметры обученной модели
print("Параметры модели:")
for indx, coef in enumerate(pipeline.named_steps["linear_model"].coef_):
    print("\tw{} = {}".format(indx, coef))

In [None]:
# Функция предсказания
f_pred = lambda x : polyval(x, pipeline.named_steps["linear_model"].coef_)

# Предсказания для тестового множества
y_test__pred = pipeline.predict(X_test)

# Ошибки на тестовом множестве
mse_test = mean_squared_error(y_test, y_test__pred)
r2_test = r2_score(y_test, y_test__pred)

print("Тестовое множество:")
print("\tTest MSE:", mse_test)
print("\tTest R^2:", r2_test)

In [None]:
# Графики

xx = np.linspace(0,5,100)

plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
plt.title("Train data")
plt.vlines(X_train, ymin=y_train, ymax=f_pred(X_train), colors="black", linestyles="dotted", lw=1, zorder=1)
plt.scatter(X_train, y_train, color="green", zorder=2)
plt.plot(xx, f_pred(xx), "-", color="red", lw=2, label="predicted", zorder=2)
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function", zorder=1)
plt.plot(X_train, f_pred(X_train), "o", color="red", lw=2, zorder=3)
plt.xlabel("$x$")
plt.ylabel("$\hat{h}(x)$")
plt.legend()
plt.grid(True)

plt.subplot(1,2,2)
plt.title("Test data")
plt.vlines(X_test, ymin=y_test, ymax=f_pred(X_test), colors="black", linestyles="dotted", lw=1, zorder=1)
plt.scatter(X_test, y_test, color="green", zorder=2)
plt.plot(xx, f_pred(xx), "-", color="red", lw=2, label="predicted", zorder=2)
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function", zorder=1)
plt.plot(X_test, f_pred(X_test), "o", color="red", lw=2, zorder=3)
plt.xlabel("$x$")
plt.ylabel("$\hat{h}(x)$")
plt.legend()
plt.grid(True)

plt.show()

<a name="3"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:16pt; font-weight:bold">3. Источники</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

- [LinearRegression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)
- [PolynomialFeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html)