<div style="font-size:18pt; padding-top:20px; text-align:center">СЕМИНАР. <b>Регуляризация</b></div><hr>
<div style="text-align:right;">Папулин С.Ю. <span style="font-style: italic;font-weight: bold;">(papulin.study@mail.ru)</span></div>

### Содержание

1. [Линейная полиномиальная регрессия](#1.-Линейная-полиномиальная-регрессия)
2. [Регуляризация в линейной регрессии](#2.-Регуляризация-в-линейной-регрессии)
3. [Выбор коэффициента регуляризации с кросс-валидацией](#3.-Выбор-коэффициента-регуляризации-с-кросс-валидацией)
4. [Классификация с кросс-валидацией](#4.-Классификация-с-кросс-валидацией)
5. [Источники](#5.-Источники)

Подключение библиотек

In [None]:
from sklearn import datasets
from scipy import stats
import numpy as np

from sklearn.linear_model import (
    Ridge, Lasso, RidgeCV, LassoCV,
    LogisticRegression, LogisticRegressionCV, RidgeClassifier)
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.pipeline import Pipeline

from sklearn.model_selection import train_test_split, KFold, GridSearchCV

from sklearn.metrics import mean_squared_error, r2_score

import matplotlib.pyplot as plt
%matplotlib inline

## 1. Линейная полиномиальная регрессия

In [None]:
def regression_dataset(n=100):
    """Генерация исходных данных"""
    x = stats.uniform.rvs(size=n, loc=0, scale=6, random_state=0)
    f = lambda x: np.sin(x)
    y = stats.norm.rvs(size=n, loc=0, scale=0.5, random_state=0) + f(x)
    return (x, y, f)


# Инициализация исходных данных
x, y, f = regression_dataset()

# График
xx = np.linspace(0, 6, 100)
plt.plot(x, y, "o", color="green", label="observed data")
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function")
plt.title("Initial data")
plt.grid(True)
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.show()

In [None]:
# Параметры
REGULARIZATION = 0
POLY_DEGREE = 15

In [None]:
# Представление признака x в матричной форме
X_ = x.reshape(-1, 1)

# Формирование обучающего и тестового подмножеств
X_train, X_test, y_train, y_test = train_test_split(X_, y, test_size=0.3, random_state=200)

# Формирование последовательности действий
pipeline = Pipeline([
    ("polynomizer", PolynomialFeatures(degree=POLY_DEGREE, include_bias=False)), 
    ("standardizer", StandardScaler()),
    ("linear_model", Ridge(alpha=REGULARIZATION, fit_intercept=True))
])

# Обучение
pipeline.fit(X_train, y_train)

# Параметры обученной модели
print("Параметры модели:")
print("\tw{} = {}".format(0, pipeline.named_steps["linear_model"].intercept_))
for indx, coef in enumerate(pipeline.named_steps["linear_model"].coef_):
    print("\tw{} = {}".format(indx+1, coef))

In [None]:
# Предсказания на обучающем и тестовом множествах
y_train__pred = pipeline.predict(X_train)
y_test__pred = pipeline.predict(X_test)

# Ошибки на обучающем множестве
mse_traint = mean_squared_error(y_train, y_train__pred)
r2_train = r2_score(y_train, y_train__pred)

print("Обучающее множество:")
print("\tTrain MSE:", mse_traint)
print("\tTrain R^2:", r2_train)

# Ошибки на тестовом множестве
mse_test = mean_squared_error(y_test, y_test__pred)
r2_test = r2_score(y_test, y_test__pred)

print("\nТестовое множество:")
print("\tTest MSE:", mse_test)
print("\tTest R^2:", r2_test)

In [None]:
# Графики
xx = np.linspace(0, 6, 100).reshape(-1, 1)
plt.figure(figsize=[12, 4])

plt.subplot(1,2,1)

plt.title("Train data")
plt.plot(X_train, y_train, "o", color="green")
plt.plot(xx, pipeline.predict(xx), color="red", lw=2, label="predicted")
plt.scatter(X_train, y_train__pred, color="red")
plt.vlines(X_train, ymin=y_train, ymax=y_train__pred, colors="black", linestyles="dotted")
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.grid(True)


plt.subplot(1,2,2)

plt.title("Test data")
plt.plot(X_test, y_test, "o", color="green")
plt.plot(xx, pipeline.predict(xx), color="red", lw=2, label="predicted")
plt.scatter(X_test, y_test__pred, color="red")
plt.vlines(X_test, ymin=y_test, ymax=y_test__pred, colors="black", linestyles="dotted")
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.grid(True)

plt.tight_layout()

plt.show()

## 2. Регуляризация в линейной регрессии

In [None]:
# Параметры
REGULARIZATION = 0.001
POLY_DEGREE = 15

# Формирование последовательности действий с ридж-регрессией
pipeline = Pipeline([
    ("polynomizer", PolynomialFeatures(degree=POLY_DEGREE, include_bias=False)), 
    ("standardizer", StandardScaler()),
    ("linear_model", Ridge(alpha=REGULARIZATION, fit_intercept=True))
])

# Формирование последовательности действий с лассо-регрессией
# pipeline = Pipeline([
#     ("transformation", PolynomialFeatures(degree=15)), 
#     ("linear_model", Lasso(alpha=REGULARIZATION, fit_intercept=False))
# ])

# Обучение
pipeline.fit(X_train, y_train)

# Параметры обученной модели
print("Параметры модели:")
print("\tw{} = {}".format(0, pipeline.named_steps["linear_model"].intercept_))
for indx, coef in enumerate(pipeline.named_steps["linear_model"].coef_):
    print("\tw{} = {}".format(indx+1, coef))

In [None]:
# Предсказания на обучающем и тестовом множествах
y_train__pred = pipeline.predict(X_train)
y_test__pred = pipeline.predict(X_test)

# Ошибки на обучающем множестве
mse_traint = mean_squared_error(y_train, y_train__pred)
r2_train = r2_score(y_train, y_train__pred)

print("Обучающее множество:")
print("\tTrain MSE:", mse_traint)
print("\tTrain R^2:", r2_train)

# Ошибки на тестовом множестве
mse_test = mean_squared_error(y_test, y_test__pred)
r2_test = r2_score(y_test, y_test__pred)

print("\nТестовое множество:")
print("\tTest MSE:", mse_test)


print("\tTest R^2:", r2_test)

In [None]:
# Графики
xx = np.linspace(0, 6, 100).reshape(-1, 1)
plt.figure(figsize=[12, 4])

plt.subplot(1,2,1)

plt.title("Train data")
plt.plot(X_train, y_train, "o", color="green")
plt.plot(xx, pipeline.predict(xx), color="red", lw=2, label="predicted")
plt.scatter(X_train, y_train__pred, color="red")
plt.vlines(X_train, ymin=y_train, ymax=y_train__pred, colors="black", linestyles="dotted")
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.grid(True)


plt.subplot(1,2,2)

plt.title("Test data")
plt.plot(X_test, y_test, "o", color="green")
plt.plot(xx, pipeline.predict(xx), color="red", lw=2, label="predicted")
plt.scatter(X_test, y_test__pred, color="red")
plt.vlines(X_test, ymin=y_test, ymax=y_test__pred, colors="black", linestyles="dotted")
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.grid(True)

plt.tight_layout()

plt.show()

## 3. Выбор коэффициента регуляризации с кросс-валидацией

In [None]:
# Инициализация экземпляра класса для кросс-валидации
kfolds = KFold(n_splits=5, shuffle=True, random_state=12345)

# Исследуемые параметры регуляризации
alphas = [0.0000001, 0.00001, 0.0001, 0.001, 0.01, 0.1, 1, 10, 100]

Использование `RidgeCV`

In [None]:
# Параметры ридж-регрессии
ridge_args = {
    "alphas": alphas,
    "fit_intercept": True,
    "cv": kfolds,
    "scoring": "neg_mean_squared_error"
}

# Формирование последовательности действий с ридж-регрессией
pipeline = Pipeline([
    ("polynomizer", PolynomialFeatures(degree=POLY_DEGREE, include_bias=False)), 
    ("standardizer", StandardScaler()),
    ("linear_model", RidgeCV(**ridge_args))
])

# Обучение
pipeline.fit(X_train, y_train)

# Параметры обученной модели
print("Параметры модели:")
print("\tw{} = {}".format(0, pipeline.named_steps["linear_model"].intercept_))
for indx, coef in enumerate(pipeline.named_steps["linear_model"].coef_):
    print("\tw{} = {}".format(indx+1, coef))

In [None]:
# Параметр регуляризации лучшей модели
pipeline.named_steps["linear_model"].alpha_

In [None]:
# Предсказания на обучающем и тестовом множествах
y_train__pred = pipeline.predict(X_train)
y_test__pred = pipeline.predict(X_test)

# Ошибки на обучающем множестве
mse_traint = mean_squared_error(y_train, y_train__pred)
r2_train = r2_score(y_train, y_train__pred)

print("Обучающее множество:")
print("\tTrain MSE:", mse_traint)
print("\tTrain R^2:", r2_train)

# Ошибки на тестовом множестве
mse_test = mean_squared_error(y_test, y_test__pred)
r2_test = r2_score(y_test, y_test__pred)

print("\nТестовое множество:")
print("\tTest MSE:", mse_test)
print("\tTest R^2:", r2_test)

Использование `GridSearchCV`

In [None]:
# Формирование последовательности действий с ридж-регрессией
pipeline = Pipeline([
    ("polynomizer", PolynomialFeatures(degree=POLY_DEGREE, include_bias=False)), 
    ("standardizer", StandardScaler()),
    ("linear_model", Ridge(alpha=REGULARIZATION, fit_intercept=True))
])

# Сетка параметров
parameters = {
    "linear_model__alpha": alphas
}

# Параметры обучения
grid_search_args = {
    "estimator": pipeline,
    "param_grid": parameters,
    "cv": kfolds,
    "scoring": "neg_mean_squared_error",
    "return_train_score": True
}


# Обучение
# Замечание: GridSearchCV после выбора параметров автоматически 
# заново обучается на всем множестве
grid_search = GridSearchCV(**grid_search_args)
grid_search.fit(X_train, y_train)

# Параметры обученной модели
print("Параметры модели:")
print("\tw{} = {}".format(0, grid_search.best_estimator_.named_steps["linear_model"].intercept_))
for indx, coef in enumerate(grid_search.best_estimator_.named_steps["linear_model"].coef_):
    print("\tw{} = {}".format(indx+1, coef))

In [None]:
# Вывод сведений по обучению
grid_search.cv_results_

In [None]:
# Параметры лучшей модели
grid_search.best_params_

In [None]:
# Предсказания на обучающем и тестовом множествах
y_train__pred = grid_search.predict(X_train)
y_test__pred = grid_search.predict(X_test)

# Ошибки на обучающем множестве
mse_traint = mean_squared_error(y_train, y_train__pred)
r2_train = r2_score(y_train, y_train__pred)

print("Обучающее множество:")
print("\tTrain MSE:", mse_traint)
print("\tTrain R^2:", r2_train)

# Ошибки на тестовом множестве
mse_test = mean_squared_error(y_test, y_test__pred)
r2_test = r2_score(y_test, y_test__pred)

print("\nТестовое множество:")
print("\tTest MSE:", mse_test)
print("\tTest R^2:", r2_test)

In [None]:
# График выбора параметра регуляризации

alphas = np.asarray(grid_search.cv_results_["param_linear_model__alpha"], dtype="float")

plt.figure(figsize=[6, 4])

plt.subplot(1,1,1)
plt.title("Model Selection")
plt.plot(alphas, -grid_search.cv_results_["mean_test_score"], "o-", label="Validation")
plt.plot(alphas, -grid_search.cv_results_["mean_train_score"], "o-", label="Train")
plt.xlabel("$Regularization$")
plt.ylabel("$MSE$")
plt.xscale("log")
plt.legend()
plt.grid(True)

plt.show()

In [None]:
# Графики функции предсказания

xx = np.linspace(0, 6, 100).reshape(-1, 1)
plt.figure(figsize=[12, 4])

plt.subplot(1,2,1)

plt.title("Train data")
plt.plot(X_train, y_train, "o", color="green")
plt.plot(xx, grid_search.predict(xx), color="red", lw=2, label="predicted")
plt.scatter(X_train, y_train__pred, color="red")
plt.vlines(X_train, ymin=y_train, ymax=y_train__pred, colors="black", linestyles="dotted")
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.grid(True)


plt.subplot(1,2,2)

plt.title("Test data")
plt.plot(X_test, y_test, "o", color="green")
plt.plot(xx, grid_search.predict(xx), color="red", lw=2, label="predicted")
plt.scatter(X_test, y_test__pred, color="red")
plt.vlines(X_test, ymin=y_test, ymax=y_test__pred, colors="black", linestyles="dotted")
plt.plot(xx, f(xx), "-", color="SteelBlue", label="true function")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.grid(True)

plt.tight_layout()

plt.show()

## 4. Классификация с кросс-валидацией

### Выбор коэффициента регуляризации

In [None]:
digits = datasets.load_digits()
print(digits.DESCR)

In [None]:
IMAGE_INDX = 3

print("Image matrix:\n", digits["images"][IMAGE_INDX])
print("Target value:", digits.target[IMAGE_INDX])

plt.imshow(digits.images[IMAGE_INDX])
plt.show()

In [None]:
# Параметры регуляризации
Cs = [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]

# Способ разделения данных
kfolds = KFold(n_splits=5, shuffle=True, random_state=0)

# Исходные данные для обучения
X = digits["images"].reshape(len(digits["images"]), -1)
y = digits["target"]

# Формирование обучающего и тестового подмножеств
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=200)

In [None]:
# Параметры инициализации модели
model_args = {
    "penalty": "l2", 
    "Cs": Cs,
    "cv": kfolds, 
    "multi_class": "multinomial", 
    "solver": "newton-cg", 
    "scoring": "accuracy",
    "max_iter": 200,
    "random_state": 12345
}

# Обучение
logistic_model = LogisticRegressionCV(**model_args)
logistic_model.fit(X_train, y_train)

In [None]:
# Параметры обученной модели
for i in range(10):
    print("Параметры модели {}:".format(i+1))
    print("\tw{} = {}".format(0, logistic_model.intercept_[i]))
    for indx, coef in enumerate(logistic_model.coef_[i].flatten()):
        print("\tw{} = {}".format(indx+1, coef))

In [None]:
# Коэффициенты регуляризации
logistic_model.C_

In [None]:
# Оценка качества модели
train_error = logistic_model.score(X_train, y_train)
test_error = logistic_model.score(X_test, y_test)

print("Train Accuracy:", train_error)
print("Test Accuracy:", test_error)

### Задание

Сделать то же самое, что и до этого, но с `GridSearchCV` и построить график выбора параметра регуляризации. Другими словами, необходимо реализовать выбор коэффициента регуляризации (`C`) на обучающем множестве `train` для логистической регрессии из набора `Cs` с использованием `GridSearchCV` и `kfolds`. Построить графики значений `accuracy` для обучающего и проверочного множеств для каждого значения из `Cs`. При отображении на графике коэффициенты `Сs` представить в виде $log_{10}(C)$. После этого вычислить `accuracy` на множестве `train` и `test`. Замечание: все остальные параметры логистической регрессии оставить прежними, что и в предыдущей реализации. 

In [None]:
# TODO: GridSearchCV + график выбора модели

In [None]:
# Сетка параметров
parameters = {
    "C": Cs
}

# Параметры модели
model_class_parameters = {
    "penalty": "l2", 
    "C": float("inf"),
    "multi_class": "ovr", 
    "solver": "newton-cg", 
    "max_iter": 200,
    "random_state": 12345
}

logistic_model = LogisticRegression(**model_class_parameters)

# Параметры сетки
grid_class_parameters = {
    "estimator": logistic_model, 
    "param_grid": parameters,
    "cv": kfolds,
    "scoring": "accuracy",
    "return_train_score": True
}

# Обучение
grid_search = GridSearchCV(**grid_class_parameters)
grid_search.fit(X_train, y_train)

In [None]:
# График выбора параметра регуляризации

plt.figure(figsize=[6, 4])

plt.subplot(1,1,1)
plt.title("Model Selection")
plt.plot(Cs, grid_search.cv_results_["mean_test_score"], "o-", label="Validation")
plt.plot(Cs, grid_search.cv_results_["mean_train_score"], "o-", label="Train")
plt.xlabel("$Regularization$")
plt.ylabel("$Accuracy$")
plt.xscale("log")
plt.legend()
plt.grid(True)

plt.show()

In [None]:
# Оценка качества модели
train_error = grid_search.score(X_train, y_train)
test_error = grid_search.score(X_test, y_test)

print("Train Accuracy:", train_error)
print("Test Accuracy:", test_error)

In [None]:
# Веса классов
plt.figure(figsize=(10,5))
for i in range(10):
    plt.subplot(2, 5, i+1)
    plt.title(f"class = {grid_search.best_estimator_.classes_[i]}")
    plt.imshow(grid_search.best_estimator_.coef_[i].reshape(-1,8)) #, vmin=-0.2, vmax=0.2)
    # plt.colorbar()
    plt.axis("off")
plt.tight_layout()
plt.show()

In [None]:
# Линейная комбинация изображения и весов
plt.figure(figsize=(10,5))
for i in range(10):
    plt.subplot(2, 5, i+1)
    h = grid_search.best_estimator_.coef_[i].reshape(-1,8) * digits.images[IMAGE_INDX]
    plt.title(f"class = {grid_search.best_estimator_.classes_[i]}\nsum = {h.sum():.2f}")
    plt.imshow(h, vmin=-2, vmax=2)
    # plt.colorbar()
    plt.axis("off")
plt.tight_layout()
plt.show()

## 5. Источники

- [1.1. Linear Models](https://scikit-learn.org/stable/modules/linear_model.html)
- [3.3. Metrics and scoring: quantifying the quality of predictions](https://scikit-learn.org/stable/modules/model_evaluation.html)