# Семинар 10: Ядерные методы (Kernel methods) и машина опорных векторов (Support vector machine). Kernelized Nearest Neighbor. Kernelized Ridge Regression. Kernelized LASSO Regression.

<a href="https://colab.research.google.com/github/SergeyMalashenko/MachineLearning_Summer_2023/blob/main/seminars/10/seminar_10.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas            as pd
import numpy             as np
import scipy             as sp

## Теорема Ковера (Cover's theorem)
Является утверждением в теория вычислительного обучения и является одним из основных теоретических мотивов использования нелинейных методов ядра в приложениях машинного обучения . Теорема утверждает, что для данного набора обучающих данных, который не является линейно разделимым , можно с высокой вероятностью преобразовать его в обучающий набор, который линейно разделяется, проецируя его в многомерное пространство через некоторые преобразования.

![](images/example.png)

Как следствие теорема говорит о том, что если взять свой набор данных и преобразовать эти точки в пространство более высокой размерности, то возможно построить модель линейной классификации (классификатор). Однако большинство классификаторов должны вычислять некоторое подобие, например, точечное произведение, а это означает, что временная сложность алгоритма классификации пропорциональна размерности точки данных. Таким образом, большая размерность означает большую временную сложность (не говоря уже о сложности хранения точек большой размерности).

### Kernel trick

Пусть $M$ исходная размерность точек данных, а f - преобразование, отображающее эти точки в пространство размерности $N(>>M)$. Теперь, если существует функция K, которая принимает входные данные x и y из исходного пространства и вычисляет $K(x,y)=⟨f(x),f(y)⟩$, то я могу вычислить точечное произведение в пространстве более высокой размерности, но со сложностью $O(M)$ вместо $O(N)$.


## Ядерные функции (Kernel function)

### Ядро RBF (Radial Basis Function)

$$k(x, x') = exp(-\frac{1}{2}(x-x')\Sigma^{-1}(x-x'))$$

, если матрица $\Sigma$ диагональная

$$k(x, x') = exp(-\frac{1}{2}\Sigma_{i=1}^{D}\frac{1}{\sigma_i^2}(x-x')^2)$$

, если $\Sigma$ диагональная и изотропная

$$k(x, x') = exp(-\frac{1}{2{\sigma}^2} \|x - x' \|^2   )$$

### Ядра Мерсера (Mercer kernel)

Преобразование можно представить следующей матрицей Грамма

$$K(x, x') = 
\begin{pmatrix}
k(x_1, x_1') & \ldots & k(x_1, x_N')\\
 & \vdots  & \\
k(x_N, x_1') & \ldots & k(x_N, x_N')
\end{pmatrix}$$

, преобразования является положительно определенным, следовательно

$$
K=U^{\top}{\Lambda}U \Rightarrow k_{i,j}=(\Lambda^{1/2}U_{:,i})^{\top}(\Lambda^{1/2}U_{:,j})
$$

, если ввести обозначение $\phi(x_i) = \Lambda^{1/2}U_{:,i}$, тогда

$$
k_{i,j} = \phi(x_i)^{\top}\phi(x_j) \Rightarrow k(x,x')=\phi(x)^{\top}\phi(x')
$$

Полиномиальное ядро (polynomial kernel)

$$k(x,x')=({\gamma}x^{\top}x' + r)^{M}, r > 0$$

Расcмотрим полиномиальное ядро при $M=2, \gamma=r=1$ и $x, x' \in R^2$

$$
(1 + x^{\top}{x'})^2 = (1 + {x_1}{x'_1} + {x_2}{x'_2})^2 = 1 + 2{x_1}{x'_1} + 2{x_2}{x'_2} + ({x_1}{x'_1})^2 + ({x_2}{x'_2})^2 + {x_1}{x'_1}{x_2}{x'_2}
$$

тогда 

$$
\phi(x) = [1, \sqrt{2}x_1, \sqrt{2}x_2, x_1^{2}, x_2^{2}, \sqrt{2}x_1x_2]^{\top}
$$

Где мы встречались с таким преобразованием исходных признаков?

## Ядерные ближайшие соседи (Kernelized Nearest Neighbor)

## Ядерная гребневая регрессия (Kernelized ridge regression)

## Машина разреженных векторов (Sparse vector machine)

## Машина опорных векторов (Support vector  machine)

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler

from sklearn.svm import LinearSVR
from sklearn.svm import SVR

def plot_svm_regression(svm_reg, X, y, axes):
    x1s = np.linspace(axes[0], axes[1], 100).reshape(100, 1)
    y_pred = svm_reg.predict(x1s)
    plt.plot(x1s, y_pred, "k-", linewidth=2, label=r"$\hat{y}$")
    plt.plot(x1s, y_pred + svm_reg.epsilon, "k--")
    plt.plot(x1s, y_pred - svm_reg.epsilon, "k--")
    plt.scatter(X[svm_reg.support_], y[svm_reg.support_], s=180, facecolors="#FFAAAA")
    plt.plot(X, y, "bo")
    plt.xlabel(r"$x_1$", fontsize=18)
    # plt.legend(loc="upper left", fontsize=18)
    plt.axis(axes)


np.random.seed(42)
m = 100
X = 2 * np.random.rand(m, 1) - 1
# y = (0.2 + 0.1 * X + 0.5 * X**2 + np.random.randn(m, 1)/10).ravel()
y = (0.2 + 0.1 * X + 0.5 * X**2 + 0.1 * X**3 + np.random.randn(m, 1) / 10).ravel()

epsilons = [0.1, 0.05]
eps_names = ["0p1", "0p05"]
for i, eps in enumerate(epsilons):
    # svm_poly_reg1 = SVR(kernel="poly", degree=5, C=1e3, epsilon=eps, gamma="scale")
    # svm_poly_reg2 = SVR(kernel="poly", degree=5, C=1e-3, epsilon=eps, gamma="scale")
    svm_reg1 = SVR(kernel="rbf", gamma=1, C=100, epsilon=eps)
    svm_reg2 = SVR(kernel="rbf", gamma=1, C=0.01, epsilon=eps)

    svm_reg1.fit(X, y)
    svm_reg2.fit(X, y)

    fig, axes = plt.subplots(ncols=2, figsize=(9, 4), sharey=True)
    plt.sca(axes[0])
    plot_svm_regression(svm_reg1, X, y, [-1, 1, 0, 1])
    plt.title(r"$C={}, \epsilon = {}$".format(svm_reg1.C, svm_reg1.epsilon), fontsize=18)
    plt.ylabel(r"$y$", fontsize=18, rotation=0)
    plt.sca(axes[1])
    plot_svm_regression(svm_reg2, X, y, [-1, 1, 0, 1])
    plt.title(r"$C={}, \epsilon = {}$".format(svm_reg2.C, svm_reg2.epsilon), fontsize=18)
    fname = "figures/svm_regression_e{}.pdf".format(eps_names[i])
    #plt.savefig(fname, dpi=300)
    plt.show()