# Лекция 4.2: Ядерные методы и метод опорных векторов

#### Ядерные методы
Ядерные методы опираются на идею явного или неявного переноса данных в пространство более высокой размерности, где зависимость становится линейной. Пусть имеется отображение $\phi: \mathbb{R}^d \to \mathcal{H}$, тогда модель выглядит как:
$$
f(x) = \langle \mathbf{w}, \phi(x) \rangle + b.
$$
При этом скалярное произведение в пространстве $\mathcal{H}$ вычисляется с помощью функции ядра $K(x, z)$ по правилу:
$$
K(x, z) = \langle \phi(x), \phi(z) \rangle.
$$

#### Основные типы ядер

1. **Линейное ядро**:
   $$
   K(x, z) = x^T z
   $$
   - Используется, когда данные линейно разделимы.

2. **Полиномиальное ядро**:
   $$
   K(x, z) = (\gamma x^T z + r)^d
   $$
   - $\gamma$ – коэффициент, $r$ – смещение, $d$ – степень полинома.
   - Позволяет моделировать полиномиальные зависимости.

3. **Радиальная базисная функция (RBF) или Гауссово ядро**:
   $$
   K(x, z) = \exp\left(-\frac{\|x - z\|^2}{2\sigma^2}\right)
   $$
   - $\sigma$ – параметр, определяющий ширину гауссиана.
   - Хорошо подходит для нелинейно разделимых данных.

4. **Сигмоидное ядро**:
   $$
   K(x, z) = \tanh(\gamma x^T z + r)
   $$
   - Похоже на активационную функцию нейронных сетей.


#### Метод опорных векторов (SVM)

[Подробно](http://www.machinelearning.ru/wiki/images/archive/4/43/20150402092440!Voron-ML-regress-non-slides.pdf)

#### Основная идея
Для линейно разделимых данных SVM ищет гиперплоскость, которая разделяет данные с максимальным зазором. Гиперплоскость в $ n $-мерном пространстве определяется уравнением:
$$
\mathbf{w} \cdot \mathbf{x} + b = 0
$$

где:
- $\mathbf{w}$ – вектор весов,
- $b$ – смещение,
- $\mathbf{x}$ – вектор признаков.

#### Максимизация зазора
SVM стремится максимизировать зазор между двумя классами. Границы зазора определяются уравнениями:
$$
\mathbf{w} \cdot \mathbf{x} + b = 1
$$
$$
\mathbf{w} \cdot \mathbf{x} + b = -1
$$

Расстояние между этими двумя гиперплоскостями равно $ \frac{2}{\|\mathbf{w}\|} $. Таким образом, задача SVM сводится к минимизации $\|\mathbf{w}\|$ при условии, что все точки классифицируются правильно:

$$
y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1, \quad \forall i
$$

где $ y_i $ – метка класса для точки $\mathbf{x}_i$.


#### Отступ (margin)
Определяется как:
$$
M = y_i (\mathbf{w} \cdot \mathbf{x}_i)
$$

Положительный отступ указывает на правильную классификацию, отрицательный – на ошибку.


#### Оптимизация
Для минимизации ошибок классификации используются различные функции потерь, такие как Hinge Loss:
$$
L(w, x, y) = \lambda \|\mathbf{w}\|^2 + \sum_{i} \max(0, 1 - y_i (\mathbf{w} \cdot \mathbf{x}_i))
$$

#### Ядровый трюк

Для нелинейно разделимых данных SVM использует ядровую функцию $ K(\mathbf{x}_i, \mathbf{x}_j) $, чтобы неявно преобразовать данные в более высокоразмерное пространство, где они могут быть линейно разделимы. Ядровая функция заменяет скалярное произведение $\mathbf{x}_i \cdot \mathbf{x}_j$ в двойственной задаче.

Примеры ядер:
- Линейное: $ K(\mathbf{x}, \mathbf{z}) = \mathbf{x}^T \mathbf{z} $
- Полиномиальное: $ K(\mathbf{x}, \mathbf{z}) = (\gamma \mathbf{x}^T \mathbf{z} + r)^d $
- RBF (Гауссово): $ K(\mathbf{x}, \mathbf{z}) = \exp\left(-\frac{\|\mathbf{x} - \mathbf{z}\|^2}{2\sigma^2}\right) $


In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
M = np.linspace(-2, 2, 400)

def error(M):
    return np.maximum(0, np.sign(-M))

def hinge_loss(M):
    return np.maximum(0, 1 - M)

def perceptron_loss(M):
    return np.maximum(0, -M)

def squared_hinge_loss(M):
    return np.maximum(0, 1 - M)**2

In [None]:
plt.figure(figsize=(8, 8))
plt.plot(M, error(M), label='Error')
plt.plot(M, hinge_loss(M), label='Hinge Loss')
plt.plot(M, perceptron_loss(M), label='Perceptron Loss')
plt.plot(M, squared_hinge_loss(M), label='Squared Hinge Loss')
plt.axhline(0, color='black', linestyle='--')
plt.axvline(0, color='black', linestyle='--')
plt.title('Loss')
plt.xlabel('Margin')
plt.ylabel('Value')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_circles

In [None]:
X, y = make_circles(n_samples=100, factor=0.3, noise=0.1, random_state=42)

kernels = ['linear', 'poly', 'rbf', 'sigmoid']

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

for ax, kernel in zip(axes.ravel(), kernels):
    clf = svm.SVC(kernel=kernel, gamma='auto')
    clf.fit(X, y)

    xx, yy = np.meshgrid(np.linspace(-1.5, 1.5, 100), 
                         np.linspace(-1.5, 1.5, 100))
    
    Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    ax.contourf(xx, yy, Z, levels=np.linspace(Z.min(), 0, 7), cmap=plt.cm.PuBu)
    ax.contour(xx, yy, Z, levels=[0], linewidths=2, colors='darkred')
    ax.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired, edgecolors='k')
    ax.set_title(f'Kernel: {kernel}')
    ax.set_xlim(-1.5, 1.5)
    ax.set_ylim(-1.5, 1.5)

plt.tight_layout()
plt.show()

#### Метод опорных векторов (SVR)
Метод опорных векторов для задачи регрессии, называемый Support Vector Regression (SVR), решает следующую задачу оптимизации:
$$
\begin{aligned}
&\min_{w,b,\xi_i,\xi_i^*}\quad \frac{1}{2} \|w\|^2 + C \sum_{i=1}^{N} (\xi_i + \xi_i^*) \\
&\text{при условиях:} \\
& y_i - \langle w, \phi(x_i) \rangle - b \le \epsilon + \xi_i, \\
& \langle w, \phi(x_i) \rangle + b - y_i \le \epsilon + \xi_i^*, \\
& \xi_i, \xi_i^* \ge 0, \quad i = 1,\dots,N.
\end{aligned}
$$
Здесь:
- $C$ – параметр, регулирующий штраф за ошибки,
- $\epsilon$ задаёт допустимый уровень неточности,
- $\xi_i, \xi_i^*$ – переменные, вводимые для учета нарушений допустимого отклонения.

В SVR цель – минимизировать ошибку предсказания, сохраняя простоту модели. Это достигается путем введения $\epsilon$ полосы (трубы) вокруг функции, в пределах которой ошибки не учитываются.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVR

In [None]:
np.random.seed(42)
X = np.sort(5 * np.random.rand(100, 1), axis=0)
y = np.sin(X).ravel()

In [None]:
epsilon = 0.1
svr_rbf = SVR(kernel='rbf', C=100, gamma=0.1, epsilon=epsilon)
svr_poly = SVR(kernel='poly', C=100, degree=3, epsilon=epsilon)
svr_linear = SVR(kernel='linear', C=100, epsilon=epsilon)

In [None]:
y_rbf = svr_rbf.fit(X, y).predict(X)
y_poly = svr_poly.fit(X, y).predict(X)
y_linear = svr_linear.fit(X, y).predict(X)

In [None]:
plt.figure(figsize=(6, 8))
plt.scatter(X, y, color='darkorange', 
            label='Data', edgecolors='k')

plt.plot(X, y_rbf, color='navy', lw=2, label='RBF model')
plt.fill_between(X.ravel(), 
                 y_rbf - epsilon, 
                 y_rbf + epsilon, 
                 color='navy', alpha=0.2)

plt.plot(X, y_poly, color='c', lw=2, label='Polynomial model')
plt.fill_between(X.ravel(), 
                 y_poly - epsilon,
                 y_poly + epsilon, 
                 color='c', alpha=0.2)

plt.plot(X, y_linear, color='cornflowerblue', lw=2, label='Linear model')
plt.fill_between(X.ravel(), 
                 y_linear - epsilon, 
                 y_linear + epsilon, 
                 color='cornflowerblue', alpha=0.2)

plt.xlabel('x')
plt.ylabel('y')
plt.title('Support Vector Regression')
plt.legend()
plt.show()

### Гауссовские процессы

Гауссовские процессы (Gaussian Processes, GP) относятся к непараметрическим байесовским методам аппроксимации. Идея заключается в том, что функция $ f(x) $ рассматривается как случайный процесс, при котором любые конечные наборы значений функции имеют совместное мультиномальное нормальное распределение:
$$
f(x) \sim \mathcal{GP}\big(m(x),\, k(x, x') \big),
$$
где:
- $m(x)$ – функция среднего (обычно принимается равной нулю: $m(x)=0$),
- $k(x, x')$ – ковариационная функция (ядро), задающая степень схожести между точками $x$ и $x'$.

Одним из популярных ядер является **радиальная базисная функция (RBF)**, или Гауссово ядро:
$$
k(x, x') = \sigma_f^2 \exp\Big(-\frac{\|x - x'\|^2}{2l^2}\Big),
$$
где:
- $\sigma_f^2$ – дисперсия входных данных,
- $l$ – длина масштабирования.

**Преимущества Гауссовских процессов:**
- Непараметрический характер позволяет гибко адаптироваться к данным.
- Возможность получения не только точечного предсказания, но и оценки неопределенности (дисперсии) регрессионной функции.

**Ограничения:**
- Вычислительная сложность $ \mathcal{O}(N^3) $ при обучении, что затрудняет применение для больших наборов данных.
- Необходимость выбора ядра и его гиперпараметров, что может существенно влиять на качество аппроксимации.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, ConstantKernel as C

In [None]:
def f(x):
    return np.sin(x) + 0.1 * np.random.randn(*x.shape)

In [None]:
X_train = np.array([[1], [3], [5], [6], [8]])
y_train = f(X_train)

In [None]:
kernel = (C(1.0, (1e-3, 1e3)) 
          * RBF(length_scale=1.0, 
                length_scale_bounds=(1e-2, 1e2)))

gp = GaussianProcessRegressor(kernel=kernel, 
                              n_restarts_optimizer=10)

gp.fit(X_train, y_train)

In [None]:
X_test = np.linspace(0, 10, 100).reshape(-1, 1)

y_pred, sigma = gp.predict(X_test, return_std=True)

In [None]:
plt.figure(figsize=(10, 5))
plt.plot(X_test, y_pred, 'r-', label='GP')
plt.fill_between(X_test.ravel(), 
                 y_pred - 1.96 * sigma, 
                 y_pred + 1.96 * sigma, 
                 color='lightblue', alpha=0.5, label='95% confidence')
plt.scatter(X_train, y_train, color='darkorange', label='Data')
plt.title('Gaussian Process Regression')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.legend()
plt.show()

[Интерактивная визуализация гауссовских процессов](https://distill.pub/2019/visual-exploration-gaussian-processes/)

[Другой вариант визуализации](https://www.infinitecuriosity.org/vizgp/)