# Лекция 4: Аппроксимация данных

## Аппроксимация

### Постановка задачи
Задача аппроксимации формулируется следующим образом: дано множество обучающих данных  
$$
\{(x_i, y_i)\}_{i=1}^{N}, \quad x_i \in \mathbb{R}^d, \; y_i \in \mathbb{R},
$$
требуется найти функцию $ f: \mathbb{R}^d \to \mathbb{R} $, которая удовлетворяет условию:
$$
y_i \approx f(x_i), \quad \forall i = 1, \dots, N.
$$

Обычно задача решается через минимизацию функции потерь, например, суммы квадратов ошибок:
$$
\min_{f \in \mathcal{F}} \; \sum_{i=1}^{N} \left( y_i - f(x_i) \right)^2,
$$
где $\mathcal{F}$ — множество рассматриваемых моделей. Такой подход позволяет не только "подогнать" модель под данные, но и контролировать обобщающую способность модели через понятия смещения (bias) и дисперсии (variance).

### Линейные и нелинейные методы аппроксимации

#### Линейные методы
В линейном случае предполагается, что зависимость между $ x $ и $ y $ может быть описана линейным соотношением:
$$
f(x) = \langle \mathbf{w}, x \rangle + b,
$$
где:
- $\mathbf{w} \in \mathbb{R}^d$ — вектор коэффициентов,
- $b \in \mathbb{R}$ — смещение.

Обучение модели (например, с использованием метода наименьших квадратов) сводится к решению задачи:
$$
\min_{\mathbf{w}, \, b} \; \sum_{i=1}^{N} \left( y_i - (\langle \mathbf{w}, x_i \rangle + b) \right)^2.
$$
Преимущества линейных моделей:
- Простота и хорошая интерпретируемость;
- Низкая вычислительная сложность.

Ограничение заключается в том, что они не способны адекватно аппроксимировать сложные нелинейные зависимости.

#### Нелинейные методы
Чтобы учитывать нелинейности, можно использовать преобразование исходных признаков. Одним из подходов является введение нового отображения $\phi: \mathbb{R}^d \to \mathbb{R}^{d'}$, приводящего к модели:
$$
f(x) = \langle \mathbf{w}, \phi(x) \rangle + b.
$$

Примером является полиномиальная регрессия, где функция $\phi(x)$ включает полиномы входных признаков:
$$
\phi(x) = [1, x, x^2, \dots, x^p],
$$
и модель становится:
$$
f(x) = w_0 + w_1 x + w_2 x^2 + \dots + w_p x^p.
$$
Преимущества нелинейных методов:
- Гибкость в аппроксимации сложных зависимостей;
- Возможность выбора степени нелинейности через параметр $p$.

Недостатки:
- Рост числа параметров может привести к переобучению;
- Снижение интерпретируемости модели.

### Ядерные методы и метод опорных векторов

#### Ядерные методы
Ядерные методы опираются на идею явного или неявного переноса данных в пространство более высокой размерности, где зависимость становится линейной. Пусть имеется отображение $\phi: \mathbb{R}^d \to \mathcal{H}$, тогда модель выглядит как:
$$
f(x) = \langle \mathbf{w}, \phi(x) \rangle + b.
$$
При этом скалярное произведение в высокоразмерном пространстве $\mathcal{H}$ вычисляется с помощью функции ядра $K(x, z)$ по правилу:
$$
K(x, z) = \langle \phi(x), \phi(z) \rangle.
$$
Пример метода — Kernel Ridge Regression, решающий задачу:
$$
\min_{\boldsymbol\alpha} \; \| \mathbf{y} - K \boldsymbol\alpha \|^2 + \lambda\, \boldsymbol\alpha^T K \boldsymbol\alpha,
$$
где $K$ — матрица ядра, а $\lambda$ — коэффициент регуляризации.

#### Метод опорных векторов (SVR)
Метод опорных векторов для задачи регрессии, называемый Support Vector Regression (SVR), решает следующую задачу оптимизации:
$$
\begin{aligned}
&\min_{w,b,\xi_i,\xi_i^*}\quad \frac{1}{2} \|w\|^2 + C \sum_{i=1}^{N} (\xi_i + \xi_i^*) \\
&\text{при условиях:} \\
& y_i - \langle w, \phi(x_i) \rangle - b \le \epsilon + \xi_i, \\
& \langle w, \phi(x_i) \rangle + b - y_i \le \epsilon + \xi_i^*, \\
& \xi_i, \xi_i^* \ge 0, \quad i = 1,\dots,N.
\end{aligned}
$$
Здесь:
- $C$ — параметр, регулирующий штраф за ошибки,
- $\epsilon$ задаёт допустимый уровень неточности,
- $\xi_i, \xi_i^*$ — переменные, вводимые для учета нарушений допустимого отклонения.

Решение задачи дает функцию регрессии в виде:
$$
f(x) = \sum_{i=1}^{N} (\alpha_i - \alpha_i^*)\, K(x_i, x) + b,
$$
где $\alpha_i, \alpha_i^*$ — двойственные переменные оптимизации. Использование ядрового трюка позволяет эффективно работать в высокоразмерном пространстве без явного вычисления $\phi(x)$.

### Гауссовские процессы

Гауссовские процессы (Gaussian Processes, GP) относятся к непараметрическим байесовским методам аппроксимации. Идея заключается в том, что функция $ f(x) $ рассматривается как случайный процесс, при котором любые конечные наборы значений функции имеют совместное мультиномальное нормальное распределение:
$$
f(x) \sim \mathcal{GP}\big(m(x),\, k(x, x') \big),
$$
где:
- $m(x)$ — функция среднего (обычно принимается равной нулю: $m(x)=0$),
- $k(x, x')$ — ковариационная функция (ядро), задающая степень схожести между точками $x$ и $x'$.

Одним из популярных ядер является **радиальная базисная функция (RBF)**, или Гауссово ядро:
$$
k(x, x') = \sigma_f^2 \exp\Big(-\frac{\|x - x'\|^2}{2l^2}\Big),
$$
где:
- $\sigma_f^2$ — дисперсия сигнала,
- $l$ — длина масштабирования.

При наличии обучающих данных $ (X, y) $ предсказание для новой точки $ x_* $ производится посредством вычисления апостериорного распределения:
- **Среднее предсказание:**
  $$
  \bar{f}_* = k(x_*, X)\left[ K(X,X) + \sigma_n^2 I \right]^{-1} y,
  $$
- **Дисперсия предсказания:**
  $$
  \text{Var}(f_*) = k(x_*, x_*) - k(x_*, X)\left[ K(X,X) + \sigma_n^2 I \right]^{-1} k(X, x_*),
  $$
где $ \sigma_n^2 $ — дисперсия шума, а $ K(X, X) $ — ковариационная матрица, составленная из $ k(x_i, x_j) $ для обучающих точек.

**Преимущества Гауссовских процессов:**
- Непараметрический характер позволяет гибко адаптироваться к данным.
- Возможность получения не только точечного предсказания, но и оценки неопределенности (дисперсии) регрессионной функции.

**Ограничения:**
- Вычислительная сложность $ \mathcal{O}(N^3) $ при обучении, что затрудняет применение для больших наборов данных.
- Необходимость выбора ядра и его гиперпараметров, что может существенно влиять на качество аппроксимации.