In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Непараметрическая регрессия
Все предыдущие примеры были сделаны с одним очень серьёзным допущением - **мы обладаем информацией о природе зависимости целевой переменной от признаковых**. Например, мы обладаем априорным знанием о линейной зависимости силы тока от напряжения, мы не знаем только численного значения сопротивления, которое мы восстанавливаем при помощи регрессии. 

Однако, в реальном мире мы можем столкнуться с зависимостями, о природе которых ничего не известно, однако это не повод отказывать себе в удовольствии построить модель. Идея непараметрических регрессий заключается в том, что мы приближаем зависимость в каждой точке некоторой константой, которая зависит от объектов обучающей выборки в окрестности этой точки. По сути, это kNN, только ответы принадлежат непрерывной области, а не дискретной.

Один из методов - это формула Надарая-Ватсона. Значение в точке $x$ вычисляется следующим образом:

$$y^*(x, X^l) =  \frac{\sum_{i=1}^l y_iw_i }{\sum_{i=1}^l w_i } = \frac{\sum_{i=1}^l y_i K(\frac{\rho(x, x_i)}{h}) } {\sum_{i=1}^l  K(\frac{\rho(x, x_i)}{h}) } $$

где $X^l$ - обучающая выборка, $w_i$ - веса, которые вычисляются функцией $K$, называемой **ядром**, $\rho$ - метрика, функция расстояния между двумя точками в признаковом пространстве, а $h$ - ширина окна сглаживания. Ядро должно быть невозрастающей, желательно гладкой, функцией. В самом деле, чем ближе объект - тем больше он должен весить.

Сейчас попробуем на примере, используя Гауссово ядро $K(x) = e^{-2x^2}$ и всё сразу станет понятно. Для начала отрисуем ядро:

In [None]:
def K(x):
    return np.exp(-2 * x**2)

distance = np.arange(0, 3, 0.1)
plt.plot(distance, K(distance))
_ = plt.xlabel('Расстояние')

А теперь сгенирируем какие-нибудь сильно зашумленные со сложной зависимостью:

In [None]:
np.random.seed(42)

x = np.arange(0, 10, 0.1)
y = np.sin(x) + np.cos(4*x)

x_noised = x + np.random.normal(0, 0.1, size=x.shape)
y_noised = np.sin(x_noised) + np.cos(4*x_noised) + np.random.normal(0, 0.3, size=x.shape)

plt.plot(x, y, c='r')
_ = plt.scatter(x, y_noised)

In [None]:
def K(x):
    return np.exp(-2 * x**2)

np.random.seed(42)

x = np.arange(0, 10, 0.1)
y = np.sin(x) + np.cos(4*x)

x_noised = x + np.random.normal(0, 0.1, size=x.shape)
y_noised = np.sin(x_noised) + np.cos(4*x_noised) + np.random.normal(0, 0.3, size=x.shape)

h = 0.05

xfit = np.arange(0, 10, 0.01)
distance = xfit.reshape(-1, 1) - x.reshape(1, -1)
weigths = K(distance / h)
yfit = np.sum(y_noised*weigths, axis=1) / np.sum(weigths, axis=1)

fig = plt.figure(figsize=(20, 10))
plt.scatter(x, y_noised)
plt.plot(xfit, yfit)
plt.plot(x, y)
_ = plt.title(f'h = {h}')

Поиграйтесь с шириной окна и посмотрите, как будут меняться результаты.