## Метод ближайших соседей

### Гипотезы компактности и непрерывности

Гипотеза непрерывности (регрессия) - близким объектам соответствуют близкие ответы

Гипотеза компактности (классификация) - близкие объекты лежат в одном классе

Формализация понятия расстояния: задана функция расстояния $\rho:X*X \to [0, \infty)$


### Обобщенный метрический классификатор
Для произвольного $x \in X$ отранжируем объекты $x_1, ..., x_l$:   
$\rho(x, x^{(1)})\leq \rho(x, x^{(2)})\leq ... \leq \rho(x, x^{(l)})$

$x^{(i)}$ - i-й сосед объекта х среди $x_1, ..., x_l$
$y^{(i)}$ - ответ на i-м соседе объекта х

Метрический алгоритм классификации:   
$a(x, X^l)=argmax_{y \in Y} \sum_{1\leq i \leq l}[y^{(i)}=y]w(i, x)$

w(i, x) - вес, оценка сходства объекта х с его i-м соседом, неотрицательная, не возрастающая по i    
$\Gamma_y(x)=\sum_{1\leq i \leq l}[y^{(i)}=y]w(i, x)$ - оценка близости объекта х к классу y


### Метод ближайших соседей kNN
w(i, x) = [i=<k]

Параметр k можно оптимизировать по критерию скользящего контроля (leave-one-out): $LOO(k, X^l)=\sum_{1 \leq i \leq l}[a(x_i, X^l|\{x_i\}, k)\neq y_i] \to min_q$

Неоднозначность классификации

## Метод окна Парзена

Ищем окрестность с фиксированной точкой отсчета

$w(i, x)=K(\frac{\rho(x, x^{(j)})}{h})$, h - ширина окна    
K(r) - ядро, не возрастает и положительно на [0, 1]

Метод парзеновского окна фиксированной ширины:
$a(x, X^l, h, K)=argmax_{y \in Y}\sum_{1 \leq i \leq l}[y_i=y]K(\frac{\rho(x, x^{(j)})}{h})$

Метод парзеновского окна переменной ширины:
$a(x, X^l, h, K)=argmax_{y \in Y}\sum_{1 \leq i \leq l}[y_i=y]K(\frac{\rho(x, x_i)}{{\rho(x, x^{(k+1)})}})$

Оптимизация например по LOO
Ядра не сильно вляют на качество


### Метод потенциальных функций
$w(i, x)=\gamma^{(i)}K(\frac{\rho(x, x^{(i)})}{h^{(i)}})$

$a(x, X^l)=argmax_{y \in Y}\sum_{1\leq i \leq l}[y_i=y]\gamma_i K(\frac{\rho(x, x_i)}{h_i})$


### Метод потенциальных функций - линейный классификатор
Два класса: Y={-1, +1}
$a(x, X^l)=argmax_{y \in Y} \Gamma_y (x)=sign(\Gamma_{+1} (x)-\Gamma_{-1} (x))=sign \sum_{1 \leq i \leq l} \gamma_i y_i K(\frac{\rho(x, x_i)}{h_i})$

## Метрические методы классификации в задаче восстановления регрессии

###  Задачи регрессии и метод наименьших квадратов

Х - объекты ($\mathbb{R}^n$), Y - ответы ($\mathbb{R}, \mathbb{R}^m$)   
$X^l=(x_i, y_i)_{i=1}^l$ - обучающая выборка   
$y_i=y(x_i), y:X \to Y$ - неизвестна зависимость
$a(x)=f(x, \alpha)$ - параметрическая модель зависимости, $\alpha \in \mathbb{R}^p$ - вектор параметров модели   
Метд наименьших квадратов (МНК): $Q(\alpha, X^l)=\sum_{1 \leq i \leq l}w_i(f(x_i, \alpha)y_i)^2 \to min_{\alpha}$, w-вес

$f(x, \alpha)$ - нужно знать заранее и хорошо ее настроить


### Непараметрическая регрессия. Формула Надарая-Ватсона

Приближение константой $f(x, \alpha)=\alpha$ в окрестности $x \in X$

$Q(\alpha, X^l)=\sum_{1\leq i \leq l}w_i(x)(\alpha - y_i)^2\to min_{\alpha \in \mathbb{R}}$

$w_i(x)=K(\frac{\rho(x, x_i)}{h})$ - веса объектов $x_i$ от носительно х, K(r) - ядро, невозрастающее, ограниченное, гладкое [0, 1], h - ширина окна сглаживания

Формула ядерного сглаживания Надарая-Ватсона
$\alpha_h(x, X^l)=\frac{\sum_{1 \leq i \leq l}y_iw_i(x)}{\sum_{1 \leq i \leq l}w_i(x)}=\frac{\sum_{1 \leq i \leq l}y_iK(\frac{\rho(x, x_i)}{h})}{\sum_{1 \leq i \leq l}K(\frac{\rho(x, x_i)}{h})}$

Ширина окна существенно влияет на качество аппроксимации. Нужно использовать оптимизацию по скользящему контролю, либо использовать переменную ширину окна в зависимости от концентрации объектов

## Обнаружение выбросов

### Проблема выбросов и локально взвешенное сглаживание

большие случайные ошибки в значениях $y_i$ сильно искажает оценку Надарая-Ватсона

$a_h(x, X^l)=\frac{\sum_{1\leq i \leq l}y_iw_i(x)}{\sum_{1\leq i \leq l}w_i(x)}, w_i(x)=K(\frac{\rho(x, x_i)}{h})$ 

Чем больше величина невязки $\epsilon_i=|a_h(x_i; X^l\not{\{x_i\}})-y_i|$ тем меньше должен быть вес этого выброса в w

Домноженние весов $w_i(x)$ на коэффициенты $\gamma_i=\tilde{K},(\epsilon_i)$  $\tilde{K}(\epsilon_i)$ - еще одно ядро, отличное от K(r)

использовать квартическое ядро $\tilde{K}(\epsilon)=K_Q(\frac{\epsilon}{6med(\epsilon}))$, $med(\epsilon_i)$ - медиана множества значений $\epsilon_i$


### Алгоритм LOWESS (Locally weighted scatter plot smoothing)

Вход: $X^l$ - обучающая выборка
Выход: коэффициенты $\gamma_i, i=1, ..., l$   
1) инициализация $\gamma_i:=1, i=1,...,l$  
2) повторять  
3) для всех объектов $i=1, ..., l$  
4) вычислить оценки скользящего контроля  
$a_i:=a_h(x_i; X^l\not{\{x_i\}})=\frac{\sum_{1\leq j \leq l, j\neq i}y_j\gamma_jK(\frac{\rho(x, x_j)}{h(x_i)})}{\sum_{1\leq j \leq l, j\neq i}\gamma_jK(\frac{\rho(x, x_j)}{h(x_i)})}$   
5) для всех объектов $i=1, ..., l$  
6) $\gamma_i:=\tilde{K}(|a_i-y_i|)$   
7) пока коэффициенты $\gamma_i$ не стабилизируется

Методы устойчивые к нарушениям модельных предположений о данных - робастные

## Метод стохастического градиента. Постановка задачи.

### Постановка задачи - регрессия

Обучающая выборка: $X^l=(x_i, y_i)_{i=1} ^l, x_i \in \mathbb{R}^n, y_i \in \mathbb{R}$

Модель регресии - линейная: $a(x, w)=\langle x, w \rangle=\sum_{1 \leq j \leq n}f_j(x)w_j, w \in \mathbb{R}^n$

Функция потерь - квадратичная: $\mathscr{L}(a, y)=(a-y)^2$

Метод обучения - метод наименьших квадратов: $Q(w)=\sum_{1 \leq i \leq l}(a(x_i, w)-y_i)^2 \to min_w$

Проверка по тестовой выборке $X^k=(\tilde{x}_i, \tilde{y}_i)_{i=1} ^k$: $\tilde{Q}(w)=\frac{1}{k}\sum_{1 \leq i \leq k}(a(\tilde{x}_i, w)-\tilde{y}_i)^2$


### Постановка задачи - классификация

Обучающая выборка: $X^l=(x_i, y_i)_{i=1} ^l, x_i \in \mathbb{R}^n, y_i \in \{-1, +1\}$

Модель классификации - линейная: $a(x, w)=sign\langle x, w \rangle$

Непрерывная аппроксимация бинарной фукнции потерь: $\mathscr{L}(a, y)=[\langle x_i, w \rangle y_i<0] \leq \mathscr{L}(\langle x_i, w \rangle y_i)$, $M_i(w)=\langle x_i, w \rangle y_i$ - отступ (margin) 

Метод обучения - минимизация эмпирического риска: $Q(w)=\sum_{1 \leq i \leq l}[\langle x, w \rangle y_i<0] \leq \sum_{1 \leq i \leq l} \mathscr{L}(\langle x, w \rangle y_i) \to min_w$

Проверка по тестовой выборке: $X^k=(\tilde{x}_i, \tilde{y}_i)_{i=1} ^k$: $\tilde{Q}(w)=\frac{1}{k}\sum_{1 \leq i \leq k} [\langle \tilde x_i, w \rangle \tilde y_i<0]$ 

## Градиентные методы численной минимизации и алгоритм SG

### Градиентный метод численной минимизации

Минимизация эмпирического риска: $Q(w)=\sum_{1 \leq i \leq l}[\langle x, w \rangle y_i] = \sum_{1 \leq i \leq l} \mathscr{L}_i (w) \to min_w$

Численная минимизация методом градиентного спуска:

$w^{(0)}:=$ начальное приближение

$w^{(t+1)}:=w^{(t)}-h\nabla Q(w^{(t)})$ $\nabla Q(w)=(\frac{\partial Q(w)}{\partial w_j})_{j=0} ^n$

h - градиентный шаг (темп обучения)

$w^{(t+1)}:=w{(t)}-h\sum_{1 \leq i \leq l} \nabla \mathscr{L}_i(w^{(t)})$

Идея ускорения сходимости: брать $(x_i, y_i)$ по одному и сразу обновлять вектор весов


### Алгоритм SG (Stochastic Gradient)
Вход: выборка $X^l$, темп обучения h, темп забывания $\lambda$   
Выход: вектор весов w    

1) инициализировать веса $w_j, j=0,...,n$    
2) инициализировать оценку функционала $\bar{Q}:=\frac{1}{l}\sum_{1 \leq i \leq l}\mathscr{L}_i(w)$   
3) повторять    
4) выбрать объект $x_i$ из $X^l$ случайным образом     
5) вычислить потерю $\epsilon_i:=\mathscr{L}_i(w)$   
6) сделать градиентный шаг $w:=w-h\nabla\mathscr{L}_i(w)$    
7) оценить функционал $\bar{Q}:=(1-\lambda)\bar{Q}+\lambda\epsilon_i$  
8) пока значение $\bar{Q}$ и/или веса w не сойдутся


### Оценка функционала

Не хочется оценивать Q по всей выборке после каждого шага w по одном объекту $x_i$

Использовать рекуррентную формулу.

Среднее арифметическое $\bar{Q}_m=\frac{1}{m}\sum_{1 \leq i \leq m} \epsilon_i$: $\bar{Q}_m=(1-\frac{1}{m})\bar{Q}_{m-1}+\frac{1}{m}\epsilon_m$


Экспоненциальное скользящее среднее $\bar{Q}:=(1-\lambda)\bar{Q}_{m-1}+\lambda\epsilon_m$: $\bar{Q}_m=\lambda\epsilon_m+\lambda(1)-\lambda\epsilon_{m-1}+\lambda(1-\lambda)^2\epsilon_{m-2}+\lambda(1-\lambda)^3\epsilon_{m-3}+...$


Параметр - $\lambda \approx \frac{1}{m}$ темп забывания. Чем больше $\lambda$, тем быстрее забывается предыстория рядя

## Алгоритм SAG

Вход: выборка $X^l$, темп обучения h, темп забывания $\lambda$   
Выход: вектор весов w    

1) инициализировать веса $w_j, j=0,...,n$  
2) инициализировать градиенты: $G_i:=\nabla\mathscr{L}_i(w), i=1,...,l$   
3) инициализировать оценку функционала $\bar{Q}:=\frac{1}{l}\sum_{1 \leq i \leq l}\mathscr{L}_i(w)$   
4) повторять    
5) выбрать объект $x_i$ из $X^l$ случайным образом     
6) вычислить потерю $\epsilon_i:=\mathscr{L}_i(w)$   
7) вычислить градиент $G_i:=\nabla\mathscr{L}_i(w)$   
8) сделать градиентный шаг $w:=w-h\sum_{1 \leq i \leq l}G_i$    
9) оценить функционал $\bar{Q}:=(1-\lambda)\bar{Q}+\lambda\epsilon_i$  
10) пока значение $\bar{Q}$ и/или веса w не сойдутся

## Метод стохастического градиента. Достоинства и недостатки.

Достоинства:
 - легко реализуется
 - применим к любым моделям и функциям потерь
 - допускает потокове обучение
 - на сверхбольших выборках позволяет получать неплохие решения, даже без обработки всех данных
 - все чаще применяется в Big Data
 
Недостатки:
 - возможное застревание в локальных экстремумах
 - возможная расходимость или медленная сходимость
 - возможное переобучение
 
 
### Варианты инициализации весов
 - $w_j:=0$ для всех j=1,...,n  
 - небольшие случайные значения $w_j:=random(-\frac{1}{2n}, \frac{1}{2n})$ 
 - $w_j:=\frac{\langle y, f_j \rangle}{\langle f_j, f_j \rangle}, f_j=(f_j(x_i))_{i=1} ^l$ - вектор значения признака; эта оценка w оптимальна при квадратичной фукнции потерь, если признаки некоррелированы $\langle f_j, f_k \rangle=0, j\neq k$   
 - $w_j:=ln(\frac{\sum_i[y_i=+1]f_j(x_i)\sum_i[y_i=-1]}{\sum_i[y_i=11]f_j(x_i)\sum_i[y_i=+1]})$ - эта оценка w оптимальна для задач классификации, Y={-1, +1}, если признаки независимы
 - оценки $w_j$ по небольшой случайной подвыборке объектов    
 - мультистарт: многократные запуски из разных случайных начальных приближений и выбор лучшего решения
 
 
### Варианты порядка предъвления объектов
 - перемешивние объектов
 - чаще брать те объекты, на которых была допущена большая ошибка (большой отступ)
 - вообще не брать хорошие объекты, тк они хорошо разделились (большой отступ)
 - вообще не брать плохие объекты, тк это скорее всего выбросы (большой отступ)
Придется подбирать параметры для оценки величины отступа


### Варианты выбора градиентного шага
- сходимость гарантируется для выпуклых функций при $h_t \to , \sum_{1 \leq t \leq \infty}h_t=\infty, \sum_{1 \leq t \leq \infty}h^2 _t<\infty$, в частности можно положить $h_t=\frac{1}{t}$   
- метод скорейшего градиентного спуска: $\mathscr{L}(w-h\nabla\mathscr{L}_i(w)) \to min_h$, позволят найти адаптивный шаг $h^*$ при квадратичной функции потерь $h^*=||x_i||^{-2}$
- периодически нужно делать пробные случайные шаги для выхода из локальных минимумов
- метод Левенберга-Марквардта второго порядка


### Диагональный метод Левенберга-Марквардта
Метод Ньютона-Рафсона, $\mathscr{L}_i(w)\equiv \mathscr{L}(\langle w, x_i\rangle y_i)$, $w:=w-h(\mathscr{L}"_i(w))^{-1}\nabla \mathscr{L}_i(w)$, где $\mathscr{L}"_i(w)=(\frac{\partial^2 \mathscr{L}(w)}{\partial w_j \partial w_{j'}})$ гессиан, $n*n$ матрица

Эвристика: считаем, что гессиан диагонален. Тогда    
$w_j:=w_j-h(\frac{\partial^2 \mathscr{L}_i(w)}{\partial w_j ^2}+ \mu)\frac{\partial \mathscr{L}_i (w)}{\partial w_j}$    
h - темп обучения, полагаем =1   
$\mu$ - параметр, предотвращающий обнуление знаменателя    
Отношение $\frac{h}{\mu}$ есть темп обучения на ровных участках функционала    $\mathscr{L}_i(w)$, где вторая производная обнуляется   

## Проблема переобучения

Причины переобучения:
 - присутствуют коррелирующие признаки 
 - мало объектов, много признаков

Признаки переобучения:
 - слишком большие веса разных знаков
 - неустойчивость классификации относительно погрешностей измерения признаков
 - $Q(X^l)<<Q(X^k)$
 
### Регуляризация (сокращение весов)
Штраф за увеличение нормы вектора весов: $\mathscr{\bar L}_i(w)=\mathscr{L}_i(w)+\frac{\tau}{2}||w||^2=\mathscr{L}_i(w)+\frac{\tau}{2}sum_{1 \leq j \leq n}w_j ^2 \to min_w$

Градиент: $\nabla\mathscr{\bar L}_i(w)=\nabla\mathscr{L}_i(w)+\tau w$

Модификация градиентного шага: $w:=w(1-\tau h)-h\nabla\mathscr{L}_i(w)$

Подбор параметра $\tau$ - по скользящему контролю