# Гипотеза компактонсти

В задачах классификации предположение о том, что схожие объекты гораздо чаще лежат в одном классе, чем в разных; или, другими словами, что классы образуют компактно локализованные подмножества в пространстве объектов.

# kNN для классификации

- дано новый объект x
- сортируем объекты обучающей выборки по расстоянию до нового объекта: $ p(x, x_{1}) \leq p(x, x_{2}) \leq ... \leq p(x, x_{l}) $
- Выбираем k ближайших объектов: x_1, ... , x_k
- Выдаем наиболее популярный среди них класс:

$ a(x) = arg max_{y \in Y} \sum_{i=1}^{k} [y_{(i)} = y ] $

## Метрики

*Метрика* - обобщение расстояния на многомерные пространства.

*Метрика* - функция $p$ с двумя аргументами, удовлетворяющая трем требованиям:

- $ p(x, z) = 0 $ тогда и только тогда, когда $ x = z $
- $ p(x, z) = p(z, x) $
- $ p(x, z) \leq p(x, v) + p(v, z) $ - неравенство треугольника

### Виды метрик (данные количественные)

**Евклидова метрика**

$ p(x, z) = \sqrt{\sum_{j=1}^{d} (x_j - z_j)^2} $

**Манхэттенская метрика**

$ p(x, z) = \sum_{j=1}^{d} | x_j - z_j | $

**Обобщение - метрика Минковского**

$ p(x, z) = \sqrt[q]{\sum_{j=1}^{d} (x_j - z_j)^q} $

### Виды метрик (данные категориальные)

**Подсчет значений**

$ p(x, z) = \sum_{j=1}^{d} [x_j \neq z_j] $

## Выявление ошибки

### Функция потерь в классификации

**Бинарная функция потерь**

$ L(y, a) = [a \neq y] $

**Функционал ошибки - доля ошибок (error rate)**

$ Q(a, X) = \frac{1}{l} \sum_{i=1}^{l} [a(x_i) \neq y_i] $

**Доля верных ответов (accuracy)**

$ Q(a, X) = \frac{1}{l} \sum_{i=1}^{l} [a(x_i) = y_i] $

*Примечание: Всегда необходимо смотреть на баланс классов!*

## Как выбрать k

- На обучающей выборке всегда лучше выбирать $ k = 1 $

- Чем меньше $ k $ тем больше модель чувствительная к шумам!

- Нельзя подбирать $ k $ по обучающей выборке - гиперпараметр. Нужно использовать дополнительные данные

## Формирование выборок (обучающей и тестовой)

**Отложенная выборка**

- Слишком большое обучение - тестовая выборка нерепрезентативна
- Cлишком большой тест - модель не сможет обучиться

Поэтому обычно соотношение между обучающей и тестовой выборками равен *7/3 8/2*

**Кросс-валидация**

- Надежнее отложенной выборки, но медленнее
- Параметр - количество разбиений n (folds)
- Xороший, но медленный вариант n = l (leave-one-out) *в обучающую выборку идут N-1 элементов и в тест 1 элемент*

*обычно n = 3 или 5 или 10*

## Взвешенный kNN

$ a(x) = arg max_{y \in Y} \sum_{i=1}^{k} w_i [y_{(i)} = y ] $

**Парзеновское окно**

$ w_i = K \left ( \frac{p(x, x_{(i)})}{h}  \right ) $

- K - ядро
- h - ширина окна

**Гауссовское ядро**

$ K(z) = (2 \pi)^{-0.5} exp(- \frac{z^2}{2}) $

- В kNN может былть полезно учитывать, насколько близко расположен каждый сосед
- Для этого можно добавить веса, которые тем больше, чем ближе сосед
- В весах нужно подбирать ядро и ширину окна

# kNN для регрессии

$ a(x) = \frac{1}{k} \sum_{i=1}^{k} y(i) $

- Можно добавить веса (так же, как выше)

**Формула Надарая-Ватсона**

$ a(x) = \frac{\sum_{i=1}^{k} w_i y(i)}{\sum_{i=1}^{k} w_i} $

## Выявление ошибки

### Функция потерь в регрессии

**Квадратичная функция потерь**

$ L(y, a) = (a - y)^2 $

**Функционал ошибки - среднеквадратичная ошибка (mean squared error, MSE)**

$ Q(a, X) = \frac{1}{l} \sum_{i=1}^{l} (a(x_i) - y_i)^2 $

**Средняя абсолютная ошибка (mean absolute error, MAE)**

$ Q(a, X) = \frac{1}{l} \sum_{i=1}^{l} | a(x_i) - y_i | $

# Резюме

- Перейти в kNN от классификации к регрессии легко: заменяем выбор самого частого класса на усреднение ответов
- Можно использовать веса
- Частая функция потерь - квадратичная
- Все остальное аналогично - гиперпараметры подбираются через отложенную выборку и т.д.