# Вопросы к экзамену

## Препроцессинг. Масштабирование. Нормировка. Бинаризация. Полиномиальные признаки. One-hot encoding.

Масштабирование признаков произодится в силу того, что некоторые ML-методы плохо работают, когда у признаков сильно разнятся области значений (например, когда приходится считать расстояние между точками выборки, то без мастабирования, на результат может сильно влиять один признак, а другие почти не учитываться).

**Масштабирование** (Rescaling) - это приведение области значений признака $x$ к $[0, 1]$ или $[-1, 1]$ (википедия):
$$
    x' = \frac{x - min(x)}{max(x) - min(x)}
$$

**Нормировка** (Standardization) - это приведение выборки фич к значениям с *нулевым* матожиданием и *единичным* стандартным отклонением (nb, дисперсия = квадрат std):
$$
    x' = \frac{x - \overline{x}}{\sigma}
$$

Иногда имеет смысл усложнить исходный набор признаков $(X_1, X_2)$ *полиномиальным признаками*: $(1, X_1, X_2, X_1^2, X_1X_2, X_2^2)$. Это имеет смысл, например, при использовании линейных методов (линейной регрессии всякой), которые не могут нам показать больше, чем линейных зависимостей по данным.

**Бинаризация признаков** - приведение числовых признаков к бинарным $\{0, 1\}$. Это бывает нужно при решении задач классификации.

**One-hot encoding**. Из названия можно (со скрипом) догадаться, что речь идёт о кодировании чего-то вектором из нулей, но с одной единичкой. Например, есть у нас категориальный признак $\{ A, B, C, D \}$. Тогда мы можем его распилить на $4$ признака соответственно $A$, $B$, $C$, $D$, причём каждый из этих признаков может быть, например, вещественным из $[0, 1]$. А объекту из обучающей выборки, у которого категория, например, $A$, мы ставим в соответствие 4 фичи $1, 0, 0, 0$. Далее можно такие признаки пихать в обучатель и работать с ними как с обычными числовыми.

## Кластеризация. kMeans, MeanShift, Affinity Propagation

**Задача кластеризации** - задача разбиения заданной выборки объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, так, чтобы *каждый кластер состоял из схожих объектов*, а *объекты разных кластеров существенно отличались*.
Задача кластеризации относится к широкому классу задач *обучения без учителя*. ( [источник](http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F) )

Цели: выявить закономерности, найти необычные объекты, дальнейшее применение разных моделей и прочего к разным кластерам, построение иерархии классов объектов, уменьшить объём данных (брать по объекту из кластера)

Проблемы: вопрос выбора числа кластеров, вопрос выбора метрики расстояния, вопрос оценки качества

### KMeans

По данной выборке $X = (x_1, x_2, \ldots, x_n)$ и заданному заранее числу кластеров $k$ алгоритм $KMeans$ строит набор кластеров $S = \{S_1, S_2, \ldots, S_k\}$ так, чтобы набор $S$ минимизировал функцию:
$$
\sum_{i=1}^{k}{\sum_{x \in S_i}{||x-\mu_i||^2}}
$$
Где $\mu_i$ - это центроид кластера $S_i$.

Алгоритм:
1. Инициализировать $\mu_i$ -- центроиды кластеров
2. Каждому $x_i$ выдать номер кластера (по диаграмме Воронова, т.е. выбираем кластер, ближайший по евклидовому расстоянию)
3. Пересчитать центроиды $\mu_i$
4. Повторить с шага 2 пока изменения не станут незначительными

Алгоритм сходится при использовании евклидова расстояния. Иначе, вообще говоря, нет.

### MeanShift

Тут: (http://robot-develop.org/wp-content/uploads/2012/03/seg3.pdf)

Не нужно задавать число кластеров (у метода нет параметров).
Выбирается ядро $K(x)$ и по исходной выборке мы строим функцию плотности вероятности (ядерное сглаживание).

Вычисление градиента $f(x)$ - ядерного сглаживания даёт выражение для mean shift и всё такое.
Идея в том, чтобы входные точки для кластеризации, смещать в сторону ближайшей моды ядерно сглаженной плотности вероятности.


### Affinity Propagation

http://ijcai.org/Proceedings/11/Papers/373.pdf

Заводим таблицы:  similarity[i, j], responsibility[i, j] и availability[i, j] и обновляем последние две итеративно, ...

## Обучение с подкреплением. Оптимизация state-value function. Q-function, policy. Стратегии блуждания

[Книга по RL](https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf)

## Основные понятия: ошбики in out, функция роста, точка поломки, размерность Вапника-Червоненкиса, bias, variance, валидация

Обозначения:
* $f: \mathcal{X} \rightarrow \mathcal{Y}$ - неизвестная целевая функция
* $\mathcal{D} = \{ (x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N) \}$ - датасет, набор данных для обучения (тут $x_i$ - это вектор признаков, а $y_i$ - ответ)
* $\mathcal{A}$ - алгоритм обучения
* $\mathcal{H}$ - множество гипотиз, из которых будет выбрана финальная гипотеза (выбор производится алгоритмом обучения $\mathcal{A}$
* $g$ - финальная гипотеза, которая претендует на $g(x) \approx f(x)$
* $h$ - конкретная гипотеза из $\mathcal{H}$

Мы будем для простоты рассматирвать задачу классификации, где классы - это $1$ или $-1$.

Введём понятие in и out error (**внешних и внутренних ошибок** для конкретной гипотезы $h$):

* $E_{in}(h) = \frac{1}{N}\sum_{n=1}^{N}{e(h(x_n), f(x_n))}$
* $E_{out}(h) = \mathbb{E}_{x}{[e(h(x), f(x))]}$

Тут $e(h(x), f(x))$ - это мера ошибки, например она может быть бинарной (1 если $h(x) \neq f(x)$ и 0 иначе) или квадратичной, т.е. квадрат разницы $h(x)$ и $f(x)$.

Заметим, что гипотеза $h$ закрепляется до момента получения датасета. В таком случае, для закреплённой заранее гипотезы, выполняется **неравенство Хёфдинга**:
$$
    \mathbb{P}[|E_{in}(h)-E_{out}(h)| > \epsilon] \leq 2e^{-2\epsilon^2N}
$$
Что нам даёт некоторые гарантии на то, как сильно, на генеральной совокупности, выбранная модель (гипотеза) будет лажать.
Но закреплять гипотезу до получения датасета и дальше её использовать - это затея нерациональная. Нам бы хотелось выбирать финальную гипотезу $g$ из всего множества $\mathcal{H}$ после получения датасета. И нам бы хотелось надеяться, что вероятность $\mathbb{P}[|E_{in}(g)-E_{out}(g)| > \epsilon]$ - это что-то маленькое.

Мы не можем написать для выражения вероятности для $g$ то же неравенство Хёфдинга, ибо $g$ выбирается исходя из $\mathcal{D}$, но можно заметить, что собычтие $|E_{in}(g)-E_{out}(g)| > \epsilon$ тянет за собой то, что хоть одно из событий $|E_{in}(h)-E_{out}(h)| > \epsilon$ случится ($h \in \mathcal{H}$), откуда сложением вероятностей получаем ещё одно неравенство:
$$
    \mathbb{P}[|E_{in}(g)-E_{out}(g)| > \epsilon] \leq 2Me^{-2\epsilon^2N}
$$
Где $M$ - число гипотех в $\mathcal{H}$. Если гипотез очень много или бесконечно много, то грусть.
Можно переписать это выражение на вероятность так: из неравенства следует, что с вероятностью как минимум $1 - 2Me^{-2N\epsilon^2}$ верно $|E_{out} - E_{in}| \leq \epsilon$, т.е. $E_{out} \leq E_{in} + \epsilon$. Далее, вводя желаемую вероятность $\delta = 2Me^{-2N\epsilon^2}$ можно вывести выражение для $\epsilon$ через $\delta$ и:
$$
    E_{out}(g) \leq E_{in}(g) + \sqrt{\frac{1}{2N}\ln{\frac{2M}{\delta}}}
$$
**Суть**: это ограничение сверху на $E_{out}(g)$ было получено исходя из того, что мы брали сумму вероятностей по всем событиям $|E_{in}(h)-E_{out}(h)| > \epsilon$. Мы никак не учитывали то, что наступление этих событий может перекрываться, т.е. в $\mathcal{H}$ могут быть близкие гипотезы, которые выдают одни и те же значения ошибок, а значит и событие такое для них наступит одновременно. На деле они сильно перекрываются, что намекает на поиски более хорошего ограничения сверху на $E_{out}(g)$. Тут на помощь к нам идёт Вапник и Червоненкис.

Тут начинается комбинаторщина. Пара определений:
* **Дихотомия** - это вектор из 0 и 1 (или -1 и 1). Соответственно **множество дихотомий**, генерируемых набором гипотиз $\mathcal{H}$ - это такое вот множество $\mathcal{H}(x_1, \ldots, x_N) = \{ (h(x_1), \ldots, h(x_N)) | h \in \mathcal{H} \}$. 
* **Функция роста** (growth function) - это функция $m_{\mathcal{H}}(N) = \max_{\mathcal{X}}{|\mathcal{H}(x_1, \ldots, x_n)|}$, т.е. она числу $N$ сопоставляет максимально возможное число дихотомий, которое набор гипотих $\mathcal{H}$ может породить на датасете размера $N$ (максимум среди всех возможных датасетов)

Очевидно: $m_{\mathcal{H}}{(N)} \leq 2^N$

* **Точка поломки** (для $\mathcal{H}$) - это такой размер $k$ датасета, что $m_{\mathcal{H}}(k) < 2^N$, т.е. множество гипотез уже не всесильно и разделить любыми способами не может.

Можно вывести для разных наборов гипотиз точки поломки и вообще значения функции роста:
* Перцептрон на $d$ мерном пространстве: может всё до момента поломки равного $d + 2$. (Для плоского случая 4 точки уже не разделишь, а 3 ещё можно (тут важно, что функция роста максимизирует по возможным датасетам, ибо 3 точки на одной линии перцептрон всеми способами тоже не может разделить)).
* Простые случаи: луч, отрезок на прямой (сам считай или иди в книгу Learning From Data)
* Полигональные гипотезы (всё, что внутри полигона - 1, остальное - 0). Нужно расположить точки датасета по кругу и заметить, что полигонами с вершинами в точках датасета можно разделить всеми способами, а значит точка поломки такого набора гипотез БЕСКОНЕЧНА и функция роста всегда равна $2^N$.

* **Размерность Вапника-Червоненкиса** - $d_{vc}$ - это наибольшее такое $k$, что $m_{\mathcal{H}}{(k)} = 2^k$, т.е. $d_{vc}$ на 1 меньше точки поломки.

Без доказательства сейчас будет, но это всё позволяет нам построить следующую оценку: Для любого уровня $\delta > 0$
$$
    E_{out}(g) \leq E_{in}(g) + \sqrt{\frac{8}{N}\ln{\frac{4m_{\mathcal{H}}{(2N)}}{\delta}}} \leq 
                    E_{in}(g) + \sqrt{\frac{8}{N}\ln{\frac{4((2N)^{d_{vc}} + 1)}{\delta}}}
$$
верно с вероятностью $\geq 1 - \delta$

Почему это более ок оценка? Потому, что пока $d_{vc}$ - не бесконечно, то $m_{\mathcal{H}}{(N)}$ ограничена сверху полиномом. Чем сложнее модель (т.е. больше $d_{vc}$, тем хуже *генерализуемость*.

Отсюда можно выносить всякие умазаключения про подходящий размер выборки для *генерализации* применяемого метода.

При выборе модели обучения, т.е. множества гипотез $\mathcal{H}$ мы должны постараться найти золотую середину: 
* Если модель слишком сложна, т.е. размерность ВЧ большая, то мы получаем большой штраф за сложность модели, но при это имеем возможность лучше приблизить имеющийся датасет, т.е. уменьшить $E_{in}$
* Иначе, мы уменьшаем штраф, а значит получаем более хорошую генерализуемость (т.е. $E_{in}$ приближается к $E_{out}$), но тогда страдает сам $E_{in}$.

NB: весь "анализ" выше относился к бинарным функциям $h$ и $f$, но на деле пофиг, можно чёто подаказывать и для real-valued.

Для вещественных функций гипотез и цели можно исопльзовать анализ **bias-variance**. Раскрывая следующее выражение:
$$
    \mathbb{E}_{\mathcal{D}}[E_{out}(g^{(\mathcal{D})})] = \mathbb{E}_x[\mathbb{E}_{\mathcal{D}}[(g^{(\mathcal{D})}(x)-\overline{g}(x))^2] + (\overline{g}(x)-f(x))^2]
$$
Вот:
* $\mathbb{E}_{\mathcal{D}}[(g^{(\mathcal{D})}(x)-\overline{g}(x))^2]$ - это variance
* $(\overline{g}(x)-f(x))^2$ - а это bias

Суть:
* Если мы возьмём маленькую модель, например такую, что множество всех гипотез ограничено одной гипотезой, то ясно, что variance такой модели будет нулевой, а вот $bias$ будет большим, скорее всего, т.к. у нас модель ваще не смотрит на датасет.
* Если же модель будет сложной, то между гипотезами и разница будет большая, а значит variance растёт, а вот bias падает, т.к. мы средняя гипотеза должна как-то приближаться к целевой функции...

С кросс-валидацией и валидацией вроде более или менее всё ясно (с мат. точки зрения), а вот регуляризацию нужно подробнее изу