## Прогнозирование на несколько шагов вперёд ансамблями над регрессионными деревьями

Регрессионные деревья и ансамбли над ними по умолчанию не предназначены для учёта временной структуры. Однако прогнозирование на несколько разных горизонтов одной и той же моделью, базирующейся на деревьях, можно осуществить следующим образом.

Возьмём обучающую выборку для задачи прогнозирования на один шаг вперёд. При группировке по идентификатору объекта применим операцию сдвига целевой переменной на $k$ шагов, где $k$ принимает значения от 0 до $(h-1)$, а $h$ — желаемый горизонт прогнозирования. Получим выборку, которая в $h$ раз больше по размеру, чем исходная. Добавим в эту выборку признак, принимающий значения от 1 до $h$ и равный $(k+1)$. Этот признак можно интерпретировать как то, на сколько шагов вперёд строится прогноз. Если теперь обучить модель на таких данных, то в зависимости от поданного на стадии предсказания значения нового признака модель сможет предсказывать на любое количество шагов вперёд от 1 до $h$.

## Многозадачное обучение (multi-task learning)

Допустим, есть вспомогательная задача, для которой имеется много размеченных данных, и есть основная задача, для которой размеченных данных существенно меньше. Также допустим, что эти две задачи работают с одними и теми же объектами, но предсказывают на них разные целевые функции. Например, во вспомогательной задаче нужно определить пол человека с портретного фото, а в основной задаче требуется определить цвет волос.

В описанной ситуации можно поступить следующим образом. Построим нейронную сеть для решения вспомогательной задачи и обучим её. Затем уберём сколько-то последних слоёв получившейся сети, и вместо них поставим новые, такие что размерность выходного слоя уже соответствует основной задаче.

Далее есть два варианта:

1) Зафиксировать веса оставленных слоёв нейронной сети, обученной под вспомогательную задачу, и просто прогонять объекты через оставленные слои как через статичный предобработчик;

2) Веса оставшихся от вспомогательной задачи слоёв обучать наравне с весами новых слоёв, то есть считать, что они просто были инициализированы по-другому, но больше отличий между ними и весами новых слоёв нет.

Какой из вариантов выбрать, зависит от числа данных в основной задаче. Если острого недостатка в них нет, то второй способ, как правило, даёт более высокий результат. Первый способ, однако, быстрее, и также он менее требователен к количеству данных (а если размеченных данных совсем мало, то можно даже использовать результат прогона через оставленные обученные слои в качестве признаков для более простого метода: например, метода ближайших соседей).

Новая нейронная сеть обучится лучше, чем если бы сеть с такой же архитектурой обучалась на данных для основной задачи с нуля. Дело в том, что при описанном подходе нейронная сеть будет опираться на скрытое представление, выученное по большому количеству размеченных данных оставленными слоями старой нейронной сети. Также подстройка весов под разные задачи способствует увеличению обобщающей способности. Подробности о том, почему многозадачное обучение работает, есть в разделе 3 статьи [Ruder, 2017](https://arxiv.org/pdf/1706.05098.pdf).

Ещё один подход к многозадачному обучению таков: обучать нейронную сеть параллельно то под вспомогательную задачу, то под основную, при каждом переключении задачи оставляя сколько-то первых слоёв, но заменяя последние слои на то, что было ранее в задаче, к которой происходит переход.

## Как подобрать сложность модели без кросс-валидации?

Иногда в моделях из одного и того же семейства есть параметр, регулирующий сложность. Например, в семействе полиномиальных функций сложностью можно считать максимальную допустимую степень многочлена. Довольно часто сложность можно положить равной количеству оцениваемых по данным параметров — эта формулировка, в частности, включает в себя предыдущую, ведь при оценивании многочленом степени не выше $d$ оценивается $d+1$ параметр.

Модели из одного и того же семейства, отличающиеся друг от друга только сложностью, можно оценивать при помощи информационных критериев.

Информационный критерий Акаике имеет вид:
$$\mathrm{AIC} = 2k - 2l,$$
где $k$ — количество оценённых по данным параметров, а $l$ — значение функционала качества, достигнутое на тренировочной выборке (например, логарифм правдоподобия данных при условии того, что выборка порождается из распределения, задаваемого той моделью, которая была построена на тренировочной выборке).

Байесовский информационный критерий имеет вид:
$$\mathrm{BIC} = \log{(n)} \, k - 2l,$$
где $n$ — размер тренировочной выборки.

По сути, информационные критерии представляют собой оценку качества подгонки под данные с дополнительным штрафом за сложность модели. Интуитивно говоря, чем сложнее модель, тем больше ситуаций, под которые её можно подогнать и, значит, тем менее ценны уровни качества подгонки под данные.

Чем ниже значение какого-либо информационного критерия, тем более хорошей считается модель.

## Откуда может взяться недовольство заказчика машинно-обученной моделью?

Любая прикладная задача моделирования имеет заказчика, неважно, внутреннего или внешнего. Когда заказчик принимает модель, он решает, устраивает ли она его. Причины недовольства заказчика бывают такие:

1) Модель, и в самом деле, плохая;

2) Заказчик не умеет пользоваться моделью;

3) Ожидания заказчика неоправданно завышены.

Какой бы ни была истинная причина, заказчик, скорее всего, решит, что реализовался первый сценарий: модель плохая. Поэтому в интересах специалиста по моделированию избежать ситуаций, когда хорошая модель попадает во второй или третий сценарий.

Разберём эти два сценария подробнее.

Пример сценария, когда моделью не умеют пользоваться, таков: сервис на базе модели рассылает своевременные уведомления о появлении объектов положительного класса, но люди, которым они приходят, игнорируют их. Говоря более общо, можно сказать, что возможны осложнения с интеграцией в бизнес-процессы заказчика. Чтобы упредить их возникновение, полезно задать следующие вопросы:
* Что должно происходить с результатами работы сервиса?
* Как именно сервис приносит конечную ценность?
* Все ли исполнители знают и понимают ответы на два предыдущих вопроса?
* Можно ли оперативно отслеживать сбои в исполнении действий на базе сервиса и можно ли предложить количественные метрики оценки качества исполнения таких действий?
* Все ли признаки, использованные при обучении модели, будут доступны на стадии применения модели вовремя и в сопоставимом качестве?

Проблему завышенных ожиданий проще всего решить, ещё до старта работ по проекту согласовав метрику успеха и её целевой уровень. Сделать это можно, проведя оценку конечного эффекта от внедрения сервиса. Этот конечный эффект может быть как финансовым, то есть выражающимся в деньгах, так и каким-либо более широким (скажем, социальным), но, так или иначе, измеримым.

Впрочем, бывают ситуации, когда заказчик рассуждает не в терминах конечного эффекта, а в терминах всестороннего описания зависимостей — в этом случае заказчик может потребовать, скажем, почти стопроцентную точность по положительному классу. Разумеется, модель, не способная точно описать все зависимости, тоже может быть полезна. Проиллюстрировать это заказчику можно при помощи такого сравнения: если есть лотерея, где вероятность выиграть равна $p$, стоимость участия составляет $c$, а выигрыш приносит $g$, то ответ на вопрос, рационально ли участвовать в такой лотерее, зависит не от того, насколько вероятность $p$ близка к 100%, а от того, как друг с другом соотносятся все три указанных параметра, ведь ожидаемый чистый выигрыш равен $pg - c$.

## Субдискретизация (pooling)

Субдискретизация (pooling) устроена так: по входу слоя проходит фильтр (filter, kernel) и каждый раз от всего, что попадает в него, берёт значение некоторой агрегирующей функции, становящееся значением в соответствующем узле (нейроне) (unit, neuron). Например, в качестве агрегирующей функции можно взять максимум — тогда речь пойдёт о субдискретизации максимумом (max pooling).

Какие желаемые свойства добавляет субдискретизация максимумом?
* Возникает устойчивость к сдвигам изображения на небольшое количество пикселей;
* Появляется возможность реализовать следующую логику: присутствие детектируемого объекта на объединении участков зависит от того, присутствует ли объект хотя бы на одном из этих участков, а не от доли участков, на которых он присутствует.

## Три фундаментальных источника ошибок в машинном обучении

Оптимальный в байесовском смысле регрессор (или классификатор) — это то, что задаётся следующим формальным выражением:
$$f_{opt} = \arg \min_{f \in F} \int_{(x, y) \sim P_{true}(x, y)}l(f(x), y),$$
где $F$ — множество всех возможных регрессоров (или классификаторов соответственно), $P_{true}$ — истинное совместное распределение признаков и целевой переменной, а $l$ — функция потерь, по значению регрессора (классификатора) на векторе признаков и целевой переменной на этом векторе признаков возвращающая соответствующий штраф.

В реальности есть ограничения, не позволяющие найти $f_{opt}$.

Во-первых, неизбежна ошибка приближения (approximation error): поиск проводится не по всему множеству возможных регрессоров (классификаторов), а лишь по какому-то подмножеству $\overline{F} \subset F$, например, по некому параметрическому семейству. Скажем, в случае с линейной регрессией $\overline{F}$ — это множество всех линейных регрессоров. Как следствие, ищется уже нечто другое:
$$\hat{f_1} = \arg \min_{f \in \overline{F}} \int_{(x, y) \sim P_{true}(x, y)}l(f(x), y).$$
Ошибка, вызываемая отличием $\hat{f_1}$ от $f_{opt}$, и называется ошибкой приближения.

Во-вторых, существует ошибка оценивания по данным (estimation error): невозможно получить истинную генеральную совокупность $P_{true}$, а вместо неё есть лишь выборка конечного размера $N$. С учётом такого ограничения задача принимает вид:
$$\hat{f_2} = \arg \min_{f \in \overline{F}} \frac{1}{N} \sum_{i=1}^{N} l(f(x_i), y_i) + \alpha R(f),$$
где $(x_i, y_i)$ — признаки и ответ на $i$-м объекте обучающей выборки, $R(f)$ — регуляризатор, а $\alpha$ — коэффициент, задающий силу регуляризации. Ошибка оценивания — ошибка, вызываемая отличием $\hat{f_2}$ от $\hat{f_1}$.

В-третьих, не всегда удаётся довести поиск минимума из предыдущего пункта до конца, и отсюда возникает ошибка оптимизации (optimization error). Если предположить, что вычислительные ресурсы ограничены и есть всего лишь $T$ итераций, то получится, что решается задача
$$\hat{f_3}^{(T)} = \arg \min_{(T); f \in \overline{F}} \frac{1}{N} \sum_{i=1}^{N} l(f(x_i), y_i) + \alpha R(f),$$
где запись $(T)$ под минимумом обозначает, что минимум ищется за ограниченное число шагов. По аналогии с определением предыдущих ошибок ошибка оптимизации — это ошибка, вызываемая отличием $\hat{f_3}^{(T)}$ от $\hat{f_2}$.

Можно считать, что машинное обучение на больших данных отличается от машинного обучения на маленьких данных тем, что ошибка оптимизации начинает доминировать над ошибкой оценивания по данным.

Подробности есть в статье [Bottou, Bousquet, 2007](https://papers.nips.cc/paper/3323-the-tradeoffs-of-large-scale-learning.pdf).

## Способы автоматического обнаружения выбросов

Выброс (outlier) — объект, считающийся нетипичным для генеральной совокупности, фигурирующей в задаче. Выбросы могут искажать результаты обучения модели, а также результаты оценки качества модели (что создаёт риск неправильного подбора гиперпараметров). Строго говоря, является ли какой-то объект выбросом или нет, должен определять человек, отталкиваясь от своего понимания предметной области и от знаний о том, как именно собирались данные. Тем не менее на практике автоматическое удаление выбросов тоже может существенно улучшить конечный результат.

Способы обнаружения выбросов делятся на две группы в зависимости от того, на какие выбросы они реагируют:

1) Способы, позволяющие выявить одномерные выбросы, то есть выбросы, являющиеся аномальными значениями какого-либо одного признака. Пример одномерного выброса: среди точек на плоскости с координатами (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (100, 6) у последней точки подозрительно большая абсцисса.

2) Способы, позволяющие выявить многомерные выбросы, то есть выбросы, являющиеся аномальными объектами с точки зрения распределения данных. Пример многомерного выброса: среди точек на плоскости с координатами (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (1, 5) последняя точка лежит в стороне от прямой, на которой лежат все остальные точки, но при этом и её абсцисса, и её ордината не выбиваются из диапазона значений остальных точек.

К одномерным способам относятся:
* Стандартизированная оценка (Z-score) — из всех значений признака вычитается эмпирическое среднее этого признака, а полученные разности делятся на оценку стандартного отклонения признака; если получившееся отношение превышает 3, то объект считается выбросом. Порог 3 выбран, потому что в случае нормального распределения вероятность отклониться от среднего больше, чем на 3 стандартных отклонения, составляет 0,03% ([правило трёх сигм](https://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5#%D0%9F%D1%80%D0%B0%D0%B2%D0%B8%D0%BB%D0%BE_%D1%82%D1%80%D1%91%D1%85_%D1%81%D0%B8%D0%B3%D0%BC)). 
* Устойчивая стандартизированная оценка (robust Z-score) — то же самое, что и стандартизированная оценка, но теперь вычитается медиана, а не среднее, и разности делятся на средний модуль отклонения от медианы, а не на стандартное отклонение. Предпочтительнее в тех ситуациях, где выбросов достаточно много для того, чтобы они могли исказить среднее и стандартное отклонение так, что часть из них будет принята за обычные объекты.
* Метод межквартильного размаха (interquartile range method) — берётся расстояние между 0,75-й и 0,25-й квантилями (так называемый межквартильный размах), а затем выбросами объявляются все наблюдения, отстоящие от медианы более чем на 1,5 межквартильных размаха. Численные параметры приведены в соответствии с классическим вариантом, но, разумеется, их можно поменять (например, вместо двух квартилей взять две другие квантили).

К многомерным способам относятся:
* Способы, где для каждого объекта считается расстояние Махалонобиса от него до некоторого оценённого по данным распределения, принимаемого за генеральную совокупность, а потом некой одномерной процедурой выбросами объявляются сколько-то объектов с наибольшим расстоянием Махалонобиса. Рассмотрим такой подход подробнее. Для многомерного вектора $x$ и многомерного вероятностного распределения $\tau(\mu, S)$ с вектором средних $\mu$ и ковариационной матрицей $S$ "расстоянием" от $x$ до $\tau(\mu, S)$ можно положить величину:
$$D_M(x, \tau(\mu, S)) = \sqrt{(x - \mu)^T S^{-1} (x - \mu)},$$
которая и называется расстоянием Махалонобиса. Интуитивно говоря, расстояние Махалонобиса отличается от евклидова расстояния между $x$ и $\mu$ тем, что каждое направление учитывается с весом, обратно пропорциональным разбросу распределения по этому направлению. В задаче обнаружения выбросов $\tau(\mu, S))$ можно единожды оценить по всем имеющимся данным, если их много, или же для каждого $x$ оценивать по всем объектам кроме $x$, если данных мало.
* Способы, где для каждого объекта считается оценка плотности генеральной совокупности в нём, а затем некой одномерной процедурой выбросами объявляются сколько-то объектов с наиболее низкой оценкой плотности. Оценку плотности можно получить, в частности, методом ядреного сглаживания (kernel density estimate). Как и в предыдущем пункте, если данных мало, то оценку ядерного сглаживания для каждого объекта лучше считать по всем объектам кроме него, а если данных много, то оценку ядерного сглаживания можно подсчитать один раз на всех объектах. Отдельно стоит отметить, что оценки ядерного сглаживания подвержены "проклятью размерности" и работают только в случае, когда размерность данных низкая. Если же размерность высокая, то для применения ядерного сглаживания можно предварительно снизить её, использовав PCA, t-SNE или MDS на отмасштабированных данных, однако как проводить масштабирование — нетривиальный вопрос, вносящий долю субъективности. 

## Автокодировщики с большей размерностью скрытого слоя

Рассмотрим автокодировщик (autoencoder) со входным слоем размерности $l$, одним скрытым слоем размерности $h$ и выходным слоем, размерность которого по определению должна быть равна размерности входного слоя, то есть $l$. Вопрос: могут ли для чего-то пригодиться автокодировщики, где $h > l$?

Без дополнительных модификаций такие автокодировщики не смогут обучаться чему-то нетривиальному, потому что всегда есть вырожденное решение: использовать лишь $l$ нейронов из $h$, чтобы просто передать вход в неизменном виде.

Есть следующие способы заставить скрытый слой выучивать нетривиальное представление:
* К ошибке восстановления, на входном векторе $x$ равной $\Vert x - \mathrm{autoencoder}(x)\Vert_2$ добавить регуляризатор, подталкивающий к разреженности скрытого слоя: например, $L_1$-норму $h$-мерного вектора, получающегося из $x$ в скрытом слое;
* Ко входу подмешивать шум, но при вычислении ошибки восстановления требовать близости к незашумлённому входу, то есть минимизировать математическое ожидание функции, на входном векторе $x$ равной $\Vert x - \mathrm{autoencoder}(x + \varepsilon)\Vert_2$, где $\varepsilon$ — шум.

Полученный автокодировщик можно использовать в следующих целях:
* То, что получается в скрытом слое, можно брать в качестве признакового описания объекта; такие признаки могут содержать в себе более сложные взаимодействия, чем признаки, даваемые автокодировщиком с низким $h$; пригождается это в частичном обучении (semi-supervised learning), ведь объекты без меток тоже влияют на выучиваемый способ порождать признаки;
* До появлении пакетной нормализации и остаточного обучения была популярна "жадная" (послойная от входов к выходам) инициализация весов глубокой однонаправленной нейронной сети, при которой инициализируемый на данный момент слой дополнялся до автокодировщика и обучался задаче автокодировщика, где кодировалось то, что подавал на вход предыдущий слой, — стало быть, если в каком-то месте ширина нейронной сети возрастала, то требовалось обучать автокодировщик, у которого $h > l$.

## Обучение метрик (metric learning)

В машинном обучении есть задача, похожая на задачу классификации, но тем не менее отличная от неё. Пусть множество рассматриваемых объектов — множество пар, элементами которого являются пары $(x_i, x_i^\prime)$, где $x_i$ и $x_i^\prime$ принадлежат одному и тому же пространству, а целевая переменная $y_i$ равна 1, если $x_i$ и $x_i^\prime$ похожи друг на друга, и равна 0, если $x_i$ и $x_i^\prime$ не похожи друг на друга. Требуется выучить отображение $f$, такое что евклидово расстояние между $f(x_i)$ и $f(x_i^\prime)$ мало для похожих объектов и велико для непохожих объектов. Поскольку после решения задачи появляется возможность находить расстояние между объектами, а не только предсказывать, похожи ли они, данная задача отличается от задачи бинарной классификации с признаковым описанием удвоенной длины.

Обучение метрик может быть полезно для решения задачи многоклассовой классификации с высоким числом классов, таких что каждый класс представлен малым числом объектов обучающей выборки. Положим все объекты одного и того же класса похожими друг на друга, а объекты разных классов отличающимися. Предсказывать классы новых объектов можно, применяя метод ближайшего соседа в пространстве, получающемся после применения отображения $f$.

Для обучения метрик иногда используют функцию потерь, называемую contrastive loss:
$$l(x_i, x_i^\prime, f, y_i) = y_i\Vert f(x_i) - f(x_i^\prime)\Vert_2 + (1 - y_i)\max(1 - \Vert f(x_i) - f(x_i^\prime)\Vert_2, 0).$$
Эта функция потерь состоит из двух слагаемых. Первое отлично от нуля, когда взята пара похожих объектов, и это слагаемое побуждает минимизировать евклидово расстояние между тем, во что переходят похожие объекты. Второе слагаемое отлично от нуля, когда взята пара непохожих объектов, и это слагаемое побуждает отображать непохожие объекты так, чтобы расстояние между образами под действием $f$ было больше некоторого фиксированного порога.

Эмпирический риск для задачи обучения с contrastive loss, как и следовало ожидать, имеет вид:
$$E(f) = \frac{1}{n}\sum_{i = 1}^n  l(x_i, x_i^\prime, f, y_i) + \alpha R(f),$$
где через регуляризатор $R$ и силу регуляризации $\alpha$ можно наложить дополнительные ограничения.

Если считать, что отображение $f$ задаётся умножением слева на матрицу $M$ размера $k \times n$, то вышеуказанная функция потерь будет плоха тем, что задача её оптимизации по $M$ не является выпуклой из-за отрицательного знака перед вторым слагаемым. В таком случае берут немного другую функцию потерь, отталкивающуюся от того, что если обозначить матрицу $M^TM$ размера $n \times n$ за $S$, то $\Vert Mx_i - Mx_i^\prime\Vert_2 = (x_i - x_i^\prime)^T S (x_i - x_i^\prime)$:
$$l(x_i, x_i^\prime, S, y_i) = y_i(x_i - x_i^\prime)^T S (x_i - x_i^\prime) + (1 - y_i)\max(1 - (x_i - x_i^\prime)^T S (x_i - x_i^\prime), 0).$$
При минимизации эмпирического риска по матрице $S$ размера $n \times n$ стоит учитывать ограничение, что $S$ должна быть неотрицательно определённой, иначе её нельзя было бы представить в виде $S = M^TM$. Данное ограничение является выпуклым. Однако платой за превращение задачи оптимизации в выпуклую является то, что нельзя заранее задать размерность выходного пространства, ведь ограничения на ранг матрицы $S$ не являются выпуклыми.

## Искусственная целевая переменная

Бывают ситуации, когда достоверно целевая переменная неизвестна, но её можно восстановить оценочно. Например, в задаче обнаружения подозрительного трафика, приходящего на сайт, каких-то пользоваталей можно отнести к ботам или к живым людям на основании экспертного мнения.

Рассмотрим две ситуации:
* Специалисты по предметной области написали детерминированную программу, на базе свода правил и формул вычисляющую целевую переменную по входным признакам;
* Специалисты по предметной области не смогли составить список правил и формул, по которым можно вычислять целевую переменную, но внимательно изучили данные и разметили каждый пример вручную.

Вопрос: в каких из этих двух ситуаций стоит применять машинное обучение?

Ответ: только во второй. В первой ситуации построенная модель будет вести себя точно так же, как уже написанная программа, с точностью до ошибок, вызываемых нерепрезентативностью обучающей выборки, малым количеством данных и/или артефактами обучения. Иными словами, нет ничего, что позволило бы модели стать лучше, чем программа. А вот во второй ситуации модель, если хорошо обучится, станет автоматическим воплощением интуиции и знаний экспертов.

Однако если немного изменить условие первой ситуации, то и в ней машинное обучение может помочь. Например, пусть программа в своих вычислениях использует также некоторый дополнительный внешний признак, такой что измерять его дорого, и который поэтому не будет доступен на стадии ежедневного применения обученной модели. Тогда можно рассчитать целевую переменную по всем признакам включая новый трудноизмеримый, а потом обучить модель предсказывать полученную целевую переменную только по признакам, которые всегда будут доступны.

## Классификация с очень большим количеством классов

Пусть есть задача классификации, где различных меток много в сравнении с количеством объектов обучающей выборки (например, меток лишь в три раза меньше, чем объектов). В таком случае задача осложняется тем, что модель будет довольно редко угадывать правильную метку, и, значит, оптимизировать функции потерь, связанные с точными попаданиями, непрактично.

Предположим, что задача классификации с $n$ признаками и с $q$ классами, где $q$ большое в вышеописанном смысле, решается путем поиска матрицы $W$ размера $n \times q$, такой что близость объекта, признаковое описание которого задаётся вектором-столбцом $x$ длины $n$, к классу, закодированному вектором-столбцом $y$ длины $q$, где на позиции, номер которой равен номеру класса, стоит 1, а на остальных позициях стоят нули, вычисляется так:
$$\mathrm{sim}(x, y, W) = x^TWy.$$

Для обучения матрицы $W$ можно использовать функции потерь из следующего параметрического семейства, зависящего от параметров $\alpha_1$, ..., $\alpha_q$:
$$l(x_i, y_i, W) = \sum_{k = 1}^{\mathrm{rank}_W(y_i) - 1}\alpha_k,$$
где если верхний предел суммы равен 0, то сумма по пустому множеству индексов полагается равной нулю, а зависимость правой части от $x_i$ заложена в определении $\mathrm{rank}_W(y_i)$. Эта величина вычисляется как порядковый номер класса $y_i$ при ранжировании классов по невозрастанию $f(y) = \mathrm{sim}(x_i, y, W)$. В формулировке, учитывающей возможность совпадающих значений, это выглядит так:
$$\mathrm{rank}_W(y_i) = \#\!\left\{\left. y \in Q \: \right| \: x_i^TWy > x_i^TWy_i\right\} + 1,$$
где $Q$ — $q$-элементное множество классов, а решётка обозначает количество элементов в множестве.

Некоторые известные метрики оптимизируются функциями потерь из данного семейства:
* точность (accuracy) будет оптимизирована при $\alpha_1 = 1$ и $\alpha_k = 0$ для $k \in \{2, ..., q\}$;
* вероятность угадать с $m$ попыток будет оптимизирована при $\alpha_m$ = 1 и остальных $\alpha_k = 0$;
* средний ранг будет оптимизирован при всех $\alpha_k$, равных друг другу.

## Внутреннее устройство LSTM-нейрона

#### Что означает LSTM?

Аббревиатура LSTM расшифровывается как Long Short-Term Memory (краткосрочная память произвольной длины). Так называется архитектура нейронной сети, часто используемая при решении задач, где объекты образуют последовательность, причём влияние некоторого объекта может распространяться на целевые переменные объектов, стоящих впереди него на произвольном расстоянии.

#### Содержимое LSTM-нейрона

Отличием LSTM является то, что в ней вводится специальный нейрон со сложной внутренней структурой, называемый LSTM-нейроном или LSTM-модулем (LSTM cell, LSTM unit, LSTM neuron). Рассмотрим устройство такого нейрона.

Для каждого индекса $t$, которым нумеруются позиции последовательности, с LSTM-нейроном ассоциированы следующие сущности:
* входы и выходы:
    - вектор входов $x_t$, берущийся из последовательности и имеющий длину $d$,
    - вектор возвращаемых нейроном выходов $y_t$, имеющий длину $h$;
* внутреннее состояние:
    - вектор "памяти" $c_t$ той же длины $h$, что и вектор выходов;
* три вектора, называемых вентилями и имеющих ту же длину $h$, что и выход:
    - входной вентиль (input gate), $i_t$,
    - вентиль забвения (forget gate), $f_t$,
    - выходной вентиль (output gate), $o_t$;
* восемь матриц весов и четыре векторных свободных члена:
    - $W_i$, $W_f$, $W_o$, $W_c$, их размер $h \times d$,
    - $U_i$, $U_f$, $U_o$, $U_c$, их размер $h \times h$,
    - $b_i$, $b_f$, $b_o$, $b_c$, их длина $h$.
    
Когда нейронная сеть уже обучена, последние двенадцать сущностей не меняются от шага к шагу, и именно поэтому индекс $t$ у них отсутствует.

#### Динамика при движении по последовательности

Начальные условия в позиции $t = 0$, предшествующей началу последовательности, задаются так:
* $c_0 = 0$, $y_0 = 0$,
* веса матриц и свободных членов как-то инициализированы, если происходит обучение, или уже обучены и зафиксированы, если речь идёт о применении,
* чему равны вентили, неважно.

При заданной последовательности $x_t$ для любой позиции $t \ge 1$ можно рекуррентно определить значения всех сущностей, ассоциированных с LSTM-нейроном, по формулам:
$$i_t = \sigma(W_i x_t + U_i y_{t-1} + b_i),$$
$$f_t = \sigma(W_f x_t + U_f y_{t-1} + b_f),$$
$$o_t = \sigma(W_o x_t + U_o y_{t-1} + b_o),$$
$$c_t = f_t \circ c_{t-1} + i_t \circ \tanh (W_c x_t + U_c y_{t-1} + b_c),$$
$$y_t = o_t \circ \tanh (c_t),$$
где $\sigma$ — сигмоидная функция активации, а $\circ$ — операция взятия адамарова произведения (поэлементное умножение).

#### Интерпретация

Почему данная конструкция, после обучения являющаяся некоторой динамической системой в дискретном времени, осмысленна?

Можно считать, что LSTM-нейрон в зависимости от значений вентилей способен демонстрировать различные режимы поведения (ниже 0 и 1 обозначают векторы из одних 0 или 1 соответственно):
* при $f_t = 0$, $i_t = o_t = 1$ получается обычный рекуррентный нейрон (нейрон Элмана);
* при $o_t = 0$, $i_t = f_t = 1$ происходит накопление входной информации (например, нейрон может работать счётчиком), а на выход информация не отдаётся;
* при $i_t = o_t = 0$, $f_t = 1$ происходит хранение того, что в памяти, без изменений;
* при $i_t = 0$, $f_t = o_t = 1$ происходит извлечение наружу информации, накопившейся в памяти;
* при $i_t = f_t = 0$ происходит сбрасывание памяти.

Таким образом, LSTM-нейрон обладает способностями к гибкому управлению памятью и способен проводить над ней все операции, кажущиеся необходимыми. Если данных много и закономерности в них устойчивые, то нейронная сеть с такими нейронами сможет выучить их, даже в случае отсутствия ограничения максимальной дальности влияния входов на выходы.

#### Обучение

Обучение LSTM-нейрона производится методом, по-английски называемым Truncated Back-Propagation Through Time, где первое слово обозначает, что в вычислениях следующие частные производные полагаются равными нулю:
$$\frac{\partial i_t}{\partial y_{t-1}} = \frac{\partial f_t}{\partial y_{t-1}} = \frac{\partial o_t}{\partial y_{t-1}} = \frac{\partial c_t}{\partial y_{t-1}} = 0.$$

#### Модификации

Помимо классического LSTM-нейрона, описанного выше, существует версия, называемая LSTM с глазками (peepholes). Её отличие в том, что вентили могут обращаться к памяти нейрона (подглядывать в неё через глазки). Вводятся ещё три матрицы размера $h \times h$, обозначаемые как $V_i$, $V_f$ и $V_o$. В рекуррентных соотношениях, задающих динамику при движении по последовательности, последние два равенства остаются неизменными, а первые три принимают вид:
$$i_t = \sigma(W_i x_t + U_i y_{t-1} + V_i c_{t-1} + b_i),$$
$$f_t = \sigma(W_f x_t + U_f y_{t-1} + V_f c_{t-1} + b_f),$$
$$o_t = \sigma(W_o x_t + U_o y_{t-1} + V_o c_{t} + b_o).$$
В последнем из соотношений используется $c_t$, а не $c_{t-1}$, потому что на момент обновления значения выходного вентиля значение памяти на текущем шаге уже известно.

Есть и версия LSTM с глазками, где матриц $U_i$, $U_f$, $U_o$ и $U_c$ нет (т.е. можно считать, что они тождественно нулевые).

## На пути к word2vec

Помимо word2vec есть некоторые более простые способы отобразить слово в непрерывный вектор.

#### Вложение на базе разбивки по коллекциям слов

* Построим матрицу, где строкам соответствуют слова, столбцам — некоторые коллекции слов (например, документы или предложения), а на пересечении строки и столбца может стоять:
    - бинарный индикатор вхождения слова в коллекцию;
    - количество вхождений слова в коллекцию;
    - TF-IDF;
    - BM-25.
* Применим к получившейся матрице какую-либо процедуру снижения размерности, такую как:
    - метод главных компонент, PCA;
    - многомерное шкалирование, MDS;
    - вложение на базе случайного соседства, t-SNE.
* Примем за векторное представление некоторого слова соответствующую этому слову строку матрицы со сниженной размерностью.

#### Вложение через переходные вероятности

* Пронумеруем все слова.
* Возьмём матрицу размера $\vert V \vert \times \vert V \vert$, где $\vert V \vert$ — количество слов, на пересечении $i$-й строки и $j$-го столбца которой стоит вероятность того, что сразу же после $i$-го слова в тексте встретится $j$-е слово. Казалось бы, вложением $i$-го слова можно считать $i$-ю строку такой матрицы или $i$-й столбец такой матрицы, однако у столь простого подхода есть два недостатка:
    - Большое количество оцениваемых по данным параметров, а именно $\vert V \vert^2$ элементов матрицы переходных вероятностей;
    - Размерность вектора вложения такая же, как у вектора, получаемого через one-hot encoding;
    - Подобное представление не очень информативно, хотя и более информативно, чем представление, получаемое через one-hot encoding.
* Попробуем получить более разумное вложение за счёт большей компактности представления. Предположим, что для некоторого фиксированного $d < \vert V \vert$ откуда-то даны две матрицы $W_1$ и $W_2$ размеров $d \times \vert V \vert$ и $\vert V \vert \times d$ соответственно, такие что матрицу переходных вероятностей удалось приблизить матрицей $W_2 W_1$. Последнее предположение формализуется и уточняется так: $\forall i, i \in \{1, ..., \vert V \vert\}$, после применения операции softmax к $\vert V \vert \times 1$ вектору-столбцу $W_2 W_1 x_i$, где $x_i$ — вектор-столбец размера $\vert V \vert \times 1$, такой что его $i$-я компонента равна 1, а остальные равны 0 (т.е. $x_i$ — one-hot представление $i$-го слова), получается вектор, близкий к вектору переходных вероятностей из $i$-го слова. В таком случае вложением слова в векторное пространство можно считать что угодно из этого списка:
    - $i$-й столбец матрицы $W_1$;
    - $i$-ю строку матрицы $W_2$;
    - их полусумму (строго говоря, строку или столбец для этого нужно транспонировать);
    - их конкатенацию (опять же, строку или столбец необходимо транспонировать).
* Описанный в предыдущем пункте подход имеет следующие преимущества:
    - Всего $2 d \vert V \vert$ обучаемых параметров;
    - Размерность вектора вложения можно сделать маленькой;
    - Получаются более информативные векторные представления, поскольку теперь $\vert V \vert \times \vert V \vert$ матрица переходных вероятностей не может быть произвольной, а должна быть сводимой к виду $W_2 W_1$ с точностью до применения операции softmax к каждому столбцу указанного произведения двух матриц.

#### Связь word2vec с вложением через переходные вероятности

Нейронная сеть word2vec является способом найти описанные в предыдущем разделе матрицы $W_1$ и $W_2$, и в этом способе в связи с особенностями обучения нейронных сетей возникают различные специальные трюки наподобие отрицательного сэмплирования. Главное отличие в постановке задачи машинного обучения заключается в том, что в word2vec выходное слово уже не обязано идти сразу же после входного слова, а должно лишь попасть в контекст определённой ширины.  

Впрочем, иногда считают, что также в word2vec вводится зависимость структуры нейронной сети от выбранного размера контекстного окна. Обозначим размер контекстного окна за $C$. Тогда:
* в word2vec-CBoW вход имеет длину $C \vert V \vert$ и в скрытом слое усредняются $C$ произведений одной и той же матрицы $W_1$ со входными one-hot векторами, каждый из которых имеет длину $\vert V \vert$;
* в word2vec-SkipGram выход имеет длину $C \vert V \vert$ и для этих $C$ блоков, представляющих вероятности попадания слова в какую-либо из позиций контекста входного слова, происходит умножение одной и той же матрицы $W_2$ на вектор скрытого слоя (то, что во всех $C$ копиях будет одно и то же вероятностное распределение, нестрашно, ведь задача не в том, чтобы предсказать контекст, а в том, чтобы обучить вложение).

Так или иначе, есть и подход к word2vec, где вход и выход имеют длину $\vert V \vert$, то есть размеры слоёв не зависят от размера контекстного окна.

## Вероятностная интерпретация word2vec

Пусть есть выборка пар ($x_i$, $y_{i,c}$), где $i \in \{1, ..., L\}$, $c \in \{1, ..., C\}$, $C$ — как-то заданное количество слов в контексте, $x_i$ — one-hot encoded вектор слова, а $y_{i,c}$ — one-hot encoded вектор слова, встретившегося в контексте слова $x_i$ на позиции $c$.

Допустим, эта выборка порождена из распределения, такого что условные вероятности выхода при условии входа имеют вид $$\mathbb{P}(y_{i,c} \vert x_i) = \frac{\exp(I(x_i)^TO(y_{i,c}))}{\sum_{v \in V}\exp(I(x_i)^TO(v))},$$
где $V$ — множество всех слов, а $I$ и $O$ — некоторые отображения из $\vert V \vert$-мерного в $d$-мерное пространство. Сделаем два наблюдения, касающихся выписанной формулы. Во-первых, в правой части применяется операция softmax. Во-вторых, поскольку все векторы $x_i$ и $y_{i,c}$ таковы, что в них на одной позиции стоит 1, а на всех остальных стоят 0, без ограничения общности можно считать, что $I$ и $O$ задаются умножением на матрицы размера $d \times \vert V \vert$.

Попытаемся найти эти матрицы, решив задачу максимизации правдоподобия имеющейся выборки:
$$\Pi_{i = 1}^L\Pi_{c = 1}^C \mathbb{P}(y_{i,c} \vert x_i) \rightarrow \max_{I, O}.$$

Оказывается, word2vec именно эту задачу и решает. Убедимся в этом.

Неоптимизированная (слишком долго обучающаяся) word2vec принимает на вход one-hot encoded вектор слова, умножает его слева на $d \times \vert V \vert$ матрицу $W_1$ (по сути, это операция взятия соответствующего слову столбца матрицы $W_1$) и делает результат вектором значений скрытого слоя, а этот вектор значений скрытого слоя умножает слева на $\vert V \vert \times d$ матрицу $W_2$, чтобы получить вектор размера $\vert V \vert \times 1$, после применения операции softmax к которому получаются вероятности попадания слов в контекст входного слова. Раз так, то отображением $I$, выучиваемым word2vec, является умножение слева на матрицу $W_1$, а отображением $O$ — умножение слева на транспонированную матрицу $W_2$. Выкладкой проверяется, что задача обучения неоптимизиованной word2vec с кросс-энтропией в качестве функции потерь совпадает с задачей максимизации выписанного правдоподобия.

Небольшой вопрос: почему для слова с идентификатором $j$ выучивается целых два вложения, а именно $j$-й столбец матрицы $W_1$ и $j$-я строка матрицы $W_2$? Дело в том, что положить соответствующие пары весов по определению равными друг другу, чтобы при обучении они учитывались как одна переменная, нельзя, ведь тогда word2vec станет похожей на автокодировщик, и, как следствие, будет завышать вероятность того, что в контексте какого-либо слова встретится оно же само. Это видно и из вероятностной модели — скалярное произведение $I(x_i)^TO(y_{i,c})$ тем больше, чем более коллинеарны множители, а при $I \equiv O$ это создаёт смещение в пользу $x_i$.

Однако обнаруживается, что вышеописанная архитектура word2vec обучается чрезвычайно медленно, так как:
* для вложения $\vert V \vert$ слов в $d$-мерное пространство требуется на каждом шаге обновлять $2 \vert V \vert d$ весов;
* на каждом объекте вычисляется softmax от вектора длины $\vert V \vert$.

Есть два способа ускорить обучение word2vec:
* Noise Contrastive Estimation. В нём применяется отрицательное сэмплирование. Сделать его можно двумя способами:
    - задача $\vert V \vert$-классовой классификации заменяется на задачу бинарной классификации, где от нейронной сети требуется по паре слов сказать, встретились ли они в одном контекстном окне или нет, а для каждого примера положительного класса, взятого из реальных текстов, при том же входном слове сэмплируется несколько выходных слов отрицательного класса, причём сэмплирование производится из эмпирического распределения слов, возведённого в степень 0,75, чтобы редкие слова выбирались чаще.
    - рассматривается задача $\vert V \vert$-классовой классификации, но при обучении считаются константами все веса от входов к скрытому слою кроме весов, исходящих от текущего входного слова, и все веса от скрытого слоя к выходному слою кроме весов, ведущих к текущему выходному слову, и весов, ведущих к скольки-то другим словам отрицательно просэмплированным по процедуре, описанной в предыдущем пункте.
* Hierarchical Softmax. В нём отображение $O$ берётся таким, что областью его определения являются не one-hot encoded векторы слов, а узлы дерева Хаффмана, листьями которого являются слова. В вероятностную модель при этом вносятся соответствующие правки:
$$\mathbb{P}(y_{i,c} \vert x_i) = \Pi_{l \in \mathrm{Path}(y_{i,c})} \sigma\!\left(-\mathrm{Child}(l, y_{i,c}) I(x_i)^TO(l)\right),$$
где $\mathrm{Path}(y_{i,c})$ — путь от корня дерева Хаффмана до листа, соответствующего слову $y_{i,c}$, $\sigma$ — сигмоидная функуция, а $\mathrm{Child}(l, y_{i,c})$ равна 1, если в узле $l$ путь до вершины $y_{i,c}$ поворачивает направо, и -1 иначе.

## Метод подбора темпа обучения нейронной сети Adam

В классическом варианте градиентного спуска темп обучения один и тот же для всех настраиваемых весов. Исторически одним из первых методов, где это стало не так, был AdaGrad, главный недостаток которого оказался исправлен в методе под названием RMSProp. А метод, в полном виде называющийся Adaptive Moment Estimation и обычно сокращённо называемый Adam, считается дальнейшим развитием адаптивного управления темпом обучения.

Метод Adam имеет четыре гиперпараметра: $\eta$, $\beta_1$, $\beta_2$ и $\varepsilon$. Гиперпараметр $\eta$ задаёт относительную скорость обучения (все адаптивно подобранные темпы обучения содержат его как множитель). Гиперпараметр $\beta_1$ отвечает за сглаживание/угасание накопленного среднего градиентов, а гиперпараметр $\beta_2$ — за сглаживание/угасание накопленного второго момента градиентов, то есть накопленного среднего их квадратов. Наконец, $\varepsilon$ служит для численной стабильности.

Положим, что по аналогии с методом RMSProp формула обновления некого параметра $\theta$ (то есть одного из весов какого-либо слоя нейронной сети) на $t$-м шаге обучения имеет вид:
$$\theta_{t+1} := \theta_t - \frac{\eta}{\sqrt{v_t} + \varepsilon}m_t,$$
где $\theta_t$ — текущее значение параметра $\theta$, $\theta_{t+1}$ — его обновлённое значение, а $m_t$ и $v_t$ — текущие значения присущих алгоритму оптимизации внутренних параметров.

Эти два параметра алгоритма оптимизации $m_t$ и $v_t$ обновляются на каждом шаге по следующим правилам простого экспоненциального сглаживания:
$$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_{\theta},$$
$$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g^2_{\theta},$$
где $g_{\theta}$ — градиент для параметра нейронной сети $\theta$ на $t$-м шаге обучения. Что касается формулы для $m_t$, экспоненциальное сглаживание в ней можно сравнить с инерцией, но только это уже инерция темпа обучения, а не инерция обновлений весов, часто используемая при обучении нейронных сетей. Что же касается формулы для $v_t$, в ней экспоненциальное сглаживание нужно не для повышения устойчивости, а для того чтобы накопленная сумма квадратов градиентов со временем могла и падать, а не только расти (главный недостаток AdaGrad как раз к тому и сводится, что там она никогда не падает).

Начальными условиями, с которых начинается эволюция во времени параметров алгоритма оптимизации $m_t$ и $v_t$, являются равенства их обоих нулю:
$$m_0 = 0,$$
$$v_0 = 0.$$
Раз так, то значения $m_t$ и $v_t$ при малых $t$ будут смещены в сторону нуля. Чтобы исправить это, вводят следующие скорректированные параметры:
$$\hat{m_t} = \frac{m_t}{1 - \beta_1^t},$$
$$\hat{v_t} = \frac{v_t}{1 - \beta_2^t}.$$

С учётом всего вышесказанного можно выписать окончательную формулу обновления весов методом Adam:
$$\theta_{t+1} := \theta_t - \frac{\eta}{\sqrt{\hat{v_t}} + \varepsilon}\hat{m_t}.$$

Напоследок же стоит заметить, что все методы наподобие AdaGrad, RMSProp или Adam предназначены для ускорения обучения, а не для увеличения качества обученной нейронной сети. В статье [Wilson et al, 2017](https://arxiv.org/abs/1705.08292) показывается, что иногда нейронные сети, обученные ими, проигрывают нейронным сетям, обученным классическим градиентным спуском или стохастическим градиентным спуском. Таким образом, если данных мало, то стоит попробовать не только Adam, но и обычный градиентный спуск.

## Декомпозиция построения и обучения нейронной сети

В построении и обучении нейронных сетей есть три ключевых составляющих:

* __Модель__, то есть архитектура и структура нейронной сети:
    - Сколько слоёв?
    - Какой ширины каждый из слоёв?
    - Какие нейроны (юниты) используются?
        - обычные,
        - LSTM-модули,
        - etc;
    - Какие связи между слоями?
        - полные,
        - локальные (то есть каждый нейрон связан лишь с некоторой областью предыдущего слоя),
        - свёрточные (похожи на локальные, но веса в фильтре одинаковые для всего слоя),
        - рекуррентные,
        - etc;
    - Какие функции активации используются в каждом из слоёв?
        - нет активации,
        - сигмоида,
        - гиперболический тангенс,
        - ReLU и его модификации, такие как Leaky ReLU,
        - etc.

* __Функция потерь__ (должна быть дифференцируемой почти везде):
    - Для регрессии:
        - MSE,
        - MAE,
        - etc.
    - Для классификации:
        - кросс-энтропия,
        - дивергенция Кульбака-Лейблера между распределением, сконцентрированным в классе объекта, и предсказанными вероятностями классов,
        - etc.
    - Для других задач:
        - GAN loss,
        - etc.

* __Оптимизатор__, то есть способ по данным настроить все параметры сети:
    - На базе градиентного спуска с таким приёмом, как обратное распространение ошибок (этот приём сильно ускоряет вычисление градиента):
        - Когда обновлять веса?
            - После подсчёта коррекций на всех объектах обучающей выборки (классический градиентный спуск),
            - После подсчёта коррекций на всём пакете из случайно выбранных объектов обучающей выборки (пакетный градиентный спуск),
            - После подсчёта коррекций на каждом отдельно взятом объекте (стохастический градиентный спуск).
        - Какой темп обучения (learning rate) выбрать?
            - Постоянный,
            - С расписанием, то есть в виде заранее заданной невозрастающей функции от числа шагов,
            - Адаптивный:
                - AdaGrad,
                - RMSProp,
                - Adam.
        - Какую инерцию (momentum) обновлений весов выбрать?
            - никакую,
            - обычную,
            - инерцию Нестерова.
        - Как инициализировать веса каждого из слоёв перед началом обучения?
            - Случайно породить $I \times O$ весов, где $I$ — размер входа слоя, а $O$ — размер выхода слоя:
                - Из гауссовского распределения с нулевым средним и дисперсией:
                    - 0.01 (или ещё меньше, если всё равно обучение не идёт),
                    - $2 / (I + O)$ (Glorot Normal Initialization),
                    - $1/I$ (часто используется для функции активации $\tanh$),
                    - $2/I$ (He Normal Initialization, часто используется для функции активации ReLU);
                - Из равномерного распределения на отрезке $[-a, a]$, где $a$ равно:
                    - $\sqrt{6 / (I + O)}$ (Glorot Uniform Initialization),
                    - $\sqrt{3 / I}$ (LeCun Uniform Initialization).
            - Жадно послойно предобучить с дополнением до автокодировщика.
        - Какие техники регуляризации использовать?
            - $L_1$-регуляризация (приводит к отбору весов),
            - $L_2$-регуляризация (приводит к затуханию весов),
            - дропаут,
            - подмешивание шума.
    - На базе генетических алгоритмов (не мэйнстрим в обучении нейронных сетей).