# Глубокие нейронные сети как модели обучения представлений

> **Качество работы моделей классического машинного обучения напрямую зависит от того, как мы представим данные на входе модели.**

Мы можем увидеть эффект от удачных представлений, рассмотрев иллюстрацию ниже. В этом классическом примере мы хотим обучить модель машинного обучения, скажем, логистическую регрессию, для поиска прямой линии, разделяющей голубые и оранжевые точки, описываемые признаками $x_1$ и $x_2$.


Модель, которая способна строить лишь линейные разделяющие поверхности, не справится с этой задачей, потому что невозможно разделить два класса с помощью прямой, используя данные, *представленные в таком виде*.

Если мы *изменим представление данных* для этой модели и будем подавать ей на вход квадраты центрированных исходных признаков, то мы увидим, что ландшафт данных станет совершенно иным и линейная модель сможет разделить объекты по классам.

**Действительно, представления имеют значение.**

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L12/out/two_circles_representation.png" width="700"></center>


Если мы захотим классифицировать эмоциональную окраску текстов с помощью [наивного байесовского классификатора 📚[wiki]](https://ru.wikipedia.org/wiki/Наивный_байесовский_классификатор), нам нужно найти способ **представить** тексты на входе модели. Мы можем воспользоваться представлением текстов в виде "мешка слов" ([bag-of-words 📚[wiki]](https://en.wikipedia.org/wiki/Bag-of-words_model)) и получить приемлемое качество решения этой задачи.

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L12/out/bag_of_words_representation.png" width="900"></center>

<center><em>В представлении текстов в виде "мешка слов" сначала составляется словарь уникальных слов во всем корпусе текстов, а в представлении каждого текста содержится количество появлений того или иного слова из словаря в этом тексте</em></center>

Хотя представление в виде мешка слов и позволяет классифицировать тексты по тематикам или по эмоциональному окрасу, но есть недостаток — оно не учитывает порядок слов и контекстные связи между словами в тексте. Это ограничивает нас в точности решения задач, а такие задачи, как генерация ответов на вопросы или машинный перевод, не смогут решаться на таких ограниченных представлениях.

Поэтому для решения более сложных задач мы можем воспользоваться более информативным представлением текста, например, получаемым из языковой модели типа BERT (Bidirectional Encoder **Representations** from Transformers).

Большие языковые модели, такие как BERT, обучаются создавать контекстные представления слов, **не используя разметку** под конкретную задачу, а обрабатывая сырые, неструктурированные тексты. Одна из задач, на которую обучается BERT, — предсказание маскированного слова по окружающему контексту — вовсе не требует ручной разметки.

<img src ="https://ml.gan4x4.ru/msu/dev-2.2/L12/out/bert_masked.png" width="1000">

В результате обучения BERT оказывается способен создавать богатые, семантически значимые представления, которые отражают разные значения слов в зависимости от контекста.

Наиболее полезным свойством таких моделей является то, что после обучения на большом объеме неструктурированного текста мы можем дообучать модель под различные задачи, не имея под рукой большого количества размеченных данных, и получим ощутимый прирост в качестве по сравнению с обучением "с нуля".

Это особенно важно, поскольку разметка данных — это одно из узких мест в процессе обучения глубоких нейронных сетей.

Глубокие нейронные сети обладают способностью выучивать подходящие представления для решения различных задач, комбинируя примитивные представления для создания более сложных и выразительных структур.

<center><img src="https://ml.gan4x4.ru/msu/dev-2.2/L12/out/neural_network_layers_representations.png" width="500"></center>

<center><em> Модель компьютерного зрения на разных слоях создает все более сложные представления: от примитивных на начальных слоях до более сложных на последних слоях</em></center>

С этой точки зрения **глубокие нейронные сети являются моделями обучения представлений**.

Глубокие нейронные сети типично состоят из двух частей:

*  **Энкодера** — экстрактора высокоуровных признаков.  Энкодер проецирует входные данные в новое пространство представлений.
*  **Финального блока** — который использует высокоуровневые представления, полученные от энкодера, для выполнения конкретной задачи, например классификации.


Одним из примеров применения моделей глубоких нейронных сетей как моделей обучения представлений является Transfer learning. Мы используем **обученные представления** на выходе предобученного на большом объеме данных экстрактора признаков, рассчитывая на то, что они будут "хорошим" образом представлять наши данные. Используя эти представления как отправную точку, мы можем обучить достаточно простую модель в 1–2 слоя на небольшом количестве размеченных данных и получить лучшее качество, чем если бы мы обучали простую модель на исходных данных.

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L12/out/transfer_learning_change_classes_scheme.png" width="700"></center>

Однако одним из ограничений Transfer learning является то, что данные для предобучения могут сильно отличаться от данных для дообучения, и тогда надежда на удачность предобученных представлений теряется. **Хотелось бы иметь возможность обучать хорошие представления сразу под те данные, которые у нас есть**.

В отличие от классического обучения под конкретную задачу, обучение представлений в более широком понимании ставит перед собой немного иную **цель — переводить исходные представления в другие, обучаемые представления**, вместо того, чтобы переводить исходные представления в целевые переменные, как это делают модели классификации или регрессии. Обычно задаются также целью делать эти **обучаемые представления достаточно компактными** и способными обобщаться на данные из схожих доменов.

Мы бы хотели, чтобы обучаемые представления могли хорошо переноситься на другие задачи и помогали в тех случаях, когда трудно или даже невозможно получить разметку данных.

## Понижение размерности и гипотеза о многообразии

Понижение размерности — задача, близкая к Representation learning.

Однако может возникнуть вопрос: почему вообще возможно переводить данные в более компактные представления (а это, по сути, и есть понижение размерности), которые все же будут качественно описывать исходные данные?

Многое в глубоком обучении опирается на гипотезу о многообразии ([manifold hypothesis 📚[wiki]](https://en.wikipedia.org/wiki/Manifold_hypothesis)). Это предположение о том, что реальные данные не распределены равномерно по пространству признаков, а занимают лишь его малую часть — **многообразие** (manifold).

Если предположение верно, то каждый объект может быть достаточно точно описан новыми признаками в пространстве значительно меньшей размерности, чем исходное пространство признаков.

<center><img src="https://ml.gan4x4.ru/msu/dev-2.2/L12/out/manifold_assumption.png" width="600"></center>



В большинстве случаев это действительно так. Например, лица людей на фотографиях 300×300, очевидно, лежат в пространстве меньшей размерности, чем 90&nbsp;000. Ведь не каждая матрица 300×300, заполненная какими-то значениями от 0 до 1, даст нам изображение человека.

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L12/out/faces_in_space_of_smaller_dimension.png" width="600"></center>


[[blog] ✏️ A Few Words on Representation Learning](https://sthalles.github.io/a-few-words-on-representation-learning/)