# Введение в искусственный интеллект - SBER

# Машинное обучение

Классические задачи обучения **с учителем** (классификация и регрессия) и **без учителя** (кластеризация, понижение размерности, ассоциации и рекомендательные письма). 

Задачи классификации и регрессии концептуально похожи: в них нужно научиться предсказывать целевую переменную по признакам, только вид целевой переменной отличается, а значит и методы, решающие две задачи, немного разные, хотя и следуют общим идеям.

## **Классификация**

Целевая переменная - класс

**Задача классификации** состоит в том, чтобы 

> разработать алгоритм, который по признакам объекта будет предсказывать класс

например, для клиента предсказывать его уход.

Машинное обучение предлагает альтернативное решение на основе обработки данных: по большому количеству примеров клиентов и информации, ушли они или нет, будет автоматически составлен алгоритм предсказания класса «уйдет» или «не уйдет» для нового клиента. То есть получается, что на основе данных программа создает другую программу: первая называется **алгоритмом обучения**, вторая — **алгоритмом предсказания**. Благодаря тому, что алгоритм обучения «видел» много примеров из реальной жизни, он будет способен делать качественные предсказания для новых клиентов.

## **Регрессия**

Целевая переменная - число

**Задача регрессии** состоит в том, чтобы 

> на основании различных признаков предсказать вещественный ответ, т.е. для каждого объекта нужно предсказать **число**.

### Линейные модели

Самый известный метод регрессии. 

Линейные модели легко интерпретируемы: человеку легко понять, почему для объекта выполнено именно такое предсказание. Линейные модели, как правило, решают задачу с приемлемым уровнем качества, однако уступают более мощным алгоритмам, ансамблям решающих деревьев и нейронным сетям, которые мы обсудим во второй половине курса. С другой стороны, качество линейных моделей можно значительно повысить, придумав новые признаки, вычисляемые на основе исходных признаков (например, добавив квадраты признаков), — при этом свойство интерпретируемости сохраняется. Благодаря своей интерпретируемости линейные модели очень популярны в бизнес-задачах, например в кредитном скоринге.

Линейные модели подразумевают, что предсказание вычисляется как сумма значений признаков объекта, умноженных на веса. Веса настраиваются по данным в процессе обучения и определяют важность признаков. Популярность линейных моделей обосновывается тем, что их предсказания легко интерпретировать, однако линейные модели не являются рекордсменами по точности предсказаний.

### Инструменты для решения задачи регрессии

Алгоритм — это просто последовательность действий, и чтобы использовать их для обучения по конкретному набору данных, алгоритмы нужно запрограммировать. Разумеется, программировать алгоритм каждый раз заново не нужно, а нужно воспользоваться существующими инструментами, в которых методы запрограммированы качественно и эффективно. Для задач классификации и регрессии чаще всего используют язык программирования Python и его библиотеку Sklearn, в ней реализовано большинство упомянутых выше алгоритмов. Для построения линейных моделей также часто используют утилиту Vowpal Wabbit.

### Переобучение

Может случиться, что алгоритм делает хорошие предсказания только для обучающих данных. Иными словами, алгоритм запомнил, зазубрил классы/числа для обучающих объектов, но не нашел никаких зависимостей между признаками и целевой переменной (классом/числом). Такой алгоритм будет плохо работать на шаге внедрения и называется переобученным.

Чтобы контролировать возникновение переобучения, на практике всегда выделяют два набора данных: обучающие и тестовые. Первый набор используется для обучения алгоритма, а второй — для контроля ошибки обученного алгоритма на новых данных, тех, которые не входили в обучение.

## **Метрики классификации и регрессии**

Пропускаю, мутотень

## **Кластеризация**

Деление объектов на группы похожих объектов, эти группы называют кластерами.

Для чего выполняют кластеризацию? В первую очередь для того, чтобы лучше понимать аудиторию, иметь структурированное представление о клиентских сегментах и таргетировать бизнес для отдельных групп клиентов. Например, в процессе кластеризации можно открыть новые группы клиентов, достаточно большие для того, чтобы разрабатывать для них отдельные продукты, но достаточно маленькие для того, чтобы раньше они были незаметны на фоне основной массы клиентов. Кластеризация может применяться для выделения типичных групп клиентов и разделения рынка для создания персонализированных предложений. Также кластеризацию используют для обнаружения особенных клиентов — тех, которые не похожи на других клиентов и не вошли ни в какой кластер.

### Алгоритмы кластеризации

#### k-Means
Самый известный и часто используемый метод кластеризации называется k-Means (метод k средних). Число k в названии говорит о том, что алгоритм находит k кластеров по данным. Схема работы алгоритма довольно проста. Каждый кластер (группа клиентов, которую мы хотим выделить) задается центром — неким типичным клиентом этой группы.

Описанный алгоритм k-Means очень хорошо работает на несложных данных, например на данных, изображенных ниже. Если же данные сложнее, например требуется выделить кластеры с несколькими «центрами», то этот метод может не очень хорошо справиться с задачей. Кроме того, метод не очень хорошо работает, если число кластеров задано неправильно: тогда он будет разбивать кластеры на более мелкие или объединять несколько кластеров в один. Опишем последовательность работы:

1. В начале работы алгоритма мы назначаем эти центры случайно, например, выбираем произвольных клиентов в качестве центров.
2. Затем мы выполняем кластеризацию: каждого клиента из данных записываем в тот кластер, на центр которого он больше всего похож. Получается k групп (кластеров) клиентов.
3. Теперь, когда клиенты распределены по кластерам, мы находим новые центры кластеров: в каждой группе находим самого репрезентативного клиента.
4. И далее все повторяется снова: заново распределяем клиентов по кластерам, используя новые центры, заново ищем центры и т.д.

k-Means очень хорошо работает на несложных данных. Если же данные сложнее, например требуется выделить кластеры с несколькими «центрами», то этот метод может не очень хорошо справиться с задачей. Кроме того, метод не очень хорошо работает, если число кластеров задано неправильно: тогда он будет разбивать кластеры на более мелкие или объединять несколько кластеров в один.

#### DBSCAN
Другой известный метод — DBSCAN (Density-Based Spatial Clustering of Applications with Noise) — требует задания минимального числа объектов в кластере и минимальной схожести объектов в кластере и затем сам определяет число кластеров. Интересной особенностью DBSCAN является то, что некоторые объекты он называет шумовыми и не относит их ни к одному кластеру. Пример данных, для которых хорошо работает DBSCAN (шумовые точки отмечены черным) и плохо работает k-Means.

#### Иерархическая кластеризация
Еще один метод кластеризации, иерархическая кластеризация (Agglomerative clustering), находит вложенные кластеры: например, в кластере «клиенты-студенты» могут быть выделены подкластеры «работающие студенты», «студенты с большими тратами в индустрии развлечений» и «иногородние студенты.

### Инструменты для выполнения кластеризации
Для выполнения кластеризации по конкретным данным чаще всего используется язык программирования Python и библиотека Scikit-learn — в ней реализовано множество различных алгоритмов кластеризаций, в частности все, описанные выше.

### Измерение качества кластеризации

В задачах обучения с учителем, например, классификации или регрессии, можно измерить ошибку — насколько неточно алгоритм предсказывает целевые переменные. В задаче кластеризации целевые переменные не даны, и измерить качество гораздо сложнее — общепринятых метрик качества кластеризации не существует. Иногда рассматривают метрики наподобие внутрикластерого расстояния (насколько в среднем различны объекты внутри кластеров) или межкластерного расстояния (насколько в среднем различны объекты между кластерами), но они не всегда информативны и не отражают бизнес-цели. Зато кластеризацию всегда можно показать специалисту, он проанализирует выделенные группы клиентов и скажет, полезна ли построенная кластеризация для бизнеса.

## **Понижение размерности**

Задача понижения размерности состоит в том, чтобы 

> имея данные с большим количеством признаков (столбцов), преобразовать их в новую таблицу с меньшим количеством столбцов. Количество строк (объектов) при этом останется неизменным.

Название «понижение размерности» означает уменьшение количества признаков, описывающих каждый объект. Как мы видим, после применения понижения размерности данные имеют такой же вид, как до применения алгоритма, а значит, к ним можно применять все изученные ранее алгоритмы. Так для чего же нужно понижение размерности?

**Сжатие данных**
Большая таблица данных может занимать много места на жестком диске, и уменьшив количество признаков в N раз, мы уменьшим размер файла с данными в те же самые N раз. 

**Ускорение предсказаний**
Если алгоритму предсказания (например, алгоритму предсказания ухода клиента или алгоритму кластеризации) нужно обработать тысячи признаков, это будет занимать гораздо больше времени, чем если он будет обрабатывать десятки признаков. При этом во многих задачах, особенно связанных с онлайн-сервисами, существуют ограничения на время выполнения предсказаний, например поисковой запрос должен выполняться за доли секунды.

**Визуализация данных**
Если алгоритм понижения размерности составит новую таблицу с двумя столбцами, такие данные будет легко визуализировать, отложив по осям два новых признака.

**Более компактное и «правильное» описание объектов**
Новые признаки могут описывать объекты более емко, чем исходные, что упростит работу другим алгоритмам. Более того, среди исходных признаков могут быть такие, которые ухудшают предсказания, и при понижении размерности эти признаки будут удалены.

### Алгоритмы понижения размерности

Обычно выделяют два типа алгоритмов понижения размерности: алгоритмы отбора признаков и алгоритмы выделения новых признаков на основе исходных. Первые просто удаляют столбцы из таблицы, а вторые вычисляют новые столбцы по формулам, включающим все исходные столбцы. 

#### Отбор признаков

Казалось бы, здесь все просто: нужно удалить часть столбцов из таблицы, чтобы она занимала меньше места, а предсказания выполнялись быстрее. Но как определить, какие признаки удалять? Для примера будем рассматривать задачу предсказания спроса на товар в интернет-магазине: объект — товар; нужно предсказать, какое количество товара купят в течение следующего месяца, чтобы спланировать закупки, это задача регрессии. Мы рассматриваем задачу регрессии неспроста: методы отбора признаков, как правило, применяют именно в задачах классификации и регрессии, то есть в задачах обучения с учителем.

Концептуально мы хотим удалять такие признаки, которые никак не помогают нам правильно выполнить предсказание. Например, очевидно, что если у каждого товара есть уникальный артикул, не повторяющийся между товарами и имеющий вид случайного набора цифр, например 8433498 или 89923900, то никакой информации о спросе на товар данный артикул не несет и соответствующий столбец можно легко удалить из данных. Но с другими признаками все может быть не так просто.

**Метод фильтрации признаков**

Самые простые методы отбора признаков подразумевают анализ каждого признака отдельно и называются методами фильтрации признаков. Например, если у нас есть признаки «стоимость товара» и «вес товара», то мы можем построить графики стоимость-спрос и вес-спрос и по ним постараться увидеть, зависит ли спрос от какой-либо величины.

В методах фильтрации используются не только визуальные, но и числовые методы, количественно оценивающие влияние признака на целевую переменную. Также отметим, что фильтры не используют никаких алгоритмов предсказания и работают только и непосредственно с данными.

**Оберточные методы отбора признаков**

Другая группа отбора признаков называется оберточные методы (wrapper methods). Эти методы — более сложный отбор признаков, включающий обучение алгоритмов и измерение их качества на тестовой выборке. Например, чтобы оценить, важен ли признак «вес товара», оберточный метод сначала обучит алгоритм на данных, включающих этот признак, затем на данных без этого признака (столбец «вес товара» удален) и сравнит, ухудшилось ли качество: если спрос на товары стал предсказываться менее точно, значит, признак «вес товара» важный, иначе он удаляется. Чтобы выполнить отбор признаков, оберточный метод может, например, начать с полной таблицы данных и по очереди удалять наименее важные признаки, то есть те, удаление которых меньше всего снижает точность предсказаний. Или наоборот: начать с пустой таблицы и по очереди добавлять в нее важные признаки.

**Встроенные методы отбора**

Наконец, третья группа методов для отбора признаков называется встроенные методы (embedded methods). Это методы, подразумевающие, что алгоритм обучения сам может определить, какие признаки важные, а какие нет. Вспомним, что в блоке 4, посвященном задаче регрессии, мы обсуждали линейные модели: те, которые умножают значения признаков на веса и складывают. Если у какого-то признака после обучения получится вес, равный нулю, это значит, что признак не влияет на предсказание и его можно удалить — это и есть пример встроенного метода. А точнее, встроенным методом является регуляризация — специальный механизм, который помогает настроить в линейных моделях такие веса, что среди них будет много нулевых. Многие алгоритмы классификации и регрессии включают встроенные методы отбора признаков.

**Преимущества отбора признаков**  

Итак, методы отбора признаков помогают определить, какие признаки можно удалить из данных, чтобы уменьшить размер данных и ускорить выполнение предсказаний. Для определения нерелевантных признаков можно анализировать признаки по отдельности (методы фильтрации), можно обучать алгоритмы с разными наборами признаков и оценивать важности признаков по изменению точности предсказаний (оберточные методы), а можно воспользоваться встроенными механизмами алгоритмов обучения. Помимо указанных преимуществ, отбор признаков повышает интерпретируемость алгоритмов: гораздо проще проанализировать алгоритм с десятком признаков, чем с тысячей. С другой стороны, неосторожный отбор признаков может привести к снижению уровня качества (точности предсказаний). Подробнее прочитать о различных методах отбора признаков можно по [ссылке](https://habr.com/ru/company/jetinfosystems/blog/470622/).

#### Выделение признаков

Методы выделения новых признаков создают новые столбцы, которые вычисляются по формулам, зависящим от имеющихся в данных столбцов. Иными словами, мы получаем новые столбцы, в которых стоят какие-то числа. Что эти числа означают — как правило, известно только алгоритму, который их сделал, для человека это будет просто набор неинтерпретируемых чисел, при этом новые признаки могут содержать гораздо больше информации об объектах, чем любой набор исходных признаков того же количества. 

**Пример использования**  
> Пусть у нас есть таблица клиентов банка с признаками: число кредитов, заработная плата, суммы на счетах и вкладах, статистика пользования банковскими продуктами и т.д. Например, система выделения новых признаков выделила два признака: первый признак задает уровень склонности клиента к риску (0 — склонный к риску, 1 — предпочитает стабильность), а второй признак задает уровень состояния клиента (0 — бедный, 1— богатый). Ни одна пара признаков из исходных данных не отражает эту информацию полностью, например первый новый признак агрегирует информацию о кредитах, использовании брокерских продуктов и т.д., а второй — о заработной плате, суммах на вкладах и т.д. При этом новые признаки позволяют легко кластеризовать клиентов на четыре группы и упростить рекомендации продуктов для них, например богатым клиентам, предпочитающим стабильность, можно предлагать вложения в драгоценные металлы, а богатым, склонным к риску, — вложения в акции. 

Методы выделения признаков используются в широком спектре задач, причем как в задачах обучения с учителем, так и в задачах обучения без учителя. Проблема только в том, что методы выделения признаков не позволяют интерпретировать признаки, но попытаться выяснить их значения, например, по итогам кластеризации, вполне возможно. Более того, новые признаки могут быть полезны сами по себе, без интерпретации. Например, они активно используются в поисковых системах: у двух похожих объектов будут похожие значения новых выделенных признаков, и для поиска в базе документов по запросу нужно найти новые признаки и выделить документы с наиболее похожими значениями новых признаков. 



**Метод главных компонент**

Один из наиболее популярных методов выделения признаков называется метод главных компонент (англ. Principal Component Analysis, PCA): он задает новые признаки как линейные формулы от исходных. Иными словами, каждый новый признак будет равен сумме исходных признаков, умноженных на веса, и веса настраиваются в процессе обучения. Очень похоже на линейные модели регрессии, только в регрессии целевая переменная известна, а здесь алгоритм сам «придумывает», что будет означать полученная сумма. Достоинства и недостатки такие же, как у других линейных методов: метод работает быстро, но выделяет слишком простые зависимости. Похожим образом на PCA работает другой алгоритм — Singular Value Decomposition, SVD.

**Автокодировщик**

Автокодировщик (autoencoder) - это специальная архитектура нейронных сетей, которые используют вместо линейной формулы. Такая архитектура также позволяет осуществить обучение без учителя с использованием алгоритма обратного распространения ошибки. Про нейронные сети мы подробно поговорим в следующих темах, здесь отметим, что автокодировщики часто применяются для видео или изображений, чтобы, например, убирать лишний шум, находить похожий контент или искать материалы по текстовому запросу.

#### Понижение размерности в работе с текстами
Для выделения признаков из текстов часто используется тематическое моделирование, например алгоритмы LSA (Latent Semantic Analysis) и LDA (Latent Dirichlet Allocation). В этом случае сам текст представляется как набор слов (неупорядоченный), иными словами, вычисляются частоты слов. Новые признаки задают темы: один новый признак — одна тема, при этом каждый объект (текст) может относиться к нескольким темам. Например, текст может быть одновременно про политику, экономику и немножко литературу.

Выделенные признаки опять же используются для понимания структуры текстового набора (например, можно прочитать несколько текстов из каждой темы вместо того, чтобы читать все тексты в наборе данных) или для поиска похожих текстов (книг, постов в соц. сетях и т.д.). Тематические модели удобно использовать для группировки новостей или обращений клиентов по похожим тематикам, для этого к новым признакам нужно применить алгоритм кластеризации.

### Измерение качества задачи
Как и в задаче кластеризации, в задаче понижения размерности, в частности, в выделении признаков, измерить качество очень сложно. Часто используют такой метод: оценивают, насколько точно по новым признакам можно восстановить старые (как правило, методы выделения признаков это позволяют). Другая хорошая альтернатива — использовать метрику качества той задачи, в которой используются новые признаки, например классификации.

### Инструменты для задачи понижения размерности
Программное обеспечение для задачи понижения размерности такое же, как для предыдущих задач: язык программирования Python и библиотека Scikit-learn. Для тематического моделирования обычно используются отдельные библиотеки, например Gensim.

### Визуализация данных

Отдельного внимания заслуживают методы визуализации данных. Они тоже относятся к методам выделения новых признаков, но ставят перед собой особую цель — найти два (максимум три) признака, такие, что в осях этих признаков получается информативная визуализация данных. Формально для этой цели можно использовать любые указанные ранее алгоритмы: PCA, автокодировщики или методы тематического моделирования, но на практике такие визуализации получаются не очень красивыми и понятными.

**Многомерное шкалирование**

Метод под названием многомерное шкалирование (Multidimensional Scaling, MDS) старается найти такие новые признаки так, чтобы схожести между объектами, измеренные по исходным признакам), были примерно такими же, как схожести между объектами, измеренные по новым признакам. Про схожести между объектами мы говорили в блоке про кластеризацию: схожесть — это числовая величина, оценивающая, насколько похожи два объекта.

Метод MDS был усовершенствован, и получился метод t-SNE (t-Distributed stochastic neighbor embedding) — самый популярный на сегодня метод визуализации объектов. 

**Применение визуализации**  

Аналогичные визуализации можно выполнять для любых данных, например визуализировать клиентов, товары в онлайн-магазине, дома на продажу. Как правило, если на визуализации видна зависимость, например классы разбиваются на отдельные области, как на изображении выше, то задача будет решаться с высоким уровнем качества, а если цвета перемешаны — то с не очень высоким.

Если выполнялась кластеризация объектов, на такой визуализации можно отобразить ее цветами и оценить, разделились ли объекты по цветам, как на изображении выше (качественная кластеризация), или цвета перемешаны (плохая кластеризация). Однако это будет лишь приблизительным способом оценки качества кластеризации.

Визуализация с помощью t-SNE позволяет посмотреть на данные «свысока», но окончательных выводов по ней лучше не делать, потому что значения осей интерпретировать невозможно.

**Подведем итог**: методы выделения признаков позволяют найти новые признаки, агрегирующие информацию, хранящуюся в исходных признаках. Выделенные признаки можно использовать для определения схожести объектов, для решения других задач, например классификации или кластеризации, и для визуализации данных.

## **Ассоциации**

Постановки задач обучения без учителя более разнообразны, а критерии качества не так очевидны, но и данные для этих задач нужны неразмеченные (без целевой переменной), а значит, раздобыть такие данные гораздо проще.

### Ассоциативные правила

Задача поиска ассоциаций или ассоциативных правил, формулируется так: нужно 

> найти закономерности вида «если покупатель купил <некоторый набор товаров>, то он купит и <еще один товар>» 

— эта закономерность и называется ассоциативным правилом.

Поиск ассоциативных правил обычно выполняется в два этапа. На первом этапе находятся часто покупаемые наборы товаров: алгоритм проходит по всему набору данных много раз, вычисляет частоты различных комбинаций товаров и выделяет часто встречающиеся комбинации. На втором этапе происходит непосредственное выделение правил на основе найденных на первом этапе частых комбинаций. 

Самые известные алгоритмы поиска ассоциативных правил — Apriori и FP-Growth. Подробнее прочитать про поиск ассоциативных правил и указанные алгоритмы можно по [ссылке](https://habr.com/ru/company/ods/blog/353502/).

Gри поиске правил часто отслеживают следующие числовые показатели комбинаций товаров: поддержка (support) и доверие (confidence, переводят как достоверность или значимость).

**Поддержка** — это частота, сколько раз комбинация товаров встретилась в чеках, разделить на общее число чеков. Например, в какой доле чеков встретилась комбинация «книга, журнал, ручка».

Разделить количество транзакций, содержащих этот набор, на общее количество транзакций:

`support = кол-во транзакций с набором / общее кол-во транзацкий`

**Доверие** определяется для правила, например «книга, журнал ↝ ручка» и означает, в скольких процентах случаев, в которых купили книгу и журнал, также купили и ручку. 

`confidence = support набора n / support набора (n - искомый товар)`

На первом этапе поиска ассоциативных правил комбинации товаров фильтруются по поддержке, а на втором ищутся ассоциативные правила, превышающие порог на доверие.

Чем выше доверие ассоциативного правила, тем более достоверно наше правило. Качество поиска ассоциативных правил обычно определяют, просматривая примеры найденных правил.

Программное обеспечение — язык Python и специальные библиотеки, например, Orange.

##  **Рекомендательные системы**

Ассоциативные правила позволяют обнаружить, какие товары покупают часто вместе с другими, на основе этого можно предложить клиенту, что ему еще купить. Такая постановка задачи гораздо более широкая и называется задачей построения рекомендательных систем, или задачей рекомендаций. По сравнению с ассоциативными правилами рекомендательные системы анализируют не только то, как часто товары покупают вместе, но и характеристики (признаки) товаров и клиентов.

Данные в задаче рекомендаций выглядят как таблица, по строкам которой клиенты, по столбцам — товары (фильмы, книги и т.д.), и для некоторых ячеек известна оценка клиента для товара (для большинства ячеек таблицы оценка не известна, поскольку каждый клиент, скорее всего, взаимодействовал только с небольшим количеством товаров). Значения в ячейках могут задавать явную оценку товара клиентом (например, если он нажал в интерфейсе на некоторое количество звездочек) или неявную, например, клиент зашел на страницу товара и не купил его, или пропустил в списке товаров и не зашел. Для клиентов и товаров могут быть известны некоторые признаки, как в других задачах машинного обучения. 

Задача ставится так: 

> для каждого клиента мы хотим найти товары, которые он захочет купить, кроме тех, что он уже купил.

### Контентный подход

Самый простой способ построить рекомендательную систему — свести задачу к задаче регрессии. В данном случае объектом будет пара (клиент, товар), признаки — совокупность признаков товара и клиента, а целевая переменная — оценка товара клиентом. Для решения этой задачи регрессии можно использовать любые методы, например линейные или решающие деревья. Чтобы выполнить рекомендацию для клиента, мы выполним предсказания для всех пар (этот клиент, товар), то есть для всех товаров, и выберем те, для которых предсказано наибольшее значение. Описанный подход называется контентным (Content-based).

### Коллаборативная фильтрация

Другой подход называется основанным на памяти (Memory-based), его еще называют коллаборативной фильтрацией. Его идею мы уже упомянули выше: чтобы порекомендовать клиенту товары, алгоритм выделяет товары, которые клиент уже купил, выделяет клиентов, купивших эти товары и находит товары, которые покупали эти клиенты. Такой подход активно использовался до 2009 года, после чего ему на смену пришли подходы, основанные на скрытых переменных.

### Скрытые переменные

Подходы, основанные на скрытых переменных, работают так: они создают новые признаковые описания для клиентов и для товаров и оценивают нужность товара клиенту на основе этих признаковых описаний. Про создание новых признаковых представлений мы подробно поговорили в предыдущем разделе: в рекомендациях выполняется примерно то же самое, но только с акцентом на поиск товаров для клиентов, и называются эти признаки скрытыми переменными. Именно системы этой группы сегодня чаще всего используются на практике.

Как правило, продвинутые рекомендательные системы выполняют предсказания не так быстро, как более простые, например контентные линейные методы. Поэтому на практике часто сначала применяют простую систему, чтобы выполнить первичный отсев товаров, а затем к оставшимся товарам применяют более сложную и качественную рекомендательную систему. Подробнее прочитать про рекомендательные системы и их использование на практике можно по [ссылке](https://vc.ru/marketing/152926-rekomendatelnye-sistemy-kak-pomoch-polzovatelyu-nayti-to-chto-emu-nuzhno).

Качество в задачах рекомендаций измерить несложно, например, можно отложить часть данных в тестовую выборку и оценить, какое количество товаров, купленных пользователем, система смогла спрогнозировать. Для создания рекомендательных систем часто используется система Spark.

## **Обучение с подкреплением**

В предыдущих разделах мы обсудили различные задачи машинного обучения, в которых общая высокоуровневая схема работы выглядит так: 

```
Сбор данных → Обучение алгоритма по данным → Применение готового алгоритма. 
```

Это удобная и эффективная схема, повсеместно используемая при применении искусственного интеллекта к бизнес-задачам. Приведенная схема позволяет сначала внимательно обработать данные, затем аккуратно построить алгоритм на основе данных, и затем оценить качество работы алгоритма с использованием понятных метрик. Однако есть ряд задач, в которых такая схема с тремя отдельными шагами неэффективна, и сбор данных и обучение происходит прямо в процессе применения алгоритма. Область искусственного интеллекта, изучающая такие задачи, называется обучением с подкреплением — ему и посвящен этот блок.

### Общая схема обучения с подкреплением
В обучении с подкреплением алгоритм обучается не на основе заранее собранных данных, а в процессе взаимодействия со средой. Сам алгоритм принято называть агентом. Примеры агентов и сред:

```
Робототехника: агент — робот, среда — окружающий мир.  
Компьютерные игры: агент — игрок, среда — сама игра.  
Алгоритмический трейдинг: агент — трейдер (алгоритм), среда — биржа.
```

В обучении с подкреплением чередуются шаги действия агента и генерации награды средой. Например, если задача робота — забросить мяч в корзину, то его действия — это всевозможные движения «рук», а награды — очки за попадания в корзину. В алгоритмическом трейдинге действия — это операции с ценными бумагами, а награды — полученный доход или убыток. В компьютерных играх действия задаются правилами игры, награды — исходом игры (или промежуточными исходами игры). Награды в обучении с подкреплением могут быть отрицательными, то есть некоторые действия могут приводить к проигрышу, а не выигрышу.

Агент пробует выполнять разные действия, получает за них награды (выигрыши или проигрыши) и постепенно совершенствует свою стратегию, то есть принципы, по которым агент выбирает действия. В обучении с подкреплением не только среда влияет на стратегию агента, но и действия агента могут менять среду, при этом говорят, что среда меняет состояние. Например, в компьютерных играх действия игрока (агента) могут менять конфигурацию игрового мира, эта конфигурация и будет задавать состояние среды.

Итак, схема обучения с подкреплением состоит из повторяющихся шагов:

```
агент выполняет действие со средой;  
среда генерирует награду и (необязательно) обновляет состояние;  
агент корректирует стратегию.
```

#### Трейдинг как обучение с подкреплением

```
Агент выбирает, какие бумаги и в каком количестве продать или купить;
Награда равна потраченной или заработанной сумме; обновление среды соответствует изменению котировок и портфеля агента;
На основе полученного нового опыта агент корректирует собственные правила, на основе которых покупает и продает бумаги.
```

В начале взаимодействия со средой агент не знает, какие действия выгоднее использовать, и выбирает, по сути, случайные действия. По мере получения наград агент запоминает, какие действия и когда стоит использовать, и в дальнейшем получает больше наград. Даже если в какой-то момент в среде произойдут существенные изменения, благодаря постоянному совершенствованию стратегии агент сможет быстро адаптироваться и вновь получать хорошие награды.

### Кумулятивная награда
Важной особенностью обучения с подкреплением является наличие отложенных наград: некоторые действия могут быть невыгодными в краткосрочной перспективе, но приносить большой выигрыш в долгосрочной перспективе. В примере с алгоритмическим трейдингом покупка каких-то акций может оказаться выгодным долгосрочным вложением, но упасть в цене в недалеком горизонте. В примере с роботом, бросающим мячи в корзину, замах руки назад направляет мяч в сторону, обратную от корзины, но помогает затем бросить мяч в нужную сторону с большей силой. В играх, например в шахматах, тоже иногда выгодно пожертвовать фигурой, чтобы впоследствии получить инициативу, более ценную фигуру или даже выиграть партию.

Наличие отложенных наград делает нетривиальным выбор стратегии. У агента, как правило, есть оценка того, к какой награде приведет каждое действие: в алгоритмическом трейдинге оценка очевидна, если известны текущие курсы акций; в других задачах она может быть менее очевидной. Однако жадная стратегия, то есть выбор самого прибыльного в текущий момент действия, может оказаться невыгодной в глобальной перспективе.

В обучении с подкреплением обычно используют **кумулятивную награду**: разрабатывают стратегии, которые оптимизируют ожидаемую сумму всех последующих наград, а не только следующую. 

Часто также используют **дисконтирование**: при расчете кумулятивной награды далекую награду включают с меньшим весом, чем близкую. Дисконтирование будто бы комбинирует оба подхода: учитывает будущие награды, но уделяет больше внимания ближайшим наградам.

С понятием отложенного выигрыша также связано понятие **баланса исследования-использования** (exploration-exploitation trade-off). 

В начале работы агент пробует выполнять разные действия и запоминает, какие из них приносили награды в каких состояниях среды. После нескольких шагов агент попробовал пару-тройку действий, а про пользу или вред других действий агенту ничего не известно, потому что он их еще не пробовал. Далее агенту нужно выбрать следующее действие, и возникает выбор: либо выбирать наиболее оптимальное действие из ранее сделанных (оптимальность других действий оценить нельзя, так как агент их еще не пробовал выполнять), либо случайно выбрать из остальных, неизведанных действий.

Первый подход называется **стратегией использования** (exploitation), а второй — **стратегией исследования** (exploration). Понятно, что стратегия использования более надежная, а стратегия исследования — более рисковая: исследование потенциально может принести больший выигрыш, чем использование, но может оказаться и пустой тратой ресурсов. На практике между использованием и исследованием приходится балансировать.

### Алгоритмы обучения с подкреплением

#### Q-learning
Один из наиболее известных алгоритмов обучения с подкреплением называется **Q-обучение** (Q-learning). Немного упрощая, этот алгоритм учится предсказывать, какова будет кумулятивная награда от каждого действия в каждом возможном состоянии среды. Далее, зная текущее состояние среды, агент выбирает действие, которое принесет наибольшую кумулятивную награду. Q-обучение применимо в задачах, в которых количество возможных действий и состояний невелико. 

Например, в простейшей игре «Лабиринт» у агента есть всего четыре действия (вперед, назад, влево, вправо), а состояние среды — это позиция агента в лабиринте.

#### Deep Q-Network
Если состояний среды может быть много, а действий все еще не очень много (например, в простых компьютерных играх, таких как Atari) то можно использовать нейронную сеть, которая по состоянию среды будет предсказывать кумулятивную награду от всех возможных действий — такой алгоритм называется **Deep Q-Network (DQN)**. Среди концептуально похожих алгоритмов можно выделить алгоритм **SARSA (State-Action-Reward-State-Action)**.

#### REINFORCE
Если количество возможных действий очень велико, используют подходы, в которых нейронная сеть учится предсказывать следующее действие по состоянию среды, например алгоритм **REINFORCE**. 

#### A3C
Наиболее успешными часто оказываются комбинированные подходы, в которых одна нейросеть предсказывает кумулятивную награду, другая — следующее действие, и при обучении они «помогают» друг другу. Пример такого комбинированного подхода — метод **A3C (Asynchronous Advantage Actor Critic)**. Например, A3C можно использовать в трейдинге — состояний биржи может быть бесконечно много (наборов котировок).

### Применение обучения с подкреплением
С обучением с подкреплением связаны многие недавние прорывы с применением искусственного интеллекта к различным играм. Например, в 2016 году компания DeepMind представила алгоритм AlphaGo, который обыграл в го чемпиона мира Ли Седоля. Алгоритм AlphaGo был сначала обучен по данным игр профессиональных игроков в го, а затем дообучен с помощью обучения с подкреплением, использующего нейросети: алгоритм играл сам с собой, точнее, с копиями себя, и, стараясь выиграть, совершенствовал свою стратегию.

В 2019 году нейросети [выиграли](https://neurohive.io/ru/novosti/nejroset-ot-facebook-pobedila-professionalnyh-igrokov-v-poker/) у человека в покер (разработка компании Facebook) — вновь использовались методы обучения с подкреплением, а нейросеть училась во время игры с копиями себя. В том же 2019 году нейросеть компании DeepMind обошла человека в игре в Starcraft II, одной из самых популярных стратегий реального времени XXI века, а нейросеть компании OpenAI — в Dota 2, подробнее по [ссылке](https://www.currenttime.tv/a/ai-games/30242784.html).

Обучение с подкреплением активно применяют для высокочастотного трейдинга, однако успехи в этой области не такие впечатляющие, как в области компьютерных игр. Активно [ведутся исследования](https://www.machinelearningmastery.ru/reinforcement-learning-for-real-world-robotics-148c81dbdcff/) по применению обучения с подкреплением в робототехнике: сложность здесь заключается в том, что обучать робота при реальном взаимодействии с окружающей средой дорого (неаккуратные действия могут повредить аппаратуру), в то же время перенести в реальный мир робота, выучившегося в компьютерной симуляции, не так просто. Ведутся исследования и по применению обучения с подкреплением для разработки беспилотных автомобилей — рабочие прототипы могут самостоятельно ездить по игрушечным трассам. Но на настоящие дороги такие алгоритмы выпускать опасно — там условия гораздо сложнее (пешеходы, снег, дождь, нарушение правил), и учесть всех их в одном алгоритме с подкреплением не представляется возможным. Как разрабатываются беспилотные автомобили, мы поговорим в блоке про нейронные сети.

### Итог 

обучение с подкреплением — это отдельная область искусственного интеллекта, в которой агент учится выполнять выигрышные действия в результате взаимодействия со средой. Обучение с подкреплением — многообещающая технология, позволившая достичь высоких успехов ИИ в играх, однако в более прикладных сферах пока не достигшая уровня качества человека. Обучение с подкреплением является более сложной задачей, чем классическое обучение с учителем, поэтому если в бизнес-задачах можно использовать последнее, то лучше так и сделать.

Мы закончили темы, посвященные различным задачам машинного обучения. Как мы обсуждали ранее, понимание постановок задач машинного обучения важно для применения технологий искусственного интеллекта в своей области. Если заказчик сформулировал свою задачу как задачу классификации (указал, что будет объектом, какие признаки их описывают и какие классы нужно предсказывать), или как задачу рекомендаций (указал, какие есть товары и какая есть информация о предпочтениях клиентов, о самих товарах и клиента), или как задачу обучения с подкреплением (указал агента, среду, действия и награды), то специалисту по машинному обучению будет сразу понятно, какие методы применять для решения задачи. Конечно, бывают и нестандартные задачи, их решение обычно требует больше времени и затрат.

## Ансамблевые методы: стекинг, бэггинг, бустинг