# Обучение с подкреплением

Обучение с подкреплением - это класс алгоритмов машинного обучения, в которых происходит обучение автономного агента в некотором окружении, с тем, чтобы максимизировать некоторый долговременный выигрыш. Результатом обучения является политика ( стратегия ), которая ставит в соответствие текущему состоянию среды и агента действие, которое должно быть совершено в следующий момент времени. Обучение с подкреплением эквивалентно задаче оптимального управления.

# Обучение с подкреплением. Примеры задач

#### Обучение модели управлению роботизированной рукой

![pancake](images/pancake.jpg "Pancakes")

In [5]:
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/W_gxLKSsSIE?rel=0&amp;showinfo=0&amp;start=95" frameborder="0"></iframe>')

# Обучение с подкреплением. Примеры задач

#### Обучение модели игре в Го

![alphago](images/alphago.jpg "AlphaGo")

# Обучение с подкреплением. Примеры задач

#### Управление автономным автомобилем

![car](images/gcar.jpg "Google Self Driving Car")

# Обучение с подкреплением vs обучение с учителем

Принципиальным отличием обучения с подкреплением от обучения с учителем является то, что действия избранные агентом влияют на состояние среды и на те состояния, в которых агент будет оказываться в дальнейшем.

# Imitation learning



# Exploration vs Exploitation Tradeoff

Другой фундаментально проблемой, которая встречается в обучении с подкреплением является так называемый Exporation vs Exploitation Tradeoff ( компромисс между исследованием и эксплуатацией среды ). Для иллюстрации данной проблемы мы можем взять смежные с RL задачи - _задачу о секретарше_ и _задачу о многоруком бандите_

# Задача об остановке выбора

##### (aka задача о секретарше aka задача о разборчивой невесте)

Простейшем примером для иллюстрации этой проблемы является так называемая задача о секретарше.

Проблема формулируется так:
- Есть множество из N претендентов на одну вакансию / руку принцессы;
- Претенденты образуют линейно упорядочное множество, то есть мы можем сравнить любых двух и однозначно определить какой из них лучше 
- Наниматель / принцесса общается с претендентами в случайном порядке;
- С каждым претендентом можно поступить одним из двух способов: согласиться (тогда игра заканчивается), отказать ему (но тогда он больше не вернётся, поэтому уже никогда нельзя будет принять его предложение);

Цель нанимателя/принцессы: выбрать самого лучшего из возможных.
Вопрос: как следует действовать и с какой вероятностью цель будет достигнута?

# Решение задачи об остановке выбора

Оптимальным алгоритмом решения этой задачи для случая с заранее известным N будет:

* Отказать первым N/e претендентам
* Начиная с N/e + 1 претендента согласится с первым претендентом, который будет лучше всех встречавшихся ранее

В данном случае вероятность выбрать лучшего претендента будет применрно равна 37% вне зависимости от количества кандидатов. Подробнее можно почитать, например, [здесь](https://www.mccme.ru/mmmf-lectures/books/books/book.25.pdf) 

# Задача о многоруком бандите

Предположим, что у нас есть слот-машина с N рычагами. В базовом случае, каждому из рычагов соответствует некоторое фиксированное распредение выигрышей с неизвестным мат. ожиданием. Каждый раз, когда мы дёргаем ручку мы получаем некоторый случайный выигрыш, распределение которого изначально неизвестно и является разным для каждой ручки. Нашей задачей является определить стратегию, которая максимизирует наш выигрыш в заданом временном периоде. При этом, если мы начнём дёргать только ту ручку, у которой матожидание выигрыша максимально на основании имеющиейся у нас в текущей момент данных, мы рискуем пропустить более выгодную ручку и, тем самым снизить общий выигрыш. С другой стороны - если мы потратим слишком много времени на дёргание всех ручек подряд, наш выигрыш также окажется ниже оптимального.

![bandit](images/narmedbandit.png)

# Многорукий бандит. Примеры проблем

* Клинические исследования
* Распределение ресурсов между проектами
* Алгоритм ранжирования Яндекса с 2015 года. [Ссылка на статью](http://www.www2015.it/documents/proceedings/proceedings/p1177.pdf)

# Многорукий бандит. Возможные стратегии

Для решения проблемы можно попробовать использовать различные стратегии.

- ε-greedy strategy - мы дёргаем за лучший рычаг с вероятностью 1 - ε, и за случайный рычаг с вероятностью ε
- ε-first startegy - аналогично задаче о секретарше мы дёргаем за случайный рычаг первые N / ε раз, и далее действуем по жадному алгоритму
- Annealed ε-greedy startegy - аналогично ε-greedy, но значение ε уменьшается с течением времени

Одним из лучших стратегий основана на оценке верхней границы доверительного интервала. По сути, в каждый момент мы выбираем рычаг с наибольшей верхней границей доверительного интервала. С добавлением новых наград доверительный интервал сужается, и мы переходим к рычагу, который потенциально может быть лучше текущего. Подробности можно почитать [здесь](http://www.jmlr.org/papers/volume3/auer02a/auer02a.pdf). 

# Случайные Марковские процессы

# Частично обозримые случайные Марковские процессы

# Задача RL

# RL Objective