# Лекция 0. Глубокое обучение с подкреплением. О чем курс?

## План на сегодня

- О чем курс?
- Литература
- Hello World на Python и C++

## Так о чем курс?

### Определение
- Обучение с подкреплением
- Глубокое обучение с подкреплением

Обучение с подкреплением (англ. reinforcement learning) — это подход в машинном обучении, при котором агент учится, взаимодействуя с окружающей средой.

![](pics/environment.png)

В кибернетике обучение с подкреплением рассматривается как разновидность кибернетического эксперимента. Вместо того чтобы использовать специально заданную систему управления обучением (как в обучении с учителем), агент получает обратную связь от среды в форме сигналов подкрепления. Таким образом, среда или ее модель выполняет роль учителя. Отдельные методы обучения с подкреплением могут также включать неявных учителей, например, в искусственных нейронных системах, где подкрепление связано с одновременной активностью нейронов, что сближает эти методы с обучением без учителя.


### Марковский процесс принятия решений



#### Среда как марковский процесс принятия решений (МППР)

Среда описывается как пятерка: $M = (S, A, P, R, \gamma)$,
где:
- $S$ — множество состояний среды;
- $A$ — множество действий, которые агент может выполнять;
- $P$ — вероятность перехода в состояние $s'$, если агент находился в состоянии $s$ и выбрал действие $a$;
- $R(s, a)$ — функция вознаграждения, возвращающая сигнал подкрепления за выполнение действия $a$ в состоянии $s$;
- $\gamma \in [0, 1]$ — коэффициент дисконтирования, учитывающий влияние будущих вознаграждений.

#### Функция полезности (value function)

##### Функция ценности состояния (state-value function):

$$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) \mid s_0 = s \right],$$
где $\pi(a \mid s)$ — стратегия, определяющая вероятность выбора действия $a$ в состоянии $s$.

##### Функция ценности действия (action-value function):
$$Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) \mid s_0 = s, a_0 = a \right]$$.

#### Оптимальная стратегия

Оптимальная стратегия $\pi^*$ максимизирует ожидаемое суммарное вознаграждение:
$$
\pi^* = \arg\max_\pi V^\pi(s), \quad \forall s \in S.
$$

Оптимальные функции ценности определяются следующим образом:
- Оптимальная функция ценности состояния:
    $$
    V^*(s) = \max_a Q^*(s, a).
    $$
- Оптимальная функция ценности действия:
    $$
    Q^*(s, a) = R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) \max_{a'} Q^*(s', a').
    $$

#### Обновление стратегии

Алгоритмы обучения с подкреплением, такие как $Q$-learning, используют итеративное обновление функции $Q$ для приближения оптимального значения:
$$
Q(s, a) \gets Q(s, a) + \alpha \left[ R(s, a) + \gamma \max_{a'} Q(s', a') - Q(s, a) \right],
$$
где $\alpha$ — скорость обучения, а $s'$ — новое состояние после выполнения действия $a$.


### Методы

- Основанные на стратегии, полезности, модели среды или комбинированные методы в зависимоти от того, какую из трех основных функций обучения с подкреплением настраивает алгоритм.
    - Алгоритмы основанные на стратегиях и полезностях
    - Комбинированные методы
- Основанные на модели и безмодельные в зависимости от того, использует алгоритм модель динамики переходов среды или нет.
- Ведущие обучение по актуальному или отложенному опыту в зависимости от того, учится агент на данных, полученных с помощью только текущей стратегии или нет.

### Литература
- Грессер Лаура, Кенг Ван Лун. Глубокое обучение с подкреплением: теория и практика на языке Python. СПб.: Питер, 2022. 416 с. [PDF].

#### Фреймворк SLM-Lab

    git clone https://github.com/kengz/SLM-Lab.git
    git checkout book
    ./bin/setup