# Лекция 00. Глубокое обучение с подкреплением. О чем курс?

## План на сегодня

- О чем курс?
    - Глубокое обучение с подкреплением
    - Формализация
    - Приложение
- Литература
- Иллюстрации на Python

## Так о чем курс?

### Определение
- Обучение с подкреплением
- Глубокое обучение с подкреплением

Обучение с подкреплением (англ. reinforcement learning) — это подход в машинном обучении, при котором агент учится, взаимодействуя с окружающей средой.

![](pictures/environment.png)

В кибернетике обучение с подкреплением рассматривается как разновидность кибернетического эксперимента. Вместо того чтобы использовать специально заданную систему управления обучением (как в обучении с учителем), агент получает обратную связь от среды в форме сигналов подкрепления. Таким образом, среда или ее модель выполняет роль учителя. Отдельные методы обучения с подкреплением могут также включать неявных учителей, например, в искусственных нейронных системах, где подкрепление связано с одновременной активностью нейронов, что сближает эти методы с обучением без учителя.


### Формализация обучения с подкрепления

#### Обучение с подкреплением как марковский процесс принятия решений (МППР)

Среда описывается как пятерка: $M = (S, A, P, R, \gamma)$,
где:
- $S$ — множество состояний среды;
- $A$ — множество действий, которые агент может выполнять;
- $P$ — вероятность перехода в состояние $s'$, если агент находился в состоянии $s$ и выбрал действие $a$;
- $R(s, a)$ — функция вознаграждения, возвращающая сигнал подкрепления за выполнение действия $a$ в состоянии $s$;
- $\gamma \in [0, 1]$ — коэффициент дисконтирования, учитывающий влияние будущих вознаграждений.

#### Функция полезности (value function)

##### Функция ценности состояния (state-value function):

$$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) \mid s_0 = s \right],$$
где $\pi(a \mid s)$ — стратегия, определяющая вероятность выбора действия $a$ в состоянии $s$.

##### Функция ценности действия (action-value function):
$$Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) \mid s_0 = s, a_0 = a \right]$$.

#### Оптимальная стратегия

Оптимальная стратегия $\pi^*$ максимизирует ожидаемое суммарное вознаграждение:
$$
\pi^* = \arg\max_\pi V^\pi(s), \quad \forall s \in S.
$$

Оптимальные функции ценности определяются следующим образом:
- Оптимальная функция ценности состояния:
    $$
    V^*(s) = \max_a Q^*(s, a).
    $$
- Оптимальная функция ценности действия:
    $$
    Q^*(s, a) = R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) \max_{a'} Q^*(s', a').
    $$

#### Обновление стратегии

Алгоритмы обучения с подкреплением, такие как $Q$-learning, используют итеративное обновление функции $Q$ для приближения оптимального значения:
$$
Q(s, a) \gets Q(s, a) + \alpha \left[ R(s, a) + \gamma \max_{a'} Q(s', a') - Q(s, a) \right],
$$
где $\alpha$ — скорость обучения, а $s'$ — новое состояние после выполнения действия $a$.

### Приложение

#### Динамические системы (минимальные определения, чтобы вкурить пример)

Есть пара $\left(X, \mathcal L\right)$ — динамическая система с $n$ степенями свободы.
- $X$ — конфигурационное пространство,
- $\mathcal L = \mathcal L\left(t,q(t), v(t)\right)$ — лагранжиан. Такая вещественная гладка функция, что $q(t)\in X$ и $v(t)$ — $n$-мерный вещественный вектор.

Пусть $P(a, b, x_a, x_b)$ — множество гладких путей  
$q : [a, b] → X$, для которых выполняются условия:  
$q(a) = x_a$ и $q(b) = x_b$.

Функционал действия $S : P(a, b, x_a, x_b) → ℝ$  
определяется выражением:

$$
S[q] = \int_a^b L\big(t, q(t), \dot{q}(t)\big) \, dt,
$$

где $L(t, q(t), \dot{q}(t))$ — функция Лагранжа.  

Путь $q ∈ P(a, b, x_a, x_b)$ является стационарной точкой $S$  
тогда и только тогда, когда выполняется уравнение:

$$
\frac{\partial L}{\partial q^i}\big(t, q(t), \dot{q}(t)\big) - 
\frac{d}{dt} \frac{\partial L}{\partial \dot{q}^i}\big(t, q(t), \dot{q}(t)\big) = 0, \quad i = 1, \dots, n.
$$

#### Вывод одномерного уравнения Эйлера-Лагранжа

Можно посмотреть [тут](https://en.wikipedia.org/wiki/Euler%E2%80%93Lagrange_equation#Statement).

Пример динамической системы с $n$ степенями свободы можно найти в классической механике. Рассмотрим материальную точку, движущуюся в трехмерном пространстве под действием силы тяжести.

Параметры:
- Конфигурационное пространство $X$ — это пространство всех возможных положений системы. В данном случае материальная точка может занимать любое положение в трехмерном евклидовом пространстве, то есть
$$X=\mathbb R^3$$.
- Лагранжиан в классической механике определяется как разность между кинетической энергией $T$ и потенциальной энергией $V$ системы:
$$\mathcal L=T-V.$$
Для материальной точки с массой $m$, движущейся в поле тяжести, кинетическая энергия равна:
$$T=\frac{1}{2}mv^2,$$
здесь $v=\left\|\textbf{v}\right\|$ — скорость точки. Потенциальная энергия определяется как:
$$V=mgz,$$
где $z$ — высота точки над выбранным нулевым уровнем ($Oz$ направлена вверх).
Таким образом лагранжиан для системы будет:
$$\mathcal{L}(t,q,v)=\frac{1}{2}m\left\|\textbf{v}\right\|^2-mgz,$$
где $q=(x,y,z)\in \mathbb{R}^3$ — положение точки, а $v=(v_x,v_y,v_z)$ — ее скорость.

Для описания движения системы используется принцип наименьшего действия. Подставив лагранжиан $\mathcal L$ в уравнения Лагранжа:
$$
\frac{d}{dt}\frac{\partial\mathcal L}{dv_i}-\frac{\partial \mathcal L}{\partial q_i}=0,
$$
где $q_i$ — координаты $(x,y,z)$, получим уравнения движения для каждой координаты. Например, для $z$:
$$
m\frac{d^2 z}{dt^2}=-mg,
$$
что приводит к классическому результату — свободное падение точки с ускорением $g$.

<img src="pictures/cart-pole.png" width="40%"></img>

На схеме выше показано, как выглядит система. Предполагается, что тележка находится на фиксированном линейном рельсе (без трения). Маятник закреплен на тележке с помощью вращательного сочленения, которое имеет одну вращательную степень свободы. Существует несколько способов моделирования маятника. Некоторые моделируют его как однородный стержень/цилиндр, а некоторые — как сосредоточенную массу на конце безмассового стержня. Здесь он моделируется как тонкий цилиндрический стержень.

Чтобы применить лагранжеву механику к системе тележка-шест, нужно сначала записать лагранжиан системы, который определяется как разность между потенциальной и кинетической энергиями системы как функциями состояния.

Поскольку тележка движется перпендикулярно гравитации, потенциальная энергия, обозначим ее как $V$
зависит только от вертикального положения маятника, таким образом:
\begin{equation}
V=-m_p gl \cos\theta.
\end{equation}

Кинетическая энергия системы немного сложнее. Это сумма кинетических энергий тележки и шеста
\begin{equation}
T=\frac{1}{2}m_c\dot{x}^2 + \frac{1}{2}m_p\left[\left(\dot{x}^2+l\dot{\theta}\cos\theta\right)^2+\left(l\dot{\theta}\sin\theta\right)^{2}\right]
\end{equation}

Тогда лагранжиан имеет вид:
\begin{equation}
\mathcal{L}=T-V.
\end{equation}

В механике Лагранжа, поскольку система развивается с течением времени, величина, называемая действием, определяется как интеграл Лагранжа
\begin{equation}
S=\int_{t_1}^{t_2}\mathcal{L}dt.
\end{equation}

Согласно принципу наименьшего действия, динамика системы развивается таким образом, что эта величина — действие — минимизируется. Как только у меня есть действие, я могу использовать уравнения Эйлера-Лагранжа, чтобы найти уравнения движения системы


Пример с тележкой взят из [этого источника](https://www.ashwinnarayan.com/post/cartpole-dynamics/).

### Методы

- Основанные на стратегии, полезности, модели среды или комбинированные методы в зависимоти от того, какую из трех основных функций обучения с подкреплением настраивает алгоритм.
    - Алгоритмы основанные на стратегиях и полезностях
    - Комбинированные методы
- Основанные на модели и безмодельные в зависимости от того, использует алгоритм модель динамики переходов среды или нет.
- Ведущие обучение по актуальному или отложенному опыту в зависимости от того, учится агент на данных, полученных с помощью только текущей стратегии или нет.

## Литература, источники, зависимости

### Книги

- Грессер Лаура, Кенг Ван Лун. Глубокое обучение с подкреплением: теория и практика на языке Python. СПб.: Питер, 2022. 416 с. [PDF].
- GitBook фреймворка SLM-Lab. URL: https://slm-lab.gitbook.io/slm-lab
- Жабко А. П. Лекции по динамическим системам. СПб.: Издательство. С.-Петерб. гос. ун-т, 2003.

### Фреймворк SLM-Lab

Получаем фреймворк. Быстрый старт, как должно работать по задумке:

```shell
git clone https://github.com/kengz/SLM-Lab.git
git checkout book
./bin/setup
```

В связи с тем, что репозиторий сейчас обновляется редко (на момент написания этого конспекта, последнее обновление было 3 года назад), могут возникать некоторые сложности.

#### Пример в ArchLinux

Потребуется менеджер виртуальных сред [conda](https://docs.conda.io/projects/conda/en/latest/user-guide/getting-started.html).

Можно установить либо в ручную, либо из репозитория AUR.

```shell
yay -S python-conda
```

Берем форк с правками зависимостей.

```shell
git clone https://github.com/gleb-kun/SLM-Lab.git
git checkout book
```

И устанавливаем и запускаем виртуальное окружение.

```shell
conda env create -f environment.yml
conda activate lab
```

Может возникнуть ситуация со следующей ошибкой: `ImportError: libpcre16.so.3: cannot open shared object file: No such file or directory`. Проблема в том, что используется в SLM-Lab используется зависимость roboschool версии 1.0.46, которая требует наличие динамической библиотеки libpcre16.so.3. В текущих версиях ArchLinux, как в моем случае (и, вероятно, в других, например Ubuntu), пакеты [pcre](https://archlinux.org/packages/core/x86_64/pcre/), [pcre2](https://archlinux.org/packages/core/x86_64/pcre2/) не предоставляют libpcre16.so.3.

#### Docker

Самый простой и безболезненный способ это использовать виртуальную машину.

1. Создаем образ.

```shell
docker build -t kengz/slm_lab:latest -t kengz/slm_lab:v4.2.0 .
```

2. Ну и собственно запускаем.

```shell
docker run --rm -it kengz/slm_lab:v4.2.0
```

3. Для удобства можно организовать трансляцию вирутального монитора с помощью программы **x11vnc**.

```shell
Xvfb :99 -screen 0 1024x768x24 &
export DISPLAY=:99
x11vnc -display :99 -bg -nopw -listen 0.0.0.0 -xkb -forever
```

## Иллюстрация из SLM-Lab

### CartPole

```shell
python run_lab.py slm_lab/spec/demo.json dqn_cartpole dev
```

<img src="pictures/cart-pole-slm.png" width="50%"></img>
Пример рендеринга 
