## Reinforcement Learning (RL)


Reinforcement Learning (Обучение с подкреплением) — это класс машинного обучения, в котором агент обучается принимать решения путем взаимодействия с окружающей средой. Агент принимает действия, получает обратную связь в виде вознаграждения или штрафа, и стремится максимизировать кумулятивное вознаграждение.

## Q-learning
[Q-learning](https://en.wikipedia.org/wiki/Q-learning) — это один из методов обучения с подкреплением, используемый для обучения агента принимать оптимальные действия в конкретной среде. Агент стремится выучить функцию Q, которая оценивает ожидаемую награду для каждой пары состояние-действие.

## Тестирование и Валидация

В контексте RL, тестирование и валидация играют важную роль. После обучения модели агента необходимо оценить ее производительность (тестирование) и убедиться в ее способности обобщения к различным ситуациям (валидация).

Тестирование в RL включает в себя запуск обученной модели в реальной среде и измерение ее производительности на основе определенных метрик. Валидация, с другой стороны, может включать в себя проверку способности модели адаптироваться к новым условиям или изменениям в среде.


### Установка зависимостей

На первом шаге мы начинаем с установки необходимых библиотек. Пакет [gymnasium](https://en.wikipedia.org/wiki/Q-learning#Deep_Q-learning) предоставляет различные среды для обучения с подкреплением, в то время как [stable-baselines3](https://en.wikipedia.org/wiki/Q-learning#Deep_Q-learning) предоставляет реализации различных алгоритмов обучения с подкреплением.


Эти пакеты будут использованы в дальнейшем коде для создания среды и реализации алгоритма обучения с подкреплением.

In [None]:
# Установка необходимых библиотек
!pip install gym[all]
!pip install autorom[accept-rom-license]
!pip install stable-baselines3
!pip install PyVirtualDisplay
!sudo apt-get install xvfb
!pip install shimmy

Collecting box2d-py==2.3.5 (from gym[all])
  Using cached box2d-py-2.3.5.tar.gz (374 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting mujoco-py<2.2,>=2.1 (from gym[all])
  Using cached mujoco_py-2.1.2.14-py3-none-any.whl (2.4 MB)
Collecting mujoco==2.2.0 (from gym[all])
  Using cached mujoco-2.2.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.6 MB)
Collecting pytest==7.0.1 (from gym[all])
  Using cached pytest-7.0.1-py3-none-any.whl (296 kB)
Collecting pygame==2.1.0 (from gym[all])
  Using cached pygame-2.1.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
Collecting lz4>=3.1.0 (from gym[all])
  Using cached lz4-4.3.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
Collecting swig==4.* (from gym[all])
  Using cached swig-4.1.1.post1-py2.py3-none-manylinux_2_5_x86_64.manylinux1_x86_64.whl (1.8 MB)
Collecting glfw (from mujoco==2.2.0->gym[all])
  Using cached glfw-2.6.4-py2.py27.py3.py30.py31.py32.py33.py34.py35.

После установки мы импортируем два основных модуля: gym и [DQN](https://en.wikipedia.org/wiki/Q-learning#Deep_Q-learning) из stable_baselines3. gym предоставляет инструменты для создания и использования различных сред для обучения агента, в то время как DQN (Deep Q-Network) представляет собой алгоритм Q-learning с использованием нейронных сетей для оценки функции Q.

In [None]:
# Импорт необходимых пакетов
import gymnasium as gym
from stable_baselines3 import DQN

### Выбор среды
Давайте определим задачу, которую мы будем решать, используя алгоритм Q-learning и библиотеки gym и stable-baselines3. В данной работе мы будем использовать среду [CartPole](https://www.gymlibrary.dev/environments/classic_control/cart_pole/), предоставляемую Gym. Эта задача заключается в управлении тележкой таким образом, чтобы удерживать шест в вертикальном положении.


#### Создание среды CartPole

Мы используем метод gym.make() для создания среды с именем 'CartPole-v1'. Эта среда предоставляет задачу с тележкой и шестом.

In [None]:
# Создание среды CartPole
env = gym.make("Taxi-v3")

#### Описание задачи
Мы сохраняем информацию о пространстве наблюдений (observation_space) и пространстве действий (action_space). observation_space представляет собой пространство всех возможных состояний в задаче, а action_space - пространство всех возможных действий, которые агент может предпринять.

In [None]:
# Описание задачи
observation_space = env.observation_space
action_space = env.action_space

Эти шаги предварительно готовят нас к использованию выбранной среды для обучения и тестирования агента с использованием алгоритма Q-learning.

### Решение задачи
На этом шаге мы используем алгоритм Q-learning, представленный в stable-baselines3, для решения задачи CartPole. Давайте разберем каждый этап.


#### Инициализация модели DQN
Мы создаем экземпляр модели Deep Q-Network (DQN) с использованием DQN("MlpPolicy", env, verbose=1). Здесь "MlpPolicy" означает полносвязную нейронную сеть в качестве политики. env - это среда CartPole, а verbose=1 добавляет вывод для отслеживания прогресса обучения.

In [None]:
# Инициализация модели DQN
model = DQN("MlpPolicy", env, verbose=1)

#### Обучение модели
Мы вызываем метод learn() для обучения модели на 100 временных шагах (total_timesteps=100).

In [None]:
# Обучение модели
timestamp=800000
model.learn(total_timesteps=timestamp, log_interval=4)
model.save("dqn_taxi")

#### Тестирование модели
Мы тестируем обученную модель, используя цикл, в котором агент принимает решения в соответствии с обученной политикой на каждом временном шаге. Мы используем метод render(), чтобы визуализировать среду в реальном времени.

In [None]:
!sudo apt-get install xvfb

In [None]:
import gym
from IPython import display
from pyvirtualdisplay import Display
import matplotlib.pyplot as plt
from matplotlib import animation


d = Display()
d.start()

env = gym.make("Taxi-v3")

obs = env.reset()

img = []
for _ in range(100):
    action, _states = model.predict(obs, deterministic=True)
    obs, reward, terminated, truncated = env.step(int(action))
    img.append(env.render('rgb_array'))

dpi = 72
interval = 50 # ms

plt.figure(figsize=(img[0].shape[1]/dpi,img[0].shape[0]/dpi),dpi=dpi)
patch = plt.imshow(img[0])
plt.axis=('off')
animate = lambda i: patch.set_data(img[i])
ani = animation.FuncAnimation(plt.gcf(),animate,frames=len(img),interval=interval)
display.display(display.HTML(ani.to_jshtml()))

#### Закрытие среды после тестирования
По завершении тестирования мы закрываем среду с помощью env.close().

In [None]:
# Закрытие среды после тестирования
env.close()

В рамках самостоятельной работы попробуйте обучить и протестировать модель на другой среды доступной в gymnasium.