Обучение с подкреплением (Reinforcement Learning) — это один из подходов
машинного обучения, в котором агент обучается через взаимодействие с окружающей
средой, получая вознаграждения (или наказания) за совершенные действия. В отличие от
обучения с учителем, где данные заранее размечены, в обучении с подкреплением агент не
получает прямых указаний на то, какие действия являются правильными. Вместо этого он
выполняет действия в своей среде, получает обратную связь в виде награды и использует
эти данные для улучшения своей стратегии.

В обучении с подкреплением важными компонентами являются агент, который
принимает решения, и окружающая среда, с которой он взаимодействует. Агент действует
в определенном состоянии среды, выбирая действие, которое, по его мнению, поможет
ему достичь наибольшей награды. Состояние описывает текущее положение агента в
среде, например, его положение в игре или действия, которые он выполняет в процессе
работы. Каждое действие агента изменяет состояние среды, а также может быть связано с
получением награды, которая помогает агенту понять, насколько правильно он действовал.

Основной задачей агента является максимизация суммарной награды, получаемой
за выполнение последовательности действий. В процессе обучения агент сталкивается с
дилеммой: исследовать новые действия и состояния (что может привести к
дополнительным наградам в будущем), или использовать уже известные, проверенные стратегии (что позволяет получать стабильную, но не всегда максимальную награду). Эта
проблема баланса между исследованием (exploration) и эксплуатацией (exploitation)
является одной из центральных в обучении с подкреплением.

Алгоритмы обучения с подкреплением, такие как Q-learning, обучают агента,
обновляя ценности для различных пар состояния-действие, в то время как методы
градиентного спуска по политике (policy gradient) обучают агента выбирать действия на
основе стратегии, которая максимизирует награду. В более сложных подходах, таких как
актор-критик или глубокое обучение с подкреплением (Deep Reinforcement Learning),
используется комбинация методов для более эффективного обучения.

Применение обучения с подкреплением разнообразно и охватывает такие области,
как робототехника, где RL используется для обучения роботов выполнять задачи, такие
как захват объектов или навигация. В игровых приложениях обучение с подкреплением
демонстрирует отличные результаты, например, в играх, таких как шахматы или го, где
алгоритмы, как AlphaGo, смогли победить сильных человеческих игроков. В сфере
автономных транспортных средств обучение с подкреплением помогает создавать
системы, которые могут принимать оптимальные решения на дороге, улучшая
безопасность и эффективность движения. Также этот подход находит применение в
финансовых рынках, где агент учится принимать торговые решения для получения
максимальной прибыли.

Несмотря на свою мощь, обучение с подкреплением сталкивается с рядом вызовов.
Одним из них является высокая вычислительная сложность, так как для того, чтобы
обучить агента, требуется большое количество взаимодействий с окружающей средой.
Кроме того, обучение с подкреплением может требовать значительных временных затрат
на достижение хороших результатов, особенно в сложных, многосоставных задачах.

Тем не менее, обучение с подкреплением является мощным инструментом для
решения задач, которые требуют принятия решений в реальном времени и в условиях
неопределенности, предоставляя агентам возможность самостоятельно изучать
оптимальные стратегии и улучшать их по мере накопления опыта.

Основные принципы обучения с подкреплением

Обучение с подкреплением (reinforcement learning, RL) – это подход в машинном обуче-
нии, при котором агент учится принимать решения, взаимодействуя с окружающей средой и
получая за свои действия обратную связь в виде награды или наказания. Этот процесс напо-
минает обучение через опыт: агент предпринимает действия в определённой среде, получает
результаты этих действий и на основе этих результатов корректирует свои дальнейшие дей-
ствия.

Основной идеей в обучении с подкреплением является то, что агент должен максимизи-
ровать свою долгосрочную награду. Агент не получает четких указаний о том, какие действия
он должен выполнять, а лишь получает информацию о том, насколько успешными были его
действия на основе полученной награды. Это делает обучение с подкреплением схожим с про-
цессом обучения живых существ: они учат свои действия через опыт, получая позитивные или
негативные последствия в зависимости от того, насколько правильными были их выборы.

Процесс обучения с подкреплением можно описать через несколько ключевых компо-
нентов. Агент – это существо или система, которая принимает решения и взаимодействует с
окружающей средой. Среда, в свою очередь, представляет собой всё, с чем агент взаимодей-
ствует, включая её состояние. Каждое состояние среды – это описание текущего положения
дел, и агент на основе этого состояния решает, какое действие он должен предпринять.

Когда агент выбирает действие, среда реагирует, изменяя своё состояние, и агент полу-
чает награду или наказание в зависимости от того, как полезным было это действие для дости-
жения цели. Награда – это числовая величина, которая отражает степень успеха действия агента, а цель агента заключается в том, чтобы в долгосрочной перспективе накопить как
можно больше награды. Это позволяет агенту научиться, какие действия в каких ситуациях
приводят к наибольшей выгоде.

Одной из важнейших проблем обучения с подкреплением является баланс между иссле-
дованием (exploration) и эксплуатацией (exploitation). Исследование заключается в том, чтобы
пробовать новые действия, которые могут привести к более высоким наградам, даже если
они не гарантируют немедленного успеха. Эксплуатация – это использование уже известных
и успешных действий, которые обеспечивают более предсказуемый результат. Баланс между
этими двумя подходами критичен, так как слишком большое количество исследования может
привести к неэффективности, а слишком много эксплуатации – к застою и пропущенным воз-
можностям для улучшения.

Для того чтобы агент мог учиться, ему нужно понимать, какие действия в каком состоя-
нии среды приводят к наибольшей награде. Это связано с понятием "политики" (policy), кото-
рая представляет собой стратегию поведения агента: она определяет, какое действие должен
выполнить агент в каждом возможном состоянии. Политика может быть детерминированной,
когда для каждого состояния есть однозначное действие, или стохастической, когда агент с
определённой вероятностью выбирает одно из нескольких возможных действий.

Обучение с подкреплением также связано с понятием "ценности" (value). Агент не всегда
может сразу оценить, насколько выгодно его текущее состояние, но он может оценить будущее
состояние, которое он надеется достичь, используя стратегию и получая награды за свои дей-
ствия. Оценка ценности связана с идеей того, насколько хорошо будет обрабатывать агент своё
будущее.

Обучение с подкреплением позволяет моделировать сложные процессы принятия реше-
ний, в которых не существует явных указаний, а правильное поведение должно быть выведено
через эксперименты и опыт. Такие системы могут быть использованы в самых различных обла-
стях, от игр и робототехники до финансового анализа и маркетинга.

Давайте рассмотрим обучение с подкреплением на примере с использованием Python и
библиотеки `gym`, которая предоставляет множество стандартных сред для тренировки алго-
ритмов обучения с подкреплением.

Мы будем использовать классический пример – задачу "CartPole", где цель состоит в том,
чтобы агент удерживал столбик (cart) в вертикальном положении как можно дольше, баланси-
руя на колесе, двигая его влево или вправо.

Шаг 1: Установка и импорт библиотек

Для начала установим нужные библиотеки. В случае использования Google Colab или
Jupyter, это можно сделать через команду:

pip install gymnasium

Затем импортируем все необходимые компоненты.

In [1]:
import gymnasium as gym
import numpy as np
import random
import matplotlib.pyplot as plt

Шаг 2: Создание среды
Теперь создадим среду CartPole с помощью библиотеки `gymnasium`.

In [2]:
# Создаем среду
env = gym.make('CartPole-v1')

Шаг 3: Определение агента

В обучении с подкреплением важным моментом является создание агента, который будет
принимать решения, основываясь на текущем состоянии среды. Агент должен выбрать дей-
ствие на основе текущего состояния. Для простоты давайте реализуем случайный агент, кото-
рый будет случайным образом выбирать действия, чтобы исследовать пространство.

In [3]:
# Инициализация состояния среды
state = env.reset()
# Действия агента: 0 – двигаться влево, 1 – двигаться вправо
actions = [0, 1]
# Количество шагов
num_steps = 200
# Суммарная награда
total_reward = 0
# Сеанс игры с случайным агентом
for _ in range(num_steps):
    action = random.choice(actions) # случайный выбор действия
    next_state, reward, done, _, _ = env.step(action) # Выполняем действие
    total_reward += reward
    state = next_state # Переход к следующему состоянию
# Если агент упал (закончилась игра), завершаем
    if done:
        break
# Выводим итоговую награду
print(f"Total Reward: {total_reward}")

Total Reward: 16.0


Этот код показывает, как агент взаимодействует с средой, выбирает действия и накапливает награды. Но такой агент не обучается, он просто случайно выполняет действия, что делает
его неэффективным. Нам нужно сделать так, чтобы агент обучался и максимизировал свои
награды.

Шаг 4: Алгоритм Q-learning

Q-learning – это один из популярных методов обучения с подкреплением, который помогает агенту учиться на основе награды, которую он получает за выполнение определённого
действия в каждом состоянии. Агент заполняет таблицу значений Q (ценности состояния-действия), которая описывает, насколько выгодно выполнить действие в конкретном состоянии.

Мы начнем с создания таблицы Q для всех состояний и действий. Сначала пространство
состояний среды CartPole сильно большое и непрерывное, поэтому нам нужно будет дискретизировать его, чтобы работать с таблицей Q.

Шаг 5: Реализация алгоритма Q-learning

Пример реализации алгоритма Q-learning для задачи CartPole:

In [9]:
def discretize_state(state):
    if len(state)==4:
        discrete_state = [int(state[0]//0.1),int(state[1]//0.1),int(state[2]//0.1),int(state[3]//0.1)]
    else:
        discrete_state = [int(state[0][0]//0.1),int(state[0][1]//0.1),int(state[0][2]//0.1),int(state[0][3]//0.1)]
    return tuple(discrete_state)
# Функция для выбора действия с учётом epsilon-greedy стратегии
def epsilon_greedy(state):
    if random.uniform(0, 1) < epsilon:
        return random.choice([0, 1]) # Случайный выбор
    else:
        return np.argmax(q_table[state]) # Лучшее действие по таблице Q
# Устанавливаем параметры
learning_rate = 0.1 # Скорость обучения
discount_factor = 0.99 # Дисконтирование будущих наград
epsilon = 0.1 # Вероятность выбора случайного действия (исследование)
num_episodes = 1000 # Количество эпизодов обучения

# Инициализация Q-таблицы
# Размеры Q-таблицы (по оси состояния и действия)
q_table = np.zeros((6, 6, 6, 6, env.action_space.n)) # для CartPole (4 признака, 2 действия)
# Обучение агента
for episode in range(num_episodes):
    state = discretize_state(env.reset()) # Начальное состояние, дискретизация
    done = False
    total_reward = 0
    while not done:
        action = epsilon_greedy(state) # Выбор действия
        next_state, reward, done, _, _ = env.step(action) # Выполнение действия
        next_state = discretize_state(next_state) # Дискретизация следующего состояния
        # Обновление Q-значения по формуле Q-learning
        q_table[state][action] = q_table[state][action] + learning_rate * (reward + discount_factor * np.max(q_table[next_state])-q_table[state][action])
        state = next_state # Переход к новому состоянию
        total_reward += reward
    if episode % 100 == 0:
        print(f"Episode {episode}/{num_episodes}, Total Reward: {total_reward}")

IndexError: index 8 is out of bounds for axis 3 with size 6

Шаг 6: Тестирование обученного агента

После того как агент обучился с использованием Q-learning, мы можем протестировать
его эффективность. В тестировании агент будет следовать стратегии, основанной на максимизации ценности действия, и применять её без случайных выборов.

In [20]:
state = discretize_state(env.reset())
done = False
total_reward = 0
while not done:
    action = np.argmax(q_table[state]) # Лучшее действие по таблице Q
    next_state, reward, done, _, _ = env.step(action)
    state = discretize_state(next_state) # Дискретизация следующего состояния
    total_reward += reward
print(f"Total Reward in test: {total_reward}")

TypeError: only length-1 arrays can be converted to Python scalars

Результаты

Во время обучения агент постепенно улучшает свою стратегию. Сначала он может слу-
чайным образом двигать столбик, но с течением времени, когда он получает обратную связь в
виде награды, он начинает находить более эффективные действия, чтобы удерживать столбик
в вертикальном положении.

После завершения обучения агент должен показывать значительно более высокие резуль-
таты, чем в начале, когда он выбирал действия случайным образом.

Этот пример демонстрирует, как с помощью обучения с подкреплением можно обучить
агента действовать в динамической среде, такой как CartPole. Метод Q-learning позволяет
агенту улучшать свою стратегию со временем, учась на опыте, получая награды и корректируя
свои действия, чтобы максимизировать долгосрочную награду.

Q-Learning

Q-Learning – это один из наиболее популярных и широко используемых алгоритмов в
области обучения с подкреплением. Этот метод используется для поиска оптимальной стратегии или политики, позволяя агенту выбирать лучшие действия для максимизации долгосрочной награды.

Основная цель Q-learning заключается в том, чтобы для каждого состояния и действия
агент находил ценность (Q-значение), которое описывает, насколько выгодно выполнить определённое действие в конкретном состоянии. Эти Q-значения обновляются в процессе обучения на основе получаемых наград, и в итоге агент формирует стратегию, которая максимизирует общую награду.

Основные принципы работы Q-Learning

Q-learning использует так называемую Q-таблицу (или функцию), которая содержит
оценку ценности (Q-значение) для каждого состояния и действия. Когда агент принимает
какое-либо действие, он получает награду, которая используется для обновления значений в
Q-таблице с использованием формулы:
![image.png](attachment:fdf8f566-60ae-453c-b160-57228714525e.png)
Процесс обучения заключается в том, чтобы агент экспериментировал с действиями,
получал награды, обновлял Q-значения и таким образом учился принимать более выгодные
решения на основе опыта.

Применение Q-Learning

Q-learning применяется в широком спектре задач, где необходимо принять решение в
динамично изменяющейся среде. Примеры применения включают:
1. Игры: Q-learning активно используется для создания агентов, которые обучаются
играть в игры, например, в шахматы, го, видеоигры и т.д. Агент может играть в игру, экспериментировать с различными стратегиями и на основе полученных наград постепенно улучшать
свои действия, становясь всё более эффективным игроком.
2. Робототехника: В робототехнике Q-learning применяется для обучения роботов, которые должны ориентироваться в пространстве, избегать препятствий, находить путь или выполнять другие сложные задачи. Например, робот может учиться, как эффективно двигаться по
комнате, избегая столкновений.
3. Оптимизация бизнес-процессов: Q-learning используется для создания моделей, которые могут помогать оптимизировать такие процессы, как управление запасами, распределение
ресурсов, маршрутизация, динамическое ценообразование и др.
4. Автономные транспортные системы: Агент может обучаться принимать решения о
маршруте или действиях, чтобы минимизировать время в пути, избегать пробок или предсказывать поведение других участников движения.

Пример применения Q-Learning на задаче навигации

Предположим, что задача заключается в том, чтобы агент прошёл лабиринт. Лабиринт
состоит из клеток, каждая из которых может быть либо пустой (свободной), либо содержать
стену, которая блокирует движение. Агент должен научиться проходить лабиринт, начиная с
одной клетки и двигаясь к цели. Каждое действие может быть направлено в одну из четырёх
сторон: вверх, вниз, влево или вправо.
1. Инициализация: Агент начинает с инициализированной Q-таблицей, где значения всех
состояний и действий равны нулю.
2. Выбор действия: В процессе обучения агент выбирает действие, используя стратегию
ε-реже (ε-greedy). Это означает, что с вероятностью ε агент будет выбирать случайное действие
(исследование), а с вероятностью 1-ε – наилучшее действие на основе текущих значений в Q-
таблице (эксплуатация).
3. Получение награды: После выполнения действия агент получает награду (например,
+1 за движение в пустую клетку и -1 за столкновение со стеной).
4. Обновление Q-таблицы: Агент обновляет значения в Q-таблице с использованием
формулы Q-learning, учитывая полученную награду и наилучшую стратегию для следующего
состояния.
5. Повторение: Агент повторяет процесс, взаимодействуя с окружающей средой, обновляя Q-таблицу, пока не достигнет цели или не выполнит достаточное количество шагов.

В результате обучения, когда агент выполнит достаточно шагов, его стратегия будет ориентирована на выбор оптимальных действий для достижения цели, избегая столкновений со
стенами.
Пример кода Q-Learning для задачи CartPole

Давайте возьмём другую задачу для применения алгоритма Q-learning. Рассмотрим
задачу Maze Navigation (навигация по лабиринту), где агент должен найти выход из лабиринта, начиная с одной клетки. Лабиринт состоит из клеток, и агент может двигаться вверх, вниз,
влево или вправо. Задача будет заключаться в том, чтобы агент научился искать оптимальный
путь к выходу, используя награды за правильные действия и штрафы за неправильные.

Описание задачи:

– Агент начинает в случайной точке лабиринта.

– Он должен найти путь к выходу, избегая стен.

– Если агент сталкивается со стеной, он получает отрицательную награду.

– Если агент достиг цели (выхода), он получает положительную награду.

Мы будем использовать Q-learning для обучения агента, где Q-значения будут обновляться в процессе взаимодействия агента с лабиринтом.
Пример кода для задачи навигации по лабиринту с использованием Q-Learning:

In [3]:
import numpy as np
import random
# Параметры лабиринта
maze = [
[0, 0, 0, 0, 0],
[0, 1, 1, 0, 0],
[0, 0, 0, 1, 0],
[0, 1, 0, 0, 0],
[0, 0, 0, 1, 2]
]
# 0 – свободная клетка
# 1 – стена
# 2 – выход
# Размеры лабиринта
n_rows = len(maze)
n_cols = len(maze[0])
# Гиперпараметры Q-learning
learning_rate = 0.1 # Скорость обучения
discount_factor = 0.9 # Дисконтирование
epsilon = 0.2 # Эпсилон для epsilon-greedy
num_episodes = 1000 # Количество эпизодов обучения
# Инициализация Q-таблицы
q_table = np.zeros((n_rows, n_cols, 4)) # 4 действия: вверх, вниз, влево, вправо
actions = [(-1, 0), (1, 0), (0, -1), (0, 1)] # Действия: (изменение по строкам, изменение по столбцам)

In [4]:
# Функция выбора действия с использованием epsilon-greedy
def epsilon_greedy(state):
    if random.uniform(0, 1) < epsilon:
        return random.choice([0, 1, 2, 3]) # Случайное действие
    else:
        return np.argmax(q_table[state[0], state[1]]) # Лучшее действие по Q-таблице

In [5]:
# Функция проверки, находится ли клетка внутри лабиринта и является ли она свободной
def is_valid_move(state, action):
    new_row = state[0] + actions[action][0]
    new_col = state[1] + actions[action][1]
    if 0 <= new_row < n_rows and 0 <= new_col < n_cols and maze[new_row][new_col] != 1:
        return True
    return False

In [None]:
# Обучение
for episode in range(num_episodes):
    state = (0, 0) # Начальное состояние (агент стартует в верхнем левом углу)
    done = False
    total_reward = 0
    while not done:
        action = epsilon_greedy(state) # Выбор действия
        if is_valid_move(state, action):
            next_state = (state[0] + actions[action][0], state[1] + actions[action][1])
        else:
            next_state = state # Если движение невозможно, остаемся на месте
        # Получение награды
        if maze[next_state[0]][next_state[1]] == 2:
            reward = 100 # Если агент достиг выхода, награда
            done = True
        elif maze[next_state[0]][next_state[1]] == 1:
            reward = -10 # Если агент столкнулся со стеной, штраф
        else:
            reward = -1 # Пустая клетка, небольшая отрицательная награда для побуждения к поиску выхода
        # Обновление Q-таблицы
        q_table[state[0], state[1], action] = q_table[state[0], state[1], action] + learning_rate * (
        reward + discount_factor * np.max(q_table[next_state[0], next_state[1]]) - q_table[state[0],
        state[1], action])
        state = next_state # Переход к следующему состоянию
        total_reward += reward
        if episode % 100 == 0:
            print(f"Episode {episode}/{num_episodes}, Total Reward: {total_reward}")
        # Тестирование обученной модели
        state = (0, 0)
        done = False
        total_reward = 0
        steps = []
        while not done:
            action = np.argmax(q_table[state[0], state[1]]) # Лучшее действие по Q-таблице
            if is_valid_move(state, action):
                next_state = (state[0] + actions[action][0], state[1] + actions[action][1])
            else:
                next_state = state
            # Получение награды
            if maze[next_state[0]][next_state[1]] == 2:
                reward = 100
                done = True
            elif maze[next_state[0]][next_state[1]] == 1:
                reward = -10
            else:
                reward = -1
            state = next_state
            total_reward += reward
            steps.append(state)
            print(f"Test Total Reward: {total_reward}")
        print("Optimal path to the exit:")
        print(steps)

Episode 0/1000, Total Reward: -1
