# _1. Импорт необходимых библиотек_

In [1]:
import gymnasium as gym
import numpy as np
import random

# _2. Реализация агента с использованием Q-Learning_

> Q-Learning — это алгоритм обучения с подкреплением, который использует таблицу Q для хранения значений действия в каждой ситуации

In [2]:
class QLearningAgent:
    def __init__(self, state_size, action_size, learning_rate=0.1, discount_factor=0.99, epsilon=1.0, epsilon_min=0.01, epsilon_decay=0.995):
        self.state_size = state_size
        self.action_size = action_size
        self.learning_rate = learning_rate
        self.discount_factor = discount_factor
        self.epsilon = epsilon
        self.epsilon_min = epsilon_min
        self.epsilon_decay = epsilon_decay
        # Количество бинов для каждого измерения состояния
        self.bins = [20, 20, 20, 20]
        # Количество состояний для Q-таблицы
        self.q_table = np.zeros(self.bins + [action_size])

    def discretize_state(self, state):
        # Дискретизация состояния
        state_bins = []
        for i in range(len(state)):
            bin_idx = int(np.digitize(state[i], np.linspace(-1, 1, self.bins[i] - 1)))  # Дискретизация каждого измерения
            state_bins.append(min(bin_idx, self.bins[i] - 1))  # Ограничение индекса
        return tuple(state_bins)

    def choose_action(self, state):
        if np.random.rand() <= self.epsilon:
            return random.randrange(self.action_size)  # Случайное действие (исследование)
        else:
            return np.argmax(self.q_table[state])  # Лучшая известная стратегия (эксплуатация)

    def learn(self, state, action, reward, next_state, done):
        best_next_action = np.argmax(self.q_table[next_state])  # Находим лучшее действие для следующего состояния
        target = reward + self.discount_factor * self.q_table[next_state][best_next_action] * (1 - done)  # Целевая функция
        self.q_table[state][action] += self.learning_rate * (target - self.q_table[state][action])  # Обновление Q-таблицы

        # Уменьшаем epsilon
        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay

# _3. Создание окружения_

In [3]:
# Создаем окружение
env = gym.make('CartPole-v1', render_mode="human")

In [4]:
# Определим параметры
state_size = env.observation_space.shape[0]  # Размерность состояния
action_size = env.action_space.n  # Количество действий

In [5]:
# Создаем агента
agent = QLearningAgent(state_size, action_size)

In [6]:
# Параметры тренировки
episodes = 1000  # Количество эпизодов
max_steps = 200  # Максимальное количество шагов в одном эпизоде

# _4. Обучение агента_

In [7]:
# Процесс обучения
for episode in range(episodes):
    state, _ = env.reset()  # Инициализация состояния
    state = agent.discretize_state(state)  # Дискретизация состояния
    total_reward = 0
    
    for step in range(max_steps):
        action = agent.choose_action(state)  # Выбираем действие
        next_state, reward, done, _, _ = env.step(action)  # Выполняем действие в окружении
        next_state = agent.discretize_state(next_state)  # Дискретизируем следующее состояние

        agent.learn(state, action, reward, next_state, done)  # Агент учится

        state = next_state  # Переход к следующему состоянию
        total_reward += reward
        
        if done:  # Если эпизод завершен
            print(f"Эпизод {episode+1}/{episodes}, Награда: {total_reward}")
            break

    # Печать информации о прогрессе
    if episode % 100 == 0:
        print(f"Эпизод {episode+1} завершен")

Эпизод 1/1000, Награда: 45.0
Эпизод 1 завершен
Эпизод 2/1000, Награда: 32.0
Эпизод 3/1000, Награда: 29.0
Эпизод 4/1000, Награда: 8.0
Эпизод 5/1000, Награда: 11.0
Эпизод 6/1000, Награда: 16.0
Эпизод 7/1000, Награда: 28.0
Эпизод 8/1000, Награда: 12.0
Эпизод 9/1000, Награда: 46.0
Эпизод 10/1000, Награда: 29.0
Эпизод 11/1000, Награда: 15.0
Эпизод 12/1000, Награда: 19.0
Эпизод 13/1000, Награда: 13.0
Эпизод 14/1000, Награда: 12.0
Эпизод 15/1000, Награда: 18.0
Эпизод 16/1000, Награда: 21.0
Эпизод 17/1000, Награда: 10.0
Эпизод 18/1000, Награда: 21.0
Эпизод 19/1000, Награда: 10.0
Эпизод 20/1000, Награда: 16.0
Эпизод 21/1000, Награда: 29.0
Эпизод 22/1000, Награда: 12.0
Эпизод 23/1000, Награда: 18.0
Эпизод 24/1000, Награда: 34.0
Эпизод 25/1000, Награда: 15.0
Эпизод 26/1000, Награда: 18.0
Эпизод 27/1000, Награда: 8.0
Эпизод 28/1000, Награда: 12.0
Эпизод 29/1000, Награда: 16.0
Эпизод 30/1000, Награда: 15.0
Эпизод 31/1000, Награда: 10.0
Эпизод 32/1000, Награда: 12.0
Эпизод 33/1000, Награда: 12.0
Эпи