In [None]:
# Установка необходимых библиотек
!pip install gym

import gym
import numpy as np
import random

# Создание среды Taxi
env = gym.make("Taxi-v3")

# Инициализация Q-таблицы и счетчика посещений
Q = np.zeros((env.observation_space.n, env.action_space.n))
N = np.zeros((env.observation_space.n, env.action_space.n))

# Функция для выполнения эпизода
def run_episode(env, policy=None, epsilon=0.1):
    state = env.reset()
    states, actions, rewards = [], [], []
    done = False
    while not done:
        if policy is None or random.uniform(0, 1) < epsilon:
            action = env.action_space.sample()  # Случайное действие
        else:
            action = policy[state]  # Действие по стратегии
        next_state, reward, done, _ = env.step(action)
        states.append(state)
        actions.append(action)
        rewards.append(reward)
        state = next_state
    return states, actions, rewards

# Функция для обновления Q-таблицы с использованием алгоритма Монте-Карло
def update_q_table(states, actions, rewards):
    G = 0
    for t in reversed(range(len(states))):
        state, action, reward = states[t], actions[t], rewards[t]
        G = reward + G
        N[state][action] += 1
        Q[state][action] += (G - Q[state][action]) / N[state][action]

# Запуск 5 эпизодов со случайной стратегией и обновление Q-таблицы
for episode in range(5):
    states, actions, rewards = run_episode(env)
    update_q_table(states, actions, rewards)
    print(f"Эпизод {episode + 1}:")
    print(f"Состояния: {states}")
    print(f"Действия: {actions}")
    print(f"Вознаграждения: {rewards}")
    print()

# Анализ результатов
success_actions = {0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0}
for episode in range(5):
    states, actions, rewards = run_episode(env)
    for action in actions:
        success_actions[action] += 1

print("Анализ результатов:")
print(f"Частота успешных действий: {success_actions}")

# Изменение поведенческой стратегии на основе Q-таблицы
policy = {state: np.argmax(Q[state]) for state in range(env.observation_space.n)}

# Запуск 5 эпизодов с новой стратегией
for episode in range(5):
    states, actions, rewards = run_episode(env, policy)
    update_q_table(states, actions, rewards)
    print(f"Эпизод {episode + 1} с новой стратегией:")
    print(f"Состояния: {states}")
    print(f"Действия: {actions}")
    print(f"Вознаграждения: {rewards}")
    print()

# Вывод Q-таблицы и стратегии
print("Q-таблица:")
print(Q)
print("Стратегия:")
print(policy)

Эпизод 1:
Состояния: [201, 101, 101, 121, 101, 101, 1, 1, 21, 21, 21, 121, 121, 21, 21, 1, 1, 21, 21, 1, 21, 21, 1, 17, 117, 117, 117, 117, 117, 217, 217, 237, 337, 437, 337, 337, 337, 437, 437, 337, 337, 337, 337, 337, 337, 337, 357, 357, 357, 337, 337, 237, 237, 237, 237, 137, 137, 137, 117, 117, 117, 137, 117, 17, 1, 1, 101, 101, 101, 1, 101, 101, 101, 201, 221, 121, 121, 101, 1, 101, 101, 101, 1, 1, 1, 17, 37, 137, 137, 237, 337, 357, 337, 337, 237, 337, 337, 337, 437, 437, 337, 337, 337, 357, 357, 337, 357, 457, 357, 337, 357, 337, 357, 357, 357, 357, 457, 457, 437, 457, 457, 457, 457, 437, 437, 437, 337, 337, 437, 437, 437, 337, 357, 457, 437, 437, 337, 357, 357, 257, 237, 137, 37, 37, 37, 37, 37, 37, 37, 17, 117, 117, 17, 37, 137, 137, 37, 137, 37, 137, 137, 137, 137, 237, 237, 237, 137, 137, 137, 137, 37, 37, 137, 37, 37, 37, 37, 17, 17, 117, 137, 117, 117, 137, 37, 17, 17, 1, 1, 1, 21, 1, 101, 101, 1, 1, 21, 21, 21, 21]
Действия: [1, 4, 2, 3, 5, 1, 3, 2, 4, 5, 0, 5, 1, 5, 3, 3

  deprecation(
  deprecation(
  if not isinstance(terminated, (bool, np.bool8)):
