In [6]:
import gymnasium as gym

# 1. Создание среды
# 'CartPole-v1' - это идентификатор среды.
env = gym.make('CartPole-v1')
print(f"Среда: {env.spec.id}")

# 2. Исследование пространства состояний и действий
print(f"Пространство наблюдений (observation_space): {env.observation_space}")
print(f"Тип пространства наблюдений: {type(env.observation_space)}")

print(f"Пространство действий (action_space): {env.action_space}")
print(f"Тип пространства действий: {type(env.action_space)}")

# Пространство наблюдений для CartPole - это 'Box' (непрерывные значения):
# [position of cart, velocity of cart, angle of pole, angular velocity of pole]
# Пространство действий для CartPole - это 'Discrete(2)':
# 0: Push cart to the left
# 1: Push cart to the right

# 3. Инициализация среды (начало нового эпизода)
observation, info = env.reset()
print(f"\nНачальное наблюдение: {observation}")
print(f"Дополнительная информация при сбросе: {info}")

# 4. Взаимодействие со средой: выполнение действий
done = False  # флаг окончания эпизода
total_reward = 0  # суммарная награда за эпизод
step = 0  # длительность эпизода

print("\nНачинаем взаимодействие со средой:")
while not done:
	# Выбираем случайное действие (для демонстрации)
    action = env.action_space.sample()

	# Выполняем действие
    observation, reward, terminated, truncated, info = env.step(action)

	# Перезаписываем флаги, инкрементируем счетчики
    step += 1
    total_reward += reward
    done = terminated or truncated

	# Выводим информацию о шаге (не каждый шаг для краткости)
    if step % 20 == 0:
        print(f"Шаг {step+1}: Действие={action}, Награда={reward:.2f}, Завершено={terminated}, Обрезано={truncated}")
        print(f"  Новое наблюдение: {observation}") # Можно раскомментировать для полной детализации

print(f"\nЭпизод завершился на шаге {step+1}.")
print(f"\nОбщая награда за эпизод: {total_reward}")

# 5. Закрытие среды после использования
env.close()
print("Среда закрыта.")

Среда: CartPole-v1
Пространство наблюдений (observation_space): Box([-4.8               -inf -0.41887903        -inf], [4.8               inf 0.41887903        inf], (4,), float32)
Тип пространства наблюдений: <class 'gymnasium.spaces.box.Box'>
Пространство действий (action_space): Discrete(2)
Тип пространства действий: <class 'gymnasium.spaces.discrete.Discrete'>

Начальное наблюдение: [ 0.04776413  0.01024694 -0.01521483  0.02010904]
Дополнительная информация при сбросе: {}

Начинаем взаимодействие со средой:

Эпизод завершился на шаге 12.

Общая награда за эпизод: 11.0
Среда закрыта.
