In [1]:
import codecs
import tensorflow as tf
import gym
import numpy as np

print(tf.__version__)

import matplotlib.pyplot as plt
%matplotlib inline

2.12.0


# Создание игровой среды

In [2]:
env = gym.make('FrozenLake-v1',  render_mode="rgb_array", is_slippery=False)
NUM_STATES = env.observation_space.n
NUM_ACTIONS = env.action_space.n

print(f'States: {NUM_STATES}')
print(f'Actions: {NUM_ACTIONS}')

States: 16
Actions: 4


# Основные функции Gym

С помощью env.reset() можно перезапустить среду в исходное состояние (начало эпизода). Эта функция так же вернет
начальное состояние.

В нашем случае состояние это просто число -- индекс соответствующей ячейки, где находится робот.

In [3]:
s = env.reset()
print(s)

(0, {'prob': 1})


С помощью функции env.render() можно визуализировать текущее состояние среды. В Colab это не всегда можно сделать
довольно просто (в случае сложных симуляций), но в случае Frozen Lake это просто напечатанный текст с нашим полем 4х4
S - start, F-frozen, H-hole, G-goal. Маркером указано положение робота.

In [4]:
env.render()

array([[[180, 200, 230],
        [180, 200, 230],
        [180, 200, 230],
        ...,
        [180, 200, 230],
        [180, 200, 230],
        [180, 200, 230]],

       [[180, 200, 230],
        [204, 230, 255],
        [204, 230, 255],
        ...,
        [204, 230, 255],
        [204, 230, 255],
        [180, 200, 230]],

       [[180, 200, 230],
        [235, 245, 249],
        [204, 230, 255],
        ...,
        [204, 230, 255],
        [204, 230, 255],
        [180, 200, 230]],

       ...,

       [[180, 200, 230],
        [235, 245, 249],
        [235, 245, 249],
        ...,
        [204, 230, 255],
        [235, 245, 249],
        [180, 200, 230]],

       [[180, 200, 230],
        [235, 245, 249],
        [235, 245, 249],
        ...,
        [204, 230, 255],
        [204, 230, 255],
        [180, 200, 230]],

       [[180, 200, 230],
        [180, 200, 230],
        [180, 200, 230],
        ...,
        [180, 200, 230],
        [180, 200, 230],
        [180, 200, 230]]

Действия так же кодируются соответствующим индексом. Можно, например, выбрать случайное действие с помощью функции
env.action_space.sample()

In [5]:
a = env.action_space.sample()
print(a)

3


Чтобы совершить действие a нужно вызвать функцию env.step(a). Эта функция вернет новое состояние (s1), в которое мы
перешли, награду r, информацию о том, завершилась ли игра (done) и другую менее важную информацию.

In [6]:
s1, r, done, _ = env.step(a)[:4]

print('New state:', s1)
print('Reward:', r)
print('Done', done)

New state: 0
Reward: 0.0
Done False


In [7]:
env.render()

array([[[180, 200, 230],
        [180, 200, 230],
        [180, 200, 230],
        ...,
        [180, 200, 230],
        [180, 200, 230],
        [180, 200, 230]],

       [[180, 200, 230],
        [204, 230, 255],
        [204, 230, 255],
        ...,
        [204, 230, 255],
        [204, 230, 255],
        [180, 200, 230]],

       [[180, 200, 230],
        [235, 245, 249],
        [204, 230, 255],
        ...,
        [204, 230, 255],
        [204, 230, 255],
        [180, 200, 230]],

       ...,

       [[180, 200, 230],
        [235, 245, 249],
        [235, 245, 249],
        ...,
        [204, 230, 255],
        [235, 245, 249],
        [180, 200, 230]],

       [[180, 200, 230],
        [235, 245, 249],
        [235, 245, 249],
        ...,
        [204, 230, 255],
        [204, 230, 255],
        [180, 200, 230]],

       [[180, 200, 230],
        [180, 200, 230],
        [180, 200, 230],
        ...,
        [180, 200, 230],
        [180, 200, 230],
        [180, 200, 230]]

# Запуск симуляции
Теперь у нас есть все знания, чтобы сыграть целый игровой эпизод с помощью Gym. Сначала встаем в стартовую позицию
env.reset(). Потом в цикле совершаем шаги и рисуем промежуточные состояния с помощью env.render(). На каждом шаге нам
как-то надо выбрать действие. Выбор действи обернем в функцию a = policy(s). В идеале мы должны руководствоваться некой стратегией,
но в этом простом примере будем выбирать случайные действия a. После выбора действия a делаем шаг env.step(a) (сообщаем среде наше желание сделать действие). Если после определенного шага среда вернула done=True, значит произошел конец эпизода (упали в яму или дошли до цели). Если мы дошли до цели, то на последнем шаге мы должны были получить ненулевую награду.

In [8]:
def policy(s):
    a = env.action_space.sample() # случаная стратегия
    return a

s = env.reset()

for _ in range(100):
    env.render()
    a = policy(s)
    s, r, done, _ = env.step(a)[:4]
    print('Reward = {}'.format(r))
    if done:
        env.render()
        print('Final reward = {}'.format(r))
        break
        
env.close()        
    

Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Reward = 0.0
Final reward = 0.0
