# Реализация табличной Q-функции

В этом уроке мы поработаем с Q-функцией на практике. В данном уроке мы будем допускать, что Q-функция нам уже дана, и мы лишь учимся ею пользоваться для совершения оптимальных действий.

### Загрузка библиотек


In [1]:
import numpy as np

import gym

### Создание игровой среды
Создадим симулятор Frozen Lake.

In [3]:
env = gym.make('FrozenLake-v1', is_slippery=False, render_mode="ansi")

NUM_STATES = env.observation_space.n
NUM_ACTIONS = env.action_space.n

print('States: {}'.format(NUM_STATES))
print('Actions: {}'.format(NUM_ACTIONS))

States: 16
Actions: 4


### Q-функция

Создадим Q-функцию. По сути, это просто двумерная таблица размерности [количество состояний, количество действий].

Пока что мы не знаем, как получить значения для Q-функции, так что заполним всю таблицу случайными значениями (просто для демо).

Наша цель -- потренироваться в применении уже готовй Q-функции.



In [33]:
Q = np.random.rand(NUM_STATES, NUM_ACTIONS)

print(Q)

[[0.3070543  0.38398111 0.1691199  0.05235285]
 [0.53005036 0.6787238  0.81498985 0.59939194]
 [0.22601009 0.19736971 0.52550929 0.50255182]
 [0.8659339  0.30286671 0.24161862 0.60970817]
 [0.58264057 0.27456743 0.74997804 0.11530879]
 [0.9908605  0.53374026 0.3231358  0.73676217]
 [0.65161068 0.03702514 0.88820115 0.59007946]
 [0.55818688 0.198568   0.76445408 0.0273465 ]
 [0.4367141  0.25007945 0.13156903 0.96220212]
 [0.29143295 0.90298395 0.01702414 0.08609321]
 [0.11782845 0.95929573 0.34769542 0.42296928]
 [0.88887226 0.92755255 0.38703767 0.9195419 ]
 [0.36879454 0.18141705 0.61783561 0.76022694]
 [0.20295096 0.62494804 0.97533967 0.48897309]
 [0.93318314 0.85002915 0.50185933 0.11869907]
 [0.07562305 0.75823667 0.7796322  0.72086581]]


### Запуск симуляции

Запустим симуляцию для Frozen Lake так же, как мы делали до этого. Но только на этот раз будем использовать не случайную стратегию, а стратегию, основанную на Q-функции.

Оптимальная политика (при условии оптимальности Q-функции) будет следующая: для текущего состояния `s` выбирать такое действие `a`, при котором значение `Q(s, a)` максимально.

`a = np.argmax(Q[s,:])`

В нашем случае Q-функция это просто какие-то случайные числа, поэтому агент ведет себя не очень оптимально.

In [29]:
s = env.reset()[0]
s

0

In [30]:
s = env.reset()[0]

for _ in range(100):
    print(env.render())
    a = np.argmax(Q[s,:]) # выбираем оптимальное действие
    print(a)
    s, r, done, trunc, _ = env.step(a)
    if done:
        print(env.render())
        print('Final reward = {}'.format(r))
        break

env.close()


[41mS[0mFFF
FHFH
FFFH
HFFG

1
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG

1
  (Down)
SFFF
FHFH
[41mF[0mFFH
HFFG

2
  (Right)
SFFF
FHFH
F[41mF[0mFH
HFFG

2
  (Right)
SFFF
FHFH
FF[41mF[0mH
HFFG

3
  (Up)
SFFF
FH[41mF[0mH
FFFH
HFFG

2
  (Right)
SFFF
FHF[41mH[0m
FFFH
HFFG

Final reward = 0.0


**[Задание 1]** Заполните Q-функцию вручную такими значеними, чтобы агент (используя её для своей политики) доходил до цели и не падал в яму. Для этого задания значения в такой Q-функции не обязательно должны быть связыны с её формальным определением (через дисконтированную суммарную ганраду). Важно лишь то, чтобы политика `a = argmax Q(s, a)` приводила нас к цели. Проведите симуляцию с использованием этой Q-функции и посмотрите на результат.

In [37]:
Q = np.random.rand(NUM_STATES, NUM_ACTIONS)

Q[:2, 2] = 1
Q[2:11:4, 1] = 1
Q[14, 2] = 1

In [38]:
Q

array([[0.4502653 , 0.6081972 , 1.        , 0.99716233],
       [0.8305342 , 0.64224576, 1.        , 0.42260257],
       [0.36326036, 1.        , 0.62508432, 0.32600758],
       [0.1635133 , 0.22165628, 0.12424581, 0.39045324],
       [0.38263011, 0.06612429, 0.76806263, 0.69717439],
       [0.29419004, 0.47117418, 0.41274833, 0.83808771],
       [0.30937928, 1.        , 0.42771573, 0.7184081 ],
       [0.33056922, 0.2939769 , 0.19827935, 0.75330334],
       [0.51103903, 0.1401323 , 0.32003021, 0.40217055],
       [0.80515014, 0.18073115, 0.75496105, 0.61399178],
       [0.90442559, 1.        , 0.6002823 , 0.92456692],
       [0.38019134, 0.07734396, 0.45315117, 0.18755549],
       [0.2639159 , 0.52748805, 0.33311784, 0.09268708],
       [0.63339712, 0.50105686, 0.95795025, 0.78582952],
       [0.54707027, 0.47502346, 1.        , 0.39431792],
       [0.97507458, 0.05229118, 0.83094057, 0.33483156]])

In [39]:
s = env.reset()[0]

for _ in range(100):
    print(env.render())
    a = np.argmax(Q[s,:]) # выбираем оптимальное действие
    print(a)
    s, r, done, trunc, _ = env.step(a)
    if done:
        print(env.render())
        print('Final reward = {}'.format(r))
        break

env.close()


[41mS[0mFFF
FHFH
FFFH
HFFG

2
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG

2
  (Right)
SF[41mF[0mF
FHFH
FFFH
HFFG

1
  (Down)
SFFF
FH[41mF[0mH
FFFH
HFFG

1
  (Down)
SFFF
FHFH
FF[41mF[0mH
HFFG

1
  (Down)
SFFF
FHFH
FFFH
HF[41mF[0mG

2
  (Right)
SFFF
FHFH
FFFH
HFF[41mG[0m

Final reward = 1.0
