# Реализация табличной Q-функции

В этом уроке мы поработаем с Q-функцией на практике. В данном уроке мы будем допускать, что Q-функция нам уже дана, и мы лишь учимся ею пользоваться для совершения оптимальных действий.

### Загрузка библиотек


In [None]:
import numpy as np

import gym

### Создание игровой среды
Создадим симулятор Frozen Lake.

In [None]:
env = gym.make('FrozenLake-v0', is_slippery=False)

NUM_STATES = env.observation_space.n
NUM_ACTIONS = env.action_space.n

print('States: {}'.format(NUM_STATES))
print('Actions: {}'.format(NUM_ACTIONS))

States: 16
Actions: 4


### Q-функция

Создадим Q-функцию. По сути, это просто двумерная таблица размерности [количество состояний, количество действий].

Пока что мы не знаем, как получить значения для Q-функции, так что заполним всю таблицу случайными значениями (просто для демо).

Наша цель -- потренироваться в применении уже готовй Q-функции.



In [None]:
Q = np.random.rand(NUM_STATES, NUM_ACTIONS)

print(Q)

[[0.92428932 0.22615615 0.98632919 0.25593362]
 [0.96239245 0.58670402 0.40248529 0.69304894]
 [0.86172538 0.13512371 0.13748076 0.81478964]
 [0.86542199 0.43723472 0.20529238 0.01474504]
 [0.41694735 0.22121345 0.16096722 0.58865664]
 [0.56619691 0.26316656 0.53678669 0.18299266]
 [0.06726743 0.45927089 0.25761763 0.40795049]
 [0.53434672 0.84954583 0.3965439  0.59974234]
 [0.94702691 0.41968606 0.48352462 0.93583581]
 [0.00791958 0.29398597 0.14549601 0.03490592]
 [0.78549431 0.34099605 0.98939578 0.10032057]
 [0.41443627 0.80767537 0.83457444 0.76852455]
 [0.99717277 0.74074895 0.30139724 0.96219001]
 [0.0933682  0.92011052 0.26815677 0.94259271]
 [0.29758985 0.88184027 0.15311018 0.6485862 ]
 [0.34536741 0.25946084 0.03700172 0.09940772]]


### Запуск симуляции

Запустим симуляцию для Frozen Lake так же, как мы делали до этого. Но только на этот раз будем использовать не случайную стратегию, а стратегию, основанную на Q-функции.

Оптимальная политика (при условии оптимальности Q-функции) будет следующая: для текущего состояния `s` выбирать такое действие `a`, при котором значение `Q(s, a)` максимально.

`a = np.argmax(Q[s,:])`

В нашем случае Q-функция это просто какие-то случайные числа, поэтому агент ведет себя не очень оптимально.

In [None]:
s = env.reset()

for _ in range(100):
    env.render()
    a = np.argmax(Q[s,:]) # выбираем оптимальное действие
    s, r, done, _ = env.step(a)
    if done:
        env.render()
        print('Final reward = {}'.format(r))
        break
        
env.close()


[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Left

**[Задание 1]** Заполните Q-функцию вручную такими значеними, чтобы агент (используя её для своей политики) доходил до цели и не падал в яму. Для этого задания значения в такой Q-функции не обязательно должны быть связыны с её формальным определением (через дисконтированную суммарную ганраду). Важно лишь то, чтобы политика `a = argmax Q(s, a)` приводила нас к цели. Проведите симуляцию с использованием этой Q-функции и посмотрите на результат.