<a href="https://colab.research.google.com/github/vsolodkyi/NeuralNetworks_SkillBox/blob/main/module_17/2_Q_Table.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Реализация табличной Q-функции

В этом уроке мы поработаем с Q-функцией на практике. В данном уроке мы будем допускать, что Q-функция нам уже дана, и мы лишь учимся ею пользоваться для совершения оптимальных действий.

### Загрузка библиотек


In [None]:
import numpy as np

import gym

### Создание игровой среды
Создадим симулятор Frozen Lake.

In [None]:
env = gym.make('FrozenLake-v0', is_slippery=False)

NUM_STATES = env.observation_space.n
NUM_ACTIONS = env.action_space.n

print('States: {}'.format(NUM_STATES))
print('Actions: {}'.format(NUM_ACTIONS))

States: 16
Actions: 4


### Q-функция

Создадим Q-функцию. По сути, это просто двумерная таблица размерности [количество состояний, количество действий].

Пока что мы не знаем, как получить значения для Q-функции, так что заполним всю таблицу случайными значениями (просто для демо).

Наша цель -- потренироваться в применении уже готовй Q-функции.



In [None]:
Q = np.random.rand(NUM_STATES, NUM_ACTIONS)

print(Q)

[[0.44568319 0.43879979 0.53250116 0.99802643]
 [0.22493026 0.97507394 0.71270767 0.43949566]
 [0.64853881 0.40344991 0.80566316 0.89764586]
 [0.74810184 0.78804004 0.39235172 0.65696298]
 [0.58811725 0.03299189 0.00745815 0.03553257]
 [0.94239427 0.42854806 0.2220118  0.15270468]
 [0.93652492 0.24112315 0.87424284 0.58874431]
 [0.44575207 0.48947381 0.81983018 0.77696363]
 [0.77159874 0.13428085 0.11499936 0.70943288]
 [0.00714439 0.99718926 0.98168341 0.41267842]
 [0.60536188 0.74348173 0.64762985 0.97845433]
 [0.24487131 0.40606724 0.34091617 0.61959748]
 [0.49292065 0.12520325 0.00771743 0.22994611]
 [0.32335444 0.48228908 0.57271332 0.37138622]
 [0.53565012 0.69180532 0.29708327 0.24290175]
 [0.07037008 0.82620976 0.65599156 0.59539458]]


### Запуск симуляции

Запустим симуляцию для Frozen Lake так же, как мы делали до этого. Но только на этот раз будем использовать не случайную стратегию, а стратегию, основанную на Q-функции.

Оптимальная политика (при условии оптимальности Q-функции) будет следующая: для текущего состояния `s` выбирать такое действие `a`, при котором значение `Q(s, a)` максимально.

`a = np.argmax(Q[s,:])`

В нашем случае Q-функция это просто какие-то случайные числа, поэтому агент ведет себя не очень оптимально.

In [None]:
s = env.reset()

for _ in range(100):
    env.render()
    a = np.argmax(Q[s,:]) # выбираем оптимальное действие
    s, r, done, _ = env.step(a)
    if done:
        env.render()
        print('Final reward = {}'.format(r))
        break
        
env.close()


[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFF

**[Задание 1]** Заполните Q-функцию вручную такими значеними, чтобы агент (используя её для своей политики) доходил до цели и не падал в яму. Для этого задания значения в такой Q-функции не обязательно должны быть связыны с её формальным определением (через дисконтированную суммарную ганраду). Важно лишь то, чтобы политика `a = argmax Q(s, a)` приводила нас к цели. Проведите симуляцию с использованием этой Q-функции и посмотрите на результат.

In [None]:
Q_true = np.array([[0,1,0,0],
                   [0,0,0,0],
                   [0,0,0,0],
                   [0,0,0,0],
                   [0,1,0,0],
                   [0,0,0,0],
                   [0,0,0,0],
                   [0,0,0,0.3],
                   [0,0,1,0],
                   [0,1,0,0.2],
                   [0,0,0,0],
                   [0,0,0,0],
                   [0,0,0,0],
                   [0,0,1,0],
                   [0,0,1,0],
                   [0,0,0,0]
                   
                   
                   ])

In [None]:
s = env.reset()

for _ in range(10):
    env.render()
    a = np.argmax(Q_true[s,:]) # выбираем оптимальное действие
    #print(a)
    s, r, done, _ = env.step(a)
    #print(s, Q_true[s,:])
    if done:
        env.render()
        print('Final reward = {}'.format(r))
        break
        
env.close()


[41mS[0mFFF
FHFH
FFFH
HFFG
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
  (Down)
SFFF
FHFH
[41mF[0mFFH
HFFG
  (Right)
SFFF
FHFH
F[41mF[0mFH
HFFG
  (Down)
SFFF
FHFH
FFFH
H[41mF[0mFG
  (Right)
SFFF
FHFH
FFFH
HF[41mF[0mG
  (Right)
SFFF
FHFH
FFFH
HFF[41mG[0m
Final reward = 1.0
