# Q - Learning
---
> 

* D.P 는 환경에 대한 확실한 확률정보를 알고있는 모델을 푸는 과정
* 환경에 불확실성이 포함된 모델을 푸는것이 RL 알고리즘
* 주로 sampling 기법으로 불확실성을 예측한다.
* 한꺼번에 모두 업데이트하는 D.P 와 다르게 한 step 씩 계산한다.
* Bellman Equation 을 변형하여 sampling 으로 얻은 data 를 적용한다.
* Off - Policy - 이 개념이 가장 중요

In [1]:
import gym
import numpy as np
import random
from gym.envs.registration import register

In [2]:
'''
환경셋팅 한 후에 환경을 추가등록한다.
'''

register(
    id='FrozenLake-v1',
    entry_point="gym.envs.toy_text:FrozenLakeEnv",
    kwargs={'map_name':'4x4','is_slippery':False})

In [3]:
'''
환경 생성
'''
env = gym.make('FrozenLake-v1')

In [8]:
q_table = np.zeros([env.action_space.n, env.observation_space.n], dtype = np.float16)
gamma = .9
epsilon = 1
episode = 0
max_episode = 1000

state = env.reset()
step = 0

while(episode < max_episode):
    
    #env.render()
    step += 1
    #reward -= step*.01
        
    if(random.random() > epsilon):
        action = np.argmax(q_table[ : , state_next])
    else:
        action = env.action_space.sample()
    
    state_next, reward, done, _ = env.step(action)

    # Q - Learning
    q_table[action, state] += gamma * (reward + np.max(q_table[ : , state_next]) - q_table[action, state])
    
    state_old = state    
    state = state_next
    
    if(done):
        if(reward):
            if(epsilon > .1):
                epsilon = 1 / (episode/(max_episode/10) + 1)
            else:
                epsilon = .1
        else:
            q_table[action, state_old] += gamma * (-1 + q_table[action, state] - q_table[action, state_old])
        
        step = 0
        episode += 1
        env.reset()
env.close()

In [9]:
q_table

array([[ 95.1   , 106.6   ,  17.27  ,   0.    ,  93.9   ,  53.5   ,
         -0.909 ,   0.    , 107.75  ,  98.5   , 105.    ,  11.42  ,
         24.47  ,  30.84  , 107.2   ,  83.75  ],
       [111.5   ,   5.875 ,   0.    ,  -0.909 , 112.1   ,  96.44  ,
          0.729 ,   0.    ,  84.1   , 112.4   ,  85.5   ,   0.    ,
        105.75  ,  98.75  , 103.2   , 111.8   ],
       [ 74.94  ,  12.14  ,   0.    ,   0.    ,  58.7   ,  55.62  ,
         -0.909 ,   0.    , 112.4   , 102.44  ,  -0.909 ,   0.    ,
         67.7   , 112.4   , 112.75  ,  97.    ],
       [ 70.1   ,   5.28  ,   0.    ,   0.    ,  96.75  , 100.6   ,
          0.    ,   0.    ,  82.25  ,  99.6   ,   0.6562,   0.    ,
         22.44  , 105.2   ,  97.4   , 109.8   ]], dtype=float16)

In [6]:
epsilon

0.1

In [10]:
s = env.reset()

step = 1
while(True):
    env.render()
    a = np.argmax(q_table[ : , s])
    s,r,d,_ = env.step(a)
    if(d):
        env.render()
        break
env.close()


[41mS[0mFFF
FHFH
FFFH
HFFG
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG
  (Down)
SFFF
FHFH
[41mF[0mFFH
HFFG
  (Right)
SFFF
FHFH
F[41mF[0mFH
HFFG
  (Down)
SFFF
FHFH
FFFH
H[41mF[0mFG
  (Right)
SFFF
FHFH
FFFH
HF[41mF[0mG
  (Right)
SFFF
FHFH
FFFH
HFF[41mG[0m
