# Q 러닝
- 모든 상태(행)과 액션(열)에 대한 테이블
    - 각 셀은 어떤 상태에서 액션을 취했을 때 그것이 얼마나 좋은지 수치화한 값 => 이걸 학습
- openAI 얼어붙은 강 환경
    - 16가지 상태, 4가지 액션
    - 16x4의 Q-테이블
        - 첨엔 0으로 다 초기화, 다양한 액션에 대해 얻게 되는 보상을 관찰하면서 테이블 업데이트(벨먼 방정식으로)

In [1]:
import gym
import numpy as np
import random
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
env = gym.make('FrozenLake-v0')

## Q 테이블 학습 알고리즘 구현

In [3]:
# 테이블을 모두 0으로 초기화함
Q = np.zeros([env.observation_space.n, # state 수
              env.action_space.n]) # action 수

# 파라미터 설정
lr = .8
y = .95
num_episodes = 2000

# 보상의 총계를 담을 리스트 생성
rList = []

for i in range(num_episodes):
    # 환경을 리셋하고 새로운 관찰 얻는다.
    s = env.reset()
    rAll = 0
    d = False
    j = 0
    
    # Q 테이블 학습 알고리즘
    while j < 99:
        j+=1
        # Q 테이블로부터 (노이즈와 함께) 그리디하게 액션 선택
        a = np.argmax(Q[s,:] +\
                      np.random.randn(1,env.action_space.n)*\
                      (1./(i+1)))
        
        # 환경으로부터 새로운 상태와 보상을 얻는다.
        s1,r,d,_ = env.step(a)
        
        # 새로운 지식을 통해 Q 테이블 업데이트함
        Q[s,a] = Q[s,a] + lr*(r + y*np.max(Q[s1,:]) - Q[s,a])
        
        rAll += r
        s = s1
        
        if d == True:
            break

    rList.append(rAll)

In [4]:
# 성공한 에피소드 비율
print("Score over time: " +  str(sum(rList)/num_episodes))

Score over time: 0.482


In [5]:
print("Final Q-Table Values")
print(Q)

Final Q-Table Values
[[2.03701379e-01 5.39100721e-03 7.85564445e-03 4.16704718e-03]
 [4.34403627e-03 1.98092338e-04 2.12282702e-03 1.62698981e-01]
 [2.05862532e-03 1.42335441e-03 1.00479313e-03 1.13143596e-01]
 [2.11991172e-05 3.08814407e-04 1.07100235e-03 1.03969291e-01]
 [2.27342502e-01 1.41319297e-04 8.74305287e-04 6.38522870e-04]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00]
 [1.49517237e-02 8.33473035e-06 2.01013481e-04 3.91730874e-05]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00]
 [9.67208247e-04 2.35286181e-03 1.85174664e-04 4.29715531e-01]
 [1.09012356e-03 2.13229829e-01 3.38498294e-05 1.08087886e-05]
 [7.58677695e-01 9.97701051e-05 9.34183652e-05 1.49200472e-03]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00]
 [1.91789054e-03 0.00000000e+00 6.29722401e-01 1.87809809e-03]
 [0.00000000e+00 0.00000000e+00 9.91081098e-01 0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 0.

In [8]:
np.random.randn(1,env.action_space.n)

array([[ 0.13410095, -0.01721449,  1.41572402,  0.43696634]])

In [12]:
s

15

In [10]:
Q[s,:]

array([0., 0., 0., 0.])