# Q-Table Learning

In [1]:
import gym
import numpy as np

# 환경을 불러온다.

In [2]:
env = gym.make('FrozenLake-v0')

[2017-02-09 21:46:03,112] Making new env: FrozenLake-v0


# Q-Table 학습 알고리즘 구현

In [3]:
# 모든 가능한 상태(observation_space)와 행동(action_space)에 대해 표의 모든 값을 0으로 초기화한다. 
Q = np.zeros([env.observation_space.n,env.action_space.n])
# 학습 파라미터를 설정한다
# lr 은 학습률
lr = .85
# y은 gamma, 할인률 미래 보상에 대해 얼마나 할인할 것인가
y = .99
# 에피소드 수 2000번 수행
num_episodes = 2000
# 에피소드의 각 걸음(step)과 총 보상을 저장하려는 리스트를 만든다
#jList = []
# 에피소드의 보상을 모음
rList = []
for i in range(num_episodes):
    # 첫 상태를 초기화한다 env.reset()
    s = env.reset()
    # 총 보상 rAll
    rAll = 0
    # 끝났는지를 나타내는 d 변수
    d = False
    # 걸음 수는 j
    j = 0
    # Q 러닝 알고리즘
    # 99걸음까지만 허용함
    while j < 99:
        # 걸음마다 더해줌
        j+=1
        # Q table에서 e -greedy 에 따라 가장 좋은 행동을 선택함 매 걸음마다 랜덤적 요소를 넣음
        # 1/ (i+1) 을 넣는 이유는 에피소드가 진행될 수록 랜덤적 요소를 줄이려고 하는 것임
        a = np.argmax(Q[s,:] + np.random.randn(1,env.action_space.n)*(1./(i+1)))
        # env.step은 주어진 행동에 대한 다음 상태와 보상, 끝났는지 여부, 추가정보를 제공함
        s1,r,d,_ = env.step(a)
        #새로 얻은 보상을 바탕으로 이전의 Q table을 업데이트함
        Q[s,a] = Q[s,a] + lr*(r + y*np.max(Q[s1,:]) - Q[s,a])
        # 에피소드 총 보상에서 더해줌
        rAll += r
        # 상태를 다음 상태로 바꿈
        s = s1
        # 끝에 도달하면 다음 에피소드로 넘어감
        if d == True:
            break
    #jList.append(j)
    # 에피소드별 총 보상을 모음
    rList.append(rAll)

In [4]:
print ("Score over time: " +  str(sum(rList)/num_episodes))

Score over time: 0.673


41% 정도 성공한다.

In [5]:
print ("Final Q-Table Values")
print (np.round(Q,3))

Final Q-Table Values
[[ 0.771  0.015  0.015  0.015]
 [ 0.002  0.002  0.     0.589]
 [ 0.     0.339  0.003  0.002]
 [ 0.002  0.     0.002  0.411]
 [ 0.828  0.005  0.002  0.   ]
 [ 0.     0.     0.     0.   ]
 [ 0.     0.     0.07   0.   ]
 [ 0.     0.     0.     0.   ]
 [ 0.006  0.006  0.     0.916]
 [ 0.006  0.945  0.     0.   ]
 [ 0.982  0.     0.003  0.001]
 [ 0.     0.     0.     0.   ]
 [ 0.     0.     0.     0.   ]
 [ 0.     0.     0.963  0.   ]
 [ 0.     0.995  0.     0.   ]
 [ 0.     0.     0.     0.   ]]
