In [14]:
transition_probabilities = [
    [[0.7, 0.3, 0.0], [1.0, 0.0, 0.0], [0.8, 0.2, 0.0]],
    [[0.0, 1.0, 0.0], None, [0.0, 0.0, 1.0]],
    [None, [0.8, 0.1, 0.1], None]
]
rewards = [
    [[10, 0, 0], [0, 0, 0], [0, 0, 0]],
    [[0, 0, 0], [0, 0, 0], [0, 0, -50]],
    [[0, 0, 0], [40, 0, 0], [0, 0, 0]]
]
possible_actions = [[0, 1, 2], [0, 2], [1]]

In [15]:
import numpy as np
Q_values = np.full((3, 3), -np.inf)
for state, actions in enumerate(possible_actions):
    Q_values[state, actions] = 0

In [16]:
Q_values

array([[  0.,   0.,   0.],
       [  0., -inf,   0.],
       [-inf,   0., -inf]])

$ Q_{k+1}(s, a) \leftarrow \sum_{s'}T(s, a, s')[R(s, a, s') + \gamma \cdot \max_{a'}Q_k(s', a')] $

$ Q\text{ - Q value.}\\ $
$ T(s, a, s')\text{ - transition probability which move from s to s' after doing a policy.}\\ $
$ R(s, a, s')\text{ - reward which move from s to s' after doing a policy.}\\ $

s에서 a정책을 시행했을 때의 기댓값은, a정책을 시행하여 도달할 수 있는 지점 s'에서부터 최선의 선택을 한다고 가정할 때의 기댓값에 할인계수와 보상, 전이할 확률을 고려한 값으로 계산된다.

In [17]:
gamma = 0.9
for iteration in range(50):
    Q_prev = Q_values.copy()
    for s in range(3):
        for a in possible_actions[s]:
            Q_values[s,a] = np.sum([transition_probabilities[s][a][sp] * (rewards[s][a][sp] + gamma * np.max(Q_prev[sp]))
            for sp in range(3)])

In [18]:
Q_values

array([[18.91891892, 17.02702702, 13.62162162],
       [ 0.        ,        -inf, -4.87971488],
       [       -inf, 50.13365013,        -inf]])

In [21]:
np.argmax(Q_values, axis=1)

array([0, 0, 1], dtype=int64)

할인계수가 0.9가 아닌 0.95라면 결과가 달라진다.

당장의 손해를 감수하고 미래에 얻을 보상의 기댓값에 더 초점을 맞추기 때문이다. (큰그림 그린다는 뜻)

In [24]:
import numpy as np
Q_values = np.full((3, 3), -np.inf)
for state, actions in enumerate(possible_actions):
    Q_values[state, actions] = 0
gamma = 0.95
for iteration in range(50):
    Q_prev = Q_values.copy()
    for s in range(3):
        for a in possible_actions[s]:
            Q_values[s,a] = np.sum([transition_probabilities[s][a][sp] * (rewards[s][a][sp] + gamma * np.max(Q_prev[sp]))
            for sp in range(3)])
print(Q_values)
print(np.argmax(Q_values, axis=1))

[[21.73304188 20.63807938 16.70138772]
 [ 0.95462106        -inf  1.01361207]
 [       -inf 53.70728682        -inf]]
[0 2 1]
