In [1]:
import numpy as np

# Policy Evaluation

In [2]:
# 상태가치함수 v_k-1을 입력으로 새로운 상태의 값을 계산하는 함수 
def get_value(v_prev, row, col, pi):
    # north, south, east, west 에 대한 밸류 계산
    west_value = pi[0] * (-1 + 1 * v_prev[row, max(0, col - 1)])
    east_value = pi[1] * (-1 + 1 * v_prev[row, min(v_prev.shape[1] - 1, col + 1)])
    north_value = pi[2] * (-1 + 1 * v_prev[max(0, row - 1), col])
    south_value = pi[3] * (-1 + 1 * v_prev[min(v_prev.shape[0] - 1, row + 1), col])
    # 밸류의 합 계산 (정책)
    value = north_value + south_value + east_value + west_value
    return value

In [3]:
# 상태가치함수 v_k-1을 입력으로 새로은 상태가치함수 v_k를 만드는 함수
def update_value(v_prev, pi):
    v_new = np.zeros_like(v_prev)
    for row in range(v_prev.shape[0]):
        for col in range(v_prev.shape[1]):
            if row == v_prev.shape[0] - 1 and col ==  v_prev.shape[1] - 1: # 마지막 상태 종료상태로 계산에서 제외
                pass
            else:
                v_new[row, col] = get_value(v_prev, row, col, pi)
    return v_new

In [4]:
# 정책: north, south, east, west
pi = [0.25, 0.25, 0.25, 0.25]

In [5]:
# v_0 초기화
v_0 = np.zeros((4, 4))
v_0

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [6]:
v_prev = v_0
for k in range(1000):
    v_new = update_value(v_prev, pi)
    print(f'-------- {k+1:03d} --------')
    print(np.round(v_new, 2))
    if np.sum(np.abs(v_new - v_prev)) < 0.01:
        break
    v_prev = v_new

-------- 001 --------
[[-1. -1. -1. -1.]
 [-1. -1. -1. -1.]
 [-1. -1. -1. -1.]
 [-1. -1. -1.  0.]]
-------- 002 --------
[[-2.   -2.   -2.   -2.  ]
 [-2.   -2.   -2.   -2.  ]
 [-2.   -2.   -2.   -1.75]
 [-2.   -2.   -1.75  0.  ]]
-------- 003 --------
[[-3.   -3.   -3.   -3.  ]
 [-3.   -3.   -3.   -2.94]
 [-3.   -3.   -2.88 -2.44]
 [-3.   -2.94 -2.44  0.  ]]
-------- 004 --------
[[-4.   -4.   -4.   -3.98]
 [-4.   -4.   -3.95 -3.84]
 [-4.   -3.95 -3.72 -3.06]
 [-3.98 -3.84 -3.06  0.  ]]
-------- 005 --------
[[-5.   -5.   -4.98 -4.95]
 [-5.   -4.98 -4.89 -4.71]
 [-4.98 -4.89 -4.51 -3.66]
 [-4.95 -4.71 -3.66  0.  ]]
-------- 006 --------
[[-6.   -5.99 -5.96 -5.9 ]
 [-5.99 -5.95 -5.79 -5.55]
 [-5.96 -5.79 -5.27 -4.22]
 [-5.9  -5.55 -4.22  0.  ]]
-------- 007 --------
[[-7.   -6.97 -6.91 -6.83]
 [-6.97 -6.89 -6.68 -6.37]
 [-6.91 -6.68 -6.01 -4.76]
 [-6.83 -6.37 -4.76  0.  ]]
-------- 008 --------
[[-7.98 -7.94 -7.85 -7.73]
 [-7.94 -7.83 -7.54 -7.16]
 [-7.85 -7.54 -6.72 -5.28]
 [-7.73 -7.1

# Value Iteration

In [8]:
# 상태가치함수 v_k-1을 입력으로 새로운 상태의 값을 계산하는 함수 
def get_value(v_prev, row, col):
    # north, south, east, west 에 대한 밸류 계산
    west_value = -1 + 1 * v_prev[row, max(0, col - 1)]
    east_value = -1 + 1 * v_prev[row, min(v_prev.shape[1] - 1, col + 1)]
    north_value = -1 + 1 * v_prev[max(0, row - 1), col]
    south_value = -1 + 1 * v_prev[min(v_prev.shape[0] - 1, row + 1), col]
    # 밸류의 최대값 계산 (값)
    value = max(north_value, south_value, east_value, west_value)
    return value

In [9]:
# 상태가치함수 v_k-1을 입력으로 새로은 상태가치함수 v_k를 만드는 함수
def update_value(v_prev):
    v_new = np.zeros_like(v_prev)
    for row in range(v_prev.shape[0]):
        for col in range(v_prev.shape[1]):
            if row == v_prev.shape[0] - 1 and col ==  v_prev.shape[1] - 1: # 마지막 상태 종료상태로 계산에서 제외
                pass
            else:
                v_new[row, col] = get_value(v_prev, row, col)
    return v_new

In [10]:
# v_0 초기화
v_0 = np.zeros((4, 4))
v_0

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [11]:
v_prev = v_0
for k in range(1000):
    v_new = update_value(v_prev)
    print(f'-------- {k+1:03d} --------')
    print(np.round(v_new, 2))
    if np.sum(np.abs(v_new - v_prev)) < 0.01:
        break
    v_prev = v_new

-------- 001 --------
[[-1. -1. -1. -1.]
 [-1. -1. -1. -1.]
 [-1. -1. -1. -1.]
 [-1. -1. -1.  0.]]
-------- 002 --------
[[-2. -2. -2. -2.]
 [-2. -2. -2. -2.]
 [-2. -2. -2. -1.]
 [-2. -2. -1.  0.]]
-------- 003 --------
[[-3. -3. -3. -3.]
 [-3. -3. -3. -2.]
 [-3. -3. -2. -1.]
 [-3. -2. -1.  0.]]
-------- 004 --------
[[-4. -4. -4. -3.]
 [-4. -4. -3. -2.]
 [-4. -3. -2. -1.]
 [-3. -2. -1.  0.]]
-------- 005 --------
[[-5. -5. -4. -3.]
 [-5. -4. -3. -2.]
 [-4. -3. -2. -1.]
 [-3. -2. -1.  0.]]
-------- 006 --------
[[-6. -5. -4. -3.]
 [-5. -4. -3. -2.]
 [-4. -3. -2. -1.]
 [-3. -2. -1.  0.]]
-------- 007 --------
[[-6. -5. -4. -3.]
 [-5. -4. -3. -2.]
 [-4. -3. -2. -1.]
 [-3. -2. -1.  0.]]
