## $4 \times 4$ 方格世界中采用迭代法的随机策略评估

![](https://img-blog.csdnimg.cn/20190304161510556.png)

**问题描述**：用动态规划算法通过迭代计算来评估 $4 \times 4$ 方格世界中的一个随机策略。

 已知：

- 状态空间 $S$ ：如图所示，$s_1 - s_{14}$ 非终止状态，灰色方格中 $s_0$ 为开始状态，$s_{15}$ 为终止状态。

- 行为空间 $A$ ：$\left\{ n, e, s, w \right\}$ 对于任何非终止状态可以有向**北**、**东**、**南**、**西**移动四个行为。

- 转移概率 $P$ ：任何试图离开方格世界的动作，其不导致位置的任何改变；其余条件下将确定地（$100\%$ 的概率）转移到动作指向的状态。

- 即时奖励 $R$ ：任何在非终止状态间的转移得到的即时奖励均为 $-1$ ，进入终止状态即时奖励为 $0$ 。

- 衰减系数 $\gamma$ ：$1.0$

- 当前策略 $\pi$ ：Agent采用随即行动策略，在任何一个非终止状态下有均等的概率采取向任一方向移动这个行为，即 $\pi\left(n \vert \cdot \right) = \pi\left(e \vert \cdot \right) = \pi\left(s \vert \cdot \right) = \pi\left(w \vert \cdot \right) = 1/4$ 。

**任务**：评估在这个方格世界内给定的策略，即求解在给定策略 $\pi$ 下，该方格世界里每一个状态的价值。

In [1]:
states = [i for i in range(16)] # 状态空间
values = [0  for _ in range(16)] # 状态价值
actions = ["n", "e", "s", "w"] # 行为空间
ds_actions = {"n": -4, "e": 1, "s": 4, "w": -1}  # 行为对状态的改变

# 衰减系数
gamma = 1.00

In [2]:
# 根据当前状态和行为确定下一状态
def nextState(s, a):
  next_state = s
  if (s%4 == 0 and a == "w") or (s<4 and a == "n") or \
     ((s+1)%4 == 0 and a == "e") or (s > 11 and a == "s"):
    pass
  else:
    ds = ds_actions[a]
    next_state = s + ds
  return next_state

In [3]:
# 得到某一状态的即时奖励
def rewardOf(s):
  return 0 if s in [0,15] else -1

In [4]:
# 判断某一状态是否为终止状态
def isTerminateState(s):
  return s in [0,15]

In [5]:
# 获取某一状态的所有可能的后继状态
def getSuccessors(s):
  successors = []
  if isTerminateState(s):
    return successors
  for a in actions:
    next_state = nextState(s, a)
    # if s != next_state:
    successors.append(next_state)
  return successors

In [6]:
# 根据后继状态的价值更新某一状态的价值
def updateValue(s):
  sucessors = getSuccessors(s)
  newValue = 0  # values[s]
  num = 4       # len(successors)
  reward = rewardOf(s)
  for next_state in sucessors:
    newValue += 1.00/num * (reward + gamma * values[next_state])
  return newValue

In [7]:
# 一次迭代
def performOneIteration():
  newValues = [0 for _ in range(16)]
  for s in states:
    newValues[s] = updateValue(s)
  global values
  values = newValues
  printValue(values)

In [8]:
# 打印状态价值
def printValue(v):
  for i in range(16):
    print('{0:>6.2f}'.format(v[i]),end = " ")
    if (i+1)%4 == 0:
      print("")
  print()

In [9]:
max_iterate_times = 160
cur_iterate_times = 0

while cur_iterate_times <= max_iterate_times:
    print("Iterate No.{0}".format(cur_iterate_times))
    performOneIteration()
    cur_iterate_times += 1
    
printValue(values)

Iterate No.0
  0.00  -1.00  -1.00  -1.00 
 -1.00  -1.00  -1.00  -1.00 
 -1.00  -1.00  -1.00  -1.00 
 -1.00  -1.00  -1.00   0.00 

Iterate No.1
  0.00  -1.75  -2.00  -2.00 
 -1.75  -2.00  -2.00  -2.00 
 -2.00  -2.00  -2.00  -1.75 
 -2.00  -2.00  -1.75   0.00 

Iterate No.2
  0.00  -2.44  -2.94  -3.00 
 -2.44  -2.88  -3.00  -2.94 
 -2.94  -3.00  -2.88  -2.44 
 -3.00  -2.94  -2.44   0.00 

Iterate No.3
  0.00  -3.06  -3.84  -3.97 
 -3.06  -3.72  -3.91  -3.84 
 -3.84  -3.91  -3.72  -3.06 
 -3.97  -3.84  -3.06   0.00 

Iterate No.4
  0.00  -3.66  -4.70  -4.91 
 -3.66  -4.48  -4.78  -4.70 
 -4.70  -4.78  -4.48  -3.66 
 -4.91  -4.70  -3.66   0.00 

Iterate No.5
  0.00  -4.21  -5.51  -5.80 
 -4.21  -5.22  -5.59  -5.51 
 -5.51  -5.59  -5.22  -4.21 
 -5.80  -5.51  -4.21   0.00 

Iterate No.6
  0.00  -4.73  -6.28  -6.66 
 -4.73  -5.90  -6.36  -6.28 
 -6.28  -6.36  -5.90  -4.73 
 -6.66  -6.28  -4.73   0.00 

Iterate No.7
  0.00  -5.23  -7.01  -7.47 
 -5.23  -6.55  -7.09  -7.01 
 -7.01  -7.09  -6.5