In [1]:
import copy

class CliffWalkingEnv:
    """ 悬崖漫步环境"""
    def __init__(self, ncol=12, nrow=4):
        self.ncol = ncol  # 定义网格世界的列
        self.nrow = nrow  # 定义网格世界的行
        # 转移矩阵P[state][action] = [(p, next_state, reward, done)]包含下一个状态和奖励
        self.P = self.createP()

    def getState(self, i, j):
        return i * self.ncol + j
    
    def createP(self):
        # 初始化
        P = [[[] for j in range(4)] for i in range(self.nrow * self.ncol)]
        # 4种动作, change[0]:上,change[1]:下, change[2]:左, change[3]:右。坐标系原点(0,0)
        # 定义在左上角
        change = [[0, -1], [0, 1], [-1, 0], [1, 0]]
        for i in range(self.nrow):
            for j in range(self.ncol):
                for a in range(4):
                    # 位置在悬崖或者目标状态,因为无法继续交互,任何动作奖励都为0
                    if i == self.nrow - 1 and j > 0:
                        P[self.getState(i, j)][a] = [(1, self.getState(i, j), 0,
                                                    True)]
                        continue
                    # 其他位置
                    next_x = min(self.ncol - 1, max(0, j + change[a][0]))
                    next_y = min(self.nrow - 1, max(0, i + change[a][1]))
                    next_state = self.getState(next_y, next_x)
                    reward = -1
                    done = False
                    # 下一个位置在悬崖或者终点
                    if next_y == self.nrow - 1 and next_x > 0:
                        done = True
                        if next_x != self.ncol - 1:  # 下一个位置在悬崖
                            reward = -100
                    P[self.getState(i, j)][a] = [(1, next_state, reward, done)]
        return P

In [2]:
env = CliffWalkingEnv()

# Stop
ok, 我已经看过《强化学习的数学原理》了，已经有了一个理论框架的主脉络，沿着这个主脉络拓展就好，不需要重新另起一套新的理解框架。况且这本书的框架搭的不太好，跳跃性太强。如果不是我已经读过数学原理，有些基础了，直接读这本书可以说寸步难行。  
这本书的核心价值，是提供了示例代码，可以通过代码理解算法，和数学原理从公式理解互补。当然，鱼书也有示例代码，而且我也敲过，所以基础部分的代码意义也不大了，主要是高阶的TRPO、PPO等代码。  
所以，我看这本书的核心目的，就是从代码上，理解一下高阶算法。从这个目的出发，完全不用从头到尾看一遍。直接看代码，对应背景介绍和论文，搞懂每一行代码含义即可。进度可以大大加快。  
因此，笔记也到此为止了～准备从官方clone下来代码仓库，在官方代码仓库的基础上做笔记。