马尔可夫决策过程（Markov decision process，MDP）是强化学习的重要概念。
要学好强化学习，我们首先要掌握马尔可夫决策过程的基础知识

3.2.1 随机过程 
随机过程（stochastic process）是概率论的“动力学”部分。概率论的研究对象是静态的随机现象，
而随机过程的研究对象是随时间演变的随机现象（例如天气随时间的变化、城市交通随时间的变化）

在随机过程中，随机现象在某时刻t的取值是一个向量随机变量，用St表示，所有可能的状态组成状态集合S。

当且仅当某时刻的状态只取决于上一时刻的状态时，
一个随机过程被称为具有马尔可夫性质（Markov property），
用公式表示为:

$P(S_{t+1}|S_t) = P(S_{t+1}|S_1,...,S_t)$

In [2]:
import numpy as np
np.random.seed(0)
# 定义状态转移概率矩阵P
P = [
    [0.9, 0.1, 0.0, 0.0, 0.0, 0.0],
    [0.5, 0.0, 0.5, 0.0, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.6, 0.0, 0.4],
    [0.0, 0.0, 0.0, 0.0, 0.3, 0.7],
    [0.0, 0.2, 0.3, 0.5, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.0, 0.0, 1.0],
]
P = np.array(P)

rewards = [-1, -2, -2, 10, 1, 0]  # 定义奖励函数
gamma = 0.5  # 定义折扣因子


# 给定一条序列,计算从某个索引（起始状态）开始到序列最后（终止状态）得到的回报
def compute_return(start_index, chain, gamma):
    G = 0
    for i in reversed(range(start_index, len(chain))):
        G = gamma * G + rewards[chain[i] - 1]
    return G


# 一个状态序列,s1-s2-s3-s6
chain = [1, 2, 3, 6]
start_index = 0
G = compute_return(start_index, chain, gamma)
print("根据本序列计算得到回报为：%s。" % G)

根据本序列计算得到回报为：-2.5。


In [None]:
在马尔可夫奖励过程中，
一个状态的期望回报（即从这个状态出发的未来累积奖励的期望）
被称为这个状态的价值（value）

In [3]:
def compute(P, rewards, gamma, states_num):
    ''' 利用贝尔曼方程的矩阵形式计算解析解,states_num是MRP的状态数 '''
    rewards = np.array(rewards).reshape((-1, 1))  #将rewards写成列向量形式
    value = np.dot(np.linalg.inv(np.eye(states_num, states_num) - gamma * P),
                   rewards)
    return value


V = compute(P, rewards, gamma, 6)
print("MRP中每个状态价值分别为\n", V)


MRP中每个状态价值分别为
 [[-2.01950168]
 [-2.21451846]
 [ 1.16142785]
 [10.53809283]
 [ 3.58728554]
 [ 0.        ]]
