# 2马尔可夫过程 

当且仅当某时刻的状态只取决于上一时刻的状态时，一个随机过程被称为具有马尔可夫性质（Markov property），用公式表示为： 
$$
\begin{align}
P(St+1\mid St)=P(St+1\mid S1,\cdots,St)
\end{align}
$$  
具有马尔可夫性质的随机过程被称为马尔可夫过程

## 2.1马尔可夫奖励过程

一个epsiod的总回报计算如下：  
$$
\begin{align}
{{G}_{t}}={{R}_{t}}+\gamma {{R}_{t+1}}+{{\gamma}^{2}}{{R}_{t+2}}+\cdots=\sum\limits_{k=0}^{\infty }{{{\gamma }^{k}}{{R}_{t+k}}}
\end{align}
$$
这里引入一个折扣因子来调节，折扣因子趋于1则更关注长期的累计奖励，折扣因子趋于0则更关注短期奖励

In [3]:
import numpy as np

In [4]:
np.random.seed(0)

In [8]:
S = [1, 2, 3, 4, 5, 6] #定义状态集合S（有限集）
P = [
    [0.9, 0.1, 0.0, 0.0, 0.0, 0.0],
    [0.5, 0.0, 0.5, 0.0, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.6, 0.0, 0.4],
    [0.0, 0.0, 0.0, 0.0, 0.3, 0.7],
    [0.0, 0.2, 0.3, 0.5, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.0, 0.0, 1.0],
    ]
P = np.array(P) #定义状态转移矩阵P
gamma = 0.5

def reward_fn(state): #定义奖励函数（返回每个状态的奖励值）
    Rewards = [-1, -2, -2, 10, 1, 0] #每个状态的奖励值
    r = Rewards[state - 1]
    return r

def total_reward(epsiod):
    G = 0
    for state in reversed(epsiod): #通过反转实现折扣因子的幂次增加
        G = gamma * G + reward_fn(state)
    return G

epsiod = [1, 2, 3, 6]
G = total_reward(epsiod)
print(f'根据本序列计算得到回报为：{G}。')

根据本序列计算得到回报为：-2.5。
