# 求每个状态的state value（用解析解求解贝尔曼方程，得到state value）

## 问题描述
如图对应《动手学强化学习》第三章Page26,求出某个策略下每个状态s的state value [请点击这里](https://hrl.boyuai.com/chapter/1/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%86%B3%E7%AD%96%E8%BF%87%E7%A8%8B)

<img src="./picture1_2.png" alt="插入图片哈哈" width="50%">

## 根据上图创建环境

In [12]:
import numpy as np
S = ["s1", "s2", "s3", "s4", "s5"]  # 状态集合
A = ["保持s1", "前往s1", "前往s2", "前往s3", "前往s4", "前往s5", "概率前往"]  # 动作集合
# 状态转移函数 , 这里的前往是确定性的状态转移，概率前往是随机选状态转移，对应赵书Page3
P = {"s1-保持s1-s1": 1.0,
    "s1-前往s2-s2": 1.0,
    "s2-前往s1-s1": 1.0,
    "s2-前往s3-s3": 1.0,
    "s3-前往s4-s4": 1.0,
    "s3-前往s5-s5": 1.0,
    "s4-前往s5-s5": 1.0,
    "s4-概率前往-s2": 0.2,
    "s4-概率前往-s3": 0.4,
    "s4-概率前往-s4": 0.4}
# 奖励函数
R = {"s1-保持s1": -1,
    "s1-前往s2": 0,
    "s2-前往s1": -1,
    "s2-前往s3": -2,
    "s3-前往s4": -2,
    "s3-前往s5": 0,
    "s4-前往s5": 10,
    "s4-概率前往": 1}
gamma = 0.5  # 折扣因子
MDP = (S, A, P, R, gamma)

## Policy1

In [13]:
Pi_1 = {"s1-保持s1": 0.5,
        "s1-前往s2": 0.5,
        "s2-前往s1": 0.5,
        "s2-前往s3": 0.5,
        "s3-前往s4": 0.5,
        "s3-前往s5": 0.5,
        "s4-前往s5": 0.5,
        "s4-概率前往": 0.5}

### 求解Policy1情况下的state value


In [14]:
#根据这个策略1，可以写出状态转移矩阵
P_from_mdp_to_mrp = [
    [0.5, 0.5, 0.0, 0.0, 0.0],
    [0.5, 0.0, 0.5, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.5, 0.5],
    [0.0, 0.1, 0.2, 0.2, 0.5],    #P(s4->s1)=0,P(s4->s2)=0.5*0.2=0.1,P(s4->s3)=0.5*0.4=0.2,P(s4->s4)=0.5*0.4=0.2,P(s4->s5)=0.5
    [0.0, 0.0, 0.0, 0.0, 1.0],
]
#转成二维矩阵
P_from_mdp_to_mrp = np.array(P_from_mdp_to_mrp)

In [15]:
#根据策略1，写出奖励
#s1的reward，0.5*(-1)+0.5*0=-0.5
#s2的reward，0.5*(-1)+0.5*(-2)=-1.5
#s3的reward,0.5*(-2)+0.5*0=-1
#s4的reward,0.5*1+0.5*10=5.5
#s5的reward,1*0=0
R_from_mdp_to_mrp = [-0.5, -1.5, -1.0, 5.5, 0]

In [16]:
# state value的解析解
def compute(P, rewards, gamma, states_num):
    ''' 利用贝尔曼方程的矩阵形式计算解析解,states_num是MRP的状态数 '''
    rewards = np.array(rewards).reshape((-1, 1))  #将rewards写成列向量形式
    value = np.dot( np.linalg.inv(np.eye(states_num, states_num) - gamma * P) , rewards )
    return value

In [17]:
V_pi1 = compute(P=P_from_mdp_to_mrp, rewards=R_from_mdp_to_mrp, gamma=0.5, states_num=5)
print(V_pi1)

[[-1.22555411]
 [-1.67666232]
 [ 0.51890482]
 [ 6.0756193 ]
 [ 0.        ]]


## Policy2

In [18]:
# 策略2
Pi_2 = {"s1-保持s1": 0.6,
        "s1-前往s2": 0.4,
        "s2-前往s1": 0.3,
        "s2-前往s3": 0.7,
        "s3-前往s4": 0.5,
        "s3-前往s5": 0.5,
        "s4-前往s5": 0.1,
        "s4-概率前往": 0.9}

### 求解Policy2情况下的state value

In [19]:
P2_from_mdp_to_mrp = [
    [0.6,0.4,0,0,0],
    [0.3,0,0.7,0,0],
    [0,0,0,0.5,0.5],
    [0,0.18,0.36,0.36,0.1],
    [0,0,0,0,1]
]
P2_from_mdp_to_mrp = np.array(P2_from_mdp_to_mrp)

In [20]:
#根据策略2，写出奖励
#s1的reward，0.6*(-1)+0.4*0=-0.6
#s2的reward，0.3*(-1)+0.7*(-2)=-1.7
#s3的reward,0.5*(-2)+0.5*0=-1
#s4的reward,0.9*1+0.1*10=1.9
#s5的reward,0
R2_from_mdp_to_mrp = [-0.6,-1.7,-1,1.9,0]

In [21]:
V_pi2 = compute(P=P2_from_mdp_to_mrp, rewards=R2_from_mdp_to_mrp, gamma=0.5, states_num=5)
print(V_pi2)

[[-1.45585051]
 [-2.09547678]
 [-0.50599771]
 [ 1.97600915]
 [ 0.        ]]
