![RL](./pic/RL.png)
# RL 
### 一般有监督学习和强化学习的范式之间的区别为：
   +  一般的有监督学习关注寻找一个模型，使其在给定数据分布下得到的损失函数的期望最小；
   ![0ML](./pic/0ML.png)
   + 强化学习关注寻找一个智能体策略，使其在与动态环境交互的过程中产生最优的数据分布，即最大化该分布下一个给定奖励函数的期望。
   ![0RL](./pic/0RL.png)

### 与MAB问题不同的是MDP过程是有”有状态“强化学习，包括状态和状态转移过程，
 + MAB：（A，R）
 + MDP：（A，S，P，R）

    + 首先：随机过程-概率论中的”动力学“
            研究对象随时间演变
            下一时刻状态，由前面所有的时刻决定
            
    + 第二：Markov process
    下一时刻状态，由上一时刻时刻决定
    链式递归传递状态信息可以使得计算简化
    
    + 第三：根据马尔可夫转移矩阵，生成某一状态的序列（采样）
    
    + 第四：MRP（A，S，P，R， γ）

    + 第五：回报与奖励
    回报是奖励在时间尺度上的积累
    G = Rt + γRt-1 + γRt-2 + ... + γ^kR1 


In [1]:
import numpy as np
np.random.seed(0)
P = [
    [0.9, 0.1, 0.0, 0.0, 0.0, 0.0],
    [0.5, 0.0, 0.5, 0.0, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.6, 0.0, 0.4],
    [0.0, 0.0, 0.0, 0.0, 0.3, 0.7],
    [0.0, 0.2, 0.3, 0.5, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.0, 0.0, 1.0],
]
P = np.array(P)
rewards = [-1, -2, -2, 10, 1, 0]#状态奖励
gamma = 0.5  # 定义折扣因子

#计算回报
def compute_return(start_index, chain, gamma):
    G = 0
    for i in reversed(range(start_index, len(chain))):
        G = gamma * G + rewards[chain[i] -1]
    return G

In [2]:
#test compute_return
chain = [1, 2, 3, 6]
start_index = 0
G = compute_return(start_index, chain, gamma)
print("根据本序列计算得到回报为：%s。" % G)

根据本序列计算得到回报为：-2.5。



   +第六：价值函数
    每个状态会有期望的回报（从当前状态一直积累到未来的某个时刻）--状态价值（value）
    所有的状态价值--价值函数V（s）
    V(s) = r(s) + γΣp(s`|s)V(s`)
    V = R + γPV （矩阵形式）
    ：：可以得出的是递归定义的贝尔曼方程。
    价值函数的解析解为
    V = （I - γP）^-1R

   +第七：求解状态价值
    使用解析解求解其复杂度为O（n^3）
    故使用
        动态规划（dynamic programming）
        蒙特卡洛 (Monte-Carlo method)
        时序差分 (temporal difference)    


In [3]:
rewards = [-1, -2, -2, 10, 1, 0]#状态奖励
def compute(P, rewards, gamma, states_num):
    '''计算状态价值，states_num是MRP的状态数量'''
    rewards = np.array(rewards).reshape((-1, 1))#向量化
    value  = np.dot(np.linalg.inv(np.eye(states_num, states_num) - \
                                  gamma * P) ,rewards)
    return value

In [4]:
#test compute value
V = compute(P, rewards, gamma, 6)
print("MRP中每个状态价值分别为\n", V)

MRP中每个状态价值分别为
 [[-2.01950168]
 [-2.21451846]
 [ 1.16142785]
 [10.53809283]
 [ 3.58728554]
 [ 0.        ]]


   + 第八：MDP（S，A，P，r, γ）
    使用外界刺激来执行MRP。
     MDP 与 MRP：
     主要区别为 MDP 中的状态转移函数和奖励函数都比MRP 多了动作a作为自变量。
     在MDP中：我们不再使用类似MRP定义中的状态转移矩阵方式，
             而是直接表示成了状态转移函数。
             - 因为此时状态转移与动作也有关，变成了一个三维数组。
             - 如果状态集合不是有限的，就无法用数组表示，
                 但仍然可以用状态转移函数表示。
    eg：一艘小船在大海中随着水流自由飘荡的过程就是一个马尔可夫奖励过程
        如果有个水手在控制着这条船往哪个方向前进，
        就可以主动选择前往目的地获得比较大的奖励。
        
   + 第九：策略π
    确定性策略（deterministic policy）
        每个状态时只输出一个确定性的动作，即只有该动作的概率为1，其他动作的概率为0。
    随机性策略（stochastic policy）  
        它在每个状态时输出的是关于动作的概率分布，然后根据该分布进行采样就可以得到一个动作。。
        
   + 第十：价值函数 -> 状态价值函数（state-value function）
    定义为从状态出发遵循策略 π 能获得的期望回报。
    
   + 第十一：动作价值函数
        由于动作的存在，我们额外定义一个动作价值函数（action-value function）
        Qπ（s，a）
        表示在 MDP 遵循策略π时，对当前状态s执行动作a得到的期望回报：
        
        :::动作价值函数和状态价值函数的联系。
          Vπ(s) = Σ π(a|s)Qπ（s,a)
          Qπ（s,a）= r(s,a) + γΣP(s`|s,a)Vπ(s`)
          
   + 第十二：通过价值函数和动作价值函数—>贝尔曼方程
        V 和 Q函数互带 形成当前时刻与下一时刻的迭代式就是贝尔曼方程。
        


In [5]:
'''
#第一个策略是一个完全随机策略
#智能体会以 0.5 和 0.5 的概率选取动作“保持”和“前往”。
'''
S = ["s1", "s2", "s3", "s4", "s5"]  # 状态集合
A = ["保持s1", "前往s1", "前往s2", "前往s3", "前往s4", "前往s5", "概率前往"]  # 动作集合
# 状态转移函数
P = {
    "s1-保持s1-s1": 1.0,
    "s1-前往s2-s2": 1.0,
    "s2-前往s1-s1": 1.0,
    "s2-前往s3-s3": 1.0,
    "s3-前往s4-s4": 1.0,
    "s3-前往s5-s5": 1.0,
    "s4-前往s5-s5": 1.0,
    "s4-概率前往-s2": 0.2,
    "s4-概率前往-s3": 0.4,
    "s4-概率前往-s4": 0.4,
}
# 奖励函数
R = {
    "s1-保持s1": -1,
    "s1-前往s2": 0,
    "s2-前往s1": -1,
    "s2-前往s3": -2,
    "s3-前往s4": -2,
    "s3-前往s5": 0,
    "s4-前往s5": 10,
    "s4-概率前往": 1,
}
gamma = 0.5  # 折扣因子
MDP = (S, A, P, R, gamma)

# 策略1,随机策略
Pi_1 = {
    "s1-保持s1": 0.5,
    "s1-前往s2": 0.5,
    "s2-前往s1": 0.5,
    "s2-前往s3": 0.5,
    "s3-前往s4": 0.5,
    "s3-前往s5": 0.5,
    "s4-前往s5": 0.5,
    "s4-概率前往": 0.5,
}
# 策略2
Pi_2 = {
    "s1-保持s1": 0.6,
    "s1-前往s2": 0.4,
    "s2-前往s1": 0.3,
    "s2-前往s3": 0.7,
    "s3-前往s4": 0.5,
    "s3-前往s5": 0.5,
    "s4-前往s5": 0.1,
    "s4-概率前往": 0.9,
}


# 把输入的两个字符串通过“-”连接,便于使用上述定义的P、R变量
def join(str1, str2):
    return str1 + '-' + str2



   + 第十三：给定MDP和策略π 转化为MRP
    我们可以将策略的动作选择进行边缘化：
     边缘化实际上是将二维的概率分布转化为以为的概率分布。
        对于某一个状态，我们根据策略所有动作的概率进行加权，
        得到的奖励和就可以认为是一个 MRP 在该状态下的奖励。
        
   ***动作边缘化后的MDP和MRP有相同的构成所以我们可以使用MRP计算。***


In [6]:
gamma = 0.5
# 转化后的MRP的状态转移矩阵
P_from_mdp_to_mrp = [
    [0.5, 0.5, 0.0, 0.0, 0.0],
    [0.5, 0.0, 0.5, 0.0, 0.0],
    [0.0, 0.0, 0.0, 0.5, 0.5],
    [0.0, 0.1, 0.2, 0.2, 0.5],
    [0.0, 0.0, 0.0, 0.0, 1.0],
]
P_from_mdp_to_mrp = np.array(P_from_mdp_to_mrp)
R_from_mdp_to_mrp = [-0.5, -1.5, -1.0, 5.5, 0]

V = compute(P_from_mdp_to_mrp, R_from_mdp_to_mrp, gamma, 5)
print("MDP中每个状态价值分别为\n", V)

MDP中每个状态价值分别为
 [[-1.22555411]
 [-1.67666232]
 [ 0.51890482]
 [ 6.0756193 ]
 [ 0.        ]]


   + 第十四：Monte-Carlo methods
    运用蒙特卡洛方法时，我们通常使用重复随机抽样，
    然后运用概率统计方法来从抽样结果中归纳出我们想求的目标的数值估计。
    
### 如何用蒙特卡洛方法来估计一个策略在一个马尔可夫决策过程中的状态价值函数？
   1.一个状态的价值是它的期望回报，
    那么一个很直观的想法就是用策略在 MDP 上采样很多条序列，
    计算从这个状态出发的回报再求其期望就可以了。
    
   2.蒙特卡洛价值估计方法会在该状态每一次出现时计算它的回报。
    还有一种选择是一条序列只计算一次回报，
    也就是这条序列第一次出现该状态时计算后面的累积奖励，
    而后面再次出现该状态时，该状态就被忽略了。
    
   3.使用计数器记录状态和总回报
    使用总回报 / 状态s出现的次数 =  s的期望  


In [12]:
#采样函数
def sample(MDP, Pi, timestep_max, number):
    ''' 采样函数,策略Pi,限制最长时间步timestep_max,总共采样序列数number '''
    S, A, P, R, gamma = MDP
    episodes = []
    for _ in range(number):
        episode = []
        timestep = 0
        s = S[np.random.randint(4)]
        while s != "s5" and timestep <= timestep_max:
            #终止条件为s5 或是大于了timestep_max
            timestep += 1
            rand, temp = np.random.rand(),0
            #在采样中使用的变量
            for a_opt in A:
             #动作采样
                temp += Pi.get(join(s, a_opt), 0)
                if temp > rand:
                    '''
                    随机采样 动作有可能可以采集到也有可能采集不到。
                    但是如果当前策略中该动作的概率大则有较大可能性被采集到。
                    '''
                    a = a_opt
                    r = R.get(join(s, a), 0)
                    break
            rand, temp =  np.random.rand(),0   
            for s_opt in S:
                #状态采样
                temp += Pi.get(join(s, a_opt), 0)
                if temp > rand:
                    s_next = s_opt
                    break
            episode.append((s, a, r, s_next))
            s = s_next 
        episodes.append(episode)
    return episodes

In [13]:
episodes = sample(MDP, Pi_1, 20, 5)
print('第一条序列\n', episodes[0])
print('第二条序列\n', episodes[1])
print('第五条序列\n', episodes[4])

第一条序列
 [('s1', '前往s2', 0, 's2'), ('s2', '前往s3', -2, 's2'), ('s2', '前往s3', -2, 's2'), ('s2', '前往s1', -1, 's1'), ('s1', '前往s2', 0, 's1'), ('s1', '前往s2', 0, 's1'), ('s1', '前往s2', 0, 's2'), ('s2', '前往s3', -2, 's1'), ('s1', '前往s2', 0, 's2'), ('s2', '前往s3', -2, 's2'), ('s2', '前往s3', -2, 's1'), ('s1', '保持s1', -1, 's1'), ('s1', '保持s1', -1, 's2'), ('s2', '前往s1', -1, 's1'), ('s1', '前往s2', 0, 's2'), ('s2', '前往s3', -2, 's1'), ('s1', '前往s2', 0, 's2'), ('s2', '前往s3', -2, 's2'), ('s2', '前往s3', -2, 's1'), ('s1', '保持s1', -1, 's1'), ('s1', '前往s2', 0, 's2')]
第二条序列
 [('s3', '前往s4', -2, 's1'), ('s1', '前往s2', 0, 's1'), ('s1', '前往s2', 0, 's1'), ('s1', '前往s2', 0, 's1'), ('s1', '前往s2', 0, 's2'), ('s2', '前往s1', -1, 's2'), ('s2', '前往s3', -2, 's2'), ('s2', '前往s1', -1, 's2'), ('s2', '前往s1', -1, 's2'), ('s2', '前往s3', -2, 's1'), ('s1', '前往s2', 0, 's1'), ('s1', '前往s2', 0, 's2'), ('s2', '前往s3', -2, 's2'), ('s2', '前往s3', -2, 's2'), ('s2', '前往s3', -2, 's2'), ('s2', '前往s1', -1, 's2'), ('s2', '前往s1', -1, 's1'), ('s1', '前往

In [22]:
#根据采样的序列计算状态价值
def MC(episodes, V, N, gamma):
    for episode in episodes:
        G = 0
        for i in range(len(episode)-1, -1, -1):
        #序列计算从后往前计算
            (s, a, r, s_next) = episode[i]
            G = r + gamma * G
            N[s] = N[s] + 1
            V[s] = V[s] + (G - V[s]) / N[s]

In [25]:
timestep_max = 20
episodes = sample(MDP, Pi_1, timestep_max, 1000)
gamma = 0.5
V = {"s1": 0, "s2": 0, "s3": 0, "s4": 0, "s5": 0}
N = {"s1": 0, "s2": 0, "s3": 0, "s4": 0, "s5": 0}
MC(episodes, V, N, gamma)
print("使用蒙特卡洛方法计算MDP的状态价值为\n", V)

使用蒙特卡洛方法计算MDP的状态价值为
 {'s1': -1.4977730410650685, 's2': -2.4984026466125626, 's3': -2.065646979370449, 's4': 4.945365749994411, 's5': 0}



### 占用度量：
不同策略会使智能体访问到不同概率分布的状态这个事实，这会影响到策略的价值函数。
分析详见https://hrl.boyuai.com/chapter/1/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%86%B3%E7%AD%96%E8%BF%87%E7%A8%8B
    1.定义 MDP 的初始状态分布：
    状态访问概率表示一个策略和 MDP 交互会访问到的状态的分布。
    2.定义策略的占用度量
    它表示动作状态对（s, a）被访问到的概率。
    
   + 定理1：给定一合法占用度量，可以生成唯一的策略。
   + 定理2：如果策略相同，那么与同一个MDP交互得到的占用度量是相同的。


In [51]:
#估计占用度量
def occupancy(episodes, s, a, timestep_max, gamma):
    rho = 0
    total_times = np.zeros(timestep_max + 1)  # 记录每个时间步t各被经历过几次
    occur_times = np.zeros(timestep_max + 1)  # 记录(s_t,a_t)=(s,a)的次数
    for episode in episodes:
        for i in range(len(episode)):
            (s_opt, a_opt, r, s_next) = episode[i]
            total_times[i] += 1
            if s == s_opt and a == a_opt:
                occur_times[i] += 1
    for i in reversed(range(timestep_max)):
        if total_times[i]:
            rho += gamma**i * occur_times[i] / total_times[i]
    return (1 - gamma) * rho
            

In [52]:
gamma = 0.5
timestep_max = 1000
episodes_1 = sample(MDP, Pi_1, timestep_max, 1000)
episodes_2 = sample(MDP, Pi_2, timestep_max, 1000)
rho_1 = occupancy(episodes_1, "s4", "概率前往", timestep_max, gamma)
rho_2 = occupancy(episodes_2, "s4", "概率前往", timestep_max, gamma)
print(rho_1, rho_2)

0.055 0.13101526373822503
