# EazyRL_v1.0.6 笔记

---

## 1. 绪论
> 9/6

### 强化学习 RL

- 机器学习的一个分支
- 研究智能主体在环境中如何采取行动以最大化累积奖励
- 基本思想是通过智能体（Agent）与环境（Environment）的**交互**来**学习最优策略**，使得智能体能够采取一系列**动作**以**获取最大的长期奖励**
- 目标是寻找最优策略

![](./img/1.png)

Agent 产生 action 作用于 env

env 根据 action 产生 reward 和 next_state

agent 根据 reward 和 next_state 进行更新

循环上述过程

**与监督学习对比**

监督学习：
- 样本互不相关，是独立同分布的
- 根据监督者给出的 label 确定正误
- 通过反向传播更新模型参数，实现学习

强化学习：
- 输入的是序列数据，数据之间有很强的关联
- 不给出正确的动作，需要学习器不断尝试
- 延迟奖励：奖励信号不是立即给出的，而是延迟一段时间
- 动作会影响后面的数据

深度强化学习：省去特征提取，实现端到端

### 序列决策

在与环境的交互过程中，智能体会获得很多观测

每一个观测 - 采取一个动作 - 得到一个奖励

**历史是观测 动作 奖励的序列**

智能体采取**当前动作** 依赖于 **得到的历史**

**状态是历史的函数**

基本问题：**学习与规划**

智能体能够观察环境所有状态（上帝视角） - 完全可观测的环境 - 马尔可夫决策过程 MDP

智能体只能看到部分的观测状态（有限信息） - 部分可观测的环境 - 部分可观测马尔可夫决策过程 POMDP

### 动作空间

给定环境中 有效动作的集合

- 离散动作空间：动作数量有限，如围棋
- 连续动作空间：动作是实值的向量，如智能驾驶

### 智能体组成

> 策略，价值函数，模型

#### **策略**

输入状态到动作的函数

- 随机性策略：概率分布采样
- 确定性策略：直接选择最有可能的动作（可能性最大的动作）

通常采用随机性策略，避免出现局部最优解。

#### **价值函数**

函数值是对**未来奖励**的预测

**折扣因子**

折扣因子γ（gamma） 反映了决策者对未来收益相对于当前收益的重视程度。

折扣因子越大，表示决策者越看重未来的收益；

折扣因子越小，表示决策者越倾向于即时满足，即更看重当前的收益。



![](./img/2.png)

pi策略 gamma折扣因子 r回报 s状态

**Q 函数**

包含 状态 和 动作 两个变量，未来可以获得奖励的期望取决于当前的状态和当前的动作。

![](./img/3.png)

#### **模型**

- 状态转移概率
- 奖励函数：当前状态采取某个动作可以得到的奖励（价值函数是预测）

### 智能体类型

#### **基于价值 / 基于策略**

- 基于价值：学习价值函数 （QL,Sarsa）
- 基于策略：学习策略，通过状态给出动作概率 (PG)
- 结合两者：演员（策略）- 评论员（价值）智能体

基于价值迭代的方法只能应用在不连续的、离散的环境下，而基于策略迭代的方法可以应用在连续的环境中。

#### **有模型 / 免模型**

是否需要对真实环境进行建模：

- 有模型：学习状态转移来采取动作，如状态转移和奖励函数都是**已知**的，能知道某一状态采取某一决策后的奖励和状态（动规问题）
- 免模型：学习价值函数和策略函数进行决策，没有环境转移函数和奖励函数。没有对真实环境进行建模，智能体只能在真实环境中通过一定的策略来执行动作，**等待**奖励和状态迁移，然后根据这些反馈信息来**更新**动作策略，这样反复迭代直到学习到最优策略。

有模型同时在真实环境与虚拟世界学习

免模型直接与真实环境交互来学习 一般需要大量数据样本

### 探索与利用

单步强化学习任务 - K-臂赌博机

- 仅探索：机会平均分配，最后计算期望
- 仅利用：贪心

### 实验

In [28]:
import gym
import pygame

**CartPole-v0 环境**

In [79]:
env = gym.make('CartPole-v0')
env.reset()

for _ in range(100):
    env.render()
    action = env.action_space.sample()
    observation, reward, done, info, others = env.step(action)
env.close()

动作：

In [80]:
env.action_space.sample() # 0 or 1

1

状态信息 observation

In [81]:
observation

array([4.2427716, 3.7990518, 6.626667 , 4.7200627], dtype=float32)

奖励 reward

In [82]:
reward

0.0

游戏是否完成了 done

In [83]:
done

True

调试信息 info

In [85]:
info

False

`step()` 完成了一个完整的 S-A-R-S' 迭代过程

查看 gym 库中的环境：

In [89]:
from gym import envs

specs = envs.registry.values() # 原书代码有误
ids = [spec.id for spec in specs]
ids

['CartPole-v0',
 'CartPole-v1',
 'MountainCar-v0',
 'MountainCarContinuous-v0',
 'Pendulum-v1',
 'Acrobot-v1',
 'LunarLander-v2',
 'LunarLanderContinuous-v2',
 'BipedalWalker-v3',
 'BipedalWalkerHardcore-v3',
 'CarRacing-v2',
 'Blackjack-v1',
 'FrozenLake-v1',
 'FrozenLake8x8-v1',
 'CliffWalking-v0',
 'Taxi-v3',
 'Reacher-v2',
 'Reacher-v4',
 'Pusher-v2',
 'Pusher-v4',
 'InvertedPendulum-v2',
 'InvertedPendulum-v4',
 'InvertedDoublePendulum-v2',
 'InvertedDoublePendulum-v4',
 'HalfCheetah-v2',
 'HalfCheetah-v3',
 'HalfCheetah-v4',
 'Hopper-v2',
 'Hopper-v3',
 'Hopper-v4',
 'Swimmer-v2',
 'Swimmer-v3',
 'Swimmer-v4',
 'Walker2d-v2',
 'Walker2d-v3',
 'Walker2d-v4',
 'Ant-v2',
 'Ant-v3',
 'Ant-v4',
 'Humanoid-v2',
 'Humanoid-v3',
 'Humanoid-v4',
 'HumanoidStandup-v2',
 'HumanoidStandup-v4']

#### 与 `gym` 库交互

示例：小车上山

In [1]:
import gym
env = gym.make('MountainCar-v0')
env

<TimeLimit<MountainCarEnv<MountainCar-v0>>>

观测空间：连续空间用 `gym.spaces.Box` 类 表示范围

In [2]:
env.observation_space

Box([-1.2  -0.07], [0.6  0.07], (2,), float32)

动作空间：离散空间用 `gym.spaces.Discrete` 类 表示可取的数量，即动作数

In [3]:
env.action_space

Discrete(3)

实现智能体，控制小车移动：

In [4]:
class SimpleAgent:
    def __init__(self, env):
        pass
    def decide(self, observation):
        pos,vel = observation
        lb = min( -0.09 * (pos + 0.25) ** 2 + 0.03,
                0.3 * (pos + 0.9) ** 4 - 0.008 )
        ub = -0.07 * (pos + 0.38) ** 2 + 0.07
        if lb < vel < ub:
            return  2
        else: return 0
    def learn(self, *args):
        pass

In [5]:
agent = SimpleAgent(env)

与环境交互：

In [6]:
def play(env,agent,render=False,train=False):
    episode_reward = 0 # 回合总奖励
    observation = env.reset() 
    while True:
        if render:
            env.render()
        action = agent.decide(observation)
        next_obs,reward,done,_ = env.step(action) 
        episode_reward += reward
        if train:
            agent.learn(observation,action,reward,done)
        if done:
            break
        observation = next_obs
    return episode_reward

交互一回合：
> !TODO notebook 中无法显示 gym 窗口

In [7]:
env.seed(7) # 随机种子 v0.26 已经去掉了这个方法
episode_reward= play(env,agent)
episode_reward

-105.0

评估智能体的性能，需要计算出连续交互 100 回合的平均回合奖励：

In [8]:
episode_rewards = [ play(env,agent) for _ in range(100) ]
import numpy as np
np.mean(episode_rewards)

-106.13

#### **总结**

In [None]:
env = gym.make('') # 取环境
obs = env.reset()  # 初始化环境
action = 1         # 随机动作
next_obs,reward,done,info = env.step(action)   # 执行动作

**习题**

**1. 强化学习基本结构？**

agent, environment, reward, value function, policy/action

**2. 比监督学习训练过程困难的原因**

延迟奖励

**3. 基本特征**

exploration, exploitation

**5. 状态和观测？**

状态：客观世界中事物的属性，是事物内部特征的集合，是全集

观测：是状态的一种表现，是外界对状态的一种观察，是子集

**6. 智能体组成**

policy, value function, model

**7. 分类？**

policy_based, value_based

model_free, model_based


**8. 基于策略迭代和基于价值迭代的强化学习方法有什么区别**

策略：通过策略给出概率，连续的环境

价值：学习价值函数，离散的环境

**9. 有模型学习和免模型学习有什么区别**

有：奖励函数 / 价值函数 都是明确的，可以建立清晰的模型

无：现实情况，无需模型。通过智能体与环境的交互来学习。需要较大的数据样本量

**10. 强化学习？**

通过智能体与环境的不断交互，优化调整策略，以期达到最优奖励

输入是一串序列，样本之间具有相关性

---