# 第1课：基本概念

强化学习（Reinforcement Learning, RL）是让智能体（agent）在一个环境（environment）中与其互动、通过获得奖励（reward）来学习最优决策策略的一种学习方法。

本节主要介绍强化学习中的核心要素和建模方式，包括状态、动作、策略、奖励、回报，以及马尔可夫决策过程（MDP）等基本概念。

---

## Part 1：State, Action, Policy 等

### 1.1 状态（State）与状态空间（State Space）

* 状态 $s \in \mathcal{S}$ 表示环境在某一时刻的描述，是智能体做决策所依据的信息。
* 状态空间 $\mathcal{S}$ 可以是有限的离散集合（如棋盘位置）或连续空间（如小车坐标与速度）。

**例子：**

* 下围棋时，状态是当前棋盘的布局。
* 在自动驾驶中，状态可能是车辆的速度、加速度、前方距离等组合特征。

---

### 1.2 动作（Action）与动作空间（Action Space）

* 动作 $a \in \mathcal{A}(s)$ 是智能体在状态 $s$ 下可采取的行为选择。
* 动作空间 $\mathcal{A}$ 可以是离散集合（如上下左右移动），也可以是连续的（如转向角度为任意实数）。

**例子：**

* 在 Atari 游戏中，动作是按哪个键。
* 在控制任务中，动作可能是一个实数力的施加方向。

---

### 1.3 策略（Policy）

策略是智能体在每个状态下选择动作的行为准则，是强化学习的核心目标之一。

有两种策略表示方式：

* **确定性策略（Deterministic Policy）**

  $$
  a = \pi(s)
  $$

  表示在状态 $s$ 下总是选择动作 $a$。

* **随机性策略（Stochastic Policy）**

  $$
  \pi(a|s) = P(a|s)
  $$

  表示在状态 $s$ 下以概率 $P(a|s)$ 选择动作 $a$。

策略的目标：最大化长期回报 $G_t$。

---





## Part 2：Reward, Return, MDP 等

### 2.1 奖励（Reward）

* 奖励 $r_t$ 是环境在时间步 $t$ 给智能体的反馈信号，用来评价当前动作的好坏。
* 奖励值可以是正（鼓励）、负（惩罚）或零（中性）。

**注意：**

* 奖励是局部即时信号，不等于长期好坏。
* 智能体的学习目标通常是**累计奖励最大化**，而非单步奖励最大化。

---

你写得已经很清晰了，我在此基础上为你**补充“折扣回报（discounted return）”的深入解释与注解**，让这部分更加完整：

---

### 2.2 回报（Return）

> 回报 $G_t$ 是从时间步 $t$ 开始，智能体之后所获得的所有奖励的**加权和**。

强化学习中主要有两种任务类型，对应两种回报的定义方式：

---

#### **有限期任务（episodic task）**：

* 任务在有限步后终止（如走出迷宫、下完一盘棋）

$$
G_t = r_{t+1} + r_{t+2} + \cdots + r_T
$$

其中 $T$ 是 episode 的终止时间步。

---

#### **无限期任务（continuing task）**：

* 智能体的行为永不终止（如机器人巡逻、投资策略）
* 为避免回报无限大，引入 **折扣因子 $\gamma \in [0, 1)$** 控制未来奖励的重要性

$$
G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}
$$

---

#### 2.2.1 折扣回报（Discounted Return）

折扣回报是无限期任务中**最常用的回报定义**，也是后续值函数、Bellman方程等概念的基础。

$$
\boxed{
G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}
}
$$

##### 为什么引入折扣因子？

1. **收敛性**：若奖励始终为正常数，则不加折扣会导致 $G_t \to \infty$
2. **不确定性建模**：未来不可知，故不应与当前奖励等价对待
3. **偏好近期奖励**：尤其在工程中更关心短期反馈（例如机器人避障）

---

##### 折扣因子的取值含义：

| $\gamma$ 值         | 解释             |
| ------------------ | -------------- |
| $\gamma = 0$       | 仅考虑眼前奖励（即贪婪）   |
| $\gamma = 0.5$     | 中等程度考虑未来       |
| $\gamma \approx 1$ | 长期回报导向（如围棋、金融） |

通常设为 0.9\~0.99。

---

### 小结：

* **回报 $G_t$** 是智能体学习的基础信号
* **折扣回报**使得学习过程**可收敛、可控、可解释**
* 后续的 **状态值函数** $V^\pi(s) = \mathbb{E}_\pi[G_t \mid s_t = s]$ 和 **贝尔曼方程** 都基于折扣回报



---

### 2.3 马尔可夫决策过程（Markov Decision Process, MDP）

强化学习的问题通常建模为一个 MDP，即一个五元组：

$$
(\mathcal{S}, \mathcal{A}, P, R, \gamma)
$$

* $\mathcal{S}$：状态空间
* $\mathcal{A}$：动作空间
* $P(s'|s,a)$：状态转移概率，表示在状态 $s$ 采取动作 $a$ 后转移到下一个状态 $s'$ 的概率
* $R(s,a)$：奖励函数，表示在状态 $s$ 下采取动作 $a$ 所得到的期望奖励
* $\gamma$：折扣因子，控制未来奖励的影响力

**马尔可夫性质**：
未来状态 $s_{t+1}$ 只依赖于当前状态 $s_t$ 和当前动作 $a_t$，与过去状态和动作无关：

$$
P(s_{t+1}|s_t,a_t,s_{t-1},a_{t-1},...) = P(s_{t+1}|s_t,a_t)
$$



### 总结

| 概念  | 符号                                         | 含义                   |
| --- | ------------------------------------------ | -------------------- |
| 状态  | $s$                                        | 当前环境的描述              |
| 动作  | $a$                                        | 智能体对状态的响应行为          |
| 策略  | $\pi$                                      | 映射状态到动作的函数（可能是概率分布）  |
| 奖励  | $r$                                        | 环境给予智能体的反馈           |
| 回报  | $G_t$                                      | 智能体从时间步 $t$ 起获得的累积奖励 |
| MDP | ($\mathcal{S}, \mathcal{A}, P, R, \gamma$) | 强化学习的建模框架            |


# Q1 episodes 与 trajectories 的关系，以及它们在强化学习中的角色和区别。

---

## 一句话总结

> **Trajectory（轨迹）** 是一条完整的状态-动作-奖励序列，**Episode（回合）** 是一种特殊类型的轨迹，指**从初始状态到终止状态的轨迹**。

---

## 1. Trajectory（轨迹）

### 定义：

* 轨迹是智能体与环境交互过程中产生的**一个完整序列**，通常包含状态、动作、奖励等：

  $$
  \tau = (s_0, a_0, r_1, s_1, a_1, r_2, \ldots, s_T)
  $$
* 轨迹可以是：

  * **有限的**：以终止状态 $s_T$ 结束（见 episode）
  * **无限的**：例如在持续性任务中（continuing task），轨迹可以一直延续下去，不一定终止

### 表达形式：

* 完整轨迹（含奖励）：

  $$
  \tau = (s_0, a_0, r_1, s_1, a_1, r_2, \dots, s_T)
  $$
* 简写形式（不含奖励）：

  $$
  \tau = (s_0, a_0, s_1, a_1, \dots, s_T)
  $$

---

## 2. Episode（回合）

### 定义：

* Episode 是从环境初始状态开始，到\*\*达到终止状态（terminal state）\*\*为止的一条轨迹。
* 它是**有限轨迹的一种**，适用于“任务有明确起止”的场景（如：下棋、闯关游戏等）。

### 举例：

* 在走迷宫任务中，一次成功或失败走出迷宫都可视为一个 episode。
* 在 Atari 游戏中，游戏结束或生命用完即 episode 结束。

---

## 3. 它们的关系与区别

| 比较项    | Trajectory（轨迹） | Episode（回合）        |
| ------ | -------------- | ------------------ |
| 是否终止   | 可以终止也可以不终止     | 必须在终止状态结束          |
| 长度     | 可有限或无限         | 有限长度               |
| 应用场景   | 所有任务都可使用       | 通常用于 episodic task |
| 是否包含奖励 | 可以包含也可以不包含     | 通常包含奖励             |

 **结论**：

* 所有 episode 都是 trajectory，但不是所有 trajectory 都是 episode。
* 在实现策略优化（如 REINFORCE）或训练经验回放（如 DQN）时，都需要采样 trajectory（有时用 episodic trajectory）。

---

## 4. 补充术语

* **Partial Trajectory / Fragment**：轨迹的一部分，如 $(s_t, a_t, r_{t+1}, s_{t+1})$
* **Trajectory Segment**：若干连续步骤构成的轨迹片段，常用于 n-step 方法。
* **Trajectory Distribution**：在策略 $\pi$ 下，所有可能轨迹的分布（在策略梯度中非常重要）：

  $$
  p_\pi(\tau) = p(s_0)\prod_{t=0}^{T-1} \pi(a_t|s_t) P(s_{t+1}|s_t,a_t)
  $$


