## 马尔可夫（MDP）决策过程

- 状态价值函数

  状态价值函数 $V^{\pi}(s)$ 表示在策略 $\pi$ 下，从状态 $s$ 开始所能获得的期望累积回报。

  **公式：**
    $$V^{\pi}(s) = \mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \mid S_t = s\right]$$

  其中：
  - $\pi$ 是策略
  - $s$ 是状态
  - $\gamma$ 是折扣因子
  - $R_{t+k+1}$ 是时刻 $t+k+1$ 的奖励

- 动作价值函数

  动作价值函数 $Q^{\pi}(s, a)$ 表示在策略 $\pi$ 下，从状态 $s$ 执行动作 $a$ 后所能获得的期望累积回报。

  **公式：**
  $$Q^{\pi}(s, a) = \mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \mid S_t = s, A_t = a\right]$$

  其中：
  - $a$ 是动作
  - $A_t$ 是时刻 $t$ 的动作


## 贝尔曼期望方程

- 状态价值函数的贝尔曼方程

  **公式：**
  $$V^{\pi}(s) = \sum_{a \in A} \pi(a \mid s) \sum_{s' \in S} P(s' \mid s, a) \left[R(s, a, s') + \gamma V^{\pi}(s')\right]$$
  
  ![alt text](57f729de048db7dd85a92c19d12103da.jpg)

- 动作价值函数的贝尔曼方程

  **公式：**
  $$Q^{\pi}(s, a) = \sum_{s' \in S} P(s' \mid s, a) \left[R(s, a, s') + \gamma \sum_{a' \in A} \pi(a' \mid s') Q^{\pi}(s', a')\right]$$

  ![alt text](3d1f13bb494a1183dd4ef1a133d68442.jpg)

- 两个价值函数之间的关系

  **从状态价值到动作价值：**
  $$Q^{\pi}(s, a) = \sum_{s' \in S} P(s' \mid s, a) \left[R(s, a, s') + \gamma V^{\pi}(s')\right]$$

  **从动作价值到状态价值：**
  $$V^{\pi}(s) = \sum_{a \in A} \pi(a \mid s) Q^{\pi}(s, a)$$

  其中：
  - $P(s' \mid s, a)$ 是状态转移概率
  - $R(s, a, s')$ 是即时奖励
  - $\pi(a \mid s)$ 是策略概率
  - $S$ 是状态空间
  - $A$ 是动作空间

## 贝尔曼最优方程

- 状态价值函数的贝尔曼最优方程

    最优状态价值函数 $V^*(s)$ 表示在所有可能的策略中，从状态 $s$ 开始所能获得的最大期望累积回报。

    **公式：**
    $$V^*(s) = \max_{\pi} V^{\pi}(s)$$

    $$V^*(s) = \max_{a \in A} \sum_{s' \in S} P(s' \mid s, a) \left[R(s, a, s') + \gamma V^*(s')\right]$$

- 动作价值函数的贝尔曼最优方程

  最优动作价值函数 $Q^*(s, a)$ 表示在所有可能的策略中，从状态 $s$ 执行动作 $a$ 后所能获得的最大期望累积回报。

  **公式：**
  $$Q^*(s, a) = \max_{\pi} Q^{\pi}(s, a)$$

  $$Q^*(s, a) = \sum_{s' \in S} P(s' \mid s, a) \left[R(s, a, s') + \gamma \max_{a' \in A} Q^*(s', a')\right]$$

- 最优策略

  基于最优价值函数，最优策略 $\pi^*$ 可以表示为：

  **确定性最优策略：**
  $$\pi^*(s) = \arg\max_{a \in A} Q^*(s, a)$$

  **或等价地：**
  $$\pi^*(s) = \arg\max_{a \in A} \sum_{s' \in S} P(s' \mid s, a) \left[R(s, a, s') + \gamma V^*(s')\right]$$

- 最优价值函数之间的关系

  $$Q^*(s, a) = \sum_{s' \in S} P(s' \mid s, a) \left[R(s, a, s') + \gamma V^*(s')\right]$$

  $$V^*(s) = \max_{a \in A} Q^*(s, a)$$