# 十、动态规划
在实践中有许多决策问题与时间有关系, 决策过程分成若干阶段, 各阶段的决策相互关联, 共同决定最终的目标, 我们称之为多阶段决策问题, 针对多阶段决策问题的特点, 人们提出了解决该类问题的动态规划模型和求解方法.
本章首先介绍多阶段决策问题, 然后给出最优化原理和动态规划模型, 最后介绍动态规划方法在实践中的一些应用.


## 1.多阶段决策问题
本节将通过各种不同类型的实例引出多阶段决策问题, 并给出该类问题的一般描述和概念.

### 1.1最短路问题
最短路问题就是从某地出发, 途经若干中间点最后到达目的地, 要求找出路程或费用最小的路线, 根据途经中间点的情况,最短路问题可分成两类:
(1) 每个路线包含的边数相等;
(2) 不同路线包含的边数不一定相等.
下面首先介绍一个边数相等的例子, 在 $3$ 中将重点解决第二类最短路问题.
**例** 管道设计
从 $A$ 点铺设一条煤气管道到 $E$ 点, 必须经过三个中间站,第一站可以在 $B_{1}, B_{2}, B_{3}$ 中选择. 类似地, 第二站, 第三站分别可以在 $C_{1}$, $C_{2}, C_{3}$ 和 $D_{1}, D_{2}, D_{3}$ 中选择. 能用管道相连的两站之间的距离已经给定. 要求选择一条由 $A$ 到 $E$ 的铺管路线,使总距离最短.
找一条从 $A$ 到 $E$ 的管道路线问题与确定三个中间站的位置本质上是一样的, 当三个中间站的位置都确定了, 一条从 $A$ 到 $E$ 的路线也就确定了, 整个决策可以看成三个阶段, 每个阶段确定一个中间站的位置, 最终选择的路线由三个阶段的决策共同决定.
### 1.2.资源分配问题
资源分配问题主要是考虑把有限的资源在不同生产活动和不同时段上分配, 以在特定的时期内获得最大的收益.
**多阶段资源分配问题**的一般提法是:
设有数量为 $x$ 的某种资源, 将它投入两种生产方式 $\mathrm{A}$ 和 $\mathrm{B}$ 中, 以数量 $y$ 投入生产方式 $\mathrm{A}$, 剩下的量投入生产方式 $\mathrm{B}$, 则可得到收人 $g(y)+h(x-y)$, 其中 $g(y)$ 和 $h(y)$ 是已知函数, 并且 $g(0)=h(0)=0$. 再假设以 $y$ 与 $x-y$ 分别投入两种生产方式 $\mathrm{A}, \mathrm{B}$ 后可以回收再生产, 回收率分别为 $a$ 与 $b(0 \leqslant a \leqslant 1,0 \leqslant b \leqslant 1)$. 试述几个阶段总收益最大的资源分配计划.
**例** 今有 1000 台机床, 要投放到 $\mathrm{A}, \mathrm{B}$ 两个生产部门, 计划连续使用 5 年,已知对 $\mathrm{A}$ 部门投人 $\mu_{\mathrm{A}}$ 台机器的年收益为 $g\left(\mu_{\mathrm{A}}\right)=\mu_{\mathrm{A}}^{2}$, 机器完好率 $a=0.8$; 相立地, B 部门的年收益与机器完好率分别为 $h\left(\mu_{\mathrm{B}}\right)=2 \mu_{\mathrm{B}}^{2}, b=0.4$.
试建立 5 年间总收益最大的年度机器分配方案.
对于多阶段资源分配问题, 由于当期投入两个生产活动若干资源后, 当期会有部分收益, 同时当期结束时资源可部分回收或可再利用,因而下期可利用这些资源继续生产.每期可利用资源量由上期可利用资源量、资源在两种生产的分配情况共同决定, 每期都有当期的收人, 而总收益是多期收益之和.
### 1.3.生产-库存问题
一般**生产–库存问题**的提法为:设有一生产部门, 生产计划周期为几个阶段, 已知最初库存量为 $X_{1}$, 第 $i$ 个阶段产品需求量为 $d_{i}, i=1,2, \cdots, n$. 生产的固定成本为 $C$, 单位可变成本为 $L$, 单位产品的阶段库存费用为 $h$, 库存容量为 $M$, 阶段生产能力为 $B$, 问应如何安排各阶段的产量, 在满足需求的条件下使计划期内的总费用最小.
**例** 某工厂生产某种季节性商品, 需要做下一年度的生产计划, 假定这种商品的生产周期需要两个月, 全年共有 6 个生产周期,需要作出各个周期中的生产计划.设已知各周期对该商品的需要量如下表所示:
\begin{array}{|ccccccc|}
\hline 周期 & 1 & 2 & 3 & 4 & 5 & 6 \\
\hline 需要量 & 5 & 5 & 10 & 30 & 50 & 8 \\
\hline
\end{array}
假设这个工厂根据需要可以日夜两班生产或只是日班生产, 当开足日班时, 每一个生产周期能生产商品 15 个单位, 每生产一个单位商品的成本为 100 元. 当开足夜班时, 每一生产周期能生产的商品也是 15 个单位, 但是由于增加了辅助性生产设备和生产辅助费用, 每生产一单位商品的成本为 120 元. 由于生产能力的限制, 可以在需求淡季多生产一些商品储存起来以备需求旺季使用, 但存储商品还需要存储费用, 假设每单位产品存储一个周期需要 16 元, 已知开始时存储为 0 , 问应如何安排生产和存储计划使总费用最小?
对于生产–库存问题,每期的产品供给量由当期初的存储量和当期的生产量决定, 每期初的库存水平影响着当期的生产决策和期末的库存水平, 而每期末的库存水平就是下期初的库存水平, 各期通过这种关系产生联系, 同时每期都有 生产成本和存储成本, 而目标是各期生产成本和存储成本之和最小.
### 1.4.一般多阶段决策问题
与上述问题类似的还有许多, 诸如设备更新问题, 系统可靠性问题, 背包问题 $\cdots \cdots$, 这些问题可以统一描述如下:
有一个系统,可以分成若干个阶段, 任意一个阶段 $k$ 的系统状态可以用 $x_{k}$ 表示 ( $x_{k}$ 可以是数量、向量、集合等). 在每一阶段 $k$ 的每一状态 $x_{k}$ 都有一个决策集合 $Q_{k}\left(x_{k}\right)$, 在 $Q_{k}\left(x_{k}\right)$ 中选定一个决策 $q_{k} \in Q_{k}\left(x_{k}\right)$, 状态 $x_{k}$ 就转移到新的状态 $x_{k+1}=T_{k}\left(x_{k}, q_{k}\right)$, 并且得到效益 $R_{k}\left(x_{k}, q_{k}\right)$. 我们的目的就是在每一个阶段都在它的决策集合中选择一个决策, 使所有阶段的总效益 $\sum_{k} R_{k}\left(x_{k}, q_{k}\right)$ 达到最优. 我们 称之为多阶段决策问题.
一个多阶段决策问题包括**阶段数、状态变量、决策变量、状态转移方程和目标函数**等基本要素, 描述一个多阶段决策问题就要从以上基本要素人手, **只要这些基本要素刻画清楚了, 整个决策问题就明了了**. 下面以多阶段资源分配问题为例说明如何确定一个多阶段决策问题.
对于多阶段资源分配问题, 其**阶段数**就是其投资进行的阶段个数, 具体在机床一例中就是 5. 在每个阶段开始就必须已知, 且直接影响本阶段决策的因素就是每个阶段开始时所有的资源量, 所以每阶段的**状态变量**就是对应的开始时的资源量,记为 $x_{k}, k=1,2, \cdots, n$. 即每年开始时可利用的机器台数 $x_{k}, k=1,2, \cdots, 5$. 而每期的**决策变量**就是资源在两种生产方式上的使用量. 由于两种生产方式使用资源量之和等于可利用资源总量, 因而只需确定第一种生产方式使用的资源数量即可, 所以每阶段的决策变量就是每阶段安排第一种生产方式使用的资源量, 即每年开始时安排 $\mathrm{A}$ 部门使用的机器台数, 设为 $y_{k}, k=1,2, \cdots, 5$. 当确定了每期开始时可利用资源量及 $\mathrm{A}$ 部门使用的资源量后, 就可以计算出期末回收 (或可利用) 的资源量, 即每年的期末保持完好的机器数为
$$
\left(x_{k}-y_{k}\right) \times 0.4+y_{k} \times 0.8, \quad k=1,2, \cdots, 5
$$
显然, 第 $k$ 期末保持完好的机器数就是第 $k+1$ 期可利用的机器数, 即
$$
x_{k+1}=\left(x_{k}-y_{k}\right) \times 0.4+y_{k} \times 0.8, \quad k=1,2, \cdots, 4
$$
这就是该问题的**状态转移方程**.
同时每阶段的收益是两种生产方式收益之和, 总收益是每阶段收益之和, 即总收益为
$$
\sum_{k=1}^{5}\left[y_{k}^{2}+2\left(x_{k}-y_{k}\right)^{2}\right]
$$
这就是总的**目标函数**.
不同问题的要素不尽相同, 根据要素的差异, 多阶段决策问题可以分成不同类型:
(1)根据阶段数可分为:
有限阶段决策问题,其阶段数为有限值;
无限阶段决策问题, 其阶段数为无穷大, 决策过程可无限持续下去.
(2)根据变量取值情况可分为:
连续多阶段决策问题,决策变量和状态变量取连续变化的实数;
离散多阶段决策问题, 决策变量和状态变量取有限的数值.
(3)根据阶段个数是否明确可分为:
定期多阶段决策问题, 其阶段数是明确的, 不受决策的影响;
不定期多阶段决策问题, 其阶段数是不确定的, 不同的决策下阶段数不同.
(4)根据参数取值情况可分为:
确定多阶段决策问题,其参数是给定的常数;
不确定多阶段决策问题, 其参数中包含不确定因素, 如随机参数, 区间取值参数等.

本章下面着重介绍**确定有限多阶段决策问题**.
## 2.最优化原理
许多优化问题既可以写成一般线性(或非线性)规划模型, 又可以看成是多阶段决策问题, 这类问题的线性 (或非线性) 规划模型往往变量或约束很多, 用前几章讲过的方法求解很麻烦. 例如第二章介绍的**旅游售货员问题**, 虽然可以写成整数线性规划, 但用整数规划方法求解并不合适. 因而必须针对多阶段决策问题的特点, 考虑好的求解方法. 本节首先以最短路问题为例介绍递推方法, 然后给出动态规划的最优化原理.
### 2.1用递推法解最短路问题
现在我们来讨论上节提到的最短路问题. 联结各点的线段上的数字表示它们之间的弧长. 我们从 $A_{0}$ 出发要走到目的地 $A_{6}$, 问经过哪些点, 走什么路线使总路程最短.
![](./images/最优化原理1.png)
由上图可知从 $A_{0}$ 到 $A_{6}$ 的最短路第一步要么到 $A_{1}$, 要么到 $B_{1}$, 然后由 $A_{1}$ (或 $B_{1}$ ) 到 $A_{6}$, 而且必然沿着 $A_{1}$ (或 $B_{1}$ ) 到 $A_{6}$ 的最短路走, 因而如果知道 $A_{1}$ 和 $B_{1}$ 到 $A_{6}$ 的最短路, 然后分别加上 $A_{0} A_{1}$ 和 $A_{0} B_{1}$ 就得到两条从 $A_{0}$ 到 $A_{6}$ 的路, 其中长度小的就是从 $A_{0}$ 到 $A_{6}$ 的最短路, 由于 $A_{0}$ 到 $A_{6}$ 的每条路含 6 条边, $A_{1}$ 和 $B_{1}$ 到 $A_{6}$ 的路有 5 条边, 分别说它们到 $A_{6}$ 的最短路长度为 $f_{6}\left(A_{0}\right), f_{5}\left(A_{1}\right)$ 和 $f_{5}\left(B_{1}\right)$, 则显然有:
$$
f_{6}\left(A_{0}\right)=\min \left\{d\left(A_{0}, A_{1}\right)+f_{5}\left(A_{1}\right), d\left(A_{0}, B_{1}\right)+f_{5}\left(B_{1}\right)\right\}
$$
所以要求 $f_{6}\left(A_{0}\right)$ 的关键是求 $f_{5}\left(A_{1}\right)$ 和 $f_{5}\left(B_{1}\right)$, 即找出 $A_{1}$ 和 $B_{1}$ 到 $A_{6}$ 的最短路. 从 $A_{1}$ 到 $A_{6}$ 的最短路要么先到 $A_{2}$, 要么先到 $B_{2}$ 或先到 $C_{2}$, 然后再由 $A_{2}$ (或 $B_{2}$ 或 $C_{2}$ ) 沿最短路到 $A_{6}$. 由于 $A_{2}、 B_{2}$ 和 $C_{2}$ 到 $A_{6}$ 的路有 4 条边, 记它们到 $A_{6}$ 的最短路长度分别为 $f_{4}\left(A_{2}\right), f_{4}\left(B_{2}\right), f_{4}\left(C_{2}\right)$, 则有
$$
f_{5}\left(A_{1}\right)=\min \left\{d\left(A_{1}, A_{2}\right)+f_{4}\left(A_{2}\right), d\left(A_{1}, B_{2}\right)+f_{4}\left(B_{2}\right), d\left(A_{1}, C_{2}\right)+f_{4}\left(C_{2}\right)\right\}
$$
同理,
$$
f_{5}\left(B_{1}\right)=\min \left\{d\left(B_{1}, B_{2}\right)+f_{4}\left(B_{2}\right), d\left(B_{1}, C_{2}\right)+f_{4}\left(C_{2}\right), d\left(B_{1}, D_{2}\right)+f_{4}\left(D_{2}\right)\right\}
$$
依此类推,
$$
\begin{aligned}
&f_{4}\left(A_{2}\right)=\min \left\{d\left(A_{2}, A_{3}\right)+f_{3}\left(A_{3}\right), d\left(A_{2}, B_{3}\right)+f_{3}\left(B_{3}\right)\right\} \\
&f_{4}\left(B_{2}\right)=\min \left\{d\left(B_{2}, A_{3}\right)+f_{3}\left(A_{3}\right), d\left(B_{2}, B_{3}\right)+f_{3}\left(B_{3}\right)\right\} \\
&f_{4}\left(C_{2}\right)=\min \left\{d\left(C_{2}, B_{3}\right)+f_{3}\left(B_{3}\right), d\left(C_{2}, C_{3}\right)+f_{3}\left(C_{3}\right)\right\} \\
&f_{4}\left(D_{2}\right)=\min \left\{d\left(D_{2}, B_{3}\right)+f_{3}\left(B_{3}\right), d\left(D_{2}, C_{3}\right)+f_{3}\left(C_{3}\right)\right\} \\
&f_{3}\left(A_{3}\right)=\min \left\{d\left(A_{3}, A_{4}\right)+f_{2}\left(A_{4}\right), d\left(A_{3}, B_{4}\right)+f_{2}\left(B_{4}\right)\right\} \\
&f_{3}\left(B_{3}\right)=\min \left\{d\left(B_{3}, B_{4}\right)+f_{2}\left(B_{4}\right), d\left(B_{3}, C_{4}\right)+f_{2}\left(C_{4}\right)\right\} \\
&f_{3}\left(C_{3}\right)=\min \left\{d\left(C_{3}, B_{4}\right)+f_{2}\left(B_{4}\right), d\left(C_{3}, C_{4}\right)+f_{2}\left(C_{4}\right)\right\} \\
&f_{2}\left(A_{4}\right)=\min \left\{d\left(A_{4}, A_{5}\right)+f_{1}\left(A_{5}\right), d\left(A_{4}, B_{5}\right)+f_{1}\left(B_{5}\right)\right\} \\
&f_{2}\left(B_{4}\right)=\min \left\{d\left(B_{4}, A_{5}\right)+f_{1}\left(A_{5}\right), d\left(B_{4}, B_{5}\right)+f_{1}\left(B_{5}\right)\right\} \\
&f_{2}\left(C_{4}\right)=\min \left\{d\left(C_{4}, A_{5}\right)+f_{1}\left(A_{5}\right), d\left(C_{4}, B_{5}\right)+f_{1}\left(C_{5}\right)\right\}
\end{aligned}
$$
显然从 $A_{5}$ 到 $A_{6}$ 的最短路就是弧 $\overparen{A_{5} A_{6}}$, 所以
$$
f_{1}\left(A_{5}\right)=d\left(A_{5}, A_{6}\right)=4
$$
同理 $f_{1}\left(B_{5}\right)=d\left(B_{5}, A_{6}\right)=3$.
其中 $f_{k}(i)$ 表示从 $i$ 点经过 $k$ 条边到 $A_{6}$ 的最短路长度.
由于 $f_{1}\left(A_{5}\right)$ 和 $f_{1}\left(B_{5}\right)$ 已知, 所以
$$
\begin{aligned}
f_{2}\left(A_{4}\right) &=\min \left\{d\left(A_{4}, A_{5}\right)+f_{1}\left(A_{5}\right), d\left(A_{4}, B_{5}\right)+f_{1}\left(B_{5}\right)\right\} \\
&=\min \{3+4,5+3\}=7
\end{aligned}
$$
这说明由 $A_{4}$ 至终点 $A_{6}$ 的最短路程是 7 , 其最短路线是 $A_{4} \rightarrow A_{5} \rightarrow A_{6} . x_{2}\left(A_{4}\right)=A_{5}$.
如果从 $B_{4}$ 出发, 则
$$
\begin{aligned}
f_{2}\left(B_{4}\right) &=\min \left\{d\left(B_{4}, A_{5}\right)+f_{1}\left(A_{5}\right), d\left(B_{4}, B_{5}\right)+f_{1}\left(B_{5}\right)\right\} \\
&=\min \{5+4,2+3\}=5
\end{aligned}
$$
$x_{2}\left(B_{4}\right)=B_{5}$, 最短路线是 $B_{4} \rightarrow B_{5} \rightarrow A_{6}$, 最短路程是 5. 同理我们可得
$$
\begin{aligned}
f_{2}\left(C_{4}\right) &=\min \left\{d\left(C_{4}, A_{5}\right)+f_{1}\left(A_{5}\right), d\left(C_{4}, B_{5}\right)+f_{1}\left(B_{5}\right)\right\} \\
&=\min \{6+4,6+3\}=9
\end{aligned}
$$
$x_{2}\left(C_{4}\right)=B_{5}$, 最短路线是 $C_{4} \rightarrow B_{5} \rightarrow A_{6}$, 最短路程是 $9.$
现在讨论 $n=3$ 的情况, 我们分别以 $A_{3}, B_{3}, C_{3}$ 为出发点来计算.
$$
f_{3}\left(A_{3}\right)=\min \left\{d\left(A_{3}, A_{4}\right)+f_{2}\left(A_{4}\right), d\left(A_{3}, B_{4}\right)+f_{2}\left(B_{4}\right)\right\}
$$
$$
=\min \{2+7,2+5\}=7
$$
$x_{3}\left(A_{3}\right)=B_{4}$, 最短路线是 $A_{3} \rightarrow B_{4} \rightarrow B_{5} \rightarrow A_{6}$, 最短路程是 7 .
上式表示由 $A_{3}$ 出发有两种选择:到 $A_{4}$ 或 $B_{4}$, 如果选 $A_{4}$,那么到达 $A_{4}$ 以后, 一定要走 $A_{4}$ 到 $A_{6}$ 的最短路线; 如果这一步选 $B_{4}$,那么到达 $B_{4}$ 以后, 一定走 $B_{4}$ 到 $A_{6}$ 的最短路线. 所以 $A_{3} \rightarrow A_{6}$ 的最短路线就是这两条中较短的一条. 同理
$$
\begin{aligned}
f_{3}\left(B_{3}\right) &=\min \left\{d\left(B_{3}, B_{4}\right)+f_{2}\left(B_{4}\right), d\left(B_{3}, C_{4}\right)+f_{2}\left(C_{4}\right)\right\} \\
&=\min \{1+5,2+9\}=6
\end{aligned}
$$
$x_{3}\left(B_{3}\right)=B_{4}$, 最短路线是 $B_{3} \rightarrow B_{4} \rightarrow B_{5} \rightarrow A_{6}$, 最短路程是 6 .
$$
\begin{aligned}
f_{3}\left(C_{3}\right) &=\min \left\{d\left(C_{3}, B_{4}\right)+f_{2}\left(B_{4}\right), d\left(C_{3}, C_{4}\right)+f_{2}\left(C_{4}\right)\right\} \\
&=\min \{3+5,3+9\}=8
\end{aligned}
$$
$x_{3}\left(C_{3}\right)=B_{4}$, 最短路线是 $C_{3} \rightarrow B_{4} \rightarrow B_{5} \rightarrow A_{6}$, 最短路程是 8.
$n=4$ 的情况完全类似, 我们可以得到
$$
\begin{aligned}
f_{4}\left(A_{2}\right) &=\min \left\{d\left(A_{2}, A_{3}\right)+f_{3}\left(A_{3}\right), d\left(A_{2}, B_{3}\right)+f_{3}\left(B_{3}\right)\right\} \\
&=\min \{6+7,8+6\}=13
\end{aligned}
$$
$x_{4}\left(A_{2}\right)=A_{3}$, 同理
$$
\begin{array}{ll}
f_{4}\left(B_{2}\right)=10, & x_{4}\left(B_{2}\right)=A_{3} \\
f_{4}\left(C_{2}\right)=9, & x_{4}\left(C_{2}\right)=B_{3} \\
f_{4}\left(D_{2}\right)=12, & x_{4}\left(D_{2}\right)=C_{3}
\end{array}
$$
当 $n=5$ 时, 有 $A_{1}, B_{1}$ 两点, 在 $A_{1}$ 处有 3 个决策 $A_{2}, B_{2}, C_{2}$ 供选择, 如果选择 $A_{2}$, 那么从 $A_{2}$ 出发一定是走由 $A_{2}$ 到 $A_{6}$ 的最短路线; 同样, 如果选 $B_{2}$, 那么从 $B_{2}$ 点以后一定是走由 $B_{2}$ 到 $A_{6}$ 的最短路线; 选 $C_{2}$ 点也是如此, 所以只要在这三条路线中选一条最短路线, 就是 $A_{1}$ 到 $A_{6}$ 的最短路线.
$$
\begin{aligned}
f_{5}\left(A_{1}\right) &=\min \left\{d\left(A_{1}, A_{2}\right)+f_{4}\left(A_{2}\right), d\left(A_{1}, B_{2}\right)+f_{4}\left(B_{2}\right), d\left(A_{1}, C_{2}\right)+f_{4}\left(C_{2}\right)\right\} \\
&=\min \{2+13,3+10,6+9\}=13
\end{aligned}
$$
$x_{5}\left(A_{1}\right)=B_{2}$, 最短路线是 $A_{1} \rightarrow B_{2} \rightarrow A_{3} \rightarrow B_{4} \rightarrow B_{5} \rightarrow A_{6}$, 同样
$$
\begin{aligned}
f_{5}\left(B_{1}\right) &=\min \left\{d\left(B_{1}, B_{2}\right)+f_{4}\left(B_{2}\right), d\left(B_{1}, C_{2}\right)+f_{4}\left(C_{2}\right), d\left(B_{1}, D_{2}\right)+f_{4}\left(D_{2}\right)\right\} \\
&=\min \{8+10,7+9,16+12\}=16
\end{aligned}
$$
$x_{5}\left(B_{1}\right)=C_{2}$, 最短路线是 $B_{1} \rightarrow C_{2} \rightarrow B_{3} \rightarrow B_{4} \rightarrow B_{5} \rightarrow A_{6}$.
当 $n=6$ 时, 出发点只有一个 $A_{0}$ 点, 有两种选择, 因此
$$
\begin{aligned}
f_{6}\left(A_{0}\right) &=\min \left\{d\left(A_{0}, A_{1}\right)+f_{5}\left(A_{1}\right), d\left(A_{0}, B_{1}\right)+f_{5}\left(B_{1}\right)\right\} \\
&=\min \{5+13,3+16\}=18
\end{aligned}
$$
$x_{6}\left(A_{0}\right)=A_{1}$.
至此, 最短路线已经求得, 为 $A_{0} \rightarrow A_{1} \rightarrow B_{2} \rightarrow A_{3} \rightarrow B_{4} \rightarrow B_{5} \rightarrow A_{6}$.
从上面的计算过程中, 我们可以看出, 在求解的各个阶段, 我们利用了 $n$ 阶段的最优值与 $n-1$ 阶段的最优值之间的如下关系：
$$
\begin{aligned}
&f_{n}(s)=\min _{x_{n}(s)}\left\{d\left(s, x_{n}(s)\right)+f_{n-1}\left(x_{n}(s)\right)\right\}, n=2,3, \cdots, 6 \\
&f_{1}(s)=d\left(s, A_{6}\right)
\end{aligned}
$$
**对于一般的多阶段决策问题同样可以得到这种递推关系式：**
设 $f_{n-k+1}\left(x_{k}\right)$ 表示第 $k$ 个阶段的状态为 $x_{k}$, 经过 $n-k+1$ 个阶段的最优目标函数值, 则有
$$
\begin{aligned}
&f_{n-k+1}\left(x_{k}\right)=\min _{q_{k} \in Q_{k}\left(x_{k}\right)}\left\{R_{k}\left(x_{k}, q_{k}\right)+f_{n-k}\left(T_{k}\left(x_{k}, q_{k}\right)\right)\right. \\
&\vdots \\
&f_{1}\left(x_{n}\right)=\min _{q_{n} \in Q_{n}\left(x_{n}\right)}\left\{R_{n}\left(x_{n}, q_{n}\right)\right\}
\end{aligned}
$$
根据该递推关系, 从后面开始分别求出 $f_{1}\left(x_{n}\right), f_{2}\left(x_{n-1}\right), \cdots, f_{n}\left(x_{1}\right)$, 其中 $f_{n}\left(x_{1}\right)$ 就是该多阶段决策问题的最优目标函数值.
利用这种递推关系式求解多阶段决策问题的方法我们称为**动态规划方法**, 这种递推关系是根据动态规划的最优化原理推导出来的, 下面我们来叙述什么是最优化原理.


### 2.2最优化原理
从多阶段决策问题的数学模型可以看到, 一个多阶段决策过程的极值函数可以看做是过程的初始状态与阶段数目的函数. 任意给定一个决策序列 (或称为策略), 如果是最优的, 那么从任何最后 $k$ 阶段开始, 对由这个策略形成的后面 $k$ 阶段的初始状态组成的 $k$ 阶段问题而言, 这个策略的后面 $k$ 个决策一定是这个 $k$ 阶段问题的最优策略, 与这 $k$ 阶段以前的决策无关. 这个必要条件是很显然的. 这样, 动态规划的最优化原理可叙述如下:
**动态规划最优化原理**
一个过程的最优策略具有这样的性质, 即无论其初始状态及其初始决策如何, 其以后诸决策对以第一个决策所形成的状态作为初始状态而言, 必须构成最优策略.
现在, 我们来讨论多阶段资源分配问题的递推关系式. 系统的状态用拥有资源的数量 $x_{k}$ 表示,在每个阶段 $k$ 的每个状态 $x_{k}$,都有一个决策集合 $\left[0, x_{k}\right]$,选定一 个决策 $y_{k} \in\left[0, x_{k}\right]$, 就是取 $y_{k}$ 从事 $A$ 生产, $x_{k}-y_{k}$ 从事 $B$ 生产, 这样就转移到新的状态 $x_{k+1}=a y_{k}+b\left(x_{k}-y_{k}\right), x_{k+1}$ 是下一阶段的资源量, 效益为 $g\left(y_{k}\right)+h\left(x_{k}-y_{k}\right)$, 我们的目的是选择一系列决策 $y_{1}, \cdots, y_{n-1}$, 使每一个阶段的效益合起来达到最大. 利用最优化原理来列出递推公式.
令 $f_{k}(x)$ 表示开始有资源 $x$, 再进行 $k$ 个阶段生产并采取最优分配策略后得到的最大总收入. 当 $k=1$ 时, $f_{1}(x)=\max _{0 \leqslant y \leqslant x}\{g(y)+h(x-y)\}$, 当 $k=2$ 时, 由于前一个阶段分别以 $y, x-y$ 投入$A 、 B$, 生产以后可以回收 $x_{1}=a y+b(x-y)$ 作为下一阶段开始时可以投人生产的资源数量, 若采取最优方式投入生产, 由最优化原理, 后一个阶段的收入是 $f_{1}\left(x_{1}\right)$, 所以
$$
f_{2}(x)=\max _{0 \leqslant y \leqslant x}\left\{g(y)+h(x-y)+f_{1}(a y+b(x-y))\right\}
$$
对任意的 $k, 2 \leqslant k \leqslant n$, 同样的分析可得
$$
f_{k}(x)=\max _{0 \leqslant y \leqslant x}\left\{g(y)+h(x-y)+f_{k-1}(a y+b(x-y))\right\}
$$
因此, 我们得到递推关系式如下:
$$
\begin{aligned}
&f_{1}(x)=\max _{0 \leqslant y \leqslant x}\{g(y)+h(x-y)\} \\
&f_{k}(x)=\max _{0 \leqslant y \leqslant x}\left\{g(y)+h(x-y)+f_{k-1}(a y+b(x-y))\right\}, \quad k \geqslant 2
\end{aligned}
$$
上面所述的递推关系是用动态规划的最优化原理得到的。
在下图中, 如果路线 I-Ⅱ 是从 $A$ 到 $C$ 的最优路线, 那么路线 Ⅱ 一定是从 $B$ 到 $C$ 的最优路线,这是很容易用反证法来证明的. 如果 Ⅱ 不是从 $B$ 到 $C$ 的 最优路线, Ⅱ' 是比 Ⅱ 好的从 $B$ 到 $C$ 的路线,那么 I - Ⅱ'就是比 I-Ⅱ 更好地从 $A$ 到 $C$ 的路线,这与 $\mathrm{I}-$ II 是最优路线矛盾.
![](./images/最优化原理2.png)
很容易想到, 如果 I-II 是 $A$ 到 $C$ 的最优路线,那么 I 就是 $A$ 到 $B$ 的最优路 线. 如果存在 $A$ 到 $B$ 的更好的路线 $\mathrm{I}^{\prime}$, 显然 $\mathrm{I}^{\prime}-\mathrm{II}$ 将是比 $\mathrm{I}-\mathrm{II}$ 更好的 $A$ 到 $C$ 的 路线, 这与假设矛盾.
所以**最优化原理也有如下述性质：**
对于多阶段决策问题的最优策略, 如果用它的前 $i$ 步策略产生的情况（加上原有的约束条件）来形成一个前 $i$ 步问题, 那么所给最优策略的前 $i$ 阶段的策略构成这前 $i$ 步问题的一个最优策略.
有的书上称上述性质为**前向最优化原理**, 而称前面所述的性质为**后向最优化原理**, 我们都统称为**最优化原理**. 现在我们利用前向最优化原理来找生产-库存例题的递推公式。
如果一开始的存储量 $u_{0}$ 已经给定, 要求最后一个周期结束时有存储量 $u_{n}$, 那么最优生产和存储费用就完全由 $u_{0}, u_{n}$ 决定了. 对某一个周期 $k$, 如果这个周期开始时有库存量 $u_{k-1}$, 要求结束时有库存量 $u_{k}$,那么它的生产数量 $x_{k}=s_{k}+$ $u_{k}-u_{k-1}, s_{k}$ 是这个周期的商品需求量, 所以它的生产和存储费用为 $f\left(x_{k}\right)+$ $16 u_{k-1}$, 其中
$$
f(x)= \begin{cases}100 x, & 0 \leqslant x \leqslant 15 \\ 120 x-300, & 15<x \leqslant 30\end{cases}
$$
用 $F_{k}\left(u_{0}, u_{k}\right)$ 表示开始的存储量为 $u_{0}$,第 $k$ 个周期结束时存储量为 $u_{k}$ 的满足前 $k$ 个周期需要的前 $k$ 个周期的最优生产和存储费用, 由最优化原理
$$
\begin{aligned}
&F_{k}\left(u_{0}, u_{k}\right)=\min _{u_{k-1} \geqslant 0}\left\{F_{k-1}\left(u_{0}, u_{k-1}\right)+f\left(x_{k}\right)+16 u_{k-1}\right\} \\
&x_{k}=s_{k}+u_{k}-u_{k-1}, \quad k=2,3, \cdots, 6 \\
&F_{1}\left(u_{0}, u_{1}\right)=f\left(x_{1}\right)+16 u_{0} \\
&x_{1}=s_{1}+u_{1}-u_{0}
\end{aligned}
$$
令 $k=2,3, \cdots, 6$, 求出 $F_{6}\left(u_{0}, u_{6}\right)$, 就得到问题的解.
由上面的分析可知用动态规划方法求解多阶段决策问题的一般步骤为:
第 1 步 明确问题, 找出**阶段数**;
第 2 步 确定变量, 找出**状态变量**和**决策变量**;
第 3 步 找出**状态转移方程**;
第 4 步 写出**递推关系式**;
第 5 步 求解递推关系式.
在这些步骤中**关键是写出递推关系式**, 而**难点则是求解递推关系式**, 不同的问题递推关系式不同, 求解递推关系式的方法也不同. 所以动态规划不像线性规划或整数规划那样有固定的算法, 动态规划只是提供了求解多阶段决策问题的思路, 具体的算法要根据问题的特点去设计, 下面将分别介绍运用动态规划求解几类问题的方法.