# 向量自回归和动态模态分解

本讲座应用我们在 [奇异值分解](https://python.quantecon.org/svd_intro.html) 讲座中学到的计算方法来研究：

- 一阶向量自回归(VARs)  
- 动态模态分解(DMDs)  
- DMDs和一阶VARs之间的联系  

## 一阶向量自回归

我们要拟合一个**一阶向量自回归**


<a id='equation-eq-varfirstorder'></a>
$$
X_{t+1} = A X_t + C \epsilon_{t+1}, \quad \epsilon_{t+1} \perp X_t \tag{6.1}
$$

其中 $ \epsilon_{t+1} $ 是一个独立同分布的 $ m \times 1 $ 随机向量序列的时间 $ t+1 $ 分量，该序列具有零均值向量和单位协方差矩阵，而 $ m \times 1 $ 向量 $ X_t $ 为：


<a id='equation-eq-xvector'></a>
$$
X_t = \begin{bmatrix}  X_{1,t} & X_{2,t} & \cdots & X_{m,t}     \end{bmatrix}^\top \tag{6.2}
$$

其中 $ \cdot ^\top $ 再次表示复数转置，$ X_{i,t} $ 是时间 $ t $ 的变量 $ i $。

我们想要拟合方程 [(6.1)](#equation-eq-varfirstorder)。

我们的数据组织在一个 $ m \times (n+1) $ 矩阵 $ \tilde X $ 中

$$
\tilde X =  \begin{bmatrix} X_1 \mid X_2 \mid \cdots \mid X_n \mid X_{n+1} \end{bmatrix}
$$

其中对于 $ t = 1, \ldots, n +1 $，$ m \times 1 $ 向量 $ X_t $ 由 [(6.2)](#equation-eq-xvector) 给出。

因此，我们想要估计一个系统 [(6.1)](#equation-eq-varfirstorder)，它由 $ m $ 个最小二乘回归组成，将**所有变量**对**所有变量**的一阶滞后值进行回归。

[(6.1)](#equation-eq-varfirstorder) 的第 $ i $ 个方程是将 $ X_{i,t+1} $ 对向量 $ X_t $ 进行回归。

我们按如下步骤进行。

从 $ \tilde X $ 中，我们形成两个 $ m \times n $ 矩阵

$$
X =  \begin{bmatrix} X_1 \mid X_2 \mid \cdots \mid X_{n}\end{bmatrix}
$$

和

$$
X' =  \begin{bmatrix} X_2 \mid X_3 \mid \cdots \mid X_{n+1}\end{bmatrix}
$$

这里的 $ ' $ 是矩阵 $ X' $ 名称的一部分，并不表示矩阵转置。

我们使用 $ \cdot^\top $ 来表示矩阵转置或其在复矩阵中的扩展。

在构造 $ X $ 和 $ X' $ 时，我们在每种情况下都从 $ \tilde X $ 中删除了一列，对于 $ X $ 是删除最后一列，对于 $ X' $ 是删除第一列。

显然，$ X $ 和 $ X' $ 都是 $ m \times n $ 矩阵。

我们用 $ p \leq \min(m, n) $ 表示 $ X $ 的秩。

我们感兴趣的两种情况是：

- $ n > > m $，即时间序列观测值数量 $ n $ 远大于变量数量 $ m $  
- $ m > > n $，即变量数量 $ m $ 远大于时间序列观测值数量 $ n $  


在包含这两种特殊情况的一般层面上，有一个共同的公式描述了 $ A $ 的最小二乘估计量 $ \hat A $。

但重要的细节有所不同。

这个共同的公式是：


<a id='equation-eq-commona'></a>
$$
\hat A = X' X^+ \tag{6.3}
$$

其中 $ X^+ $ 是 $ X $ 的伪逆。

关于**Moore-Penrose伪逆**的详细信息，请参见[Moore-Penrose伪逆](https://en.wikipedia.org/wiki/Moore%E2%80%93Penrose_inverse)

伪逆的适用公式在我们的两种情况下有所不同。

**短胖情况：**

当$ n >> m $时，即时间序列观测值$ n $远多于变量$ m $，且当$ X $具有线性独立的**行**时，$ X X^\top $有逆矩阵，伪逆$ X^+ $为

$$
X^+ = X^\top  (X X^\top )^{-1}
$$

这里$ X^+ $是一个**右逆**，满足$ X X^+ = I_{m \times m} $。

在这种情况下，我们用于估计总体回归系数矩阵$ A $的最小二乘估计量的公式[(6.3)](#equation-eq-commona)变为


<a id='equation-eq-ahatform101'></a>
$$
\hat A = X' X^\top  (X X^\top )^{-1} \tag{6.4}
$$

这个最小二乘回归系数的公式在计量经济学中被广泛使用。

它被用于估计向量自回归。

公式[(6.4)](#equation-eq-ahatform101)右边与$ X_{t+1} $和$ X_t $的经验交叉二阶矩矩阵成正比，并乘以$ X_t $二阶矩矩阵的逆。

**高瘦型情况：**

当$ m > > n $时，即属性数量$ m $远大于时间序列观测值$ n $，且当$ X $的**列**线性独立时，$ X^\top X $有逆矩阵，伪逆$ X^+ $为

$$
X^+ = (X^\top X)^{-1} X^\top
$$

这里$ X^+ $是一个**左逆**，满足$ X^+ X = I_{n \times n} $。

在这种情况下，我们用于估计$ A $的最小二乘估计公式[(6.3)](#equation-eq-commona)变为


<a id='equation-eq-hataversion0'></a>
$$
\hat A = X' (X^\top X)^{-1} X^\top \tag{6.5}
$$

请比较公式[(6.4)](#equation-eq-ahatform101)和[(6.5)](#equation-eq-hataversion0)中的$ \hat A $。

这里我们特别关注公式[(6.5)](#equation-eq-hataversion0)。

$ \hat A $的第$ i $行是一个$ m \times 1 $向量，包含了$ X_{i,t+1} $对$ X_{j,t}, j = 1, \ldots, m $回归的系数。

如果我们使用公式[(6.5)](#equation-eq-hataversion0)来计算$ \hat A X $，我们发现

$$
\hat A X = X'
$$

因此回归方程**完美拟合**。

这是**欠定最小二乘**模型中的典型结果。

重申一下，在**高瘦**情况下(在[奇异值分解](https://python.quantecon.org/svd_intro.html)中描述)，即观测数量$ n $相对于向量$ X_t $中出现的属性数量$ m $较小时，我们想要拟合方程[(6.1)](#equation-eq-varfirstorder)。

我们面临着最小二乘估计量是欠定的，且回归方程完美拟合的事实。

要继续，我们需要高效地计算伪逆$ X^+ $。

伪逆$ X^+ $将是我们$ A $估计量的一个组成部分。

作为我们对$ A $的估计量$ \hat A $，我们想要形成一个$ m \times m $矩阵，它解决最小二乘最佳拟合问题


<a id='equation-eq-alseqn'></a>
$$
\hat A = \textrm{argmin}_{\check A} || X' - \check  A X ||_F \tag{6.6}
$$

其中 $ || \cdot ||_F $ 表示矩阵的Frobenius（或欧几里得）范数。

Frobenius范数定义为

$$
||A||_F = \sqrt{ \sum_{i=1}^m \sum_{j=1}^m |A_{ij}|^2 }
$$

方程[(6.6)](#equation-eq-alseqn)右侧的最小化解为


<a id='equation-eq-hataform'></a>
$$
\hat A =  X'  X^{+} \tag{6.7}
$$

其中（可能巨大的）$ n \times m $ 矩阵 $ X^{+} = (X^\top  X)^{-1} X^\top $ 再次是 $ X $ 的伪逆。

对于我们感兴趣的某些情况，$ X^\top  X $ 可能接近奇异，这种情况会使某些数值算法变得不准确。

为了应对这种可能性，我们将使用高效的算法来构建公式[(6.5)](#equation-eq-hataversion0)中 $ \hat A $ 的**降秩近似**。

这种对我们的向量自回归的近似将不再完全拟合。

$ \hat A $ 的第 $ i $ 行是一个 $ m \times 1 $ 的回归系数向量，表示 $ X_{i,t+1} $ 对 $ X_{j,t}, j = 1, \ldots, m $ 的回归。

计算伪逆$ X^+ $的一个有效方法是从奇异值分解开始


<a id='equation-eq-svddmd'></a>
$$
X =  U \Sigma  V^\top \tag{6.8}
$$

这里我们需要提醒自己，对于**简化的**SVD，$ X $是一个$ m \times n $的数据矩阵，$ U $是一个$ m \times p $的矩阵，$ \Sigma $是一个$ p \times p $的矩阵，而$ V $是一个$ n \times p $的矩阵。

通过认识到以下一系列等式，我们可以有效地构造相关的伪逆$ X^+ $。


<a id='equation-eq-efficientpseudoinverse'></a>
$$
\begin{aligned}
X^{+} & = (X^\top  X)^{-1} X^\top  \\
  & = (V \Sigma U^\top  U \Sigma V^\top )^{-1} V \Sigma U^\top  \\
  & = (V \Sigma \Sigma V^\top )^{-1} V \Sigma U^\top  \\
  & = V \Sigma^{-1} \Sigma^{-1} V^\top  V \Sigma U^\top  \\
  & = V \Sigma^{-1} U^\top  
\end{aligned} \tag{6.9}
$$

（由于我们处在$ m > > n $的情况下，在简化SVD中$ V^\top  V = I_{p \times p} $，因此我们可以将前面的等式序列同时用于简化SVD和完整SVD。）

因此，我们将使用方程[(6.8)](#equation-eq-svddmd)中$ X $的奇异值分解来构造$ X $的伪逆$ X^+ $，计算方法为：


<a id='equation-eq-xplusformula'></a>
$$
X^{+} =  V \Sigma^{-1}  U^\top \tag{6.10}
$$

其中矩阵$ \Sigma^{-1} $是通过将$ \Sigma $中的每个非零元素替换为$ \sigma_j^{-1} $构造而成。

我们可以将公式[(6.10)](#equation-eq-xplusformula)与公式[(6.7)](#equation-eq-hataform)结合使用来计算回归系数矩阵$ \hat A $。

因此，我们对$ m \times m $系数矩阵$ A $的估计量$ \hat A = X' X^+ $为：


<a id='equation-eq-ahatsvdformula'></a>
$$
\hat A = X' V \Sigma^{-1}  U^\top \tag{6.11}
$$

## 动态模态分解(DMD)

我们转向与**动态模态分解**相关的$ m >>n $**高瘦型**情况。

这里，一个$ m \times n+1 $数据矩阵$ \tilde X $包含了比时间周期$ n+1 $多得多的属性（或变量）$ m $。

动态模态分解由[[Schmid, 2010](https://python.quantecon.org/zreferences.html#id19)]引入，

你可以阅读有关动态模态分解的内容 [[Kutz *et al.*, 2016](https://python.quantecon.org/zreferences.html#id42)] 和 [[Brunton and Kutz, 2019](https://python.quantecon.org/zreferences.html#id258)]（第7.2节）。

**动态模态分解**（DMD）计算公式[(6.11)](#equation-eq-ahatsvdformula)中描述的最小二乘回归系数$ \hat A $的秩为$ r < p $的近似。

我们将逐步构建一个在应用中有用的表述。

我们将通过描述一阶线性动态系统（即我们的向量自回归）的三种替代表示来实现这一点。

**三种表示的指南：**在实践中，我们主要关注表示3。

我们使用前两种表示来呈现一些有用的中间步骤，这些步骤有助于我们理解表示3的内部原理。

在应用中，我们将只使用**DMD模态**的一小部分子集来近似动态。

我们使用这样一个小的DMD模态子集来构建对$ A $的降秩近似。

为此，我们需要使用与表示法3相关的**简化**SVD，而不是与表示法1和2相关的**完全**SVD。

**给急躁读者的指南：** 在我们的应用中，我们将使用表示法3。

第一次阅读时，您可以跳过铺垫性的表示法1和2。

## 表示法1

在这个表示法中，我们将使用$ X $的**完全**SVD。

我们使用$ U $的$ m $个**列**，因此也就是$ U^\top $的$ m $个**行**，来定义一个$ m \times 1 $向量$ \tilde b_t $：


<a id='equation-eq-tildexdef2'></a>
$$
\tilde b_t = U^\top  X_t . \tag{6.12}
$$

原始数据$ X_t $可以表示为：


<a id='equation-eq-xdecoder'></a>
$$
X_t = U \tilde b_t \tag{6.13}
$$

（这里我们使用$ b $来提醒自己我们正在创建一个**基**向量。）

由于我们现在使用的是**完全**SVD，$ U U^\top  = I_{m \times m} $。

因此从方程[(6.12)](#equation-eq-tildexdef2)可以得出，我们可以从$ \tilde b_t $重构$ X_t $。

特别地，

- 方程 [(6.12)](#equation-eq-tildexdef2) 作为一个**编码器**，将 $ m \times 1 $ 向量 $ X_t $ **旋转**成一个 $ m \times 1 $ 向量 $ \tilde b_t $  
- 方程 [(6.13)](#equation-eq-xdecoder) 作为一个**解码器**，通过旋转 $ m \times 1 $ 向量 $ \tilde b_t $ 来**重构** $ m \times 1 $ 向量 $ X_t $  


为 $ m \times 1 $ 基向量 $ \tilde b_t $ 定义一个转移矩阵：


<a id='equation-eq-atilde0'></a>
$$
\tilde A = U^\top  \hat A U \tag{6.14}
$$

我们可以通过以下方式恢复 $ \hat A $：

$$
\hat A = U \tilde A U^\top
$$

$ m \times 1 $ 基向量 $ \tilde b_t $ 的动态由以下方程支配：

$$
\tilde b_{t+1} = \tilde A \tilde b_t
$$

为了构建基于 $ X_1 $ 条件的 $ X_t $ 未来值的预测 $ \overline X_t $，我们可以对这个方程的两边应用解码器（即旋转器），从而推导出：

$$
\overline X_{t+1} = U \tilde A^t U^\top  X_1
$$

这里我们用 $ \overline X_{t+1}, t \geq 1 $ 表示预测值。

## 表示 2

这种表示方法与[[Schmid, 2010](https://python.quantecon.org/zreferences.html#id19)]最初提出的方法有关。

它可以被视为获得后面将要介绍的相关表示3的一个中间步骤。

与表示1一样，我们继续：

- 使用**完全**SVD而**不是**简化SVD  


正如我们在[奇异值分解](https://python.quantecon.org/svd_intro.html)的课程中观察和说明的那样：

- (a) 对于完全SVD，$ U U^\top = I_{m \times m} $和$ U^\top U = I_{p \times p} $都是单位矩阵  
- (b) 对于$ X $的简化SVD，$ U^\top U $不是单位矩阵。  


我们稍后会看到，完全SVD对于我们最终想要做的事情来说过于局限，也就是说，处理$ U^\top U $**不是**单位矩阵的情况，因为我们使用$ X $的简化SVD。

但现在，让我们假设我们使用的是完全SVD，因此条件(a)和(b)都得到满足。

对方程[(6.14)](#equation-eq-atilde0)中定义的$ m \times m $矩阵$ \tilde A = U^\top  \hat A U $进行特征分解：


<a id='equation-eq-tildeaeigen'></a>
$$
\tilde A = W \Lambda W^{-1} \tag{6.15}
$$

其中$ \Lambda $是特征值的对角矩阵，$ W $是一个$ m \times m $矩阵，其列是对应于$ \Lambda $中行(特征值)的特征向量。

当$ U U^\top  = I_{m \times m} $时（这在$ X $的完全SVD中是成立的），可得：


<a id='equation-eq-eqeigahat'></a>
$$
\hat A = U \tilde A U^\top  = U W \Lambda W^{-1} U^\top \tag{6.16}
$$

根据方程[(6.16)](#equation-eq-eqeigahat)，对角矩阵$ \Lambda $包含$ \hat A $的特征值，而$ \hat A $对应的特征向量是矩阵$ UW $的列。

因此，我们的一阶向量自回归所捕获的$ X_t $动态的系统部分（即非随机部分）可以描述为：

$$
X_{t+1} = U W \Lambda W^{-1} U^\top   X_t
$$

将上述方程两边同时乘以$ W^{-1} U^\top $得到：

$$
W^{-1} U^\top  X_{t+1} = \Lambda W^{-1} U^\top  X_t
$$

或

$$
\hat b_{t+1} = \Lambda \hat b_t
$$

其中我们的**编码器**是

$$
\hat b_t = W^{-1} U^\top  X_t
$$

我们的**解码器**是

$$
X_t = U W \hat b_t
$$

我们可以使用这种表示来构建一个基于$ X_1 $的$ X_{t+1} $的预测器$ \overline X_{t+1} $：


<a id='equation-eq-dssebookrepr'></a>
$$
\overline X_{t+1} = U W \Lambda^t W^{-1} U^\top  X_1 \tag{6.17}
$$

实际上，
[[Schmid, 2010](https://python.quantecon.org/zreferences.html#id19)]定义了一个$ m \times m $矩阵$ \Phi_s $为


<a id='equation-eq-phisfull'></a>
$$
\Phi_s = UW \tag{6.18}
$$

和一个广义逆


<a id='equation-eq-phisfullinv'></a>
$$
\Phi_s^+ = W^{-1}U^\top \tag{6.19}
$$

[[Schmid, 2010](https://python.quantecon.org/zreferences.html#id19)]随后将方程[(6.17)](#equation-eq-dssebookrepr)表示为


<a id='equation-eq-schmidrep'></a>
$$
\overline X_{t+1} = \Phi_s \Lambda^t \Phi_s^+ X_1 \tag{6.20}
$$

基向量的分量$ \hat b_t = W^{-1} U^\top  X_t \equiv \Phi_s^+ X_t $是
DMD**投影模态**。

要理解为什么它们被称为**投影模态**，注意到

$$
\Phi_s^+ = ( \Phi_s^\top  \Phi_s)^{-1} \Phi_s^\top
$$

使得 $ m \times p $ 矩阵

$$
\hat b =  \Phi_s^+ X
$$

是 $ m \times n $ 矩阵 $ X $ 在 $ m \times p $ 矩阵 $ \Phi_s $ 上的回归系数矩阵。

我们将在讨论由 Tu 等人 [[Tu *et al.*, 2014](https://python.quantecon.org/zreferences.html#id28)] 提出的表示3时，在相关背景下进一步讨论这种解释。

当我们想要使用简化SVD时（这在实践中经常出现），使用表示3更为合适。

## 表示3

与构建表示1和表示2的程序不同（它们都使用了**完全**SVD），我们现在使用**简化**SVD。

同样，令 $ p \leq \textrm{min}(m,n) $ 为 $ X $ 的秩。

构造一个**简化**SVD

$$
X = \tilde U \tilde \Sigma \tilde V^\top ,
$$

其中现在 $ \tilde U $ 是 $ m \times p $ 矩阵，$ \tilde \Sigma $ 是 $ p \times p $ 矩阵，而 $ \tilde V^\top $ 是 $ p \times n $ 矩阵。

我们的 $ A $ 的最小范数最小二乘近似器现在的表示为


<a id='equation-eq-ahatwithtildes'></a>
$$
\hat A = X' \tilde V \tilde \Sigma^{-1} \tilde U^\top \tag{6.21}
$$

**计算$ \hat A $的主要特征向量**

我们首先参照构建表示1时使用的步骤，通过以下方式为旋转的$ p \times 1 $状态$ \tilde b_t $定义一个转移矩阵：


<a id='equation-eq-atildered'></a>
$$
\tilde A =\tilde  U^\top  \hat A \tilde U \tag{6.22}
$$

**作为投影系数的解释**

[[Brunton and Kutz, 2022](https://python.quantecon.org/zreferences.html#id43)]指出$ \tilde A $可以被解释为$ \hat A $在$ \tilde U $中$ p $个模态上的投影。

为了验证这一点，首先注意到，由于$ \tilde U^\top  \tilde U = I $，因此：


<a id='equation-eq-tildeaverify'></a>
$$
\tilde A = \tilde U^\top  \hat A \tilde U = \tilde U^\top  X' \tilde V \tilde \Sigma^{-1} \tilde U^\top  \tilde U 
= \tilde U^\top  X' \tilde V \tilde \Sigma^{-1} \tilde U^\top \tag{6.23}
$$

接下来，我们将使用标准最小二乘公式计算$ \hat A $在$ \tilde U $上的投影的回归系数

$$
(\tilde U^\top  \tilde U)^{-1} \tilde U^\top  \hat A = (\tilde U^\top  \tilde U)^{-1} \tilde U^\top  X' \tilde V \tilde \Sigma^{-1} \tilde U^\top  = 
\tilde U^\top  X' \tilde V \tilde \Sigma^{-1} \tilde U^\top   = \tilde A .
$$

因此，我们已经验证了$ \tilde A $是$ \hat A $在$ \tilde U $上的最小二乘投影。

**一个逆运算的挑战**

因为我们使用的是简化SVD，所以$ \tilde U \tilde U^\top  \neq I $。

因此，

$$
\hat A \neq \tilde U \tilde A \tilde U^\top ,
$$

所以我们不能简单地从$ \tilde A $和$ \tilde U $恢复$ \hat A $。

**一个死胡同**

我们可以抱着最好的希望开始，继续构造$ p \times p $矩阵$ \tilde A $的特征分解：


<a id='equation-eq-tildeaeigenred'></a>
$$
\tilde A =  \tilde  W  \Lambda \tilde  W^{-1} \tag{6.24}
$$

其中$ \Lambda $是包含$ p $个特征值的对角矩阵，$ \tilde W $的列是对应的特征向量。

仿照表示法2中的步骤，我们交叉手指计算一个$ m \times p $矩阵


<a id='equation-eq-phisred'></a>
$$
\tilde \Phi_s = \tilde U \tilde W \tag{6.25}
$$

该矩阵对应于完整SVD中的[(6.18)](#equation-eq-phisfull)。

此时，当$ \hat A $由公式[(6.21)](#equation-eq-ahatwithtildes)给出时，计算$ \hat A \tilde \Phi_s $很有意思：

$$
\begin{aligned}
\hat A \tilde \Phi_s & = (X' \tilde V \tilde \Sigma^{-1} \tilde U^\top ) (\tilde U \tilde W) \\
  & = X' \tilde V \tilde \Sigma^{-1} \tilde  W \\
  & \neq (\tilde U \tilde  W) \Lambda \\
  & = \tilde \Phi_s \Lambda
  \end{aligned}
$$

$ \hat A \tilde \Phi_s \neq \tilde \Phi_s \Lambda $意味着，与表示法2中的相应情况不同，$ \tilde \Phi_s = \tilde U \tilde W $的列**不是**$ \hat A $对应于矩阵$ \Lambda $对角线上特征值的特征向量。

**一个可行的方法**

继续寻找我们**能够**通过简化SVD计算的$ \hat A $的特征向量，让我们定义一个$ m \times p $矩阵$ \Phi $为


<a id='equation-eq-phiformula'></a>
$$
\Phi \equiv \hat A \tilde \Phi_s = X' \tilde V \tilde \Sigma^{-1}  \tilde  W \tag{6.26}
$$

事实证明，$ \Phi $的列**确实是**$ \hat A $的特征向量。

这是Tu等人[[Tu *et al.*, 2014](https://python.quantecon.org/zreferences.html#id28)]所证明的一个结果，我们现在来介绍。

**命题** $ \Phi $的$ p $列是$ \hat A $的特征向量。

**证明：** 根据公式[(6.26)](#equation-eq-phiformula)，我们有

$$
\begin{aligned}
  \hat A \Phi & =  (X' \tilde  V \tilde  \Sigma^{-1} \tilde  U^\top ) (X' \tilde  V \Sigma^{-1} \tilde  W) \cr
  & = X' \tilde V \tilde  \Sigma^{-1} \tilde A \tilde  W \cr
  & = X' \tilde  V \tilde  \Sigma^{-1}\tilde  W \Lambda \cr
  & = \Phi \Lambda 
  \end{aligned}
$$

因此


<a id='equation-eq-aphilambda'></a>
$$
\hat A \Phi = \Phi \Lambda \tag{6.27}
$$

令 $ \phi_i $ 为 $ \Phi $ 的第 $ i $ 列，$ \lambda_i $ 为分解式 [(6.24)](#equation-eq-tildeaeigenred) 中 $ \tilde A $ 对应的第 $ i $ 个特征值。

将等式 [(6.27)](#equation-eq-aphilambda) 两边的 $ m \times 1 $ 向量对应项相等得到：

$$
\hat A \phi_i = \lambda_i \phi_i .
$$

这个等式证实了 $ \phi_i $ 是 $ \hat A $ 的特征向量，对应于 $ \tilde A $ 和 $ \hat A $ 的特征值 $ \lambda_i $。

证明至此完成。

另见 [[Brunton and Kutz, 2022](https://python.quantecon.org/zreferences.html#id43)] (第238页)

### $ \check b $ 的解码器作为线性投影

从特征分解 [(6.27)](#equation-eq-aphilambda) 我们可以将 $ \hat A $ 表示为：


<a id='equation-eq-aform12'></a>
$$
\hat A = \Phi \Lambda \Phi^+ . \tag{6.28}
$$

从公式 [(6.28)](#equation-eq-aform12) 我们可以推导出 $ p \times 1 $ 向量 $ \check b_t $ 的动态：

$$
\check b_{t+1} = \Lambda \check b_t
$$

其中


<a id='equation-eq-decoder102'></a>
$$
\check b_t  = \Phi^+ X_t \tag{6.29}
$$

由于 $ m \times p $ 矩阵 $ \Phi $ 有 $ p $ 个线性独立的列，$ \Phi $ 的广义逆为

$$
\Phi^{+} = (\Phi^\top  \Phi)^{-1} \Phi^\top
$$

因此


<a id='equation-eq-checkbform'></a>
$$
\check b = (\Phi^\top  \Phi)^{-1} \Phi^\top  X \tag{6.30}
$$

$ p \times n $ 矩阵 $ \check b $ 可以被识别为 $ m \times n $ 矩阵 $ X $ 在 $ m \times p $ 矩阵 $ \Phi $ 上的最小二乘回归系数矩阵，因此


<a id='equation-eq-xcheck'></a>
$$
\check X = \Phi \check b \tag{6.31}
$$

是 $ X $ 在 $ \Phi $ 上的最小二乘投影的 $ m \times n $ 矩阵。

**$ X $ 的方差分解**

根据这个 quantecon 讲座 [https://python-advanced.quantecon.org/orth_proj.html](https://python-advanced.quantecon.org/orth_proj.html) 中讨论的最小二乘投影理论，我们可以将 $ X $ 表示为 $ X $ 在 $ \Phi $ 上的投影 $ \check X $ 加上误差矩阵的和。

为了验证这一点，注意到最小二乘投影 $ \check X $ 与 $ X $ 的关系为

$$
X = \check X + \epsilon
$$

或


<a id='equation-eq-xbcheck'></a>
$$
X = \Phi \check b + \epsilon \tag{6.32}
$$

其中 $ \epsilon $ 是一个 $ m \times n $ 的最小二乘误差矩阵，满足最小二乘正交条件 $ \epsilon^\top \Phi =0 $ 或


<a id='equation-eq-orthls'></a>
$$
(X - \Phi \check b)^\top \Phi = 0_{m \times p} \tag{6.33}
$$

重新整理正交条件 [(6.33)](#equation-eq-orthls) 得到 $ X^\top \Phi = \check b \Phi^\top \Phi $，这就推导出公式 [(6.30)](#equation-eq-checkbform)。

### 一个近似方法

我们现在描述一种近似计算 $ p \times 1 $ 向量 $ \check b_t $ 的方法，而不是使用公式 [(6.29)](#equation-eq-decoder102)。

具体来说，以下论述改编自 [[Brunton and Kutz, 2022](https://python.quantecon.org/zreferences.html#id43)]（第240页）提供了一种计算效率高的方法来近似 $ \check b_t $。

为方便起见，我们将在时间 $ t=1 $ 应用该方法。

对于 $ t=1 $，根据方程 [(6.32)](#equation-eq-xbcheck)，我们有


<a id='equation-eq-x1proj'></a>
$$
\check X_1 = \Phi \check b_1 \tag{6.34}
$$

其中 $ \check b_1 $ 是一个 $ p \times 1 $ 向量。

回想上面表示1中的 $ X_1 = U \tilde b_1 $,其中 $ \tilde b_1 $ 是表示1的时间1基向量,而 $ U $ 来自完整SVD分解 $ X = U \Sigma V^\top $。

从方程 [(6.32)](#equation-eq-xbcheck) 可以得出:

$$
U \tilde b_1 = X' \tilde V \tilde \Sigma^{-1} \tilde  W \check b_1 + \epsilon_1
$$

其中 $ \epsilon_1 $ 是方程 [(6.32)](#equation-eq-xbcheck) 中的最小二乘误差向量。

因此可得:

$$
\tilde b_1 = U^\top  X' V \tilde \Sigma^{-1} \tilde W \check b_1 + U^\top  \epsilon_1
$$

将误差项 $ U^\top  \epsilon_1 $ 替换为零,并将完整SVD中的 $ U $ 替换为简化SVD中的 $ \tilde U $,我们得到 $ \tilde b_1 $ 的近似值 $ \hat b_1 $:

$$
\hat b_1 = \tilde U^\top  X' \tilde V \tilde \Sigma^{-1} \tilde  W \check b_1
$$

回想方程 [(6.23)](#equation-eq-tildeaverify) 中的 $ \tilde A = \tilde U^\top  X' \tilde V \tilde \Sigma^{-1} $。

因此可得:

$$
\hat  b_1 = \tilde   A \tilde W \check b_1
$$

因此，根据 $ \tilde A $ 的特征分解 [(6.24)](#equation-eq-tildeaeigenred)，我们有

$$
\hat b_1 = \tilde W \Lambda \check b_1
$$

因此，

$$
\hat b_1 = ( \tilde W \Lambda)^{-1} \tilde b_1
$$

或者


<a id='equation-eq-beqnsmall'></a>
$$
\hat b_1 = ( \tilde W \Lambda)^{-1} \tilde U^\top  X_1 , \tag{6.35}
$$

这是对以下方程 [(6.29)](#equation-eq-decoder102) 中初始向量 $ \check b_1 $ 的计算效率较高的近似：


<a id='equation-eq-bphieqn'></a>
$$
\check b_1= \Phi^{+} X_1 \tag{6.36}
$$

（为了强调 [(6.35)](#equation-eq-beqnsmall) 是一个近似值，DMD的使用者有时将基向量 $ \check b_t  = \Phi^+ X_t $ 的分量称为**精确**DMD模态，将 $ \hat b_t = ( \tilde W \Lambda)^{-1} \tilde U^\top  X_t $ 的分量称为**近似**模态。）

在给定 $ X_t $ 的条件下，我们可以通过精确模态计算解码后的 $ \check X_{t+j},   j = 1, 2, \ldots $ ：


<a id='equation-eq-checkxevoln'></a>
$$
\check X_{t+j} = \Phi \Lambda^j \Phi^{+} X_t \tag{6.37}
$$

或者通过近似模态计算解码的 $ \hat X_{t+j} $:


<a id='equation-eq-checkxevoln2'></a>
$$
\hat X_{t+j} = \Phi \Lambda^j (\tilde W \Lambda)^{-1}  \tilde U^\top  X_t . \tag{6.38}
$$

然后我们可以使用解码的 $ \check X_{t+j} $ 或 $ \hat X_{t+j} $ 来预测 $ X_{t+j} $。

### 使用更少的模态

在实际应用中，我们通常只使用少数几个模态，通常是三个或更少。

前面的一些公式假设我们保留了与 $ X $ 的奇异值相关的所有 $ p $ 个模态。

我们可以调整公式来描述只保留 $ r < p $ 个最大奇异值的情况。

在这种情况下，我们只需将 $ \tilde \Sigma $ 替换为相应的 $ r\times r $ 奇异值矩阵，将 $ \tilde U $ 替换为对应于 $ r $ 个最大奇异值的 $ m \times r $ 矩阵，将 $ \tilde V $ 替换为对应于 $ r $ 个最大奇异值的 $ n \times r $ 矩阵。

上述所有重要公式都有其对应的形式。

## Python代码来源

你可以在这里找到DMD的Python实现：

[https://mathlab.sissa.it/pydmd](https://mathlab.sissa.it/pydmd)