# 矩阵求导
https://mp.weixin.qq.com/s/6h0MBJKFiasQFGDgae3cjA

不得不说，向量和矩阵真的是一门高深而又通用的学问，应用十分广泛，不信你可以往回看，前面有关线性代数的文章，哪一篇没个矩阵或者向量。所以呢，我们今天就来看一下向量的导数（矩阵求导）相关内容。

## 定义和约定

矩阵求导的本质是多元函数求导，可以理解为把求导的结果排列为矩阵形式，方便表达与计算。但是矩阵求导本身有一个混乱的地方，就是行、列向量的差异，所导致的结果的差异。而这个差异将导致最后结果出现转置问题。事实上，对于最后求导的结果，很多教材的处理是不一样的，本质上，这只是一个$Layout  \ Convention$问题。本章采用非转置结果，也即是得到结果是雅克比矩阵，同时后面将解释非转置结果。是目前找到关于矩阵求导最详细的结果，因此这里的结果将保持和的结果一致，相关内容可进一步阅读：https://en.wikipedia.org/wiki/Matrix_calculus#Layout_conventions。

### 约定
* 标量用普通小写字母表示，如  $x,  y,$
* 向量用带箭头小写字母表示，如 $\vec{x}, \vec{y}$
* 矩阵用大写字母表示，如： $A=\begin{bmatrix}a_{11}&a_{12}&...&a_{1n}\\a_{21}&a_{22}&...&a_{2n}\\...\\a_{m1}&a_{m2}&...&* a_{mn}\end{bmatrix}$
* 所有向量均默认为列向量，
* 分子布局（Numerator-layout）：分子为$\vec{y}$（列向量）或分母为$\vec{x}^T$（行向量），或者说分子保持原始形式，分母为转置形式。
* 分母布局（Denominator-layout）：分子为$\vec{y}^T$（行向量）或分母为$\vec{x}$（列向量），或者说分子为转置形式，分母保持为原始形式。

需要注意的是，以下公式的原始计算式子，wiki上是不做转置的，但是为了统一，下文是使用了转置。

例如分子布局的标量对向量， wiki上是$\frac{\partial{y}}{\partial{\vec{x}}}=(\frac{\partial{y}}{\partial{x_1}},\frac{\partial{y}}{\partial{x_2}},...,\frac{\partial{y}}{\partial{x_n}})$  ，而本文是$\frac{\partial{y}}{\partial{\vec{x}^T}}=(\frac{\partial{y}}{\partial{x_1}},\frac{\partial{y}}{\partial{x_2}},...,\frac{\partial{y}}{\partial{x_n}})$   ，

但无论是wiki还是本文，原始式子的分母部分都是行向量。 

# 分子布局
（1）标量对向量：分子$y为标量，分母\vec{x}^T$为行向量。$\frac{\partial{y}}{\partial{\vec{x}^T}}=(\frac{\partial{y}}{\partial{x_1}},\frac{\partial{y}}{\partial{x_2}},...,\frac{\partial{y}}{\partial{x_n}})$

（2）向量对标量：分子$\vec{y}为列向量，分母 x 为标量 。\frac{\partial{\vec{y}}}{\partial{x}}=\begin{pmatrix}\frac{\partial{y_1}}{\partial{x}}\\\frac{\partial{y_2}}{\partial{x}}\\...\\\frac{\partial{y_m}}{\partial{x}}\end{pmatrix}$

（3）向量对向量：分子$\vec{y}为列向量，分母\vec{x}^T$为行向量

例如$A是  m \times n矩阵，\vec{x}是n\times 1  列向量，则A\cdot\vec{x} 是 m\times 1 列向量，记 \vec{y}=A\cdot\vec{x}  ，那么 $
$$A=\begin{bmatrix}a_{11}&a_{12}&...&a_{1n}\\a_{21}&a_{22}&...&a_{2n}\\...\\a_{m1}&a_{m2}&...&* a_{mn}\end{bmatrix}\quad\vec{x}=\begin{pmatrix} x_1\\x_2\\...\\x_n\end{pmatrix}\quad \vec{y}=A\cdot\vec{x}=\begin{pmatrix} a_{11}x_1+a_{12}x_2+...a_{1n}x_n\\a_{21}x_1+a_{22}x_2+...a_{2n}x_n\\...\\a_{m1}x_1+a_{m2}x_2+...a_{mn}x_n\end{pmatrix}$$
$$\frac{\partial{\vec{y}}}{\partial{\vec{x}^T}}=\begin{pmatrix}\frac{\partial{y_1}}{\partial{\vec{x}^T}}\\\frac{\partial{y_2}}{\partial{\vec{x}^T}}\\...\frac{\partial{y_m}}{\partial{\vec{x}^T}}\end{pmatrix}=\begin{pmatrix}\frac{\partial{y_1}}{\partial{x_1}}&\frac{\partial{y_1}}{\partial{x_2}}&...&\frac{\partial{y_1}}{\partial{x_n}}\\\frac{\partial{y_2}}{\partial{x_1}}&\frac{\partial{y_2}}{\partial{x_2}}&...&\frac{\partial{y_2}}{\partial{x_n}}\\...\\\frac{\partial{y_m}}{\partial{x_1}}&\frac{\partial{y_m}}{\partial{x_2}}&...&\frac{\partial{y_m}}{\partial{x_n}}\end{pmatrix}=\begin{bmatrix}a_{11}&a_{12}&...&a_{1n}\\a_{21}&a_{22}&...&a_{2n}\\...\\a_{m1}&a_{m2}&...&a_{mn}\end{bmatrix}=A$$

其中A又被称为雅克比矩阵。

（4）标量对矩阵。这里的书写与一些网上的博客不一样，但是计算结果是一样。网上一般是$\frac{\partial{y}}{\partial{X}}，但是为了避免混淆，这里的分母部分不再写为X，而是X^T。  X是一个p\times q$  矩阵。
$$\frac{\partial{y}}{\partial{X}^T}=\begin{pmatrix}\frac{\partial{y}}{\partial{x_{11}}}&\frac{\partial{y}}{\partial{x_{21}}}&...&\frac{\partial{y}}{\partial{x_{p1}}}\\\frac{\partial{y}}{\partial{x_{12}}}&\frac{\partial{y}}{\partial{x_{22}}}&...&\frac{\partial{y}}{\partial{x_{p2}}}\\...\\\frac{\partial{y}}{\partial{x_{1q}}}&\frac{\partial{y}}{\partial{x_{2q}}}&...&\frac{\partial{y}}{\partial{x_{pq}}}\\\end{pmatrix}$$

这里看到是转置的。

（5）矩阵对标量
$$\frac{\partial{Y}}{\partial{x}}=\begin{pmatrix}\frac{\partial{y_{11}}}{\partial{x}}&\frac{\partial{y_{12}}}{\partial{x}}&...&\frac{\partial{y_{1n}}}{\partial{x}}\\\frac{\partial{y_{21}}}{\partial{x}}&\frac{\partial{y_{22}}}{\partial{x}}&...&\frac{\partial{y_{2n}}}{\partial{x}}\\...\\\frac{\partial{y_{m1}}}{\partial{x}}&\frac{\partial{y_{m2}}}{\partial{x}}&...&\frac{\partial{y_{mn}}}{\partial{x}}\end{pmatrix}$$

# 分母布局
（1）标量对向量：分子$y为标量，分母\vec{x}$为列向量。$\frac{\partial{y}}{\partial{\vec{x}}}=\begin{pmatrix}\frac{\partial{y}}{\partial{x_1}}\\\frac{\partial{y}}{\partial{x_2}}\\...\\\frac{\partial{y}}{\partial{x_n}}\end{pmatrix}$

（2）向量对标量：分子$\vec{y}^T为行向量，分母 x 为标量 。\frac{\partial{\vec{y}^T}}{\partial{x}}=(\frac{\partial{y_1}}{\partial{x}},\frac{\partial{y_2}}{\partial{x}},...,\frac{\partial{y_m}}{\partial{x}})$

（3）向量对向量：分子$\vec{y}^T为行向量，分母\vec{x}$为列向量

例如$A是  m \times n矩阵，\vec{x}是n\times 1  列向量，则A\cdot\vec{x} 是 m\times 1 列向量，记 \vec{y}=A\cdot\vec{x}  ，那么 $
$$A=\begin{bmatrix}a_{11}&a_{12}&...&a_{1n}\\a_{21}&a_{22}&...&a_{2n}\\...\\a_{m1}&a_{m2}&...&* a_{mn}\end{bmatrix}\quad\vec{x}=\begin{pmatrix} x_1\\x_2\\...\\x_n\end{pmatrix}\quad \vec{y}=A\cdot\vec{x}=\begin{pmatrix} a_{11}x_1+a_{12}x_2+...a_{1n}x_n\\a_{21}x_1+a_{22}x_2+...a_{2n}x_n\\...\\a_{m1}x_1+a_{m2}x_2+...a_{mn}x_n\end{pmatrix}$$
$$\frac{\partial{\vec{y}^T}}{\partial{\vec{x}}}=(\frac{\partial{y_1}}{\partial{\vec{x}}},\frac{\partial{y_2}}{\partial{\vec{x}}},...,\frac{\partial{y_m}}{\partial{\vec{x}}})=\begin{pmatrix}\frac{\partial{y_1}}{\partial{x_1}}&\frac{\partial{y_2}}{\partial{x_1}}&...&\frac{\partial{y_m}}{\partial{x_1}}\\\frac{\partial{y_1}}{\partial{x_2}}&\frac{\partial{y_2}}{\partial{x_2}}&...&\frac{\partial{y_m}}{\partial{x_2}}\\...\\\frac{\partial{y_1}}{\partial{x_n}}&\frac{\partial{y_2}}{\partial{x_n}}&...&\frac{\partial{y_m}}{\partial{x_n}}\end{pmatrix}=\begin{bmatrix}a_{11}&a_{21}&...&a_{m1}\\a_{12}&a_{22}&...&a_{m2}\\...\\a_{1n}&a_{2n}&...&a_{mn}\end{bmatrix}=A^T$$


（4）标量对矩阵。这里的书写与一些网上的博客不一样，但是计算结果是一样。网上一般是$\frac{\partial{y}}{\partial{X}}，但是为了避免混淆，这里的分母部分不再写为X，而是X^T。  X是一个p\times q$  矩阵。
$$\frac{\partial{y}}{\partial{X}}=\begin{pmatrix}\frac{\partial{y}}{\partial{x_{11}}}&\frac{\partial{y}}{\partial{x_{12}}}&...&\frac{\partial{y}}{\partial{x_{1q}}}\\\frac{\partial{y}}{\partial{x_{21}}}&\frac{\partial{y}}{\partial{x_{22}}}&...&\frac{\partial{y}}{\partial{x_{2q}}}\\...\\\frac{\partial{y}}{\partial{x_{p1}}}&\frac{\partial{y}}{\partial{x_{p2}}}&...&\frac{\partial{y}}{\partial{x_{pq}}}\\\end{pmatrix}$$

这里看到是正的。

# 常用结果

一些常用的结果（原始向量不做说明，均为列向量）：

## 向量对向量：
（向量对向量得矩阵，没严格验证）

$$\frac{\partial{(A\cdot\vec{x})}}{\partial{\vec{x}^T}}=A$$
$$\frac{\partial{(A\cdot\vec{x})}}{\partial{\vec{x}}}=A^T$$
$$\frac{\partial{(\vec{x}^T\cdot A)}}{\partial{\vec{x}}}=A$$
$$\frac{\partial{(\vec{x}^T\cdot A)}}{\partial{\vec{x}^T}}=A^T$$

## 标量对向量
（标量对向量，向量是行得行，是列得列，没严格验证）

$$\frac{\partial{(\vec{b}^T\cdot A\cdot\vec{x})}}{\partial{\vec{x}}}=A^T\cdot\vec{b}$$
$$\frac{\partial{(\vec{b}^T\cdot A\cdot\vec{x})}}{\partial{\vec{x}^T}}=\vec{b}^T\cdot A$$
$$\frac{\partial{(\vec{x}^T\cdot A\cdot\vec{x})}}{\partial{\vec{x}}}=(A+A^T)\cdot\vec{x}; 若   A是对称阵 ，2A\vec{x} 。$$
$$\frac{\partial{(\vec{x}^T\cdot A\cdot\vec{x})}}{\partial{\vec{x}^T}}=\vec{x}^T\cdot(A+A^T); 若   A是对称阵 ，2\vec{x}^TA 。$$

其实通过上面的式子可以发现，求导结果类似于我们函数求导的结果，唯一差异在于转置以及前后关系。而这一点，如果不想记忆，可以通过结果是行向量还是列向量“猜”到。

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)