# 标量、向量、矩阵的求导
作者：Wanying 
日期: 2025年1月

## 1.分母布局与分子布局

在机器学习、深度学习和优化问题中，经常会涉及到标量、向量和矩阵的求导操作。为了统一符号和计算规则，通常会采用两种布局方式来书写导数：**分母布局**和**分子布局**。

### 1.1 分母布局

分母布局是指将目标函数的变量（或张量）视为导数结果的分母。例如：

- **标量对向量求导**: 若 $f$ 是标量，$\mathbf{x}$ 是向量，
  $$ \frac{\partial f}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial f}{\partial x_1} & \frac{\partial f}{\partial x_2} & \cdots & \frac{\partial f}{\partial x_n} \end{bmatrix}^T $$
  导数结果是一个列向量。

- **向量对向量求导**: 若 $\mathbf{y}$ 是向量，$\mathbf{x}$ 是向量，
  $$ \frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\
  \vdots & \ddots & \vdots \\
  \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} \end{bmatrix}, $$
  导数结果是一个矩阵。

### 1.2 分子布局

分子布局是指将目标函数的变量（或张量）视为导数结果的分子。例如：

- **标量对向量求导**: 若 $f$ 是标量，$\mathbf{x}$ 是向量，
  $$ \frac{\partial \mathbf{x}}{\partial f} = \begin{bmatrix} \frac{\partial x_1}{\partial f} & \frac{\partial x_2}{\partial f} & \cdots & \frac{\partial x_n}{\partial f} \end{bmatrix}. $$

- **向量对向量求导**: 若 $\mathbf{y}$ 是向量，$\mathbf{x}$ 是向量，
  $$ \frac{\partial \mathbf{x}}{\partial \mathbf{y}} = \begin{bmatrix} \frac{\partial x_1}{\partial y_1} & \cdots & \frac{\partial x_1}{\partial y_m} \\
  \vdots & \ddots & \vdots \\
  \frac{\partial x_n}{\partial y_1} & \cdots & \frac{\partial x_n}{\partial y_m} \end{bmatrix}. $$

总结来说，分母布局和分子布局的区别主要体现在导数矩阵的转置上。


## 2 标量对向量求导

假设我们有一个标量函数：

$$
f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b
$$

其中：
- $\mathbf{w} = \begin{bmatrix} w_1 & w_2 & w_3 \end{bmatrix}^T$ 是一个 3 维列向量；
- $\mathbf{x} = \begin{bmatrix} x_1 & x_2 & x_3 \end{bmatrix}^T$ 是一个 3 维列向量；
- $b$ 是标量常数。

我们希望求 $\\frac{\\partial f}{\\partial \\mathbf{x}}$，即向量 $\mathbf{x}$ 的每个分量对 $f$ 的偏导数。

### 2.1 第一步：展开函数
将函数 $f(\mathbf{x})$ 展开成具体形式：
$$
f(\mathbf{x}) = w_1 x_1 + w_2 x_2 + w_3 x_3 + b
$$

### 2.2 第二步：求每个分量的偏导数
对 $\mathbf{x}$ 中的每个分量 $x_i$ 求偏导数：

- 对 $x_1$ 求导：
  $$
  \frac{\partial f}{\partial x_1} = w_1
  $$
- 对 $x_2$ 求导：
  $$
  \frac{\partial f}{\partial x_2} = w_2
  $$
- 对 $x_3$ 求导：
  $$
  \frac{\partial f}{\partial x_3} = w_3
  $$

### 2.3 第三步：将结果整理成向量形式
将所有偏导数写成列向量：
$$
\frac{\partial f}{\partial \mathbf{x}} = \begin{bmatrix}
\frac{\partial f}{\partial x_1} \\
\frac{\partial f}{\partial x_2} \\
\frac{\partial f}{\partial x_3}
\end{bmatrix} = \begin{bmatrix}
w_1 \\
w_2 \\
w_3
\end{bmatrix} = \mathbf{w}
$$

#### 结论
$$
\frac{\partial f}{\partial \mathbf{x}} = \mathbf{w}
$$

#### 代码验证

In [1]:
import numpy as np

# 定义参数
w = np.array([2, 3, 4])  # 权重向量 w
x = np.array([1, 2, 3])  # 输入向量 x
b = 5  # 常数偏置 b

# 定义函数 f(x)
f = np.dot(w, x) + b

# 对 x 求偏导数，结果应该是向量 w
df_dx = w

print("f(x) =", f)
print("∂f/∂x =", df_dx)

f(x) = 25
∂f/∂x = [2 3 4]



## 3 向量对向量求导

假设我们有一个向量函数：
$$
\mathbf{y} = \mathbf{A} \mathbf{x}
$$

其中：
- $\mathbf{A}$ 是一个 $2 \times 3$ 矩阵，
  $$
  \mathbf{A} = \begin{bmatrix}
  a_{11} & a_{12} & a_{13} \\
  a_{21} & a_{22} & a_{23}
  \end{bmatrix}
  $$
- $\mathbf{x}$ 是一个 3 维列向量，
  $$
  \mathbf{x} = \begin{bmatrix}
  x_1 \\
  x_2 \\
  x_3
  \end{bmatrix}
  $$
- $\mathbf{y}$ 是一个 2 维列向量，
  $$
  \mathbf{y} = \begin{bmatrix}
  y_1 \\
  y_2
  \end{bmatrix}
  $$

目标是求 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$。

### 3.1 第一步：展开函数
展开 $\mathbf{y}$ 的每个分量：
- $y_1$ 是 $\mathbf{A}$ 的第 1 行与 $\mathbf{x}$ 的点积：
  $$
  y_1 = a_{11}x_1 + a_{12}x_2 + a_{13}x_3
  $$
- $y_2$ 是 $\mathbf{A}$ 的第 2 行与 $\mathbf{x}$ 的点积：
  $$
  y_2 = a_{21}x_1 + a_{22}x_2 + a_{23}x_3
  $$

### 3.2 第二步：求偏导数
对 $\mathbf{x}$ 的每个分量 $x_j$ 求偏导数，构造雅可比矩阵 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$：

- 第 1 行（对应 $y_1$）：
  $$
  \frac{\partial y_1}{\partial x_1} = a_{11}, \quad \frac{\partial y_1}{\partial x_2} = a_{12}, \quad \frac{\partial y_1}{\partial x_3} = a_{13}
  $$

- 第 2 行（对应 $y_2$）：
  $$
  \frac{\partial y_2}{\partial x_1} = a_{21}, \quad \frac{\partial y_2}{\partial x_2} = a_{22}, \quad \frac{\partial y_2}{\partial x_3} = a_{23}
  $$

### 3.3 第三步：构造结果
将导数整理成矩阵形式：
$$
\frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix}
\frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \frac{\partial y_1}{\partial x_3} \\
\frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \frac{\partial y_2}{\partial x_3}
\end{bmatrix} = \begin{bmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23}
\end{bmatrix} = \mathbf{A}
$$

#### 结论
$$
\frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \mathbf{A}
$$

#### 代码验证

In [None]:
# 定义参数
A = np.array([[1, 2, 3], [4, 5, 6]])  # 矩阵 A (2x3)
x = np.array([1, 2, 3])               # 向量 x (3,)

# 定义函数 y = Ax
y = np.dot(A, x)

# 对 x 求偏导数，结果应该是矩阵 A
dy_dx = A

print("y =", y)
print("∂y/∂x =\n", dy_dx)

## 4 标量对矩阵求导

假设我们有一个标量函数：
$$
f(\mathbf{A}) = \text{tr}(\mathbf{A}^T \mathbf{B})
$$

其中：
- $\mathbf{A}$ 和 $\mathbf{B}$ 是 $2 \times 2$ 矩阵，
  $$
  \mathbf{A} = \begin{bmatrix}
  a_{11} & a_{12} \\
  a_{21} & a_{22}
  \end{bmatrix}, \quad
  \mathbf{B} = \begin{bmatrix}
  b_{11} & b_{12} \\
  b_{21} & b_{22}
  \end{bmatrix}
  $$

目标是求 $\frac{\partial f}{\partial \mathbf{A}}$。

### 4.1 第一步：展开函数
迹运算 $\text{tr}$ 表示矩阵对角线元素的和，因此：
$$
f(\mathbf{A}) = a_{11}b_{11} + a_{22}b_{22}
$$

### 4.2 第二步：求偏导数
对 $\mathbf{A}$ 的每个分量 $a_{ij}$ 求偏导数：

- $\frac{\partial f}{\partial a_{11}} = b_{11}$
- $\frac{\partial f}{\partial a_{12}} = b_{12}$
- $\frac{\partial f}{\partial a_{21}} = b_{21}$
- $\frac{\partial f}{\partial a_{22}} = b_{22}$

### 4.3 第三步：构造结果
将偏导数结果整理成矩阵形式：
$$
\frac{\partial f}{\partial \mathbf{A}} = \mathbf{B}
$$

#### 结论
$$
\frac{\partial f}{\partial \mathbf{A}} = \mathbf{B}
$$

#### 代码验证

In [None]:
# 定义参数
A = np.array([[1, 2], [3, 4]])  # 矩阵 A (2x2)
B = np.array([[5, 6], [7, 8]])  # 矩阵 B (2x2)

# 定义函数 f(A) = tr(A^T B)
f = np.trace(np.dot(A.T, B))

# 对 A 求偏导数，结果应该是矩阵 B
df_dA = B

print("f(A) =", f)
print("∂f/∂A =\n", df_dA)





## 5 线性回归案例中的矩阵求导

### 5.1 问题描述

假设一个简单的线性回归模型：
$$
\mathbf{y}_{\text{pred}} = \mathbf{X} \mathbf{\beta}
$$

其中：
- $\mathbf{X} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} \in \mathbb{R}^{3 \times 2}$ 是设计矩阵；
- $\mathbf{\beta} = \begin{bmatrix} \beta_1 \\ \beta_2 \end{bmatrix} \in \mathbb{R}^2$ 是参数向量；
- $\mathbf{y}_{\text{pred}} \in \mathbb{R}^3$ 是模型的预测值。

我们希望最小化均方误差 (MSE) 损失函数：
$$
L(\mathbf{\beta}) = \frac{1}{2m} \| \mathbf{y}_{\text{pred}} - \mathbf{y} \|^2
$$

其中 $\mathbf{y} = \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}$ 是真实标签向量。

目标：求损失函数对 $\mathbf{\beta}$ 的梯度 $\frac{\partial L}{\partial \mathbf{\beta}}$。



### 5.2 推导过程

#### 展开损失函数

首先，写出 $\mathbf{y}_{\text{pred}}$ 的定义：
$$
\mathbf{y}_{\text{pred}} = \mathbf{X} \mathbf{\beta} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix} \cdot \begin{bmatrix} \beta_1 \\ \beta_2 \end{bmatrix}
= \begin{bmatrix} 1\beta_1 + 2\beta_2 \\ 3\beta_1 + 4\beta_2 \\ 5\beta_1 + 6\beta_2 \end{bmatrix}
$$

误差向量为：
$$
\mathbf{e} = \mathbf{y}_{\text{pred}} - \mathbf{y} = \begin{bmatrix} 1\beta_1 + 2\beta_2 \\ 3\beta_1 + 4\beta_2 \\ 5\beta_1 + 6\beta_2 \end{bmatrix} - \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}
= \begin{bmatrix} (1\beta_1 + 2\beta_2 - 1) \\ (3\beta_1 + 4\beta_2 - 2) \\ (5\beta_1 + 6\beta_2 - 3) \end{bmatrix}
$$

损失函数为：
$$
L(\mathbf{\beta}) = \frac{1}{2m} \mathbf{e}^T \mathbf{e}
$$

对于 $m = 3$，展开 $\mathbf{e}^T \mathbf{e}$：
$$
\mathbf{e}^T \mathbf{e} = \left((1\beta_1 + 2\beta_2 - 1)^2 + (3\beta_1 + 4\beta_2 - 2)^2 + (5\beta_1 + 6\beta_2 - 3)^2\right)
$$

---

#### 对 $\mathbf{\beta}$ 求导

我们需要对 $\mathbf{\beta}$ 求梯度：
$$
\frac{\partial L}{\partial \mathbf{\beta}} = \frac{1}{m} \mathbf{X}^T \mathbf{e}
$$

逐步计算：

1. $\mathbf{X}^T$ 是设计矩阵的转置：
   $$
   \mathbf{X}^T = \begin{bmatrix} 
   1 & 3 & 5 \\ 
   2 & 4 & 6 
   \end{bmatrix}
   $$

2. 误差向量 $\mathbf{e}$ 为：
   $$
   \mathbf{e} = \begin{bmatrix} 1\beta_1 + 2\beta_2 - 1 \\ 3\beta_1 + 4\beta_2 - 2 \\ 5\beta_1 + 6\beta_2 - 3 \end{bmatrix}
   $$

3. 计算 $\mathbf{X}^T \mathbf{e}$：
   $$
   \mathbf{X}^T \mathbf{e} = \begin{bmatrix} 
   1 & 3 & 5 \\ 
   2 & 4 & 6 
   \end{bmatrix} 
   \cdot 
   \begin{bmatrix} 
   1\beta_1 + 2\beta_2 - 1 \\ 
   3\beta_1 + 4\beta_2 - 2 \\ 
   5\beta_1 + 6\beta_2 - 3 
   \end{bmatrix}
   $$

   逐项展开计算：
   - 第 1 行：
     $$
     (1)(1\beta_1 + 2\beta_2 - 1) + (3)(3\beta_1 + 4\beta_2 - 2) + (5)(5\beta_1 + 6\beta_2 - 3)
     $$
   - 第 2 行：
     $$
     (2)(1\beta_1 + 2\beta_2 - 1) + (4)(3\beta_1 + 4\beta_2 - 2) + (6)(5\beta_1 + 6\beta_2 - 3)
     $$

4. 最终梯度：
   $$
   \frac{\partial L}{\partial \mathbf{\beta}} = \frac{1}{3} \mathbf{X}^T \mathbf{e}
   $$



#### 代码验证


In [None]:

import numpy as np

# 定义矩阵和向量
X = np.array([[1, 2], [3, 4], [5, 6]])  # 设计矩阵 (3x2)
y = np.array([1, 2, 3])                 # 标签向量 (3,)
beta = np.array([0.5, 0.5])             # 参数 (2,)

# 计算预测值
y_pred = np.dot(X, beta)

# 计算误差向量
e = y_pred - y

# 样本数
m = len(y)

# 计算梯度
grad_L = (1 / m) * np.dot(X.T, e)

print("预测值 y_pred =", y_pred)
print("误差向量 e =", e)
print("梯度 grad_L =", grad_L)



## 6 矩阵求导的链式法则（展开计算）

### 6.1 问题描述

假设有两个函数：
1. $\mathbf{y} = \mathbf{A} \mathbf{x}$
2. $f(\mathbf{y}) = \mathbf{y}^T \mathbf{y}$

其中：
- $\mathbf{A} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} \in \mathbb{R}^{2 \times 2}$ 是矩阵；
- $\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} \in \mathbb{R}^2$ 是向量；
- $\mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \end{bmatrix} \in \mathbb{R}^2$ 是向量。

目标：求 $f$ 关于 $\mathbf{x}$ 的梯度 $\frac{\partial f}{\partial \mathbf{x}}$。



### 6.2 推导过程

#### 第一步：逐步展开函数
1. 计算 $\mathbf{y}$：
   $$
   \mathbf{y} = \mathbf{A} \mathbf{x} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 1x_1 + 2x_2 \\ 3x_1 + 4x_2 \end{bmatrix}
   $$

2. 计算 $f(\mathbf{y})$：
   $$
   f(\mathbf{y}) = \mathbf{y}^T \mathbf{y} = y_1^2 + y_2^2
   $$

#### 第二步：对 $\mathbf{y}$ 求导
对 $\mathbf{y}$ 求导：
$$
\frac{\partial f}{\partial \mathbf{y}} = 2 \mathbf{y}
$$

#### 第三步：对 $\mathbf{x}$ 求导
由于 $\mathbf{y} = \mathbf{A} \mathbf{x}$，我们有：
$$
\frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \mathbf{A}
$$

根据链式法则：
$$
\frac{\partial f}{\partial \mathbf{x}} = \frac{\partial f}{\partial \mathbf{y}} \cdot \frac{\partial \mathbf{y}}{\partial \mathbf{x}}
$$

代入：
$$
\frac{\partial f}{\partial \mathbf{x}} = (2 \mathbf{y})^T \mathbf{A}
$$

将 $\mathbf{y}$ 替换回去：
$$
\frac{\partial f}{\partial \mathbf{x}} = 2 (\mathbf{A} \mathbf{x})^T \mathbf{A}
$$



### 代码验证

In [None]:

# 定义矩阵 A 和向量 x
A = np.array([[1, 2], [3, 4]])  # 矩阵 A (2x2)
x = np.array([1, 1])            # 向量 x (2,)

# 计算中间变量 y 和函数值 f
y = np.dot(A, x)                # y = A * x
f = np.dot(y, y)                # f = y^T * y

# 手动计算梯度
df_dy = 2 * y                   # ∂f/∂y
dy_dx = A                       # ∂y/∂x
df_dx = np.dot(df_dy, dy_dx)    # 链式法则: ∂f/∂x = ∂f/∂y * ∂y/∂x

print("函数值 f =", f)
print("梯度 ∂f/∂x =", df_dx)

