# 矩阵的计算

关于求导，向量，矩阵求导...

太好了！这张图展示的是一个非常重要的 **链式法则 + 向量微分** 的例子，常用于深度学习中损失函数对权重的求导。我们一行一行讲清楚它的意义。

---

## 📌 一、背景设定（左上角）

- 假设：
$$
  \mathbf{x}, \mathbf{w} \in \mathbb{R}^n,\quad y \in \mathbb{R}
$$

- 函数定义：
$$
  z = (\langle \mathbf{x}, \mathbf{w} \rangle - y)^2
$$

其中：
- $\langle \mathbf{x}, \mathbf{w} \rangle$ 表示**向量内积**，也就是 $\mathbf{x}^\top \mathbf{w}$
- $z$ 是我们想要最小化的损失（例如平方误差）

---

## 📌 二、目标：计算导数 $\frac{\partial z}{\partial \mathbf{w}}$

我们希望求：损失函数 $z$ 对权重向量 $\mathbf{w}$ 的导数，用于梯度下降。

---

## 📌 三、链式法则展开（右边中间）

用链式法则逐层分解：

$
\frac{\partial z}{\partial \mathbf{w}} =
\frac{\partial z}{\partial b} \cdot
\frac{\partial b}{\partial a} \cdot
\frac{\partial a}{\partial \mathbf{w}}
$

> 其中：
> - $a = \langle \mathbf{x}, \mathbf{w} \rangle$
> - $b = a - y$
> - $z = b^2$

---

## 📌 四、具体求导（右下角）

我们开始逐步计算每个部分的导数：

### 1. $\frac{\partial z}{\partial b} = \frac{\partial b^2}{\partial b} = 2b$

### 2. $\frac{\partial b}{\partial a} = \frac{\partial (a - y)}{\partial a} = 1$

### 3. $\frac{\partial a}{\partial \mathbf{w}} = \frac{\partial \langle \mathbf{x}, \mathbf{w} \rangle}{\partial \mathbf{w}} = \mathbf{x}^\top$

（向量内积对权重求导，就是另一个向量）

---

## ✅ 所以整体导数为：

$
\frac{\partial z}{\partial \mathbf{w}} = 2b \cdot 1 \cdot \mathbf{x}^\top = 2 (\langle \mathbf{x}, \mathbf{w} \rangle - y) \cdot \mathbf{x}^\top
$

这就是我们经常看到的**均方误差（MSE）损失对权重的梯度公式**！

---

## 🎯 总结重点

| 项目 | 含义 |
|------|------|
| $z = (\langle \mathbf{x}, \mathbf{w} \rangle - y)^2$| 二次损失 |
| $\frac{\partial z}{\partial \mathbf{w}}$| 损失函数对权重的导数 |
| 结果 | $2 (\mathbf{x}^\top \mathbf{w} - y)\mathbf{x}^\top$ 或向量形式 $2(\mathbf{x}^\top \mathbf{w} - y)\mathbf{x}$ |

---

这个过程非常关键，是**神经网络反向传播的基本计算单元**。


---

## 📌 一、背景设定（假设）

- 假设：

  $$
  \mathbf{X} \in \mathbb{R}^{m \times n},\quad \mathbf{w} \in \mathbb{R}^n,\quad \mathbf{y} \in \mathbb{R}^m
  $$

- 损失函数定义：

  $$
  z = \|\mathbf{Xw} - \mathbf{y}\|^2
  $$

---

## 📌 二、求导目标

我们希望计算损失函数对权重的导数：

$$
\frac{\partial z}{\partial \mathbf{w}}
$$

---

## 📌 三、链式法则拆分

引入中间变量：

- $a = \mathbf{Xw}$
- $b = a - \mathbf{y}$
- $z = \|b\|^2 = b^\top b$

然后利用链式法则分解导数：

$$
\frac{\partial z}{\partial \mathbf{w}} =
\frac{\partial z}{\partial b} \cdot
\frac{\partial b}{\partial a} \cdot
\frac{\partial a}{\partial \mathbf{w}}
$$

---

## 📌 四、逐项求导

### 1. 第一项：

$$
\frac{\partial z}{\partial b}
= \frac{\partial \|b\|^2}{\partial b}
= \frac{\partial (b^\top b)}{\partial b}
= 2b^\top
$$

---

### 2. 第二项：

$$
\frac{\partial b}{\partial a} = \frac{\partial (a - y)}{\partial a} = I
$$

（单位矩阵，通常可以省略）

---

### 3. 第三项：

$$
\frac{\partial a}{\partial \mathbf{w}} = \frac{\partial (\mathbf{Xw})}{\partial \mathbf{w}} = \mathbf{X}
$$

---

## ✅ 最终结果：

$$
\frac{\partial z}{\partial \mathbf{w}} = 2(\mathbf{Xw} - \mathbf{y})^\top \mathbf{X}
$$

如果你更喜欢列向量形式（用于编程或公式推导），也可以写成：

$$
\frac{\partial z}{\partial \mathbf{w}} = 2\mathbf{X}^\top (\mathbf{Xw} - \mathbf{y})
$$

---

## 🧠 梯度下降更新公式：

$$
\mathbf{w} \leftarrow \mathbf{w} - \eta \cdot \frac{\partial z}{\partial \mathbf{w}}
$$

其中 $\eta$ 是学习率。

---

如果你愿意，我可以接下来为你推导这个公式在正规方程下的解析解，或者演示用 `PyTorch` 代码实现它的梯度计算。要继续深入吗？😄