# 第3章 线性神经网络

## 3.1 线性回归

### 练习3.1.1 

假设我们有一些数据$x_1, \ldots, x_n \in \mathbb{R}$。我们的目标是找到一个常数$b$，使得最小化$\sum_i (x_i - b)^2$。

1. 找到最优值$b$的解析解。
2. 这个问题及其解与正态分布有什么关系?

**解答：**

### 练习3.1.2

推导出使用平方误差的线性回归优化问题的解析解。为了简化问题，可以忽略偏置$b$（我们可以通过向$\mathbf X$添加所有值为1的一列来做到这一点）。

1. 用矩阵和向量表示法写出优化问题（将所有数据视为单个矩阵，将所有目标值视为单个向量）。
2. 计算损失对$w$的梯度。
3. 通过将梯度设为0、求解矩阵方程来找到解析解。
4. 什么时候可能比使用随机梯度下降更好？这种方法何时会失效？

**解答：**

### 练习3.1.3

假定控制附加噪声$\epsilon$的噪声模型是指数分布。也就是说，$p(\epsilon) = \frac{1}{2} \exp(-|\epsilon|)$

1. 写出模型$-\log P(\mathbf y \mid \mathbf X)$下数据的负对数似然。
2. 请试着写出解析解。
3. 提出一种随机梯度下降算法来解决这个问题。哪里可能出错？（提示：当我们不断更新参数时，在驻点附近会发生什么情况）请尝试解决这个问题。

**解答：**

## 3.2 线性回归的从零开始实现

### 练习3.2.1

如果我们将权重初始化为零，会发生什么。算法仍然有效吗？

**解答：**

### 练习3.2.2

假设试图为电压和电流的关系建立一个模型。自动微分可以用来学习模型的参数吗?

**解答：**

### 练习3.2.3

能基于[普朗克定律](https://en.wikipedia.org/wiki/Planck%27s_law)使用光谱能量密度来确定物体的温度吗？

**解答：**

### 练习3.2.4

计算二阶导数时可能会遇到什么问题？这些问题可以如何解决？

**解答：**

### 练习3.2.5

为什么在`squared_loss`函数中需要使用`reshape`函数？

**解答：**

### 练习3.2.6

尝试使用不同的学习率，观察损失函数值下降的快慢。

**解答：**

### 练习3.2.7

如果样本个数不能被批量大小整除，`data_iter`函数的行为会有什么变化？

**解答：**

## 3.3 线性回归的简洁实现

### 练习3.3.1

如果将小批量的总损失替换为小批量损失的平均值，需要如何更改学习率？

**解答：**

### 练习3.3.2

查看深度学习框架文档，它们提供了哪些损失函数和初始化方法？用Huber损失代替原损失，即
$$
l(y,y') = \begin{cases}|y-y'| -\frac{\sigma}{2} & \text{ if } |y-y'| > \sigma \\ \frac{1}{2 \sigma} (y-y')^2 & \text{ 其它情况}\end{cases}
$$

**解答：**

### 练习3.3.3

如何访问线性回归的梯度？

**解答：**

## 3.4 softmax回归

### 练习3.4.1

我们可以更深入地探讨指数族与softmax之间的联系。

1. 计算softmax交叉熵损失$l(\mathbf{y},\hat{\mathbf{y}})$的二阶导数。
2. 计算$\mathrm{softmax}(\mathbf{o})$给出的分布方差，并与上面计算的二阶导数匹配。  

**解答：**

### 练习3.4.2

假设我们有三个类发生的概率相等，即概率向量是$(\frac{1}{3}, \frac{1}{3}, \frac{1}{3})$。

1. 如果我们尝试为它设计二进制代码，有什么问题？
2. 请设计一个更好的代码。提示：如果我们尝试编码两个独立的观察结果会发生什么？如果我们联合编码$n$个观测值怎么办？

**解答：**

### 练习3.4.3

softmax是对上面介绍的映射的误称（虽然深度学习领域中很多人都使用这个名字）。真正的softmax被定义为$\mathrm{RealSoftMax}(a, b) = \log (\exp(a) + \exp(b))$。

1. 证明$\mathrm{RealSoftMax}(a, b) > \mathrm{max}(a, b)$。
2. 证明$\lambda^{-1} \mathrm{RealSoftMax}(\lambda a, \lambda b) > \mathrm{max}(a, b)$成立，前提是$\lambda > 0$。
3. 证明对于$\lambda \to \infty$，有$\lambda^{-1} \mathrm{RealSoftMax}(\lambda a, \lambda b) \to \mathrm{max}(a, b)$。
4. soft-min会是什么样子？
5. 将其扩展到两个以上的数字。

**解答：**

## 3.5 图像分类数据集

### 练习3.5.1

减少`batch_size`（如减少到1）是否会影响读取性能？

**解答：**

### 练习3.5.2

数据迭代器的性能非常重要。当前的实现足够快吗？探索各种选择来改进它。

**解答：**

### 练习3.5.3

查阅框架的在线API文档。还有哪些其他数据集可用？

**解答：**

## 3.6 softmax回归的从零开始实现

### 练习3.6.1

本节直接实现了基于数学定义softmax运算的`softmax`函数。这可能会导致什么问题？提示：尝试计算$\exp(50)$的大小。

**解答：**

### 练习3.6.2

本节中的函数`cross_entropy`是根据交叉熵损失函数的定义实现的。它可能有什么问题？提示：考虑对数的定义域。

**解答：**

### 练习3.6.3

请想一个解决方案来解决上述两个问题。

**解答：**

### 练习3.6.4

返回概率最大的分类标签总是最优解吗？例如，医疗诊断场景下可以这样做吗？

**解答：**

### 练习3.6.5

假设我们使用softmax回归来预测下一个单词，可选取的单词数目过多可能会带来哪些问题?

**解答：**

## 3.7 softmax回归的简洁实现

### 练习3.7.1

尝试调整超参数，例如批量大小、迭代周期数和学习率，并查看结果。

**解答：**

### 练习3.7.2

增加迭代周期的数量。为什么测试精度会在一段时间后降低？我们怎么解决这个问题？

**解答：**