# 4.softmaxReg
在 3.1节中我们介绍了线性回归。 随后，在 3.2节中我们从头实现线性回归。 然后，在 3.3节中我们使用深度学习框架的高级API简洁实现线性回归。

回归可以用于预测多少的问题。 比如预测房屋被售出价格，或者棒球队可能获得的胜场数，又或者患者住院的天数。

事实上，我们也对分类问题感兴趣：不是问“多少”，而是问“哪一个”：

某个电子邮件是否属于垃圾邮件文件夹？

某个用户可能注册或不注册订阅服务？

某个图像描绘的是驴、狗、猫、还是鸡？

某人接下来最有可能看哪部电影？

通常，机器学习实践者用分类这个词来描述两个有微妙差别的问题： 1. 我们只对样本的“硬性”类别感兴趣，即属于哪个类别； 2. 我们希望得到“软性”类别，即得到属于每个类别的概率。 这两者的界限往往很模糊。其中的一个原因是：即使我们只关心硬类别，我们仍然使用软类别的模型。

## 1.分类问题
![image.png](attachment:image.png)

## 2.网络架构
![image.png](attachment:image.png)

## 3.全连接层的参数开销
![image.png](attachment:image.png)

## 4.softmax运算
![image.png](attachment:image.png)

## 5.小批量样本矢量化
![image.png](attachment:image.png)

## 6.损失函数


### 6.1对数似然
![image.png](attachment:image.png)

## 6.2.softmax及其导数
![image.png](attachment:image.png)

### 6.3.交叉熵损失
![image.png](attachment:image.png)

## 7.信息论基础
信息论（information theory）涉及编码、解码、发送以及尽可能简洁地处理信息或数据。
### 7.1.熵
![image.png](attachment:image.png)
### 7.2.信息量
![image-2.png](attachment:image-2.png)
### 7.3.重新审视交叉熵
![image-3.png](attachment:image-3.png)
### 7.4.例子详解
### **熵 (Entropy)**

熵是信息论中的一个基本概念，用来衡量一个随机变量的不确定性或信息量。它由克劳德·香农提出，常用公式为：

$$
H(X) = -\sum_{i} P(x_i) \log P(x_i)
$$

其中：

- $ X $ 是一个随机变量。
- $ P(x_i)$ 是 $ X $ 取值为 $ x_i $ 的概率。

#### **例子：**
假设我们有一个公平的硬币，其正反两面概率均为 0.5。那么熵为：

$$
H(X) = - (0.5 \log 0.5 + 0.5 \log 0.5) = 1 \, (\text{单位：比特})
$$

这表示，如果硬币是公平的，预测其结果需要 1 比特的信息。

如果硬币不公平，比如正面概率是 0.9，反面概率是 0.1，则熵变为：

$$
H(X) = - (0.9 \log 0.9 + 0.1 \log 0.1) \approx 0.47 \, \text{比特}
$$

不确定性更低，因此需要的信息量也减少。

---

### **交叉熵 (Cross-Entropy)**

交叉熵用来衡量两个概率分布之间的距离，尤其是在预测分布 \( Q \) 和真实分布 \( P \) 不同时：

$$
H(P, Q) = -\sum_{i} P(x_i) \log Q(x_i)
$$

#### **关键点：**

1. 如果 $ P = Q $，交叉熵和熵是相等的。
2. 如果 $ Q $ 偏离 $ P $，交叉熵会增加，表示预测分布 $ Q $ 与真实分布 $ P $ 的匹配程度更差。

---

#### **例子：**

假设我们仍然有一个硬币，但模型预测的分布（\( Q \)）和真实分布（\( P \)）可能不一致：

1. **真实分布 \( P \)：**
   - 正面：0.8
   - 反面：0.2

2. **预测分布 \( Q \)：**
   - 正面：0.7
   - 反面：0.3

交叉熵为：

$$
H(P, Q) = - (0.8 \log 0.7 + 0.2 \log 0.3) \approx 0.78
$$

相比真实分布的熵$ H(P) \approx 0.72 $，交叉熵更大，反映了预测分布 $Q$ 和真实分布 $ P$ 之间的差距。

---

### **直观理解：**
- **熵**：描述一个系统的内在不确定性。
- **交叉熵**：评价模型的预测与真实分布的差异，交叉熵越小，模型预测越接近真实分布。

---

### **实际应用：**
在机器学习中，交叉熵损失函数常用于分类问题，例如：
- 图像分类：目标是使模型输出的概率分布 \( Q \) 尽可能接近真实标签的分布 \( P \)（通常是一个 one-hot 向量）。
- NLP 中的语言模型：用来衡量预测的词分布与实际词分布的差异。

## 8.模型预测和评估
在训练softmax回归模型后，给出任何样本特征，我们可以预测每个输出类别的概率。 通常我们使用预测概率最高的类别作为输出类别。 如果预测与实际类别（标签）一致，则预测是正确的。 在接下来的实验中，我们将使用精度（accuracy）来评估模型的性能。 精度等于正确预测数与预测总数之间的比率。

## 9.小结
softmax运算获取一个向量并将其映射为概率。

softmax回归适用于分类问题，它使用了softmax运算中输出类别的概率分布。

交叉熵是一个衡量两个概率分布之间差异的很好的度量，它测量给定模型编码数据所需的比特数。

## 10.深度学习常用三大损失函数
### 10.1.L2 Loss 均方损失函数 Mean Square Error
调用代码：nn.MSELoss
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

---

### 10.2.L1 Loss 绝对值损失函数 Mean Absolute Error
调用代码：nn.L1Loss
![image-4.png](attachment:image-4.png)
![image-5.png](attachment:image-5.png)

---

### 10.3.Huber Loss Huber损失函数 -- 分段函数
调用代码：nn.SmoothL1Loss
![image-6.png](attachment:image-6.png)
![image-7.png](attachment:image-7.png)

## 10.练习
![image-2.png](attachment:image-2.png)
![image-5.png](attachment:image-5.png)
---

![image-3.png](attachment:image-3.png)
- A. 如果我们尝试为它设计二进制代码，有什么问题？

    解：
    如果我们尝试为这个概率向量设计二进制代码，会遇到的问题是无法准确地表示各个类的概率。由于三个类的概率相等，如果使用等长的二进制编码，比如类1编码为00，类2编码为01，类3编码为10，那么每个类的编码长度都相同，无法反映各个类的概率差异。

    同时，该方法会导致前缀冲突，指两个编码序列中的一个序列是另一个序列的前缀。例如，第一个类别编码 “00”和第二个类别编码 “01”，就存在前缀冲突，因为 “00” 是 “01” 的前缀，因此在进行解码时，当我们遇到编码为 “0” 的序列时，无法确定这是第一个类别还是第二个类别。

    这种前缀冲突会导致解码错误，使我们无法准确地将编码映射回原始的类别。

- B. 请设计一个更好的代码。提示：如果我们尝试编码两个独立的观察结果会发生什么？如果我们联合编码 个观测值怎么办？

    解：
    为了设计一个更好的代码，我们可以使用霍夫曼编码（Huffman coding），以便能够准确表示各个类的概率。
    如果我们尝试编码两个独立的观察结果，可以使用霍夫曼编码。首先，将两个观察结果看作一个整体，构建一个二叉树。然后，从根节点开始，沿着左子树和右子树分支，分别分配0和1作为编码。这样的编码方式是唯一的，并且可以准确地区分每个类的概率。
    如果我们要联合编码n个观测值，可以使用联合霍夫曼编码或嵌套霍夫曼编码。联合编码的基本思想是将多个观测值看作一个整体，构建一棵多叉树，并按照霍夫曼编码的原则进行编码。嵌套霍夫曼编码则是多层次地应用霍夫曼编码，将每个观测值集合看作一个整体进行编码。
![image-7.png](attachment:image-7.png)
        
---

![image-4.png](attachment:image-4.png)
![image-8.png](attachment:image-8.png)