# Softmax回归

- 其实是一个分类问题


## 回归 vs 分类

- 回归：估计一个连续值
  - 单连续值输出
  - 输出数值的区间是一个自然区间
  - 跟真实值的区别作为损失
- 分类：预测一个离散类别
  - 通常有多个输出
  - 输出$i$是预测为第$i$类的置信度
- 几个比较经典的数据集
  - MNIST：手写数字识别（10类问题）
  - ImageNet：自然物体分类（1000类问题）
## 从回归到多类分类 - 均方损失

- 对类别进行一位有效编码$$\mathbf{y} = \begin{bmatrix} y_1 & y_2 & \dots & y_n \end{bmatrix}^{T}$$
$$
y_i =
\left\{
\begin{array}{ll}
1, & \text{if } i = y \\
0, & \text{otherwise}
\end{array}
\right.
$$
- 使用均方损失训练
- 最大值作为预测
$$
\hat{y} = \underset{i}{\arg\max} \; o_i
$$


### 无校验比例

- 需要更置信的识别正确类（大余量），
- 正确类的置信度应该远远大于其他非正确类的置信度，二者的差值应该大于某一阈值

$$
o_y-o_i\geq \Delta(y, i)
$$

### 校验比例

- 输出匹配概率（向量中的元素都非负，并且加和为1）
$$
\hat{\mathbf{y}} = \text{softmax}(\mathbf{o})
$$
$$
\hat{y_i} = \frac{e^{o_i}}{\sum_ke^{o_k}}
$$
- 概率$\mathbf{y}$和$\hat{\mathbf{y}}$的区别作为损失
  - $\mathbf{y}$为独热变量
  - $\hat{\mathbf{y}}$为概率分布
  - 这两个变量长度是一样的

## 交叉熵损失

- 交叉熵通常用来衡量两个概率的区别
$$
H(\mathbf{p,q}) = \sum_i-p_ilog(q_i)
$$

- 将交叉熵作为损失，由于真实$y$中只有一个变量为1，所以我们的损失结构也就是对正确类的概率估计
$$
l(\mathbf{y},\hat{\mathbf{y}}) = -\sum_iy_i\log\hat{y_i} = -\log\hat{y_y}
$$

- 其梯度是真实概率和预测概率的区别
$$
\frac{\partial l(\mathbf{y},\hat{\mathbf{y}})}{\partial o_i} = \text{softmax}(o_i) - y_i
$$

## 总结

- Softmax回归是一个多类分类模型
- 使用softmax操作子得到每个类的置信度
- 使用交叉熵来衡量预测和标号的区别

# 似然函数
- 假设有一个数据集：
$$
D=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\dots,(x^{(n)},y^{(n)}),\}
$$
- 一个模型
$$
y^{(i)}=f(x^{(i)};\theta)+\epsilon^{(i)}
$$
  - 其中$f(x^{(i)};\theta)$是模型的输出，$\theta$是模型的参数
  - $\epsilon^{(i)}$是误差或者噪声项，通常假设服从某种概率分布（如正态分布）
- 似然函数的定义：给定模型参数$\theta$时，观察到当前数据集$D$的概率

$$
L(\theta)=P(D|\theta)
$$
- 在深度学习中，我们通常采用优化算法（如梯度下降）来最大化似然函数，这一过程成为极大似然估计
- 在实际操作是经常使用对数似然，优化时采用对数似然函数：

$$
\hat{\theta}=\underset{i}{\arg \max}L(\theta)=\underset{\theta}{\arg \max} \log P(D|\theta)
$$


# 损失函数

## 均方损失(L2 Loss)



$$
l(y, y')=\frac{1}{2}(y - y')^2
$$

![L2 Loss](./attachments/L2%20Loss.png)

- 蓝色的曲线为：$y$等于0时，损失函数的图像
- 绿色的曲线为：似然函数的图像，呈一个高斯分布
  - 在假设中我们假设噪声是服从正态分布的，即$\epsilon=y-y'~N(0, \sigma^2)$
  - 由高斯分布的概率密度函数：$p(y|y')=\frac{1}{\sqrt{2\pi}}e^{-\frac{(y-y')^2}{2}}$，我们可以得到误差概率是呈钟形的
  - 所以我们可以知道模拟出来的数据$y'$在越接近$y$(假设为0)时，出现的概率是越大的
- 橙色的曲线为：损失函数的梯度
  - 在越接近极值点的时候，可以看到梯度值越小

## 绝对值损失（L1 Loss）


$$
l(y, y')=|y - y'|
$$

![绝对值损失](./attachments/L1%20Loss.png)

- 蓝色的曲线为：$y$等于0时，损失函数的图像
- 绿色的曲线为：似然函数的图像
  - 使用L1损失时，我们实际上假设数据误差服从拉普拉斯分布
  - 拉普拉斯分布的概率密度函数（PDF）形式为：$$p(y|y')=\frac{1}{2b}e^{\frac{|y-y'|^2}{b}}$$
  - 这个概率密度函数的曲线就是尖峰曲线
- 橙色的曲线为：损失函数的梯度
  - 无论预测值与真实值有多远，更新的梯度永远都是常数，权重的更新也不会很大（比较稳定；但是零点处不可导，优化末期可能不那么稳定）


## Huber's Robust Loss

![Huber's Robust Loss](./attachments/Huber%20Robust%20Loss.png)


# 图片分类数据集

- `MNIST`数据集是图像分类中广泛使用的数据集之一，但是有点简单
- 现在使用类型但更为复杂的`Fashion-MNIST`数据集

In [None]:
import torch
# torchvision: 计算机视觉的一个库
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l


# 使用svg显示图片
d2l.use_svg_display()

In [2]:
trans = transforms.ToTensor()
mnist_train = torchvision.datasets.FashionMNIST(
  root="./data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
  root="./data", train=False, transform=trans, download=True)

len(mnist_train), len(mnist_test)

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz to ./data/FashionMNIST/raw/train-images-idx3-ubyte.gz


100.0%


Extracting ./data/FashionMNIST/raw/train-images-idx3-ubyte.gz to ./data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz to ./data/FashionMNIST/raw/train-labels-idx1-ubyte.gz


100.0%


Extracting ./data/FashionMNIST/raw/train-labels-idx1-ubyte.gz to ./data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz to ./data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz


100.0%


Extracting ./data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz to ./data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz to ./data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz


100.0%

Extracting ./data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz to ./data/FashionMNIST/raw






(60000, 10000)

In [3]:
mnist_train[0][0].shape

torch.Size([1, 28, 28])