# Softmax Regression

## Softmax 函数

Softmax函数的表达式为：

$$\hat{\mathbf{y}} = \mathrm{softmax}(\mathbf{o})\quad \text{其中}\quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}$$

Softmax函数保证了对于每一个$j$, $y_j$都为正数并且对于向量$\mathbf{y}=[\begin{matrix}y_1& y_2...&y_q\end{matrix}]$来说，它的和始终为1。这样softmax函数就可以用来模拟一个概率分布。

## Softmax回归模型

$$\begin{split}\begin{aligned} \mathbf{o} &= \mathbf{W} \mathbf{x} + \mathbf{b}, \\ \hat{\mathbf{y}} & = \mathrm{softmax}(\mathbf{o}). \end{aligned}\end{split}$$
其中$\hat{\mathbf{y}}$代表每个类在$\mathbf{x}$下的条件概率。

## 最大似然估计

对于一个给定的样本 $(\mathbf{x}, \mathbf{y})$, 其中 $\mathbf{x}$ 为输入的特征向量，$\mathbf{y}$ 为编码得到的 one-hot 向量。对于$\mathbf{y}$中的每一个值 $y_j$ 来说，它有两个取值0和1，其中：

$$P(y_j=1|\mathbf{x})= \frac{\exp(\mathbf{w}_j^T\mathbf{x}+b)}{\sum_k \exp(\mathbf{w}_k^T\mathbf{x}+b)}$$
$$P(y_j=0|\mathbf{x})= 1-P(y_j=1|\mathbf{x})$$

假设我们记$P(y_j=1|\mathbf{x})=\pi(\mathbf{x}, \mathbf{w_j})$,也就是说，当前样本属于类别$j$的概率为$\pi(\mathbf{x}, \mathbf{w_j})$。由于向量$\mathbf{y}$中只有一个值为1，因此：

$$P(\mathbf{y}|\mathbf{x})=\sum_{j=1}^{q}I(y_j=1)\pi(\mathbf{x}, \mathbf{w_j})$$

更进一步可以写为：

$$P(\mathbf{y}|\mathbf{x})=\prod_{j=1}^{q}\pi(\mathbf{x}, \mathbf{w_j})^{y_j}$$

对数似然函数为

$$\log P(y_j|\mathbf{x})=\sum_{j=1}^{q}y_j\log\pi(\mathbf{x}, \mathbf{w_j})$$

由于 $\hat{y_j}=\pi(\mathbf{x}, \mathbf{w_j})$ ，所以上式又可写为：

$$\log P(y_j|\mathbf{x})=\sum_{j=1}^{q}y_j\log\hat{y_j}$$

目标函数即使最小化负对数似然函数：

$$l(\mathbf{y}, \hat{\mathbf{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j$$

## Softmax及其导数

根据softmax的定义，可以进一步计算损失函数

$$\begin{split}\begin{aligned}
l(\mathbf{y}, \hat{\mathbf{y}}) &=  - \sum_{j=1}^q y_j \log \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} \\
&= \sum_{j=1}^q y_j \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j\\
&= \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j.
\end{aligned}\end{split}
$$

考虑相对于任何未归一化的预测$o_j$的导数。我们得到：

$$\frac{l(\mathbf{y}, \hat{\mathbf{y}})}{\partial{o_j} } = \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} - y_j = \mathrm{softmax}(\mathbf{o})_j - y_j$$

换句话说，导数是我们模型分配的概率（由softmax得到）与实际发生的情况（由独热标签向量表示）之间的差异。从这个意义上讲，与我们在回归中看到的非常相似，其中梯度是观测值$y$和估计值$\hat{y}$之间的差异。这不是巧合，在任何指数族分布模型中，对数似然的梯度正是由这给出的。这使计算梯度在实践中变得容易。

## Softmax回归的实现

In [1]:
import torch
from IPython import display
from d2l import torch as d2l

ModuleNotFoundError: No module named 'torchvision'

### 导入数据集

In [None]:
%matplotlib inline
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l

d2l.use_svg_display()

#### 读取Fashion-MNIST数据集

In [5]:
# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式
# 并除以255使得所有像素的数值均在0到1之间
trans = transforms.ToTensor()
mnist_train = torchvision.datasets.FashionMNIST(root="../data", train=True,
                                                transform=trans,
                                                download=True)
mnist_test = torchvision.datasets.FashionMNIST(root="../data", train=False,
                                               transform=trans, download=True)

In [10]:
print(mnist_train, type(mnist_train))
print(mnist_test, type(mnist_test))

Dataset FashionMNIST
    Number of datapoints: 60000
    Root location: ../data
    Split: Train
    StandardTransform
Transform: ToTensor() <class 'torchvision.datasets.mnist.FashionMNIST'>
Dataset FashionMNIST
    Number of datapoints: 10000
    Root location: ../data
    Split: Test
    StandardTransform
Transform: ToTensor() <class 'torchvision.datasets.mnist.FashionMNIST'>


Dataset类型可以像列表一样使用索引引用具体位置的元素。

In [9]:
print(mnist_train[0])

(tensor([[[0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000],
         [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000],
         [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000],
         [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
          0.0000, 0.0000, 0.0000, 0.0000, 0.0039, 0.0000, 0.0000, 0.0510,
          0.2863, 0.0000, 0.0000, 0.0039, 0.0157, 0.0000

### 初始化模型参数

In [3]:
num_inputs = 784
num_outputs = 10

W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
b = torch.zeros(num_outputs, requires_grad=True)

### 定义softmax操作

In [4]:
def softmax(X):
    X_exp = torch.exp(X)
    # 对于X的每一行求和，即沿着第一个维度求和
    partition = X_exp.sum(axis=1, keep_dim = True)
    # 此时partition的shape为(len(X_exp), 1)
    return X_exp/partition

### 定义模型

In [None]:
def net(X):
    return softmax(torch.mv(X,w).reshape([-1, 1]))