# Softmax 回归

逻辑回归可以应用与二分类问题，使用 softmax 回归可以解决多分类问题。  
如果有三种类别，四种特征就可以写为（使用逻辑回归的方法）：  
$$
o_1 = x_1w_{11} + x_2w_{12}+x_3w_{13}+x_4w_{14}+b_1
$$
$$
o_2 = x_1w_{21} + x_2w_{22}+x_3w_{23}+x_4w_{24}+b_2
$$
$$
o_2 = x_1w_{31} + x_2w_{32}+x_3w_{33}+x_4w_{34}+b_3
$$

写成矩阵形式就是：
$$
O(x_1,x_2,x_3) = 
\begin{bmatrix} x_1
  & x_2  & x_3
\end{bmatrix} \cdot 
\begin{bmatrix} w_{11}
  & w_{12} & w_{13} \\ w_{21}
  & w_{22}  & w_{23} \\ w_{31}
  & w_{32}  & w_{33}
\end{bmatrix}^T
+ \begin{bmatrix} b_1
 \\b_2
 \\b_3

\end{bmatrix}
$$
也就是：
$$
o = x * w^T + b
$$

softmax回归的形式  
![image.png](attachment:image.png)

因为将线性层的输出直接视为概率时存在一些问题：一方面，我们没有限制这些输出数字的总和为1。另一方面，根据输入的不同，它
们可以为负值。所以后面使用softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质。

softmax函数可以表示为：  
$$
\hat{y} = softmax(o)
$$
$$
\hat{y_j} = \frac{exp(o_j)}{\sum_kexp(o_k)}
$$

同样可以使用极大似然估计来得到其损失函数。  
$$
P(Y|X) = \prod^n_{i=1}P(y^i|x^i)
$$
最大化P(Y|x)相当于最小化负对数似然。  
$$
-logP(Y|X) = \sum^n_{i=1}-logP(y^i|x^i) = \sum^n_{i=1}l(y^i, \hat{y}^i)
$$
$$
l(y,\hat(y)) = -\sum^q_{j=1}y_ilog\hat{y_j}
$$

In [None]:
import torch 
import torch.autograd
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import preprocessing