### 1. 理论知识

1. 不同于逻辑回归sigmoid函数，**y = 1/(1+e^(-(ax+b)))**，softmax函数预测多个概率，对应y属于每一类别的概率，如y=[0.7,0.2,0.1]
2. 对应的softmax公式如下：
3. ![Example Image](img/softmax公式1.jpg)
4. https://blog.csdn.net/xu380393916/article/details/102496419

### 2.数据准备

##### 2.1 导入数据集

In [176]:
# 导入模块
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

# 处理数据集
iris = load_iris()
X = pd.DataFrame(data=iris.data, columns=iris.feature_names)
y = pd.DataFrame(data=iris.target, columns=["label"])

# 特征重命名
map_ = {
    "sepal length (cm)": "花萼长度",
    "sepal width (cm)": "花萼宽度",
    "petal length (cm)": "花瓣长度",
    "petal width (cm)": "花瓣宽度",
}
X = X.rename(columns=map_)
X

Unnamed: 0,花萼长度,花萼宽度,花瓣长度,花瓣宽度
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


#### 2.2 数据处理

1. softmax回归基于线性回归y=ax+b，y = e^(ax+b)/sum(e^(ax+b))，**添加xn+1列=1**，以融合b到参数A，有y = e^(X·A)/sum(e^(X·A))

2. 由于softmax输出y对应每个标签的概率，如[0.7, 0.2, 0.1], 那么原始标签y也要处理成这样的形式，故此需要onehot编码。

**注意！！一定要对数据进行归一化，统一量纲，不然梯度下降大概率无法收敛！！**

In [177]:
from sklearn.preprocessing import Normalizer

# 数据归一化！！！！非常重要！！！！
X_1 = Normalizer().fit_transform(X)

# 添加补充列
X_1 = np.hstack((X_1, np.ones((len(X_1), 1))))

# 将y array化，方便后续计算，矩阵乘法@符号，和A.dot(B)形式都要求为array，否则只能用np.dot(A,B)
y = y.values

# 对标签进行one-hot编码,[0. 0. 0. 1.]，即每个标签在对应标签处为1，其余为0
n_classes = np.unique(y).shape[0]
n_samples = X_1.shape[0]
n_features = X_1.shape[1]

y_one_hot = np.zeros((n_samples, n_classes))
y_one_hot[np.arange(n_samples), y.T] = 1
y_one_hot

array([[1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0

### 3. 算法实现

#### 3.1 梯度下降
**非凸函数，不可正规方程求解**

1. 首先，能够理解希望函数能输出每一个类别的概率，故此softmax函数有归一化操作：**X_1@A / np.sum(X_1@A,axis=1,keepdims=True)**

2. 为什么要将**X_1@A**指数化呢？**y = np.exp(X_1@A) / np.sum(np.exp(X_1@A),axis=1,keepdims=True)** 

3. 这么做主要有两个原因

    1. 通过将输出指数化，将假设函数的输出转换为正值。这对于创建一个有效的概率分布是必需的，因为概率值不能为负。
    
    2. 指数函数曲线呈现递增趋势，最重要的是斜率逐渐增大，也就是说在x轴上一个很小的变化，可以导致y轴上很大的变化。这有助于在计算概率时清晰地区分那些具有更高原始逻辑值的类别。

4. 交叉熵损失: ![Example Image](img/交叉熵损失1.jpg)

In [178]:
"""
对理论开始验证, 看下softmax函数每步操作的结果是否具有必要性以及原理性
"""

# 1. 首先，将y分别输出三类的概率，这样的思路是没问题的, 那么，初始化系数A
A = np.random.rand(n_features, n_classes)

# 很显然X·A的操作并不能实现输出概率化(3类加起来 = 1)
X_1 @ A

# 归一化：有效果
X_1 @ A / np.sum(X_1 @ A, axis=1, keepdims=True)

# 根据实验，不做e的指数化不可行，尽管归一化能得到总和为1，但是特殊的A会导致预测值为负数(尽管3类别的预测值相加仍为1)，不能得到我们想要的概率。
prediction = np.exp(X_1 @ A) / np.sum(np.exp(X_1 @ A), axis=1, keepdims=True)

# 通过交叉熵损失来计算损失函数：交叉熵损失用于衡量两个概率分布之间的差异
loss = -np.sum(y_one_hot * np.log(prediction))  # 固有公式: 交叉熵损失
loss = (
    loss / n_samples
)  # 运用于梯度求解时, 除以样本数, 能够平均化损失, 确保梯度更新的稳定性和一致性。
loss

np.float64(1.109164191430863)

In [179]:
# 计算梯度
alpha = 0.1  # 学习率，用于控制每次更新的步长
lambd = 0.01  # L1正则化参数，用于防止过拟合，

"""实验证明，
1. 去掉L1正则化后, 函数拟合的快, 在相同的迭代次数时, 准确率更高, 但随着迭代次数增加时, A值就成了Nan,发生了过拟合, A系数变极端化。
2. 加上L1正则化后, 函数拟合的慢, 在相同的迭代次数时, 准确率较低，但随着迭代次数增加时, A值不会变成Nan值, 也就是不会发生极端变化。
3. 正则化有效的原因, 假如A为正数, A - lambd * A, A会加快变化; 假如A为负数, A - lambd * A, A会减慢变化
"""

for i in range(5000):

    # 计算预测值
    prediction = np.exp(X_1 @ A) / np.sum(np.exp(X_1 @ A), axis=1, keepdims=True)

    # 梯度整体 + lambd * A
    grad = (
        X_1.T @ (prediction - y_one_hot) / n_samples + lambd * A
    )  # 除以样本数, 确保梯度更新的稳定性和一致性。

    """
    在将偏置项融入特征矩阵时，通常会在特征矩阵的最后一列添加一个全为 1 的列, 注意是最后一列.
    这样，偏置项对应的权重就成为了参数矩阵 𝐴 的第 -1 行
    """
    grad[-1, :] = (
        grad[-1, :] - lambd * A[-1, :]
    )  # 去掉正则化对偏置项的影响, 故偏置项 - lambd * A

    # 更新权重参数
    A = A - alpha * grad

In [180]:
result = X_1 @ A  # 注意这里的参数矩阵，必须转置才能进行矩阵相乘

# softmax函数将结果归一化，以此概率化
sum_exp = np.sum(np.exp(result), axis=1, keepdims=True)
prediction = np.exp(result) / sum_exp
prediction = pd.DataFrame(data=prediction, columns=np.unique(y))
prediction = prediction.idxmax(axis=1)

from sklearn.metrics import accuracy_score

accuracy_score(y, prediction)

0.84

### 4. 总结

1. 与sigmoid回归只预测 **正类概率** 不同, softmax回归同时 **预测标签的每一个类的概率**

2. 因此softmax的y要做onehot编码, 系数矩阵A的初始为: **A = np.random.rand(n_features, n_classes)**

3. 线性回归的梯度下降公式:  **gradients = X_1.T @ (X_1 @ A - y) / n**  (最小二乘)

4. 非线性回归梯度下降公式:  **gradients = X_1.T @ (X_1 @ A - y) / n**  (最小二乘)

5. Lasso回归梯度下降公式:   **gradients = X_1.T @ (X_1 @ A - y) / n + lambda_val * np.sign(A)**  (最小二乘)

6. Ridge回归梯度下降公式:   **gradients = X_1.T @ (X_1 @ A - y) / n + 2*lambda_val * A**  (最小二乘)

7. 逻辑sigmoid回归梯度下降公式:    **gradient = np.dot(X_1.T, (y_pre - y)) / n**   (最小二乘)

8. softmax回归梯度下降公式:  **grad = X_1.T@(prediction - y_one_hot ) / n_samples + lambd * A**  (交叉熵损失)

9. 从上可以看出, 梯度下降公式的一般原则:**X_1.T @ (预测值 - 真实值 )**