## 多层感知机 Multilayer Perceptron | MLP

#### 参考
[神经网络快速入门：什么是多层感知器和反向传播？](https://zhuanlan.zhihu.com/p/23937778)

[神经网络1：多层感知器-MLP](https://zhuanlan.zhihu.com/p/63184325)

In [42]:
##　以下是一个使用sklearn构建多层感知机进行手写数字识别的示例
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
 
# 加载数据集
digits = load_digits()
X = digits.data
y = digits.target
 
# 数据预处理
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
 
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3)
print("features dim: ", X_train.shape[1])
 
# 构建模型
model = MLPClassifier(hidden_layer_sizes=(128, 64), max_iter=100, activation='relu', solver='adam', verbose=True, random_state=1, early_stopping=True, validation_fraction=0.1)
 
# 训练模型
model.fit(X_train, y_train)
 
# 预测结果
y_pred = model.predict(X_test)
 
# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

features dim:  64
Iteration 1, loss = 2.21832007
Validation score: 0.420635
Iteration 2, loss = 1.75067784
Validation score: 0.658730
Iteration 3, loss = 1.36950572
Validation score: 0.785714
Iteration 4, loss = 1.04082966
Validation score: 0.841270
Iteration 5, loss = 0.77121383
Validation score: 0.873016
Iteration 6, loss = 0.56304600
Validation score: 0.896825
Iteration 7, loss = 0.41837126
Validation score: 0.896825
Iteration 8, loss = 0.32298675
Validation score: 0.912698
Iteration 9, loss = 0.25730712
Validation score: 0.920635
Iteration 10, loss = 0.21040241
Validation score: 0.928571
Iteration 11, loss = 0.17678358
Validation score: 0.936508
Iteration 12, loss = 0.15117575
Validation score: 0.936508
Iteration 13, loss = 0.13095169
Validation score: 0.936508
Iteration 14, loss = 0.11511124
Validation score: 0.928571
Iteration 15, loss = 0.10225648
Validation score: 0.968254
Iteration 16, loss = 0.09122488
Validation score: 0.968254
Iteration 17, loss = 0.08229189
Validation scor

### 代码解释：

1. **数据加载与预处理**：
   - `load_digits`: 加载 MNIST 数据集。
   - `StandardScaler`: 标准化处理，对数据进行归一化，使其均值为0，方差为1。

2. **模型构建**：
   - `hidden_layer_sizes=(128, 64)`: 指定两个隐藏层，第一层128个神经元，第二层64个神经元。
   - `early_stopping=True`: 启用早停来防止过拟合，如果验证分数在连续多个epoch内没有改善，则自动停止训练。
   - `validation_fraction=0.1`: 用于早停的验证集比例。

3. **训练与评估**：
   - 使用 `fit` 方法训练模型。
   - 使用 `predict` 方法进行预测。
   - 计算准确率评估模型性能。

### 注意事项：

- **监控训练过程**：设置 `verbose=True` 可以在训练过程中看到详细的进度和损失等信息。
- **调整超参数**：MLP 的性能可能受到隐藏层大小、激活函数、优化器选择等多个因素的影响，适当调整这些参数可以获得更好的结果。
- **处理大数据集**：MNIST 是一个相对较大的数据集，确保在处理这类数据集时计算资源充足。

这个例子展示了如何在一个实际的、较为复杂的数据集上应用多层感知机，同时也涉及了模型训练过程中的一些高级技巧和最佳实践。

下面分析模型参数并尝试工程实现

In [43]:
# 输出训练后的模型参数
print("权重矩阵(coefs_):")
for idx, arr in enumerate(model.coefs_):
    print(f"层 {idx} 到层 {idx+1} 的权重矩阵: \n{arr}\n")

print("偏置项(intercepts_):")
for idx, arr in enumerate(model.intercepts_):
    print(f"层 {idx} 的偏置项: {arr}\n")

print(f"迭代次数(n_iter_): {model.n_iter_}")
print(f"最终损失(loss_): {model.loss_}")
print(f"层数(n_layers_): {model.n_layers_}")
print(f"输出层神经元数量(n_outputs_): {model.n_outputs_}")
print(f"输出层激活函数(out_activation_): {model.out_activation_}")

权重矩阵(coefs_):
层 0 到层 1 的权重矩阵: 
[[-0.01300199  0.04420506 -0.12480185 ...  0.0053433   0.00760491
   0.07748127]
 [-0.10607344 -0.07081668 -0.001348   ...  0.12450696  0.04902554
   0.08857227]
 [ 0.05236204  0.06688113 -0.1144562  ... -0.00142031  0.20596606
  -0.11906942]
 ...
 [-0.08902809  0.16905645  0.0183069  ...  0.10898163  0.01782631
   0.17092137]
 [ 0.21506449 -0.15539586  0.04959585 ...  0.20207344  0.03033265
  -0.14841182]
 [ 0.01548332 -0.14117686 -0.18367151 ... -0.13547637  0.14493062
  -0.01769961]]

层 1 到层 2 的权重矩阵: 
[[-0.13114395  0.14888836 -0.04296445 ... -0.04058534 -0.02331107
  -0.11242033]
 [ 0.09959062 -0.09342623  0.12927034 ... -0.12415239 -0.09343992
   0.19594468]
 [-0.03401034  0.0807198  -0.13291256 ...  0.13974824  0.04260639
   0.10302748]
 ...
 [-0.01683305  0.03195152 -0.16735453 ...  0.09595516 -0.18723153
   0.19296969]
 [-0.12831294 -0.09750346 -0.02797024 ...  0.06373899 -0.03822333
  -0.10679526]
 [-0.05999285 -0.11373757 -0.13202181 ... -0.0874

## 手动实现模型预测

要手动编写一个预测函数来使用 `MLPClassifier` 模型的参数进行预测，你首先需要从训练好的模型中获取权重（`coefs_`）和偏置项（`intercepts_`）。然后，你可以使用这些参数在给定输入数据上实现前向传播算法。

以下是如何获取模型参数，并手动编写一个使用这些参数进行预测的函数的步骤：

### 1. 获取模型参数
首先，确保你已经有一个训练好的 `MLPClassifier` 模型。然后，从该模型中提取权重和偏置项：

```python
# 假设 `mlp` 是已经训练好的 MLPClassifier 实例
weights = mlp.coefs_
biases = mlp.intercepts_

### 2. 编写激活函数
`MLPClassifier` 默认使用 ReLU 激活函数，输出层通常使用 softmax 函数（多分类任务）。我们需要定义这些函数：

```python
import numpy as np

def relu(x):
    return np.maximum(0, x)

def softmax(x):
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum(axis=1, keepdims=True)
```

### 3. 编写前向传播函数
使用提取的权重和偏置项，我们可以编写一个函数来实现 MLP 的前向传播：

```python
def predict_mlp(X, weights, biases):
    a = X
    # 通过所有隐藏层
    for w, b in zip(weights[:-1], biases[:-1]):
        z = np.dot(a, w) + b
        a = relu(z)  # ReLU 激活函数
    # 输出层
    z = np.dot(a, weights[-1]) + biases[-1]
    y_pred = softmax(z)  # Softmax 输出层
    return np.argmax(y_pred, axis=1)  # 返回预测类别
```

### 4. 使用预测函数
现在，你可以使用这个函数来进行预测。假设 `X_test` 是你的测试数据集：

### 完整示例
将上述部分合并，你可以创建一个简单的脚本来训练一个 MLP 模型，提取其参数，并使用这些参数进行预测：

In [44]:
# 假设 `mlp` 是已经训练好的 MLPClassifier 实例
weights = model.coefs_
biases = model.intercepts_

import numpy as np

def relu(x):
    return np.maximum(0, x)

def softmax(x):
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum(axis=1, keepdims=True)


def predict_mlp(X, weights, biases):
    a = X
    # 通过所有隐藏层
    for w, b in zip(weights[:-1], biases[:-1]):
        z = np.dot(a, w) + b
        a = relu(z)  # ReLU 激活函数
    # 输出层
    z = np.dot(a, weights[-1]) + biases[-1]
    y_pred = softmax(z)  # Softmax 输出层
    return np.argmax(y_pred, axis=1)  # 返回预测类别
'''
风格上更偏向C++，使用显示循环控制
'''
def predict_mlp_cpp(X, weights, biases):
    a = X
    # 处理所有隐藏层
    for i in range(len(weights) - 1):  # 使用显式的循环控制，类似C++的for循环
        w = weights[i]
        b = biases[i]
        z = np.dot(a, w) + b
        a = relu(z)  # 使用ReLU激活函数

    # 处理输出层
    w = weights[-1]
    b = biases[-1]
    z = np.dot(a, w) + b
    y_pred = softmax(z)  # 使用Softmax函数处理输出层

    # 返回预测类别
    return np.argmax(y_pred, axis=1)


# 使用模型参数和测试数据进行预测
predictions = predict_mlp_cpp(X_test, weights, biases)

# sklearn原生库预测结果
y_pred = model.predict(X_test)
 
# 评估模型
accuracy1 = accuracy_score(predictions, y_test)
accuracy2 = accuracy_score(y_pred, y_test)
print("Accuracy:", accuracy1)
print("Accuracy:", accuracy2)

Accuracy: 0.9481481481481482
Accuracy: 0.9481481481481482
