<a href="https://colab.research.google.com/github/howardatri/notes/blob/main/mlp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import numpy as np

# 定义 Sigmoid 激活函数
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 定义 Sigmoid 激活函数的导数
def sigmoid_derivative(x):
    return x * (1 - x)

# 定义 MLP 类
class MLP:
    def __init__(self, input_size, hidden_size1, hidden_size2, output_size):
        # 初始化权重和偏置

        # 第一个隐藏层权重
        self.weights_input_hidden1 = np.random.rand(input_size, hidden_size1) * 0.01
        # 第一个隐藏层偏置
        self.bias_hidden1 = np.zeros((1, hidden_size1))

        # 第二个隐藏层权重
        self.weights_hidden1_hidden2 = np.random.rand(hidden_size1, hidden_size2) * 0.01
        # 第二个隐藏层偏置
        self.bias_hidden2 = np.zeros((1, hidden_size2))

        # 输出层权重
        self.weights_hidden2_output = np.random.rand(hidden_size2, output_size) * 0.01
        # 输出层偏置
        self.bias_output = np.zeros((1, output_size))

    # 前向传播
    def forward(self, X):
        # 计算第一个隐藏层输入
        self.hidden_layer1_input = np.dot(X, self.weights_input_hidden1) + self.bias_hidden1
        # 计算第一个隐藏层输出（应用激活函数）
        self.hidden_layer1_output = sigmoid(self.hidden_layer1_input)

        # 计算第二个隐藏层输入
        self.hidden_layer2_input = np.dot(self.hidden_layer1_output, self.weights_hidden1_hidden2) + self.bias_hidden2
        # 计算第二个隐藏层输出（应用激活函数）
        self.hidden_layer2_output = sigmoid(self.hidden_layer2_input)


        # 计算输出层输入
        self.output_layer_input = np.dot(self.hidden_layer2_output, self.weights_hidden2_output) + self.bias_output
        # 计算输出层输出（应用激活函数）
        self.predicted_output = sigmoid(self.output_layer_input)

        return self.predicted_output

    # 反向传播
    def backward(self, X, y, learning_rate):
        # 计算输出层误差
        output_error = y - self.predicted_output
        # 计算输出层 Delta（误差乘以激活函数的导数）
        output_delta = output_error * sigmoid_derivative(self.predicted_output)

        # 计算第二个隐藏层误差（通过输出层 Delta 反向传播）
        hidden_layer2_error = output_delta.dot(self.weights_hidden2_output.T)
        # 计算第二个隐藏层 Delta（误差乘以激活函数的导数）
        hidden_layer2_delta = hidden_layer2_error * sigmoid_derivative(self.hidden_layer2_output)

        # 计算第一个隐藏层误差（通过第二个隐藏层 Delta 反向传播）
        hidden_layer1_error = hidden_layer2_delta.dot(self.weights_hidden1_hidden2.T)
        # 计算第一个隐藏层 Delta（误差乘以激活函数的导数）
        hidden_layer1_delta = hidden_layer1_error * sigmoid_derivative(self.hidden_layer1_output)


        # 更新输出层权重和偏置
        self.weights_hidden2_output += self.hidden_layer2_output.T.dot(output_delta) * learning_rate
        self.bias_output += np.sum(output_delta, axis=0, keepdims=True) * learning_rate

        # 更新第二个隐藏层权重和偏置
        self.weights_hidden1_hidden2 += self.hidden_layer1_output.T.dot(hidden_layer2_delta) * learning_rate
        self.bias_hidden2 += np.sum(hidden_layer2_delta, axis=0, keepdims=True) * learning_rate

        # 更新第一个隐藏层权重和偏置
        self.weights_input_hidden1 += X.T.dot(hidden_layer1_delta) * learning_rate
        self.bias_hidden1 += np.sum(hidden_layer1_delta, axis=0, keepdims=True) * learning_rate

    # 训练模型
    def train(self, X, y, epochs, learning_rate):
        for epoch in range(epochs):
            # 前向传播
            predicted_output = self.forward(X)
            # 反向传播并更新权重
            self.backward(X, y, learning_rate)

            # 每隔一定 epochs 打印损失
            if (epoch + 1) % 1000 == 0:
                loss = np.mean(np.square(y - predicted_output))
                print(f"Epoch {epoch+1}, Loss: {loss:.4f}")

# 示例用法
# 输入数据 (例如，用于解决 XOR 问题)
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
# 对应的标签
y = np.array([[0], [1], [1], [0]])

# 创建一个 MLP 实例
# 输入层大小为 2，第一个隐藏层大小为 4，第二个隐藏层大小为 4，输出层大小为 1
mlp = MLP(input_size=2, hidden_size1=4, hidden_size2=4, output_size=1)

# 训练模型
epochs = 10000
learning_rate = 0.1
mlp.train(X, y, epochs, learning_rate)

# 预测
print("\n预测结果:")
for i in range(len(X)):
    prediction = mlp.forward(X[i])
    print(f"输入: {X[i]}, 预测输出: {prediction[0].item():.4f}") # Use .item() to extract the scalar value

Epoch 1000, Loss: 0.2500
Epoch 2000, Loss: 0.2500
Epoch 3000, Loss: 0.2500
Epoch 4000, Loss: 0.2500
Epoch 5000, Loss: 0.2500
Epoch 6000, Loss: 0.2500
Epoch 7000, Loss: 0.2500
Epoch 8000, Loss: 0.2500
Epoch 9000, Loss: 0.2500
Epoch 10000, Loss: 0.2500

预测结果:
输入: [0 0], 预测输出: 0.5000
输入: [0 1], 预测输出: 0.5000
输入: [1 0], 预测输出: 0.5000
输入: [1 1], 预测输出: 0.5000
