In [1]:
import numpy as np

# 定义MLP类
class MLP():
    def __init__(self, input_dim, hidden_dim, output_dim):
        """
        :param input_dim: 输入层神经元数量
        :param hidden_dim: 隐藏层神经元数量
        :param output_dim: 输出层神经元数量
        """
        self.input_dim = input_dim  # 输入层神经元数量
        self.hidden_dim = hidden_dim  # 隐藏层神经元数量
        self.output_dim = output_dim  # 输出层神经元数量
        # 初始化权重
        self.weights_1 = np.random.randn(input_dim, hidden_dim) * 0.01
        self.weights_2 = np.random.randn(hidden_dim, output_dim) * 0.01
        # 初始化偏差
        self.bias_1 = np.zeros((1, hidden_dim))
        self.bias_2 = np.zeros((1, output_dim))

    def sigmoid(self, x):
        """sigmoid函数"""
        return 1 / (1 + np.exp(-x))

    def forward(self, X):
        """前向传播"""
        self.a1 = np.dot(X, self.weights_1) + self.bias_1
        self.z1 = self.sigmoid(self.a1)
        self.a2 = np.dot(self.z1, self.weights_2) + self.bias_2
        self.y_hat = self.sigmoid(self.a2)
        return self.y_hat

    def sigmoid_prime(self, x):
        """sigmoid函数导数"""
        return x * (1 - x)

    def backward(self, X, y, y_hat, learning_rate):
        """反向传播"""
        delta_a2 = (y_hat - y) * self.sigmoid_prime(y_hat)
        delta_weights2 = np.dot(self.z1.T, delta_a2)
        delta_bias2 = np.sum(delta_a2, axis=0, keepdims=True)

        delta_z1 = np.dot(delta_a2, self.weights_2.T) * self.sigmoid_prime(self.z1)
        delta_weights1 = np.dot(X.T, delta_z1)
        delta_bias1 = np.sum(delta_z1, axis=0, keepdims=True)

        self.weights_1 -= learning_rate * delta_weights1
        self.weights_2 -= learning_rate * delta_weights2
        self.bias_1 -= learning_rate * delta_bias1
        self.bias_2 -= learning_rate * delta_bias2

    def train(self, X, y, epochs, learning_rate):
        """训练模型"""
        for i in range(epochs):
            y_hat = self.forward(X)
            self.backward(X, y, y_hat, learning_rate)
            if i % 10 == 0:
                loss = np.mean(np.square(y - y_hat))
                print("epoch %d, loss = %f" % (i, loss))

# 测试代码
if __name__ == '__main__':
    X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
    y = np.array([[0], [1], [1], [0]])
    mlp = MLP(input_dim=2, hidden_dim=4, output_dim=3)
    mlp.train(X, y, epochs=100, learning_rate=0.1)
    print(mlp.forward(X))


epoch 0, loss = 0.250007
epoch 10, loss = 0.250003
epoch 20, loss = 0.250001
epoch 30, loss = 0.250000
epoch 40, loss = 0.250000
epoch 50, loss = 0.250000
epoch 60, loss = 0.250000
epoch 70, loss = 0.250000
epoch 80, loss = 0.250000
epoch 90, loss = 0.250000
[[0.50001794 0.49999716 0.50000201]
 [0.50003315 0.49999478 0.49998327]
 [0.5000205  0.49999645 0.50001268]
 [0.50003572 0.49999407 0.49999394]]


In [2]:
from sklearn.datasets import load_iris
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split

# 加载鸢尾花数据集
data = load_iris()
X = data.data
y = data.target

# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42,shuffle=True)

# 定义 MLP 分类器
clf = MLPClassifier(hidden_layer_sizes=(10, 5), max_iter=1000)
# 表示这个 MLP 分类器包含两个隐层，第一个隐层包含 10 个神经元，第二个隐层包含 5 个神经元。

# 训练模型
clf.fit(X_train, y_train)

# 在测试集上评估模型表现
accuracy = clf.score(X_test, y_test)
print("Test Accuracy: ", accuracy)


Test Accuracy:  0.9333333333333333


In [4]:
from sklearn.metrics import mean_squared_error, mean_absolute_error
import numpy as np

# 假设预测值为 y_pred，真实值为 y_true
y_true = np.array([0.5, 2.8, 3.6, 7.1, 8.9])
y_pred = np.array([0.6, 2.6, 3.5, 6.7, 8.8])

# MSE
mse = mean_squared_error(y_true, y_pred)
print("MSE = ", mse)

# RMSE
rmse = np.sqrt(mse)
print("RMSE = ", rmse)

# MAE
mae = mean_absolute_error(y_true, y_pred)
print("MAE = ", mae)


MSE =  0.04599999999999989
RMSE =  0.2144761058952719
MAE =  0.17999999999999977


## 反向传播的作用

反向传播算法是深度神经网络中最常见的训练算法之一，其作用是通过一定方式调整神经网络中各个权重的值，以使得神经网络对训练数据的拟合能力得到不断提升，从而实现更准确的预测或分类等任务。

反向传播算法的基本思想是：先将训练样本数据输入神经网络，得到输出结果，然后通过误差反向传递的方式，计算并更新每个神经元的权重，以便下一次训练时使得神经网络的预测结果更加准确。

具体来说，反向传播算法的过程可以简述为以下几个步骤：

前向计算：将训练数据输入神经网络，依次计算每个神经元的输出结果，直至计算出神经网络的最终输出结果。
计算误差：将神经网络的输出结果与真实值进行比较，计算出神经网络的误差。
反向传播：将误差向后反向传递，依次计算每个神经元的误差贡献，并计算每个权重的梯度。
更新权重：根据计算出的权重梯度，更新神经网络中各个权重的值。
重复训练：重复执行以上步骤，直至达到预设的训练次数，或者达到了一定的拟合精度。
反向传播算法可以让神经网络能够根据训练数据不断自我优化，提高其拟合能力和泛化性能，使得神经网络能够更好地适应实际应用场景的需求。

神经网络（Neural Network）是受到生物学中神经元的启发而设计的一种人工智能模型。神经网络由许多神经元组成，可以分为输入层、隐层和输出层。它们之间通过各自的参数进行连接，每个参数具有一个权重值，反映了对应的特征对输出的重要程度。

输入层由接受输入数据（如图像、文本、语音等）的一组神经元组成。每个神经元对应输入数据中的一个特征，可以是像素、单词等。隐层（也称为中间层）是在输入层和输出层之间的一层或多层神经元，它们的作用类似于“特征提取器”，能够学习并提取出数据中的重要特征。最后一个输出层由输出神经元组成，每个输出神经元对应了一个分类结果或预测值。

神经网络的训练是通过最小化预测结果与真实结果之间的损失函数来实现的。从前向传播中得出预测结果，再通过反向传播算法来更新神经网络中各个参数的值，使得损失函数最小化。这也是神经网络之所以能够对数据进行分类、预测等任务的原因。

总之，神经网络的结构在很大程度上决定了其能力、效率和性能。设计高效的神经网络结构是一项重要的研究方向，能够提高模型的适用范围和精度。

In [7]:
import tensorflow as tf
tf.__version__

'2.11.0'

In [9]:
from tensorflow import keras
keras.__version__

'2.11.0'

In [16]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
fashion_mnist = keras.datasets.fashion_mnist
(X_train_full,y_train_full),(X_test,y_test) = fashion_mnist.load_data()


Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz

KeyboardInterrupt: ignored