## 三层神经网络代码

### 激活函数和恒等函数
- **identify_function**: 恒等函数，直接返回输入值。
- **sigmoid**: Sigmoid激活函数，用于将输入值压缩到0和1之间，常用于神经网络的隐藏层。
- **softmax**: Softmax函数，用于计算多分类问题中每个类别的概率，通常用于神经网络的输出层。

### 损失函数
- **cross_entropy_error**: 交叉熵损失函数，用于计算预测值和真实值之间的误差，常用于分类问题的损失计算。

### 初始化网络
- **init_network**: 初始化神经网络的权重和偏置，返回一个包含这些参数的字典。这里使用的是给定的固定参数。

### 前向传播
- **forward**: 前向传播函数，依次计算每一层的加权和及激活函数，最终输出经过softmax处理的结果，同时返回隐藏层的输出。

### 反向传播
- **backward**: 反向传播函数，计算损失函数相对于每个参数的梯度，并使用梯度下降法更新网络的权重和偏置。

### 预测
- **predict**: 预测函数，使用训练后的网络进行预测，返回网络的输出结果。

### 训练过程
- **训练过程**: 在训练过程中，输入数据和真实标签通过前向传播计算输出，然后通过反向传播计算梯度并更新网络的参数。训练多个周期（epochs），不断优化网络参数以减少损失函数值。

### 预测过程
- **预测过程**: 使用训练后的网络对新输入数据进行预测，输出分类结果的概率分布。

In [1]:
import numpy as np

def identify_function(x):
    """恒等函数，直接返回输入值"""
    return x

def sigmoid(x):
    """Sigmoid激活函数"""
    return 1 / (1 + np.exp(-x))

def softmax(a):
    """Softmax函数"""
    c = np.max(a)  # 防止溢出
    exp_a = np.exp(a - c)  # 减去最大值c
    sum_exp_a = np.sum(exp_a)  # 指数函数的和
    y = exp_a / sum_exp_a  # 归一化
    return y

def init_network():
    """初始化神经网络，返回一个包含权重和偏置的字典"""
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    return network

def forward(network, x):
    """前向传播函数，计算并返回输出"""
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    
    # 第一层
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    
    # 第二层
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    
    # 第三层
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)
    
    return y

# 初始化网络
network = init_network()

# 输入数据
x = np.array([1.0, 0.5])

# 前向传播，计算输出
y = forward(network, x)

# 打印输出
print(y)

[0.40625907 0.59374093]


## 三层神经网络代码（训练）

### 激活函数和恒等函数
- **identify_function**: 恒等函数，直接返回输入值。
- **sigmoid**: Sigmoid激活函数，用于将输入值压缩到0和1之间，常用于神经网络的隐藏层。
- **softmax**: Softmax函数，用于计算多分类问题中每个类别的概率，通常用于神经网络的输出层。

### 损失函数
- **cross_entropy_error**: 交叉熵损失函数，用于计算预测值和真实值之间的误差，常用于分类问题的损失计算。

### 初始化网络
- **init_network**: 初始化神经网络的权重和偏置，返回一个包含这些参数的字典。与之前的版本不同，这里使用随机数进行初始化，而不是固定参数。

### 前向传播
- **forward**: 前向传播函数，依次计算每一层的加权和及激活函数，最终输出经过softmax处理的结果，同时返回隐藏层的输出。

### 反向传播
- **backward**: 反向传播函数，计算损失函数相对于每个参数的梯度，并使用梯度下降法更新网络的权重和偏置。

### 预测
- **predict**: 预测函数，使用训练后的网络进行预测，返回网络的输出结果。

### 训练过程
- **训练过程**: 在训练过程中，输入数据和真实标签通过前向传播计算输出，然后通过反向传播计算梯度并更新网络的参数。训练多个周期（epochs），不断优化网络参数以减少损失函数值。

### 预测过程
- **预测过程**: 使用训练后的网络对新输入数据进行预测，输出分类结果的概率分布。

### 区别总结
1. **初始化网络**: 原始版本使用固定参数进行初始化，修改版本使用随机数进行初始化。
2. **反向传播**: 两个版本都实现了反向传播和参数更新，但由于初始化参数的不同，训练的具体过程和结果会有所不同。
3. **整体框架**: 其余部分基本一致，都包括前向传播、反向传播、训练和预测功能。

In [3]:
import numpy as np

def identify_function(x):
    """恒等函数，直接返回输入值"""
    return x

def sigmoid(x):
    """Sigmoid激活函数"""
    return 1 / (1 + np.exp(-x))

def softmax(a):
    """Softmax函数"""
    c = np.max(a)  # 防止溢出
    exp_a = np.exp(a - c)  # 减去最大值c
    sum_exp_a = np.sum(exp_a)  # 指数函数的和
    y = exp_a / sum_exp_a  # 归一化
    return y

def cross_entropy_error(y, t):
    """交叉熵损失函数"""
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
    batch_size = y.shape[0]
    return -np.sum(t * np.log(y + 1e-7)) / batch_size

def init_network():
    """初始化神经网络，返回一个包含权重和偏置的字典"""
    network = {}
    # 随机初始化权重和偏置，打破对称性
    network['W1'] = np.random.randn(2, 3)
    network['b1'] = np.random.randn(3)
    network['W2'] = np.random.randn(3, 2)
    network['b2'] = np.random.randn(2)
    network['W3'] = np.random.randn(2, 2)
    network['b3'] = np.random.randn(2)
    return network

def forward(network, x):
    """前向传播函数，计算并返回输出"""
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    
    # 第一层
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    
    # 第二层
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    
    # 第三层
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)
    
    return y, z1, z2

def backward(network, x, t, y, z1, z2, learning_rate=0.1):
    """反向传播并更新参数"""
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    
    # 输出层梯度
    dy = (y - t) / y.shape[0]
    
    # 第二层到输出层梯度
    dW3 = np.dot(z2.T, dy)
    db3 = np.sum(dy, axis=0)
    
    # 第一层到第二层梯度
    dz2 = np.dot(dy, W3.T)
    da2 = dz2 * z2 * (1 - z2)
    dW2 = np.dot(z1.T, da2)
    db2 = np.sum(da2, axis=0)
    
    # 输入层到第一层梯度
    dz1 = np.dot(da2, W2.T)
    da1 = dz1 * z1 * (1 - z1)
    dW1 = np.dot(x.T, da1)
    db1 = np.sum(da1, axis=0)
    
    # 参数更新
    W1 -= learning_rate * dW1
    b1 -= learning_rate * db1
    W2 -= learning_rate * dW2
    b2 -= learning_rate * db2
    W3 -= learning_rate * dW3
    b3 -= learning_rate * db3
    
    # 更新网络参数
    network['W1'], network['b1'] = W1, b1
    network['W2'], network['b2'] = W2, b2
    network['W3'], network['b3'] = W3, b3

def predict(network, x):
    """预测函数"""
    y, _, _ = forward(network, x)
    return y

In [5]:
# 尝试训练并预测
# 初始化网络
network = init_network()

# 输入数据
x = np.array([[1.0, 0.5]])
t = np.array([[0, 1]])  # 真实标签，使用one-hot编码

# 训练过程
epochs = 1000
for epoch in range(epochs):
    y, z1, z2 = forward(network, x)
    loss = cross_entropy_error(y, t)
    backward(network, x, t, y, z1, z2)
    if epoch % 100 == 0:
        print(f"Epoch {epoch}, Loss: {loss}")

# 预测
x_test = np.array([[1.0, 0.5]])
y_test = predict(network, x_test)
print("Predicted:", y_test)

Epoch 0, Loss: 0.4266695925286395
Epoch 100, Loss: 0.027504099593979658
Epoch 200, Loss: 0.013537525897145922
Epoch 300, Loss: 0.008884842748964068
Epoch 400, Loss: 0.006578601023122143
Epoch 500, Loss: 0.005206846678952185
Epoch 600, Loss: 0.004299545823620574
Epoch 700, Loss: 0.0036560562738302957
Epoch 800, Loss: 0.003176514757953373
Epoch 900, Loss: 0.002805695754796536
Predicted: [[0.00250756 0.99749244]]


In [None]:
葱苓sama🅥⁧喵⁧‭