# 三层神经网络的实现

## 原理
<img src="../../data/images/Snipaste_2024-12-27_20-19-44.png" alt="三层神经网络" width="400">


$$
a_1^{(1)} = w_{11}^{(1)}x_1 + w_{12}^{(1)}x_2 + b_1^{(1)}
$$

计算神经网络的算式。

下面是使用矩阵的乘法运算来计算：

$$
A^{(1)} = XW^{(1)} + B^{(1)}
$$

其中：

$$
A^{(1)} = \begin{pmatrix} a_1^{(1)} & a_2^{(1)} & a_3^{(1)} \end{pmatrix}, \quad 
X = \begin{pmatrix} x_1 & x_2 \end{pmatrix}, \quad 
B^{(1)} = \begin{pmatrix} b_1^{(1)} & b_2^{(1)} & b_3^{(1)} \end{pmatrix}, \quad 
W^{(1)} = \begin{pmatrix} 
w_{11}^{(1)} & w_{21}^{(1)} & w_{31}^{(1)} \\ 
w_{12}^{(1)} & w_{22}^{(1)} & w_{32}^{(1)} 
\end{pmatrix}.
$$


## 输入层到第一层

输入层到第一层的信号传递图片模拟：

<img src="../../data/images/Snipaste_2024-12-27_20-25-50.png" alt="输入层到第一层信号传递" width="500">

这里的激活函数`h(x)`就用了sigmoid函数


In [2]:
import numpy as np

# 用这种方式表示上方的三层神经网络
X = np.array([1.0, 0.5])
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
B1 = np.array([0.1, 0.2, 0.3])

print(X.shape)
print(W1.shape)
print(B1.shape)

# 使用公式计算
A1 = np.dot(X, W1) + B1

(2,)
(2, 3)
(3,)


In [6]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 实现输入层到第一层的信号模拟
Z1 = sigmoid(A1)
print("A1:", A1)
print("Z1:", Z1)

A1: [0.3 0.7 1.1]
Z1: [0.57444252 0.66818777 0.75026011]


## 第一层到第二层的信号传递

实现第一层到第二层的信号传递

<img src="../../data/images/Snipaste_2024-12-27_20-37-53.png" alt="第一层到第二层" width="400">

In [8]:
W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
B2 = np.array([0.1, 0.2])

print(Z1.shape)  # (3,)
print(W2.shape)  # (3, 2)
print(B2.shape)  # (2,)

A2 = np.dot(Z1, W2) + B2
Z2 = sigmoid(A2)


(3,)
(3, 2)
(2,)


## 第二层到输出层

<img src="../../data/images/Snipaste_2024-12-27_20-41-49.png" alt="第一层到第二层" width="400">

这里我们定义了identity_function()函数（也称为“恒等函数”），并将其作为输出层的激活函数。恒等函数会将输入按原样输出，因此，这个例子中没有必要特意定义identity_function()。这里这样实现只是为了和之前的流程保持统一。   

输出层的激活函数具有针对性如下：回归问题可以使用恒等函数，二元分类问题可以使用sigmoid 函数，多元分类问题可以使用softmax 函数。

In [9]:
def identity_function(x):
    return x

W3 = np.array([[0.1, 0.3], [0.2, 0.4]])
B3 = np.array([0.1, 0.2])

A3 = np.dot(Z2, W3) + B3
Y = identity_function(A3)  # 或者 Y = A3

# 最终版本

In [11]:
def init_network():
    network = {}
    # 确定第一层的权重和偏置
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['B1'] = np.array([0.1, 0.2, 0.3])
    # 确定第二层的权重和偏置
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['B2'] = np.array([0.1, 0.2])
    # 确定第三层的权重和偏置
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['B3'] = np.array([0.1, 0.2])
    
    return network


def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    B1, B2, B3 = network['B1'], network['B2'], network['B3']
    
    a1 = np.dot(x, W1) + B1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + B2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + B3
    z3 = identity_function(a3)
    
    # 最终输出结果
    return z3


network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y) # [ 0.31682708 0.69627909]

[0.31682708 0.69627909]
