#### 一、神经网络


##### 1.1、神经网络是什么？

神经网络就是具备：输出层、隐藏层、输出层的多神经元函数连接结构。本质是一个多元非线性函数拟合器！

##### 1.2、神经网络的意义是什么？

神经网络最大的意义就是：它可以自动地从数据中学习到合适的权重参数！

##### 1.3、神经网络跟感知机有什么关系？

- 单层感知机：激活函数使用了阶跃函数的模型！
- 多层感知机：激活函数使用了非线性函数的模型！多层感知机又叫神经网络！

#### 二、激活函数

##### 2.1、激活函数激活的是什么？

![激活函数的作用过程](./attachements/激活函数的作用过程.png)

- 激活函数激活的是输入信号的总和，但更重要的是激活函数决定了如何来激活输入信号的总和！

##### 2.2、为什么激活函数必须使用非线性函数？

- 因为使用线性函数的话，加深神经网络的层数就没有意义了！
- 没有意义指的是：不管如何加深层数，总是存在与之等效的“无隐藏层的神经网络”。

$$
\underbrace{y(x) = h(h(h(x))) }_{{\color{Red} 激活函数为linear的3层神经网络} } 

\Longleftrightarrow 

y(x) = c \times c \times c \times x 

\Longleftrightarrow 

\underbrace{y(x) = \underbrace{a}_{a=c^3}  \times x}_{{\color{Red} 无隐藏层} } 
$$

##### 2.3、常用的激活函数

###### 2.3.1、step

> 阶跃函数如“竹筒敲石” 

$$
h(x) = \left\{\begin{matrix}
 0 & (x \le 0) \\ 
 1 & (x > 0)
\end{matrix}\right.
$$

```python
# 阶跃函数定义
y = np.array([0 if i <= 0 else 1 for i in x])
```

###### 2.3.2、sigmoid

> sigmoid函数如“水车”

$$
h(x) = \frac{1}{1 + exp(-x)} = \frac{1}{1 + e^{-x}}  
$$

```python
# sigmoid函数定义
y = 1 / (1 + np.exp(-x))
```

###### 2.3.3、ReLU

$$
{\color{Red} h(x) = \left\{\begin{matrix}
 x & (x > 0) \\ 
 0 & (x \le 0)
\end{matrix}\right.} 
$$

```python
# ReLU函数定义
y = np.maximum(0, x)
```

###### 2.3.4、softmax

> 让我看看谁最富

对于一个包含 $n$ 个元素的输入向量 $\mathbf{z} = [z_1, z_2, \dots, z_n]$，Softmax的输出为：

$$
\sigma(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}}, \quad i = 1, 2, \dots, n
$$

这意味着 Softmax 会将每个元素转化为一个正数，且所有元素之和为1。

```python
# softmax函数定义,注意这个实现会溢出，并不真正使用
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a

    return y
```

###### 2.3.5、softmax函数的数值溢出问题

In [None]:
import numpy as np

a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a)) # array([nan, nan, nan]) 没有被正确计算

In [None]:
c = np.max(a)
a - c
np.exp(a - c ) / np.sum(np.exp(a - c))

上面的道理在这：

$$
{\color{Green} \begin{aligned}
y_{k}=\frac{\exp \left(a_{k}\right)}{\sum_{i=1}^{n} \exp \left(a_{i}\right)} & =\frac{\mathrm{Cexp}\left(a_{k}\right)}{\mathrm{C} \sum_{i=1}^{n} \exp \left(a_{i}\right)} \\
& =\frac{\exp \left(a_{k}+\log \mathrm{C}\right)}{\sum_{i=1}^{n} \exp \left(a_{i}+\log \mathrm{C}\right)} \\
& =\frac{\exp \left(a_{k}+\mathrm{C}^{\prime}\right)}{\sum_{i=1}^{n} \exp \left(a_{i}+\mathrm{C}^{\prime}\right)}
\end{aligned}} 
$$

说明，在进行 softmax 的指数函数的运算时，加上（或者减去）某个常数并不会改变运算的结果

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 1. 阶跃函数绘制
x = np.linspace(-10, 10, 400)
y = np.array([0 if i <= 0 else 1 for i in x])

plt.figure(figsize=(8, 4))
plt.plot(x, y, color='b', label='Step Function')
plt.title('Step Function')
plt.xlabel('x')
plt.ylabel('h(x)')
plt.axhline(0, color='black', lw=0.5)
plt.axvline(0, color='black', lw=0.5)
plt.grid(True)
plt.legend()
plt.show()

# 2. Sigmoid函数绘制
x = np.linspace(-10, 10, 400)
y = 1 / (1 + np.exp(-x))

plt.figure(figsize=(8, 4))
plt.plot(x, y, color='g', label='Sigmoid Function')
plt.title('Sigmoid Function')
plt.xlabel('x')
plt.ylabel('σ(x)')
plt.axhline(0, color='black', lw=0.5)
plt.axvline(0, color='black', lw=0.5)
plt.grid(True)
plt.legend()
plt.show()

# 3. ReLU函数绘制
x = np.linspace(-10, 10, 400)
y = np.maximum(0, x)

plt.figure(figsize=(8, 4))
plt.plot(x, y, color='r', label='ReLU Function')
plt.title('ReLU Function')
plt.xlabel('x')
plt.ylabel('ReLU(x)')
plt.axhline(0, color='black', lw=0.5)
plt.axvline(0, color='black', lw=0.5)
plt.grid(True)
plt.legend()
plt.show()

# 4. Softmax函数绘制
x_values = np.array([i for i in range(-2, 3)])  # 输入值为离散的几个点

def softmax(x_values):
    exp_values = np.exp(x_values - np.max(x_values))  # 减去最大值以提高数值稳定性
    return exp_values / np.sum(exp_values)

y_values = softmax(x_values)

plt.figure(figsize=(8, 4))
plt.bar(x_values, y_values, color='m', label='Softmax Function')
plt.title('Softmax Function')
plt.xlabel('x')
plt.ylabel('Softmax(x)')
plt.axhline(0, color='black', lw=0.5)
plt.axvline(0, color='black', lw=0.5)
plt.grid(True)
plt.legend()
plt.show()

#### 三、3层神经网络

##### 3.1.1、层神经网络中信号是如何传递的？

- Step-1 权重符号的定义
![权重符号的定义](./attachements/singnal_pass_through_nn_权重符号.png)


- Step-2 明确表示出偏置

$y = h(b +w_1x_1 + w_2x_2)$

![明确表示出偏置](./attachements/singnal_pass_through_nn_明确表示出偏置.png)


- Step-3 输入层到第一层的信号传递
![输入层到第一层的信号传递](./attachements/singnal_pass_through_nn_输入层到第1层的信号传递.png)

$$
a^{(1)}_1 = w^{(1)}_{11}x_1 + w^{(1)}_{12}x_2 + b^{(1)}_1
$$

写成矩阵的乘法就是$\boldsymbol{A}^{(1)} = \boldsymbol{X} \boldsymbol{W}^{(1)} + \boldsymbol{B}^{(1)}$

其中
$$
\begin{aligned}
\boldsymbol{A}^{(1)} & =\left(\begin{array}{lll}
a_{1}^{(1)} & a_{2}^{(1)} & a_{3}^{(1)}
\end{array}\right), \boldsymbol{X}=\left(\begin{array}{ll}
x_{1} & x_{2}
\end{array}\right), \boldsymbol{B}^{(1)}=\left(\begin{array}{lll}
b_{1}^{(1)} & b_{2}^{(1)} & b_{3}^{(1)}
\end{array}\right) \\
\boldsymbol{W}^{(1)} & =\left(\begin{array}{lll}
w_{11}^{(1)} & w_{21}^{(1)} & w_{31}^{(1)} \\
w_{12}^{(1)} & w_{22}^{(1)} & w_{32}^{(1)}
\end{array}\right)
\end{aligned}
$$


- Step-4 第一层中信号被激活函数激活过程

![第一层中信号被激活函数激活过程](./attachements/singnal_pass_through_nn_第一层输出到激活函数激活.png)



- Step-05 第1层到第2层的信号传递

![第1层到第2层的信号传递](./attachements/singnal_pass_through_nn_第1层到第2层的信号传递.png)


- Step-06 第2层到输出层的信号传递

![第2层到输出层的信号传递](./attachements/singnal_pass_through_nn_第2层到输出层的信号传递.png)



##### 3.1.2、如何利用矩阵乘法实现神经网络的前向处理？

所谓利用矩阵乘法其实就是把参数($w$、$b$)抽出来放在矩阵中，而矩阵乘法可以表示多元线性方程组罢了！

In [None]:
import numpy as np


def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def identity_function(x):
    return x


def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    return network


def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)

    return y


network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)

print(y)

##### 代码解析

这里面最迷的就是参数的维度定义，其实就是2个点：

- $W$: 比如$W1$是输入到第1层的权重矩阵，那输入层有2个节点$x_1$和$x_2$,而第1层隐藏层有3个神经元,因此权重矩阵的维度就是$2 \times 3$,即输入层的每个节点都连接到第1层的每个神经元！

- $b$：比如$b1$是第1层隐藏层的偏置项，而第1层有3个神经元，每个神经元都有自己的一个偏置，因此偏置向量的维度就是$1 \times 3$



##### 3.1.3、如何设计输出层？

其实输出层也就是神经元，本质2个点

- 选激活函数：回归问题用恒等函数；分类问题用softmax函数。
- 定输出层的神经元数量：根据待解决的问题来定，比如分类问题一般设定为类别数量。

#### 四、自己从0实现一个NN完成MNIST手写数字识别

In [10]:
import numpy as np
import pickle
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
import os

def get_data():
    # 使用 sklearn 的内置函数加载 MNIST 数据集
    mnist = fetch_openml('mnist_784', version=1, as_frame=False)
    x = mnist.data / 255.0  # 归一化处理
    t = mnist.target.astype(int)
    x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.2, random_state=42)
    return x_test, t_test

def init_network():
    # 如果已经存在权重文件，则加载
    if os.path.exists("sample_weight.pkl"):
        with open("sample_weight.pkl", 'rb') as f:
            network = pickle.load(f)
        print("Loaded network parameters from sample_weight.pkl")
    else:
        # 初始化网络参数
        network = {}
        input_size = 784  # 输入层大小（MNIST图像是28x28像素）
        hidden_layer1_size = 50  # 隐藏层1大小
        hidden_layer2_size = 50  # 隐藏层2大小
        output_size = 10  # 输出层大小（10个分类）

        # 使用随机数初始化权重和偏置
        np.random.seed(42)
        network['W1'] = np.random.randn(input_size, hidden_layer1_size) * 0.01
        network['b1'] = np.zeros(hidden_layer1_size)
        network['W2'] = np.random.randn(hidden_layer1_size, hidden_layer2_size) * 0.01
        network['b2'] = np.zeros(hidden_layer2_size)
        network['W3'] = np.random.randn(hidden_layer2_size, output_size) * 0.01
        network['b3'] = np.zeros(output_size)

        # 保存初始化的网络参数
        with open("sample_weight.pkl", 'wb') as f:
            pickle.dump(network, f)
        print("Initialized and saved network parameters to sample_weight.pkl")

    return network

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def softmax(x):
    c = np.max(x)
    exp_x = np.exp(x - c)  # 数值稳定性
    return exp_x / np.sum(exp_x)

def predict(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    # 前向传播
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)
    return y

x, t = get_data()
network = init_network()
accuracy_cnt = 0

# 单张图片识别
# for i in range(len(x)):
#     y = predict(network, x[i])
#     p = np.argmax(y)  # 获取概率最高的元素的索引
#     if p == t[i]:
#         accuracy_cnt += 1

# print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

# 批处理每次100张
batch_size = 100  # 每次处理的批大小

for i in range(0, len(x), batch_size):
    x_batch = x[i:i+batch_size]
    y_batch = predict(network, x_batch)
    p = np.argmax(y_batch, axis=1)  # 获取每行中概率最高的元素的索引
    accuracy_cnt += np.sum(p == t[i:i+batch_size])
    print(f"Processed batch {i // batch_size + 1}: Accuracy so far = {float(accuracy_cnt) / (i + len(x_batch)):.4f}")

Loaded network parameters from sample_weight.pkl
Processed batch 1: Accuracy so far = 0.1100
Processed batch 2: Accuracy so far = 0.1000
Processed batch 3: Accuracy so far = 0.0833
Processed batch 4: Accuracy so far = 0.1025
Processed batch 5: Accuracy so far = 0.1060
Processed batch 6: Accuracy so far = 0.0983
Processed batch 7: Accuracy so far = 0.0986
Processed batch 8: Accuracy so far = 0.0975
Processed batch 9: Accuracy so far = 0.0956
Processed batch 10: Accuracy so far = 0.0950
Processed batch 11: Accuracy so far = 0.0955
Processed batch 12: Accuracy so far = 0.0975
Processed batch 13: Accuracy so far = 0.0962
Processed batch 14: Accuracy so far = 0.0993
Processed batch 15: Accuracy so far = 0.0973
Processed batch 16: Accuracy so far = 0.0950
Processed batch 17: Accuracy so far = 0.0935
Processed batch 18: Accuracy so far = 0.0922
Processed batch 19: Accuracy so far = 0.0921
Processed batch 20: Accuracy so far = 0.0945
Processed batch 21: Accuracy so far = 0.0971
Processed batch

##### 4.1、为什么随机初始化的准确率会在 10% 左右？

1. **MNIST 数据集有 10 个类别**
   - MNIST 数据集是一个手写数字数据集，包含从 0 到 9 共 10 个不同的类别。
   - 如果我们用一个完全随机的方式来进行分类（即没有学习的网络），理论上每个数字被随机分类的概率是相同的，因此分类的准确率大约是 \( \frac{1}{10} = 0.1 \) 或 10%。

2. **当前的网络随机权重**
   - 在当前代码中，网络的权重是使用随机数初始化的，且偏置为零。这意味着在预测的时候，输出是没有任何训练过程的权重直接应用于输入，得到了一个随机的结果。
   - 对于 10 个类别的随机选择，理论上准确率会在 10% 左右。因此，9.6% 是非常合理的表现，符合随机猜测的准确率。

##### 4.2、怎么提高准确率？

为了让这个神经网络学习并提高其预测准确率，您需要进行训练。这包括：
1. **使用反向传播算法**来调整权重和偏置，使得网络能够更好地拟合数据。
2. **定义损失函数**（如交叉熵损失），并通过优化算法（如梯度下降）来最小化损失函数。
3. 通过多轮次的迭代训练，不断更新网络的参数，使得模型能够逐步学习如何将输入的特征映射到正确的输出类别。


##### 4.3、批处理

- 输入数据的集合称为批，批处理的本质就是“打包输入数据”。通过以批为单位进行推理处理，能够实现高速的运算（因为大多数数值计算的库都对大型数组运算做了优化！）。

![没有使用批处理的数组运算流](./attachements/没有使用批处理的数组运算流.png)
![使用了批处理的数组运算流](./attachements/使用了批处理的数组运算流.png)

In [None]:
batch_size = 100  # 每次处理的批大小

for i in range(0, len(x), batch_size):
    x_batch = x[i:i+batch_size]
    y_batch = predict(network, x_batch)
    p = np.argmax(y_batch, axis=1)  # 获取每行中概率最高的元素的索引
    accuracy_cnt += np.sum(p == t[i:i+batch_size])
    print(f"Processed batch {i // batch_size + 1}: Accuracy so far = {float(accuracy_cnt) / (i + len(x_batch)):.4f}")