# 1、什么是人工神经网络？
人工神经网络简称ANN（Artificial Neural NetWork）是模仿生物神经网络结构和功能构建的一种计算模型。可以用于处理和学习复杂的的数据模式，尤其使用解决非线性问题。人工神经网络是机器学习中的一个重要模型，尤其是在省都学习领域中得到了广泛的应用。

# 2、如何构建神经网络？

![人工神经网络结构](./img/人工神经网络结构.png)

对输入信息进行加权计算，并输入到下个节点做加和，再通过激活函数输出

![多层人工神经网络结构](./img/多层人工神经网络结构.png)

- 基本结构：
    - 输入层（Input Layer）：即x那一层（如图像、声音、文本），每个输入藤正对应一个神经元，输入层将数据传递到下一层神经元
    - 输出层（Output Layer）：即输出y那一层，输出层的神经元根据网络任务（回归、分类）最终生成预测结果
    - 隐藏层（hidden layer）：输入层和输出层之间都是隐藏层，神经网络的深度“深度”通常是由隐藏层的数量决定。隐藏层的神经元通过加权激活函数处理输入，并将结果传递到下一层。
- 特点：
    - 同一层神经网络之间没有连接
    - 第N层的每个神经网络和第N-1层所有的神经网络相连（Fully Connect的含义），这就是全联接层神经网络（FCNN）
    - 全联接神经网络接收的样本数据是二维，数据在每一层之间需要以二维的形式传递
    - 第N-1层神经元的输出就是第N层神经元的输入
    - 每个连接都有一个权重值（w系数和b系数）


- 内部状态值和激活值（内部状态值=加权求和值和激活值=反向传播时会产生激活值梯度和内部状态值梯度）通过控制每个神经元的内部状态值大小；每一层的内部状态值的方差、每一层的激活值的方差可让整个神经网络工作的更好。
    - 内部状态值
        - 神经元或隐藏单元的内部存储值，它反映了当前神经元接收到输入、理解信息以及网络内部的加权计算结果
        - 每个输入$x_i$都有一个与之想成的权重$w_i$，表示每个输入信号的重要性
        - $z = wx + b $(w：权重矩阵 x：输入值 b：偏置)
    - 激活值
        - 通过激活函数（如：ReLU、Sigmoid、Tanh）对内部状态值进行非线性变化后，得到的结果，激活值决定了当前神经元的输出。
        - $a = f(z)$ (f：激活函数 z：内部状态值)
    


# 3、什么是网络非线性因素？
- 没有引入非线性因素的网络等价于使用以恶搞线性模型拟合
- 通过给网络输出增加激活函数，实现引入非线性因素，使得网络模型可以逼近任意函数，提升网络对复杂问题的拟合能力

# 3、什么是激活函数？
激活函数用于对于每层的输出数据进行变换，进而为了整个网络注入非线性因素，此时神经网络就可以拟合各种曲线，如果不使用激活函数整个网络虽然看起来复杂，起本质还是相当于一种线性模型



- Sigmoid函数：
    - 公式：$f(x)=\frac{1}{1 + e^{-x}}$
    - 将输入映射到 (0, 1) 之间，呈 S 形曲线，具有非线性特性。
```python 

import torch

```



# 4、如何选择激活函数？

![激活函数](./img/激活函数.png)


对于隐藏层:
- 优先选择ReLU激活函数
- 如果ReLu效果不好，那么尝试其他激活，如Leaky ReLu等。
- 如果你使用了ReLU， 需要注意一下Dead ReLU问题，避免出现0梯度从而导致过多的神经元死亡。
- 少使用sigmoid激活函数，可以尝试使用tanh激活函数


对于输出层:
- 二分类问题选择sigmoid激活函数
- 多分类问题选择softmax激活函数
- 回归问题选择identity激活函数

# 5、什么是参数初始化？
定义：在构建网络之后，网络中的参数是需要初始化的。我们需要初始化的参数主要有权重和偏置，偏置一般初始化为0即可，而对权重的初始化则会更加重要。

# 6、参数初始化作用有哪些？
- 防止梯度消失或爆炸：初始权重过大或者过小会导致梯度在反向传播中指数级增大或缩小
- 提到收敛速度：合理的初始化使得网络的激活值分布适中，有助于梯度高效更新
- 保持对称性破除：权重初始化需要打破对称性，否则网络学的的能力会受到限制

# 7、常见的参数初始化方法有哪些？

- 随机初始化：
    - 均匀分布初始化：权重参数舒适化从区间均居随机取数，默认区间（0，1）可以设置为-($1\over\sqrt{d}$$,$$1\over\sqrt{d}​$)均匀分布中生成当前神经元的权重，其中d为圣经元的输入数量
    - 正太分布初始化：随机初始化从均值为0，标准差是1的高斯分布中取样，使用一些很小的值对参数w进行初始化
    - 优点：能有效的打破对称性
    - 缺点：随机范围不当可能会导致梯度问题
    - 适用场景：浅层神经网络或低复杂度模型，隐藏层1～3层，总层数不超过5层

- 全0初始化：神经网络中所有权重参数初始化为0
    - 优点：实现简单
    - 缺点：无法打破对称性，所有神经元更新方向相同，无法有效训练
    - 适用场景：几乎不使用，仅用于偏置项的初始化    

- 全1初始化：神经网络中所有权重参数初始化为1
    - 优点：实现简单
    - 缺点：
        - 无法打破对称性，所有神经元是否能正常前向传播和反向传播
        - 会导致激活值在网络中呈指数增长，容易出现梯度爆炸
    - 适用场景：
        - 测试或调试：比如验证神经网络是否能正常的前向传播和反向传播
        - 特殊模型结构：某些系数网络或特定的自定义网络中可能需要手动设置部分参数为1
        - 偏置初始化：偶尔可以讲偏置初始化为小的正值比如：0/1，但是很少用1作为偏置的初始化值
    
- 固定初始化：将神经网络中所有权重参数初始化为某个固定值
    - 优点：实现简单
    - 缺点：
        - 无法打破对称性，所有神经元更新方向相同，无法有效的训练
        - 初始化权重过大或者过小都可能导致梯度爆炸或消失的问题
    - 适用场景：测试或调试


- kaiming初始化：也叫HE初始化，转为ReLU和其变体，考虑到ReLU激活函数特性，对输入维度进行缩放
    - 优点：适合ReLU能保持梯度稳定
    - 缺点：对非ReLU激活函数效果一般
    - 适用场景：深度网络10层以上，使用ReLU、Leaky ReLU激活函数

- xavier初始化：也叫Glorot初始化
    - xavier初始化分为两种：正态分布xavier初始化和均匀分布xavier初始化
        - 正态化的Xavier初始化
            - w权重值从均值为0, 标准差为std中随机采样，$std = sqrt(2 / (fan_in + fan_out))$
            - std值越小，w权重值离均值0分布相对集中，计算得到的内部状态值有较小的正值或负值
        - 均匀分布的Xavier初始化
            - $[-limit，limit]$ 中的均匀分布中抽取样本, limit 是 $sqrt(6 / (fan_in + fan_out))$
        - fan_in 是输入神经元个数，当前层接受的来自上一层的神经元的数量。简单来说，就是当前层接收多少个输入
        - fan_out 是输出神经元个数，当前层输出的神经元的数量，也就是当前
    - 优点：适用于Sigmoid、Tanh等激活函数，解决梯度消失问题
    - 缺点：对ReLU等激活函数表现欠佳
    - 适用场景：网络深度10层以上，使用Sigmoid和Tanh激活函数











In [10]:
import matplotlib.font_manager as font_manager

# 添加自定义字体路径
font_path = './font/simhei.ttf'  # 将此路径替换为你自己的 SimHei 字体文件的实际路径，也就是刚刚第二步得到的那个路径
font_manager.fontManager.addfont(font_path)

In [13]:
import torch
import matplotlib.pyplot as plt

def gen_sub_plot(subplot, title, x, y):
    '''
        绘制子图
    :param subplot: 
    :param title: 
    :param x: 
    :param y: 
    :return: 
    '''
    subplot.plot(x, y)
    subplot.grid()
    subplot.set_title(title)
    
activation_fun_arr = ['Sigmoid激活函数', 'Tanh激活函数', 'ReLU激活函数', 'SoftMax激活函数']

'''
隐藏层：
    - 优先使用ReLU函数，效果不好可以使用Leaky ReLU激活函数
输出层：
    - 二分类问题优先使用Sigmoid激活函数
    - 多分类问题优先使用Softmax激活函数
    - 回归问题优先使用identity激活函数
'''

# 创建一个绘制窗口
# _ , axes = plt.subplots(len(activation_fun_arr), 2)
fig, axes = plt.subplots(len(activation_fun_arr), 2, figsize=(12, 8))

for index, item in enumerate(activation_fun_arr):
    # 定义x轴数据
    x = torch.linspace(-20, 20, 1000)
    df_x = torch.linspace(-20, 20, 1000, requires_grad=True)

    '''
    在五层之内会出现梯度消失现象，而且该激活函数并不是以0为中心，激活总数偏向正数，导致梯度更新时候对某些特征产生相同方向影响，因此常用于二分类问题
    '''
    if 'Sigmoid激活函数' == item:
        y = torch.sigmoid(x)
        torch.sigmoid(df_x).sum().backward()
    
    '''
    Tanh函数是以0为中心，并且收敛速度比Sigmoid更快，迭代次数更少，Tanh两侧导数也为0因此也会出现梯度消失问题，因此最好使用在隐藏层，在输出层使用Sigmoid函数
    '''
    if 'Tanh激活函数' == item:
        y = torch.tanh(x)
        torch.tanh(df_x).sum().backward()

    '''
    ReLu函数可以减少计算过程，ReLu不会出现梯度消失的问题因为当输入值>0梯度为1，ReLU会使一部分神经元输出是0，这样能造成网络稀疏性，并减少参数之间相互依赖关系，缓解了过拟合问题
    '''
    if 'ReLU激活函数' == item:
        y = torch.relu(x)
        torch.relu(df_x).sum().backward()

    '''
    
    '''
    if 'SoftMax激活函数' == item:
        '''
        softmax用于多分类过程中，它是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。
        '''
        y = torch.softmax(x, dim=0)
        torch.softmax(df_x, dim=0).sum().backward()  # 计算梯度

    gen_sub_plot(axes[index, 0], item, x.numpy(), y.numpy())
    # 绘制导数图像
    if df_x.grad is not None:
        gen_sub_plot(axes[index, 1], item + '（导数）', df_x.detach().numpy(), df_x.grad.numpy())
    else:
        print(f"Warning: Gradient for {item} is None")

    # 清空梯度，避免累积
    if df_x.grad is not None:
        df_x.grad.zero_()

plt.tight_layout()
# 展示图像
plt.show()