In [2]:
"""
演示参数初始化的7中方式

参数初始化的目的：
1.防止梯度小时或梯度爆炸
2.提高收敛速度
3.打破对称性

参数初始化方式：
 无法打破对称性的：全0，全1，固定值
 可以打破对称性的：正态分布初始化，kaiming初始化，xavier初始化

总结：
激活函数ReLU及其系列：优先用kaiming
激活函数非ReLU：优先用xavier
浅层网络：可以考虑用随机初始化
"""

import torch.nn as nn


# 均匀分布随机初始化
def dm01():
    # 创建一个线性层，输入维度5，输出维度3
    linear = nn.Linear(5, 3)
    # 对权重w进行随机初始化，从0-1均匀分布产生参数
    nn.init.uniform_(linear.weight)
    # 对偏置项b进行随机初始化，从0-1均匀分布产生参数
    nn.init.uniform_(linear.bias)
    # 打印生成结果
    print("权重w:", linear.weight.data)
    print("偏置项b:", linear.bias.data)




权重w: tensor([[0.7984, 0.0136, 0.7137, 0.8345, 0.0398],
        [0.4500, 0.5553, 0.8963, 0.2021, 0.0867],
        [0.2937, 0.6221, 0.9532, 0.4235, 0.5577]])
偏置项b: tensor([0.1771, 0.5415, 0.7754])


![image.png](attachment:image.png)

In [None]:
# 固定初始化
def dm02():
    # 创建一个线性层，输入维度5，输出维度3
    linear = nn.Linear(5, 3)
    # 对权重w进行初始化，设置固定值3
    nn.init.constant_(linear.weight, 3)
    # 对偏置项b进行初始化，设置固定值3
    nn.init.constant_(linear.bias, 3)
    # 打印生成结果
    print("权重w:", linear.weight.data)
    print("偏置项b:", linear.bias.data)


# 全0初始化
def dm03():
    # 创建一个线性层，输入维度5，输出维度3
    linear = nn.Linear(5, 3)
    # 对权重w进行初始化，设置为0
    nn.init.zeros_(linear.weight)
    # 对偏置项b进行初始化，设置为0
    nn.init.zeros_(linear.bias)
    # 打印生成结果
    print("权重w:", linear.weight.data)

    # 全0初始化


# 全1初始化
def dm04():
    # 创建一个线性层，输入维度5，输出维度3
    linear = nn.Linear(5, 3)
    # 对权重w进行初始化，设置为1
    nn.init.ones_(linear.weight)
    # 对偏置项b进行初始化，设置为1
    nn.init.ones_(linear.bias)
    # 打印生成结果
    print("权重w:", linear.weight.data)


# 正态分布初始化
def dm05():
    # 创建一个线性层，输入维度5，输出维度3
    linear = nn.Linear(5, 3)
    # 对权重w进行初始化
    nn.init.normal_(linear.weight)
    # 对偏置项b进行初始化
    nn.init.normal_(linear.bias)
    # 打印生成结果
    print("权重w:", linear.weight.data)


# kaiming初始化
def dm06():
    # 创建一个线性层，输入维度5，输出维度3
    linear = nn.Linear(5, 3)
    # 对权重w进行初始化,kaiming正态分布初始化
    nn.init.kaiming_normal_(linear.weight)
    # kaiming均匀分布初始化
    # nn.init.kaiming_uniform_(linear.weight)
    # 打印生成结果
    print("权重w:", linear.weight.data)
    
# xavier初始化
def dm07():
    # 创建一个线性层，输入维度5，输出维度3
    linear = nn.Linear(5, 3)
    # 对权重w进行初始化,xavier正态分布初始化
    nn.init.xavier_normal_(linear.weight)
    # xavier均匀分布初始化
    # nn.init.xavier_uniform_(linear.weight)
    # 打印生成结果
    print("权重w:", linear.weight.data)

In [22]:
if __name__ == "__main__":
    # dm01()
    # dm02()
    # dm03()
    # dm04()
    # dm05()
    # dm06()
    dm07()

权重w: tensor([[ 0.2138, -0.1850,  0.1634,  1.1454,  0.8768],
        [ 0.1129, -0.1297,  0.5764, -0.2989, -0.2980],
        [-0.0580, -0.3690, -0.2084,  0.3996,  0.0303]])
