# 参数初始化

In [2]:
import torch
import torch.nn as nn

In [2]:
# 定义一个全连接层
linear = nn.Linear(5, 2)  # 5个输入特征，2个输出特征

In [4]:
# 对权重参数初始化
# 1. 常数初始化，不推荐
nn.init.zeros_(linear.weight)
nn.init.constant_(linear.weight, 10)
print(linear.weight)

Parameter containing:
tensor([[10., 10., 10., 10., 10.],
        [10., 10., 10., 10., 10.]], requires_grad=True)


In [5]:
# 2. 秩初始化
nn.init.eye_(linear.weight)
print(linear.weight)

Parameter containing:
tensor([[1., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0.]], requires_grad=True)


In [6]:
# 3. 随机分布初始化
## 3.1 正太分布初始化
nn.init.normal_(linear.weight, mean=0, std=0.1)
print(linear.weight)
## 3.2 均匀分布初始化
nn.init.uniform_(linear.weight, a=-10, b=10)
print(linear.weight)

Parameter containing:
tensor([[ 0.1380, -0.2406, -0.0879,  0.0242,  0.0476],
        [-0.0897, -0.0751, -0.0309,  0.1674, -0.0430]], requires_grad=True)
Parameter containing:
tensor([[ 0.0775, -4.8457, -6.3516,  3.8328,  1.2416],
        [ 9.2825,  3.5767,  5.3917,  9.5638,  4.4823]], requires_grad=True)


In [7]:
# 4. Xavier初始化（Glorot初始化）
# Xavier 初始化根据输入和输出的神经元数量调整权重的初始范围，确保每一层的输出方差与输入方差相近。适用于 Sigmoid 和 Tanh 等激活函数，能有效缓解梯度消失或爆炸问题。
nn.init.xavier_normal_(linear.weight)
print(linear.weight)
nn.init.xavier_uniform_(linear.weight)
print(linear.weight)

Parameter containing:
tensor([[-1.0016,  0.1044, -0.9194,  0.1453,  0.2269],
        [ 0.6474, -1.2326, -0.3940, -0.2157, -0.3044]], requires_grad=True)
Parameter containing:
tensor([[ 0.4605, -0.0952, -0.1934, -0.6661,  0.4495],
        [ 0.5573,  0.2435, -0.9106,  0.3428, -0.6073]], requires_grad=True)


In [8]:
# 5. He初始化（Kaiming初始化）
# He 初始化根据输入的神经元数量调整权重的初始范围。主要适用于 ReLU 及其变体（如Leaky ReLU）激活函数
nn.init.kaiming_normal_(linear.weight)
print(linear.weight)
nn.init.kaiming_uniform_(linear.weight)
print(linear.weight)

Parameter containing:
tensor([[ 0.1561,  0.3553,  1.3939, -0.2445,  0.2456],
        [-0.5177,  1.4274, -0.0716,  0.2834,  1.2510]], requires_grad=True)
Parameter containing:
tensor([[-0.5447,  0.9896,  0.5030,  0.9114,  0.2586],
        [-0.5824, -0.1469, -0.6728, -0.3263,  0.8619]], requires_grad=True)


In [4]:
# Dropout随机失活，避免过拟合
# Dropout（随机失活，暂退法）是一种在学习的过程中随机关闭神经元的方法。
# 可以通过 torch.nn.Dropout(p)来使用 Dropout，并通过参数 p 来设置失活概率。
x = torch.randint(1, 10, (10, ), dtype=torch.float32)
# 定义Dropout层
dropout = nn.Dropout(p=0.5)
y = dropout(x)

print(x)
print(y)

tensor([4., 3., 2., 2., 9., 4., 9., 6., 8., 4.])
tensor([ 8.,  0.,  4.,  4.,  0.,  8., 18.,  0., 16.,  0.])
