In [1]:
from mxnet import init, nd
from mxnet.gluon import nn

class MyInit(init.Initializer):
    def _init_weight(self, name, data):
        print('Init', name, data.shape)
        # 实际的初始化逻辑在此省略了
        # 未打印说明此时没有真正初始化

net = nn.Sequential()
net.add(nn.Dense(256, activation='relu'),
        nn.Dense(10))

net.initialize(init=MyInit())

In [2]:
# 在根据输入X做前向计算时，系统能够根据输入的形状自动推断出所有层的权重参数的形状。
X = nd.random.uniform(shape=(2, 20))
Y = net(X)

Init dense0_weight (256, 20)
Init dense1_weight (10, 256)


In [3]:
# 个初始化只会在第一次前向计算时被调用。后续不再调用
Y = net(X)

In [4]:
# 系统将真正的参数初始化延后到获得足够信息时才执行的行为叫作延后初始化（deferred initialization）
# 我们经常会额外做一次前向计算来迫使参数被真正地初始化。
# 第一种情况是我们要对已初始化的模型重新初始化时。
net.initialize(init=MyInit(), force_reinit=True)

Init dense0_weight (256, 20)
Init dense1_weight (10, 256)


In [5]:
# 第二种情况是我们在创建层的时候指定了它的输入个数，使系统不需要额外的信息来推测参数形状。
# in_units指定了全连接层的输入个数
net = nn.Sequential()
net.add(nn.Dense(256, in_units=20, activation='relu'))
net.add(nn.Dense(10, in_units=256))

net.initialize(init=MyInit())

Init dense2_weight (256, 20)
Init dense3_weight (10, 256)


In [7]:
X = X.reshape((1,20))
net(X)


[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]
<NDArray 1x10 @cpu(0)>