In [2]:
# 利用numpy简单实现网络的前向和后向传播
import numpy as np

# N是批量大小; D_in是输入维度;
# 49/5000 H是隐藏的维度; D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

# 创建随机输入和输出数据
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 随机初始化权重
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6
for t in range(500):
    # 前向传递：计算预测值y
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)

    # 计算和打印损失loss
    loss = np.square(y_pred - y).sum()
    print(t, loss)

    # 反向传播，计算w1和w2对loss的梯度
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)

    # 更新权重
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 29837819.172523536
1 28105437.02581872
2 31452586.467560954
3 34664157.64367227
4 32728443.336026426
5 24486498.55088836
6 14325753.390029073
7 7115782.964364289
8 3443169.4243613724
9 1849706.5347747942
10 1165574.6131439684
11 844383.7063103539
12 668132.0142884838
13 554399.3814448006
14 471805.1153574793
15 407071.9386563754
16 354328.6046364879
17 310363.9331272086
18 273201.61849777657
19 241575.86739219603
20 214438.76442364178
21 191002.3198764638
22 170640.3871667749
23 152873.65042601252
24 137302.3907802605
25 123617.32881350786
26 111549.67858951716
27 100866.20680635124
28 91383.68464510055
29 82940.6575193028
30 75407.43860805953
31 68673.42389702852
32 62635.80203634752
33 57209.510965588895
34 52328.058822184095
35 47927.57128826877
36 43950.786953078394
37 40351.3100224835
38 37089.9117337216
39 34126.33343439537
40 31432.736379707643
41 28985.05860988979
42 26756.579996231107
43 24720.67019932894
44 22859.071415173952
45 21155.48529796368
46 19597.78242056968
47 181

In [3]:
# 手动实现前向和后向传播
import torch


dtype = torch.float
device = torch.device("cpu")
# device = torch.device（“cuda：0”）＃取消注释以在GPU上运行

# N是批量大小; D_in是输入维度;
# H是隐藏的维度; D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

#创建随机输入和输出数据
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 随机初始化权重
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    # 前向传递：计算预测y
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 计算和打印损失
    loss = (y_pred - y).pow(2).sum().item()
    print(t, loss)

    # Backprop计算w1和w2相对于损耗的梯度
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)

    # 使用梯度下降更新权重
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 30757204.0
1 29384062.0
2 32073526.0
3 33802896.0
4 30211290.0
5 21662666.0
6 12508858.0
7 6380755.0
8 3253344.5
9 1841091.5
10 1199182.875
11 879289.375
12 695606.0
13 574235.6875
14 485131.6875
15 415326.15625
16 358657.25
17 311720.21875
18 272344.8125
19 238970.53125
20 210480.21875
21 185994.1875
22 164866.9375
23 146569.34375
24 130633.9375
25 116706.5078125
26 104496.9140625
27 93754.734375
28 84274.9296875
29 75881.40625
30 68433.5546875
31 61811.4765625
32 55913.3046875
33 50644.3046875
34 45944.53515625
35 41732.08203125
36 37949.328125
37 34546.8515625
38 31478.337890625
39 28710.90625
40 26211.1171875
41 23949.71484375
42 21903.18359375
43 20047.548828125
44 18363.62890625
45 16833.3203125
46 15441.59765625
47 14174.28125
48 13019.6357421875
49 11965.876953125
50 11003.923828125
51 10126.783203125
52 9324.462890625
53 8590.2001953125
54 7918.06494140625
55 7302.626953125
56 6738.3603515625
57 6220.55517578125
58 5745.1083984375
59 5308.3525390625
60 4906.6640625
61 4536.7

423 5.032497210777365e-05
424 4.972780880052596e-05
425 4.9102993216365576e-05
426 4.856646410189569e-05
427 4.7950299631338567e-05
428 4.705690298578702e-05
429 4.65716548205819e-05
430 4.602490662364289e-05
431 4.5243614295031875e-05
432 4.465530946617946e-05
433 4.399419412948191e-05
434 4.3375006498536095e-05
435 4.2590741941239685e-05
436 4.189175524516031e-05
437 4.133773472858593e-05
438 4.085854016011581e-05
439 4.047224501846358e-05
440 3.996825762442313e-05
441 3.943133924622089e-05
442 3.899243529303931e-05
443 3.8522088289028034e-05
444 3.8146339647937566e-05
445 3.747358641703613e-05
446 3.712223042384721e-05
447 3.669687794172205e-05
448 3.6311608710093424e-05
449 3.574994480004534e-05
450 3.551892950781621e-05
451 3.5153636417817324e-05
452 3.470196679700166e-05
453 3.4278793464181945e-05
454 3.393056977074593e-05
455 3.370804188307375e-05
456 3.323894998175092e-05
457 3.2864176318980753e-05
458 3.2362651836592704e-05
459 3.205830944352783e-05
460 3.17645535687916e-05
46

In [4]:
# autograd自动求导
import torch

dtype = torch.float
device = torch.device("cpu")
# device = torch.device（“cuda：0”）＃取消注释以在GPU上运行

# N是批量大小; D_in是输入维度;
# H是隐藏的维度; D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

# 创建随机Tensors以保持输入和输出。
# 设置requires_grad = False表示我们不需要计算渐变
# 在向后传球期间对于这些Tensors。
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 为权重创建随机Tensors。
# 设置requires_grad = True表示我们想要计算渐变
# 在向后传球期间尊重这些张贴。
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 前向传播：使用tensors上的操作计算预测值y; 
      # 由于w1和w2有requires_grad=True，涉及这些张量的操作将让PyTorch构建计算图，
    # 从而允许自动计算梯度。由于我们不再手工实现反向传播，所以不需要保留中间值的引用。
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    # 使用Tensors上的操作计算和打印丢失。
    # loss是一个形状为()的张量
    # loss.item() 得到这个张量对应的python数值
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())

    # 使用autograd计算反向传播。这个调用将计算loss对所有requires_grad=True的tensor的梯度。
    # 这次调用后，w1.grad和w2.grad将分别是loss对w1和w2的梯度张量。
    loss.backward()

    # 使用梯度下降更新权重。对于这一步，我们只想对w1和w2的值进行原地改变；不想为更新阶段构建计算图，
    # 所以我们使用torch.no_grad()上下文管理器防止PyTorch为更新构建计算图
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # 反向传播后手动将梯度设置为零
        w1.grad.zero_()
        w2.grad.zero_()

0 26823116.0
1 22167008.0
2 20967428.0
3 20104496.0
4 18104156.0
5 14656201.0
6 10661588.0
7 7095112.0
8 4510869.5
9 2847367.5
10 1850114.0
11 1260821.5
12 908585.1875
13 689437.5625
14 546074.8125
15 446765.5625
16 374277.53125
17 318867.59375
18 274939.0
19 239161.984375
20 209489.421875
21 184421.71875
22 163018.328125
23 144604.96875
24 128675.4296875
25 114814.421875
26 102700.71875
27 92072.96875
28 82714.2890625
29 74452.40625
30 67134.5390625
31 60639.80859375
32 54861.625
33 49707.8828125
34 45100.96484375
35 40981.4453125
36 37287.39453125
37 33969.078125
38 30984.56640625
39 28293.501953125
40 25862.619140625
41 23666.244140625
42 21678.029296875
43 19878.201171875
44 18245.029296875
45 16763.4296875
46 15414.94921875
47 14187.8896484375
48 13069.451171875
49 12048.5595703125
50 11116.0439453125
51 10263.388671875
52 9483.56640625
53 8769.39453125
54 8114.55810546875
55 7513.88037109375
56 6962.205078125
57 6455.0751953125
58 5988.36962890625
59 5558.609375
60 5162.830078125

In [5]:
# 自定义求导函数
import torch

class MyReLU(torch.autograd.Function):
    """
    我们可以通过建立torch.autograd的子类来实现我们自定义的autograd函数，
    并完成张量的正向和反向传播。
    """
    @staticmethod
    def forward(ctx, x):
        """
        在正向传播中，我们接收到一个上下文对象和一个包含输入的张量；
        我们必须返回一个包含输出的张量，
        并且我们可以使用上下文对象来缓存对象，以便在反向传播中使用。
        """
        ctx.save_for_backward(x)
        return x.clamp(min=0)

    @staticmethod
    def backward(ctx, grad_output):
        """
        在反向传播中，我们接收到上下文对象和一个张量，
        其包含了相对于正向传播过程中产生的输出的损失的梯度。
        我们可以从上下文对象中检索缓存的数据，
        并且必须计算并返回与正向传播的输入相关的损失的梯度。
        """
        x, = ctx.saved_tensors
        grad_x = grad_output.clone()
        grad_x[x < 0] = 0
        return grad_x


device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# N是批大小； D_in 是输入维度；
# H 是隐藏层维度； D_out 是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生输入和输出的随机张量
x = torch.randn(N, D_in, device=device)
y = torch.randn(N, D_out, device=device)

# 产生随机权重的张量
w1 = torch.randn(D_in, H, device=device, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 正向传播：使用张量上的操作来计算输出值y；
    # 我们通过调用 MyReLU.apply 函数来使用自定义的ReLU
    y_pred = MyReLU.apply(x.mm(w1)).mm(w2)

    # 计算并输出loss
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())

    # 使用autograd计算反向传播过程。
    loss.backward()

    with torch.no_grad():
        # 用梯度下降更新权重
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # 在反向传播之后手动清零梯度
        w1.grad.zero_()
        w2.grad.zero_()

0 27300710.0
1 22901844.0
2 23911352.0
3 26960996.0
4 28847860.0
5 26450740.0
6 19882690.0
7 12197332.0
8 6577551.0
9 3443524.25
10 1938674.625
11 1230784.375
12 879810.8125
13 684847.625
14 561343.9375
15 473593.65625
16 406269.4375
17 351962.78125
18 306949.15625
19 268987.65625
20 236632.046875
21 208889.171875
22 184961.765625
23 164247.3125
24 146261.40625
25 130608.375
26 116883.6640625
27 104823.5078125
28 94182.6484375
29 84771.125
30 76425.71875
31 69013.3125
32 62407.4296875
33 56513.296875
34 51244.97265625
35 46527.8515625
36 42297.890625
37 38496.41796875
38 35073.85546875
39 31987.017578125
40 29200.484375
41 26680.53515625
42 24400.236328125
43 22333.947265625
44 20459.61328125
45 18755.9453125
46 17209.4609375
47 15803.2470703125
48 14521.443359375
49 13352.27734375
50 12285.8896484375
51 11311.8466796875
52 10421.345703125
53 9606.443359375
54 8860.4658203125
55 8176.916015625
56 7549.794921875
57 6974.373046875
58 6446.0537109375
59 5960.8515625
60 5515.1845703125
61 

In [6]:
# 使用nn模块简单实现两层网络
import torch

# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

#创建输入和输出随机张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 使用nn包将我们的模型定义为一系列的层。
# nn.Sequential是包含其他模块的模块，并按顺序应用这些模块来产生其输出。
# 每个线性模块使用线性函数从输入计算输出，并保存其内部的权重和偏差张量。
# 在构造模型之后，我们使用.to()方法将其移动到所需的设备。
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

# nn包还包含常用的损失函数的定义；
# 在这种情况下，我们将使用平均平方误差(MSE)作为我们的损失函数。
# 设置reduction='sum'，表示我们计算的是平方误差的“和”，而不是平均值;
# 这是为了与前面我们手工计算损失的例子保持一致，
# 但是在实践中，通过设置reduction='elementwise_mean'来使用均方误差作为损失更为常见。
loss_fn = torch.nn.MSELoss(reduction='sum')

learning_rate = 1e-4
for t in range(500):
    # 前向传播：通过向模型传入x计算预测的y。
    # 模块对象重载了__call__运算符，所以可以像函数那样调用它们。
    # 这么做相当于向模块传入了一个张量，然后它返回了一个输出张量。
    y_pred = model(x)

     # 计算并打印损失。
     # 传递包含y的预测值和真实值的张量，损失函数返回包含损失的张量。
    loss = loss_fn(y_pred, y)
    print(t, loss.item())

    # 反向传播之前清零梯度
    model.zero_grad()

    # 反向传播：计算模型的损失对所有可学习参数的导数（梯度）。
    # 在内部，每个模块的参数存储在requires_grad=True的张量中，
    # 因此这个调用将计算模型中所有可学习参数的梯度。
    loss.backward()

    # 使用梯度下降更新权重。
    # 每个参数都是张量，所以我们可以像我们以前那样可以得到它的数值和梯度
    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad

0 699.0252075195312
1 646.1016235351562
2 600.8339233398438
3 561.0819702148438
4 525.6883544921875
5 493.7246398925781
6 464.71649169921875
7 438.2982177734375
8 413.9591979980469
9 391.3885803222656
10 370.2457275390625
11 350.4040222167969
12 331.7765808105469
13 314.16827392578125
14 297.4466552734375
15 281.5899658203125
16 266.49200439453125
17 252.1441192626953
18 238.5303497314453
19 225.64584350585938
20 213.44683837890625
21 201.88539123535156
22 190.9036865234375
23 180.4681854248047
24 170.55517578125
25 161.158447265625
26 152.2257537841797
27 143.72335815429688
28 135.6510772705078
29 127.97191619873047
30 120.70166778564453
31 113.82299041748047
32 107.31715393066406
33 101.16169738769531
34 95.33576202392578
35 89.83202362060547
36 84.63648223876953
37 79.74358367919922
38 75.13887786865234
39 70.80409240722656
40 66.71135711669922
41 62.86022186279297
42 59.23414993286133
43 55.82162094116211
44 52.61117935180664
45 49.591922760009766
46 46.74264907836914
47 44.0646400

405 4.589085074258037e-05
406 4.4530213926918805e-05
407 4.3213702156208456e-05
408 4.1936233174055815e-05
409 4.0694365452509373e-05
410 3.948937592213042e-05
411 3.8326757930917665e-05
412 3.719313463079743e-05
413 3.609356645029038e-05
414 3.502976323943585e-05
415 3.399631168576889e-05
416 3.299501622677781e-05
417 3.202235893695615e-05
418 3.108062446699478e-05
419 3.0162032999214716e-05
420 2.927418245235458e-05
421 2.8412781830411404e-05
422 2.7576448701438494e-05
423 2.6765494112623855e-05
424 2.5978763005696237e-05
425 2.521459828130901e-05
426 2.4476028556819074e-05
427 2.375556323386263e-05
428 2.305686939507723e-05
429 2.2380645532393828e-05
430 2.1724728867411613e-05
431 2.1088360881549306e-05
432 2.0469426090130582e-05
433 1.9868239178322256e-05
434 1.9287032046122476e-05
435 1.872232860478107e-05
436 1.8173410353483632e-05
437 1.7640302758081816e-05
438 1.712558150757104e-05
439 1.6625417629256845e-05
440 1.6140504158101976e-05
441 1.566870378155727e-05
442 1.52086895468

In [7]:
# 优化器模块optim
import torch

# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生随机输入和输出张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 使用nn包定义模型和损失函数
model = torch.nn.Sequential(
          torch.nn.Linear(D_in, H),
          torch.nn.ReLU(),
          torch.nn.Linear(H, D_out),
        )
loss_fn = torch.nn.MSELoss(reduction='sum')

# 使用optim包定义优化器（Optimizer）。Optimizer将会为我们更新模型的权重。
# 这里我们使用Adam优化方法；optim包还包含了许多别的优化算法。
# Adam构造函数的第一个参数告诉优化器应该更新哪些张量。
learning_rate = 1e-4
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

for t in range(500):

    # 前向传播：通过像模型输入x计算预测的y
    y_pred = model(x)

    # 计算并打印loss
    loss = loss_fn(y_pred, y)
    print(t, loss.item())

    # 在反向传播之前，使用optimizer将它要更新的所有张量的梯度清零(这些张量是模型可学习的权重)
    optimizer.zero_grad()

    # 反向传播：根据模型的参数计算loss的梯度
    loss.backward()

    # 调用Optimizer的step函数使它所有参数更新
    optimizer.step()

0 626.0692138671875
1 609.6825561523438
2 593.7620849609375
3 578.3076171875
4 563.38134765625
5 548.92529296875
6 534.9148559570312
7 521.2799682617188
8 507.98974609375
9 495.07177734375
10 482.50054931640625
11 470.3227844238281
12 458.58013916015625
13 447.1310119628906
14 435.98956298828125
15 425.2216796875
16 414.7515869140625
17 404.5765075683594
18 394.61541748046875
19 384.9184265136719
20 375.47576904296875
21 366.260009765625
22 357.29595947265625
23 348.5660705566406
24 340.0362548828125
25 331.7044677734375
26 323.5679016113281
27 315.61590576171875
28 307.85797119140625
29 300.3036804199219
30 292.98712158203125
31 285.85546875
32 278.85357666015625
33 272.01641845703125
34 265.32220458984375
35 258.75970458984375
36 252.33944702148438
37 246.06741333007812
38 239.95420837402344
39 233.97207641601562
40 228.1160125732422
41 222.3741455078125
42 216.74754333496094
43 211.2258758544922
44 205.815185546875
45 200.51345825195312
46 195.3220977783203
47 190.24476623535156
48 

401 2.1794956239773455e-07
402 1.9975755094492342e-07
403 1.8288349679096427e-07
404 1.6770007960076327e-07
405 1.5350833848515322e-07
406 1.4047988372567488e-07
407 1.2893355005871854e-07
408 1.1807033217792196e-07
409 1.0809659301003194e-07
410 9.901694397740357e-08
411 9.062484451760611e-08
412 8.298665932215954e-08
413 7.603720320048524e-08
414 6.96510227271574e-08
415 6.380189176979911e-08
416 5.837546979137187e-08
417 5.34776987137775e-08
418 4.888215698883869e-08
419 4.4828894374404626e-08
420 4.109778473093684e-08
421 3.7622466919629005e-08
422 3.447074803375472e-08
423 3.1574732162198416e-08
424 2.889168371211781e-08
425 2.6456842050492924e-08
426 2.4269017018241357e-08
427 2.2169478697264822e-08
428 2.036175494879444e-08
429 1.8648142585675487e-08
430 1.7072538938123216e-08
431 1.5660338803513696e-08
432 1.4344015752953965e-08
433 1.3136903120880561e-08
434 1.2048494646421659e-08
435 1.1057025517402508e-08
436 1.0161639529826516e-08
437 9.320398675072283e-09
438 8.56171489260

In [8]:
# 自定义nn
import torch

class TwoLayerNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        """
        在构造函数中，我们实例化了两个nn.Linear模块，并将它们作为成员变量。
        """
        super(TwoLayerNet, self).__init__()
        self.linear1 = torch.nn.Linear(D_in, H)
        self.linear2 = torch.nn.Linear(H, D_out)

    def forward(self, x):
        """
        在前向传播的函数中，我们接收一个输入的张量，也必须返回一个输出张量。
        我们可以使用构造函数中定义的模块以及张量上的任意的（可微分的）操作。
        """
        h_relu = self.linear1(x).clamp(min=0)
        y_pred = self.linear2(h_relu)
        return y_pred

# N是批大小； D_in 是输入维度；
# H 是隐藏层维度； D_out 是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生输入和输出的随机张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 通过实例化上面定义的类来构建我们的模型。
model = TwoLayerNet(D_in, H, D_out)

# 构造损失函数和优化器。
# SGD构造函数中对model.parameters()的调用，
# 将包含模型的一部分，即两个nn.Linear模块的可学习参数。
loss_fn = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4)
for t in range(500):
    # 前向传播：通过向模型传递x计算预测值y
    y_pred = model(x)

    #计算并输出loss
    loss = loss_fn(y_pred, y)
    print(t, loss.item())

    # 清零梯度，反向传播，更新权重
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

0 679.1829223632812
1 630.839111328125
2 589.0006103515625
3 552.3800048828125
4 519.737060546875
5 490.0860900878906
6 463.0112609863281
7 438.00634765625
8 414.68865966796875
9 392.83746337890625
10 372.19207763671875
11 352.58795166015625
12 334.0784912109375
13 316.4940185546875
14 299.7277526855469
15 283.65606689453125
16 268.24420166015625
17 253.47329711914062
18 239.36883544921875
19 225.8500213623047
20 212.9093475341797
21 200.58584594726562
22 188.8348846435547
23 177.6169891357422
24 166.9713897705078
25 156.8556365966797
26 147.2777862548828
27 138.207275390625
28 129.59571838378906
29 121.47420501708984
30 113.82594299316406
31 106.62166595458984
32 99.8466796875
33 93.48523712158203
34 87.51353454589844
35 81.89483642578125
36 76.62934112548828
37 71.69068145751953
38 67.0736312866211
39 62.758583068847656
40 58.72798156738281
41 54.96919250488281
42 51.45132827758789
43 48.17094802856445
44 45.10935974121094
45 42.25695037841797
46 39.59666442871094
47 37.1197738647460

426 9.70201836025808e-06
427 9.39853362069698e-06
428 9.103915544983465e-06
429 8.819100003165659e-06
430 8.542890100216027e-06
431 8.27546955406433e-06
432 8.016860192583408e-06
433 7.766446287860163e-06
434 7.525379260187037e-06
435 7.290104804269504e-06
436 7.062734766805079e-06
437 6.842336460977094e-06
438 6.629034487559693e-06
439 6.422896603908157e-06
440 6.223138370842207e-06
441 6.029396445228485e-06
442 5.842523023602553e-06
443 5.660683200403582e-06
444 5.484609573613852e-06
445 5.313796918926528e-06
446 5.149128810444381e-06
447 4.989881290384801e-06
448 4.835520940105198e-06
449 4.685098701884272e-06
450 4.540746886050329e-06
451 4.399875706440071e-06
452 4.263451955921482e-06
453 4.132098638365278e-06
454 4.00400585931493e-06
455 3.880326858052285e-06
456 3.760297204280505e-06
457 3.6435731090023182e-06
458 3.531314405336161e-06
459 3.423207772357273e-06
460 3.3171895665873308e-06
461 3.214971229681396e-06
462 3.1160802791418973e-06
463 3.0207479539967608e-06
464 2.927626

In [9]:
import random
import torch

class DynamicNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        """
        在构造函数中，我们构造了三个nn.Linear实例，它们将在前向传播时被使用。
        """
        super(DynamicNet, self).__init__()
        self.input_linear = torch.nn.Linear(D_in, H)
        self.middle_linear = torch.nn.Linear(H, H)
        self.output_linear = torch.nn.Linear(H, D_out)

    def forward(self, x):
        """
        对于模型的前向传播，我们随机选择0、1、2、3，
        并重用了多次计算隐藏层的middle_linear模块。
        由于每个前向传播构建一个动态计算图，
        我们可以在定义模型的前向传播时使用常规Python控制流运算符，如循环或条件语句。
        在这里，我们还看到，在定义计算图形时多次重用同一个模块是完全安全的。
        这是Lua Torch的一大改进，因为Lua Torch中每个模块只能使用一次。
        """
        h_relu = self.input_linear(x).clamp(min=0)
        for _ in range(random.randint(0, 3)):
            h_relu = self.middle_linear(h_relu).clamp(min=0)
        y_pred = self.output_linear(h_relu)
        return y_pred


# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生输入和输出随机张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 实例化上面定义的类来构造我们的模型
model = DynamicNet(D_in, H, D_out)

# 构造我们的损失函数（loss function）和优化器（Optimizer）。
# 用平凡的随机梯度下降训练这个奇怪的模型是困难的，所以我们使用了momentum方法。
criterion = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=1e-4, momentum=0.9)
for t in range(500):

    # 前向传播：通过向模型传入x计算预测的y。
    y_pred = model(x)

    # 计算并打印损失
    loss = criterion(y_pred, y)
    print(t, loss.item())

    # 清零梯度，反向传播，更新权重 
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

0 684.2919311523438
1 735.2201538085938
2 684.427490234375
3 629.268310546875
4 682.188232421875
5 672.3809204101562
6 449.2694091796875
7 646.72216796875
8 352.9178466796875
9 670.0535888671875
10 606.9130859375
11 670.9161987304688
12 573.1112060546875
13 668.6473388671875
14 202.28578186035156
15 509.6172180175781
16 663.786865234375
17 143.77835083007812
18 658.4542846679688
19 626.3094482421875
20 648.3533935546875
21 91.0562515258789
22 359.58648681640625
23 335.1470642089844
24 609.2991943359375
25 526.6657104492188
26 243.61715698242188
27 108.23326873779297
28 433.03924560546875
29 398.08984375
30 107.22743225097656
31 327.39801025390625
32 389.690673828125
33 85.44252014160156
34 315.4820251464844
35 219.11624145507812
36 170.50181579589844
37 59.1201171875
38 49.95376205444336
39 38.16521453857422
40 28.458087921142578
41 22.369300842285156
42 18.748611450195312
43 313.2574768066406
44 559.7767333984375
45 217.20559692382812
46 52.524234771728516
47 61.96797180175781
48 64.5

468 0.07726575434207916
469 0.4818277359008789
470 0.5353672504425049
471 0.6693756580352783
472 0.40899381041526794
473 0.12774139642715454
474 0.3495751917362213
475 0.3978290855884552
476 0.3818519413471222
477 1.0593936443328857
478 0.1832226812839508
479 0.5191000699996948
480 0.29676973819732666
481 0.36204949021339417
482 0.3613981306552887
483 0.19173084199428558
484 0.12090694904327393
485 0.36417174339294434
486 0.34558549523353577
487 0.696764349937439
488 0.330038458108902
489 0.3193955719470978
490 0.32175564765930176
491 0.11867004632949829
492 0.8623143434524536
493 0.3254944682121277
494 0.26775825023651123
495 0.07722540199756622
496 0.8666541576385498
497 0.24497491121292114
498 0.22166679799556732
499 0.16020992398262024
