# PyTorch：优化模块optim

到目前为止，我们已经通过手动改变包含可学习参数的张量来更新模型的权重。对于随机梯度下降(SGD/stochastic gradient descent)等简单的优化算法来说，这不是一个很大的负担，但在实践中，我们经常使用AdaGrad、RMSProp、Adam等更复杂的优化器来训练神经网络。

In [1]:
# 可运行代码见本文件夹中的 two_layer_net_optim.py
import torch

# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生随机输入和输出张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 使用nn包定义模型和损失函数
model = torch.nn.Sequential(
          torch.nn.Linear(D_in, H),
          torch.nn.ReLU(),
          torch.nn.Linear(H, D_out),
        )
loss_fn = torch.nn.MSELoss(reduction='sum')

# 使用optim包定义优化器（Optimizer）。Optimizer将会为我们更新模型的权重。
# 这里我们使用Adam优化方法；optim包还包含了许多别的优化算法。
# Adam构造函数的第一个参数告诉优化器应该更新哪些张量。
learning_rate = 1e-4
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

for t in range(500):

    # 前向传播：通过像模型输入x计算预测的y
    y_pred = model(x)

    # 计算并打印loss
    loss = loss_fn(y_pred, y)
    print(t, loss.item())
    
    # 在反向传播之前，使用optimizer将它要更新的所有张量的梯度清零(这些张量是模型可学习的权重)
    optimizer.zero_grad()

    # 反向传播：根据模型的参数计算loss的梯度
    loss.backward()

    # 调用Optimizer的step函数使它所有参数更新
    optimizer.step()

0 716.6713256835938
1 699.1139526367188
2 682.10595703125
3 665.6494140625
4 649.6815185546875
5 634.2293701171875
6 619.2075805664062
7 604.6422119140625
8 590.4629516601562
9 576.785400390625
10 563.4769897460938
11 550.5133056640625
12 537.9463500976562
13 525.7206420898438
14 513.8168334960938
15 502.2776184082031
16 490.98291015625
17 479.9399108886719
18 469.2401428222656
19 458.8514099121094
20 448.75140380859375
21 438.90313720703125
22 429.31536865234375
23 420.0145263671875
24 410.9399719238281
25 402.09063720703125
26 393.49542236328125
27 385.1069030761719
28 376.9089050292969
29 368.90533447265625
30 361.0704040527344
31 353.41680908203125
32 345.9276123046875
33 338.6028747558594
34 331.4344787597656
35 324.42156982421875
36 317.5260314941406
37 310.7529296875
38 304.1239318847656
39 297.6372375488281
40 291.2694091796875
41 285.0007019042969
42 278.8291931152344
43 272.7663269042969
44 266.83917236328125
45 261.0252380371094
46 255.3201904296875
47 249.71835327148438
48 

403 1.6819178199511953e-05
404 1.5834699297556654e-05
405 1.4908871889929287e-05
406 1.403620535711525e-05
407 1.3213968486525118e-05
408 1.2441327271517366e-05
409 1.1709991667885333e-05
410 1.1022725630027708e-05
411 1.0375159945397172e-05
412 9.764738933881745e-06
413 9.19139347388409e-06
414 8.651054486108478e-06
415 8.141207217704505e-06
416 7.660773007955868e-06
417 7.209368050098419e-06
418 6.7823675635736436e-06
419 6.383131676557241e-06
420 6.0044590100005735e-06
421 5.6500002756365575e-06
422 5.315369435265893e-06
423 5.001465979148634e-06
424 4.704780621977989e-06
425 4.4251778490433935e-06
426 4.162698132859077e-06
427 3.915390152542386e-06
428 3.6823034861299675e-06
429 3.4632396364031592e-06
430 3.257152457081247e-06
431 3.063304120587418e-06
432 2.8805563943024026e-06
433 2.7085734473075718e-06
434 2.5467847990512382e-06
435 2.3950433387653902e-06
436 2.2519654976349557e-06
437 2.1172998003748944e-06
438 1.9906267425540136e-06
439 1.8712928522290895e-06
440 1.75860952822