<font color=red>注：此处是文档第62页</font>

## PyTorch之小试牛刀

### 1 PyTorch的核心是两个主要特征：
- 一个n维张量，类似于numpy，但可以在GPU上运行
- 搭建和训练神经网络时的自动微分/求导机制

本章节我们将使用全连接的ReLU网络作为运行示例。该网络将有一个单一的隐藏层，并将使用梯度下降训练，通过最小化网络输出和真正结果的欧几里得距离，来拟合随机生成的数据。

### 2.张量
#### 2.1 热身: Numpy
在介绍PyTorch之前，本章节将首先使用numpy实现网络。 Numpy提供了一个n维数组对象，以及许多用于操作这些数组的 函数。Numpy是用于科学计算的通用框架;它对计算图、深度学习和梯度一无所知。然而，我们可以很容易地使用NumPy，手动实现网络的前向和反向传播，来拟合随机数据：

In [1]:
import numpy as np

# N是批量大小; D_in是输入维度;
# 49/5000 H是隐藏的维度; D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

# 100维的特征64条
x = np.random.randn(N, D_in)
# 10维的目标64条
y = np.random.randn(N, D_out)

# 权重简化了，没有加b
# 隐含层的权重1000条，100维用于
w1 = np.random.randn(D_in, H)
# 输出层权重100条，10维，代表将100维的数据降到10维上
w2 = np.random.randn(H, D_out)

# 学习速率
learning_rate = 1e-6
# 模型迭代500次
for t in range(500):
    # 前向传递：计算预测值y
    # 隐含层
    h = x.dot(w1)
    # relu激活函数
    h_relu = np.maximum(h, 0)
    # 输出层
    y_pred = h_relu.dot(w2)
    
    # 损失（方差）
    loss = np.square(y_pred - y).sum()
    print(t, loss)
    
    # 反向传播，计算w1和w2对loss的梯度
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)
    
    # 更新权重
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 33883180.32592753
1 28557167.18229658
2 24339017.536969934
3 18972637.169745613
4 13298671.276810046
5 8523402.930098422
6 5301608.5141510395
7 3356529.080854496
8 2247508.9105010075
9 1607349.6797653968
10 1220993.7555849806
11 971503.939259612
12 798875.4694261879
13 671677.8398444804
14 573298.7252506051
15 494308.7345458142
16 429563.90897400514
17 375623.93821372464
18 330152.0333582506
19 291467.1120476335
20 258318.99971522257
21 229739.97734206554
22 205019.10761528317
23 183448.60388429454
24 164614.05534387572
25 148101.9397948545
26 133572.4171754577
27 120751.18241158855
28 109391.39926633122
29 99311.63832098623
30 90342.44062579043
31 82333.90821995109
32 75155.85201629264
33 68733.07982828202
34 62968.96105881504
35 57775.517299054845
36 53089.66053290603
37 48852.58678161766
38 45014.370419028804
39 41533.74079039972
40 38372.133001353875
41 35493.535571200286
42 32870.18405727243
43 30473.735930348623
44 28281.980384943177
45 26275.462110865286
46 24435.78019711144
4

375 0.057671832539951444
376 0.055844763628211204
377 0.054076270438410914
378 0.05236439009495939
379 0.05070728180507829
380 0.04910301947704003
381 0.047549926136423226
382 0.04604664480548756
383 0.04459118165247053
384 0.04318197488312085
385 0.04181786155736902
386 0.04049722648774363
387 0.039219128862437336
388 0.037981532324677214
389 0.03678343244375899
390 0.03562336238376759
391 0.03450004053277974
392 0.033412918439734915
393 0.03235999469068171
394 0.03134056901418229
395 0.030353593373506026
396 0.029397937779538634
397 0.02847296088218311
398 0.02757714338356994
399 0.026709940398617633
400 0.025869939678859977
401 0.025056689694949445
402 0.02426934811011766
403 0.023506904678377405
404 0.022768520716558816
405 0.022053547479543946
406 0.021361189409026312
407 0.02069092689595211
408 0.0200418825509706
409 0.019413327374126613
410 0.01880454560563439
411 0.01821509717150457
412 0.01764432298467723
413 0.017091524126042278
414 0.0165561100922818
415 0.016037619646442236

#### 2.2 PyTorch：张量
Numpy是一个很棒的框架，但它不能利用GPU来加速其数值计算。 对于现代深度神经网络，GPU通常提供50倍或更高的加速，所以，numpy不能满足当代深度学习的需求。

在这里，先介绍最基本的PyTorch概念：

**张量（Tensor）**：PyTorch的tensor在概念上与numpy的array相同： tensor是一个n维数组，PyTorch提供了许多函数用于操作这些张量。任何希望使用NumPy执行的计算也可以使用PyTorch的tensor来完成，可以认为它们是科学计算的通用工具。

与Numpy不同，PyTorch可以利用GPU加速其数值计算。要在GPU上运行Tensor,在构造张量使用device参数把tensor建立在GPU上。

在这里，本章使用tensors将随机数据上训练一个两层的网络。和前面NumPy的例子类似，我们使用PyTorch的tensor，手动在网络中实现前向传播和反向传播：

In [2]:
import torch

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda: 0")  # 在GPU上运行

# N是批量大小; D_in是输入维度;
# 49/5000 H是隐藏的维度; D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out, device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(500):
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)
    
    loss = (y_pred - y).pow(2).sum().item()
    print(t, loss)
    
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.t())
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.t().mm(grad_h)
    
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 30593472.0
1 27046828.0
2 26015718.0
3 24037250.0
4 19825260.0
5 14238427.0
6 9140427.0
7 5509546.5
8 3317655.5
9 2089854.875
10 1413180.375
11 1026964.375
12 792626.5625
13 638939.125
14 530415.625
15 448918.53125
16 384761.96875
17 332627.5
18 289399.0625
19 253064.953125
20 222174.28125
21 195778.9375
22 173060.5
23 153392.9375
24 136284.859375
25 121368.546875
26 108320.9140625
27 96867.0
28 86784.234375
29 77881.765625
30 70013.0078125
31 63035.1171875
32 56838.359375
33 51323.87109375
34 46406.1953125
35 42014.18359375
36 38085.01171875
37 34562.98828125
38 31401.685546875
39 28560.90625
40 26004.51171875
41 23700.216796875
42 21620.505859375
43 19740.20703125
44 18039.294921875
45 16498.30859375
46 15101.080078125
47 13832.94921875
48 12680.9404296875
49 11632.4736328125
50 10677.6279296875
51 9807.439453125
52 9014.1884765625
53 8290.4384765625
54 7629.61376953125
55 7025.013671875
56 6471.63427734375
57 5964.89697265625
58 5501.2763671875
59 5079.056640625
60 4693.37109375
6

397 5.7898188970284536e-05
398 5.700061228708364e-05
399 5.592133675236255e-05
400 5.471375698107295e-05
401 5.399424844654277e-05
402 5.298879477777518e-05
403 5.2086841606069356e-05
404 5.103606599732302e-05
405 5.012573456042446e-05
406 4.940517828799784e-05
407 4.8731850256444886e-05
408 4.795363201992586e-05
409 4.69770202471409e-05
410 4.594463825924322e-05
411 4.5471191697288305e-05
412 4.46651793026831e-05
413 4.385524516692385e-05
414 4.313933459343389e-05
415 4.260457353666425e-05
416 4.20042997575365e-05
417 4.137742143939249e-05
418 4.047413676744327e-05
419 4.000460103270598e-05
420 3.935150016332045e-05
421 3.87314721592702e-05
422 3.822060170932673e-05
423 3.777275560423732e-05
424 3.6997975257690996e-05
425 3.664316682261415e-05
426 3.637360714492388e-05
427 3.5915945773012936e-05
428 3.533215931383893e-05
429 3.489393930067308e-05
430 3.4518441680120304e-05
431 3.3958625863306224e-05
432 3.3512704249005765e-05
433 3.300605749245733e-05
434 3.255699630244635e-05
435 3.2

### 3.自动求导
#### 3.1 PyTorch：张量和自动求导
在上面的例子中，需要手动实现神经网络的前向和后向传递。手动实现反向传递对于小型双层网络来说并不是什么大问题，但对于大型复杂网络来说很快就会变得非常繁琐。

但是可以使用自动微分来自动计算神经网络中的后向传递。 PyTorch中的 `autograd` 包提供了这个功能。当使用`autograd`时，网络前向传播将定义一个计算图；图中的节点是`tensor`，边是函数，这些函数是输出`tensor`到输入`tensor`的映射。这张计算图使得在网络中反向传播时梯度的计算十分简单。

这听起来很复杂，在实践中使用起来非常简单。 如果我们想计算某些的`tensor`的梯度，我们只需要在建立这个`tensor`时加入这么一句：`requires_grad=True`。这个`tensor`上的任何PyTorch的操作都将构造一个计算图，从而允许我们稍后在图中执行反向传播。如果这个`tensor x `的`requires_grad=True`，那么反向传播之后`x.grad`将会是另一个张量，其为x关于某个标量值的梯度。

有时可能希望防止PyTorch在`requires_grad=True`的张量执行某些操作时构建计算图；例如，在训练神经网络时，我们通常不希望通过权重更新步骤进行反向传播。在这种情况下，我们可以使用`torch.no_grad()`上下文管理器来防止构造计算图。

下面我们使用PyTorch的`Tensors`和`autograd`来实现我们的两层的神经网络；我们不再需要手动执行网络的反向传播：

In [3]:
import torch

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda: 0")  # 在GPU上运行

# N是批量大小; D_in是输入维度;
# 49/5000 H是隐藏的维度; D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

# 设置requires_grad = False表示我们不需要计算梯度
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 设置requires_grad = True表示我们想要计算梯度
# 在向后传球期间计算这些张量
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 前向传播：使用tensors上的操作计算预测值y;
    # 由于w1和w2有requires_grad=True，涉及这些张量的操作将让PyTorch构建计算图，
    # 从而允许自动计算梯度。由于我们不再手工实现反向传播，所以不需要保留中间值的引用。
    y_pred = x.mm(w1).clamp(min=0).mm(w2)
    
    # 使用Tensors上的操作计算和打印丢失。
    # loss是一个形状为()的张量
    # loss.item() 得到这个张量对应的python数值
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())
    
    # 使用autograd计算反向传播。这个调用将计算loss对所有requires_grad=True的tensor的梯度。
    # 这次调用后，w1.grad和w2.grad将分别是loss对w1和w2的梯度张量。
    loss.backward()
    # 使用梯度下降更新权重。对于这一步，我们只想对w1和w2的值进行原地改变；不想为更新阶段构建计算图，
    # 所以我们使用torch.no_grad()上下文管理器防止PyTorch为更新构建计算图
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad
        
        # 反向传播后手动将梯度设置为零
        w1.grad.zero_()
        w2.grad.zero_()

0 31231864.0
1 28154960.0
2 27116468.0
3 24556372.0
4 19264402.0
5 13053296.0
6 7861166.0
7 4567145.5
8 2728993.5
9 1760924.0
10 1237532.5
11 935460.3125
12 744411.0625
13 612718.5
14 514966.375
15 438846.1875
16 377341.15625
17 326561.375
18 284076.46875
19 248206.65625
20 217684.328125
21 191543.375
22 169032.9375
23 149514.96875
24 132602.015625
25 117897.6640625
26 105049.3515625
27 93798.0390625
28 83907.9921875
29 75187.8828125
30 67481.0234375
31 60656.40234375
32 54606.18359375
33 49230.0703125
34 44440.6953125
35 40167.0703125
36 36345.26953125
37 32926.84375
38 29861.673828125
39 27110.78515625
40 24637.60546875
41 22411.06640625
42 20404.04296875
43 18593.37109375
44 16958.0625
45 15479.4658203125
46 14141.9326171875
47 12929.8515625
48 11830.412109375
49 10832.529296875
50 9925.8876953125
51 9102.099609375
52 8351.8876953125
53 7668.42919921875
54 7045.4384765625
55 6477.1103515625
56 5958.794921875
57 5484.912109375
58 5051.6904296875
59 4655.35302734375
60 4292.8442382812

445 6.454906542785466e-05
446 6.336076330626383e-05
447 6.238640344236046e-05
448 6.159218173706904e-05
449 6.068889342714101e-05
450 5.955821688985452e-05
451 5.8708374126581475e-05
452 5.7902318076230586e-05
453 5.6994864280568436e-05
454 5.6332690292038023e-05
455 5.5545970099046826e-05
456 5.483347922563553e-05
457 5.389173384173773e-05
458 5.3309173381421715e-05
459 5.2425537433009595e-05
460 5.156522456672974e-05
461 5.095342203276232e-05
462 5.0211794587085024e-05
463 4.977346907253377e-05
464 4.890081982011907e-05
465 4.84223710373044e-05
466 4.776601053890772e-05
467 4.7146084398264065e-05
468 4.6655430196551606e-05
469 4.5892069465480745e-05
470 4.529209400061518e-05
471 4.456732131075114e-05
472 4.3882148020202294e-05
473 4.328334398451261e-05
474 4.282367444830015e-05
475 4.230407648719847e-05
476 4.175893263891339e-05
477 4.112307942705229e-05
478 4.057668411405757e-05
479 4.0147344407159835e-05
480 3.96913310396485e-05
481 3.915307024726644e-05
482 3.870602449751459e-05
4

#### 3.2 PyTorch：定义新的自动求导函数
在底层，每一个原始的自动求导运算实际上是两个在Tensor上运行的函数。其中，**`forward`** 函数计算从输入Tensors获得的输出Tensors。而**`backward`** 函数接收输出Tensors对于某个标量值的梯度，并且计算输入Tensors相对于该相同标量值的梯度。

在PyTorch中，我们可以很容易地通过定义 **`torch.autograd.Function`** 的子类并实现forward和backward函数，来定义自己的自动求导运算。之后我们就可以使用这个新的自动梯度运算符了。然后，我们可以通过构造一个实例并像调用函数一样，传入包含输入数据的tensor调用它，这样来使用新的自动求导运算。

这个例子中，我们自定义一个自动求导函数来展示`ReLU`的非线性。并用它实现我们的两层网络：

In [4]:
import torch

class MyReLU(torch.autograd.Function):
    """
    我们可以通过建立torch.autograd的子类来实现我们自定义的autograd函数，
    并完成张量的正向和反向传播。
    """
    
    @staticmethod
    def forward(ctx, x):
        """
        在正向传播中，我们接收到一个上下文对象和一个包含输入的张量；
        我们必须返回一个包含输出的张量，
        并且我们可以使用上下文对象来缓存对象，以便在反向传播中使用。
        """
        ctx.save_for_backward(x)
        return x.clamp(min=0)
    
    @staticmethod
    def backward(ctx, grad_output):
        """
        在反向传播中，我们接收到上下文对象和一个张量，
        其包含了相对于正向传播过程中产生的输出的损失的梯度。
        我们可以从上下文对象中检索缓存的数据，
        并且必须计算并返回与正向传播的输入相关的损失的梯度。
        """
        x, = ctx.saved_tensors
        grad_x = grad_output.clone()
        grad_x[x<0] = 0
        return grad_x
    

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# N是批大小； D_in 是输入维度；
# H 是隐藏层维度； D_out 是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10
# 产生输入和输出的随机张量
x = torch.randn(N, D_in, device=device)
y = torch.randn(N, D_out, device=device)

# 产生随机权重的张量
w1 = torch.randn(D_in, H, device=device, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 正向传播：使用张量上的操作来计算输出值y；
    # 我们通过调用 MyReLU.apply 函数来使用自定义的ReLU
    y_pred = MyReLU.apply(x.mm(w1)).mm(w2)
    
    # 计算并输出loss
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())
    
    loss.backward()
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad
        
        # 反向传播后手动将梯度设置为零
        w1.grad.zero_()
        w2.grad.zero_()

0 41295864.0
1 40594248.0
2 39051028.0
3 30743548.0
4 19021866.0
5 9728041.0
6 4855900.5
7 2727228.0
8 1802017.0
9 1345390.375
10 1075608.0
11 890644.0
12 751717.5
13 641787.0625
14 552245.625
15 478234.90625
16 416324.53125
17 364183.1875
18 319947.6875
19 282094.625
20 249558.546875
21 221426.90625
22 197053.1875
23 175807.125
24 157251.453125
25 140973.53125
26 126672.328125
27 114037.3515625
28 102841.6875
29 92900.59375
30 84047.421875
31 76152.625
32 69102.4296875
33 62786.8515625
34 57123.23046875
35 52033.34375
36 47462.43359375
37 43335.5703125
38 39605.765625
39 36232.03515625
40 33174.24609375
41 30400.66796875
42 27882.439453125
43 25591.455078125
44 23506.537109375
45 21608.3671875
46 19876.974609375
47 18297.32421875
48 16854.919921875
49 15535.767578125
50 14329.22265625
51 13225.564453125
52 12213.234375
53 11284.5283203125
54 10432.12890625
55 9649.1044921875
56 8929.32421875
57 8267.7353515625
58 7658.771484375
59 7097.90087890625
60 6581.05859375
61 6104.90087890625


446 0.00012223563680890948
447 0.00012020449503324926
448 0.0001177588856080547
449 0.00011566444300115108
450 0.00011342252400936559
451 0.0001112490426748991
452 0.00010950549767585471
453 0.00010730157373473048
454 0.0001053737651091069
455 0.00010363584442529827
456 0.00010172660404350609
457 0.00010012809070758522
458 9.796081576496363e-05
459 9.63764832704328e-05
460 9.474975377088413e-05
461 9.32778712012805e-05
462 9.166558447759598e-05
463 9.022859740070999e-05
464 8.845204865792766e-05
465 8.715780859347433e-05
466 8.548965706722811e-05
467 8.428690489381552e-05
468 8.270147372968495e-05
469 8.144706953316927e-05
470 8.014861668925732e-05
471 7.885669765528291e-05
472 7.743812602711841e-05
473 7.622168777743354e-05
474 7.489087875001132e-05
475 7.402906339848414e-05
476 7.277901750057936e-05
477 7.153905607992783e-05
478 7.028004620224237e-05
479 6.923081673448905e-05
480 6.829953053966165e-05
481 6.723252590745687e-05
482 6.601538188988343e-05
483 6.520069291582331e-05
484 6

#### 3.3 TensorFlow：静态图
PyTorch自动求导看起来非常像TensorFlow：这两个框架中，我们都定义计算图，使用自动微分来计算梯度。两者最大的不同就是TensorFlow的计算图是静态的，而PyTorch使用动态的计算图。

在TensorFlow中，我们定义计算图一次，然后重复执行这个相同的图，可能会提供不同的输入数据。而在PyTorch中，每一个前向通道定义一个新的计算图。

静态图的好处在于你可以预先对图进行优化。例如，一个框架可能要融合一些图的运算来提升效率，或者产生一个策略来将图分布到多个GPU或机器上。如果重复使用相同的图，那么在重复运行同一个图时，前期潜在的代价高昂的预先优化的消耗就会被分摊开。

静态图和动态图的一个区别是控制流。对于一些模型，我们希望对每个数据点执行不同的计算。例如，一个递归神经网络可能对于每个数据点执行不同的时间步数，这个展开（unrolling）可以作为一个循环来实现。对于一个静态图，循环结构要作为图的一部分。因此，TensorFlow提供了运算符（例如 **`tf.scan`** ）来把循环嵌入到图当中。对于动态图来说，情况更加简单：既然我们为每个例子即时创建图，我们可以使用普通的命令式控制流来为每个输入执行不同的计算。

为了与上面的PyTorch自动梯度实例做对比，我们使用TensorFlow来拟合一个简单的2层网络：

In [5]:
import tensorflow.compat.v1 as tf  # v2调用v1
import numpy as np

# 首先我们建立计算图（computational graph）
# N是批大小；D是输入维度；
# H是隐藏层维度；D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10
# 为输入和目标数据创建placeholder；
# 当执行计算图时，他们将会被真实的数据填充
tf.disable_eager_execution()  # v2调用v1
x = tf.placeholder(tf.float32, shape=(None, D_in))
y = tf.placeholder(tf.float32, shape=(None, D_out))

# 为权重创建Variable并用随机数据初始化
# TensorFlow的Variable在执行计算图时不会改变
w1 = tf.Variable(tf.random_normal((D_in, H)))
w2 = tf.Variable(tf.random_normal((H, D_out)))

# 前向传播：使用TensorFlow的张量运算计算预测值y。
# 注意这段代码实际上不执行任何数值运算；
# 它只是建立了我们稍后将执行的计算图。
h = tf.matmul(x, w1)
h_relu = tf.maximum(h, tf.zeros(1))
y_pred = tf.matmul(h_relu, w2)

loss = tf.reduce_sum((y - y_pred) ** 2.0)

gred_w1, gred_w2 = tf.gradients(loss, [w1, w2])

# 使用梯度下降更新权重。为了实际更新权重，我们需要在执行计算图时计算new_w1和new_w2。
# 注意，在TensorFlow中，更新权重值的行为是计算图的一部分;
# 但在PyTorch中，这发生在计算图形之外。
learning_rate = 1e-6
new_w1 = w1.assign(w1 - learning_rate * gred_w1)
new_w2 = w2.assign(w2 - learning_rate * gred_w2)

# 现在我们搭建好了计算图，所以我们开始一个TensorFlow的会话（session）来实际执行计算图。
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    x_value = np.random.randn(N, D_in)
    y_value = np.random.randn(N, D_out)
    
    for _ in range(500):
        # 多次运行计算图。每次执行时，我们都用feed_dict参数，
        # 将x_value绑定到x，将y_value绑定到y，
        # 每次执行图形时我们都要计算损失、new_w1和new_w2；
        # 这些张量的值以numpy数组的形式返回。
        loss_value, _, _ = sess.run([loss, new_w1, new_w2], feed_dict={x: x_value, y: y_value})
        print(loss_value)

34973080.0
34538236.0
41661904.0
47427840.0
42252016.0
26533602.0
11891986.0
4737318.5
2200730.5
1341501.8
989755.56
798674.1
668655.4
569404.75
489535.2
423634.72
368619.06
322200.1
282784.88
249131.62
220234.97
195327.05
173761.53
155025.03
138667.84
124326.26
111759.59
100713.96
90937.94
82264.42
74551.87
67675.875
61532.418
56030.82
51100.027
46674.004
42686.47
39092.938
35845.11
32905.29
30240.05
27818.402
25616.299
23614.129
21785.79
20116.328
18590.703
17195.035
15916.682
14743.527
13667.101
12677.742
11768.299
10930.906
10159.151
9447.93
8792.931
8186.509
7626.5522
7108.6084
6629.2344
6185.5215
5774.5967
5393.8447
5040.6855
4713.0283
4408.7373
4125.697
3862.4053
3617.619
3389.767
3177.3628
2979.3125
2795.0615
2623.679
2463.612
2314.2263
2174.6594
2044.3818
1922.5215
1808.4761
1701.7737
1601.8096
1508.1392
1420.3666
1338.0371
1260.842
1188.4166
1120.44
1056.6179
996.6666
940.34296
887.42255
837.68115
790.87994
746.87823
705.4772
666.50476
629.8053
595.2508
562.7125
532.0596
503.

### 4.nn模块
#### 4.1 PyTorch： nn
计算图和autograd是十分强大的工具，可以定义复杂的操作并自动求导；然而对于大规模的网络，autograd太过于底层。 在构建神经网络时，我们经常考虑将计算安排成层，其中一些具有可学习的参数，它们将在学习过程中进行优化。

TensorFlow里，有类似Keras，TensorFlow-Slim和TFLearn这种封装了底层计算图的高度抽象的接口，这使得构建网络十分方便。

在PyTorch中，包 nn 完成了同样的功能。nn包中定义一组大致等价于层的模块。一个模块接受输入的tesnor，计算输出的tensor，而且还保存了一些内部状态比如需要学习的tensor的参数等。nn包中也定义了一组损失函数（loss functions），用来训练神经网络。

这个例子中，我们用nn包实现两层的网络：

In [6]:
import torch

# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 使用nn包将我们的模型定义为一系列的层。
# nn.Sequential是包含其他模块的模块，并按顺序应用这些模块来产生其输出。
# 每个线性模块使用线性函数从输入计算输出，并保存其内部的权重和偏差张量。
# 在构造模型之后，我们使用.to()方法将其移动到所需的设备。
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

# nn包还包含常用的损失函数的定义；
# 在这种情况下，我们将使用平均平方误差(MSE)作为我们的损失函数。
# 设置reduction='sum'，表示我们计算的是平方误差的“和”，而不是平均值;
# 这是为了与前面我们手工计算损失的例子保持一致，
# 但是在实践中，通过设置reduction='elementwise_mean'来使用均方误差作为损失更为常见。
loss_fn = torch.nn.MSELoss(reduction='sum')
learning_rate = 1e-4
for t in range(500):
    # 前向传播：通过向模型传入x计算预测的y。
    # 模块对象重载了__call__运算符，所以可以像函数那样调用它们。
    # 这么做相当于向模块传入了一个张量，然后它返回了一个输出张量。
    y_pred = model(x)
    
    # 计算并打印损失。
    # 传递包含y的预测值和真实值的张量，损失函数返回包含损失的张量。
    loss = loss_fn(y_pred, y)
    print(t, loss.item())
    
    # 反向传播之前清零梯度
    model.zero_grad()
    
    # 反向传播：计算模型的损失对所有可学习参数的导数（梯度）。
    # 在内部，每个模块的参数存储在requires_grad=True的张量中，
    # 因此这个调用将计算模型中所有可学习参数的梯度。
    loss.backward()
    
    # 使用梯度下降更新权重。
    # 每个参数都是张量，所以我们可以像我们以前那样可以得到它的数值和梯度
    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad

0 703.1685180664062
1 654.8856201171875
2 612.7570190429688
3 575.5338745117188
4 542.157470703125
5 511.53057861328125
6 483.3308410644531
7 457.16424560546875
8 432.86175537109375
9 410.2630310058594
10 389.08892822265625
11 369.20916748046875
12 350.49261474609375
13 332.65380859375
14 315.6641845703125
15 299.5420837402344
16 284.23895263671875
17 269.579345703125
18 255.4987030029297
19 241.9742889404297
20 229.114501953125
21 216.77871704101562
22 205.01268005371094
23 193.7420196533203
24 182.98757934570312
25 172.7328643798828
26 162.96661376953125
27 153.6655731201172
28 144.83816528320312
29 136.43064880371094
30 128.4504852294922
31 120.88917541503906
32 113.721923828125
33 106.93524932861328
34 100.53203582763672
35 94.4760971069336
36 88.74638366699219
37 83.34869384765625
38 78.26522064208984
39 73.47516632080078
40 68.97422790527344
41 64.75389099121094
42 60.7977409362793
43 57.08837890625
44 53.605953216552734
45 50.355567932128906
46 47.30632781982422
47 44.4470634460

360 0.00025670797913335264
361 0.0002492501225788146
362 0.00024201629275921732
363 0.0002349926216993481
364 0.00022818543948233128
365 0.0002215791610069573
366 0.00021517138520721346
367 0.00020895259513054043
368 0.00020292334374971688
369 0.0001970697339856997
370 0.00019138219067826867
371 0.00018587085651233792
372 0.00018051885126624256
373 0.0001753236138029024
374 0.00017028571164701134
375 0.00016539389616809785
376 0.00016064982628449798
377 0.0001560404198244214
378 0.00015156634617596865
379 0.0001472274016123265
380 0.0001430091797374189
381 0.00013892259448766708
382 0.00013495121675077826
383 0.0001311028900090605
384 0.00012736085045617074
385 0.00012372569472063333
386 0.00012020134454360232
387 0.00011677814472932369
388 0.0001134527483372949
389 0.00011022674880223349
390 0.00010709658818086609
391 0.00010405605280539021
392 0.00010110371658811346
393 9.823732398217544e-05
394 9.545053035253659e-05
395 9.274777403334156e-05
396 9.012034570332617e-05
397 8.756967145

#### 4.2 PyTorch： optim
到目前为止，我们已经通过手动改变包含可学习参数的张量来更新模型的权重。对于随机梯度下降(**SGD/stochastic gradient descent**)等简单的优化算法来说，这不是一个很大的负担，但在实践中，我们经常使用**AdaGrad、RMSProp、Adam**等更复杂的优化器来训练神经网络。

In [8]:
import torch

# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生随机输入和输出张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 使用nn包定义模型和损失函数
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)
loss_fn = torch.nn.MSELoss(reduction='sum')

# 使用optim包定义优化器（Optimizer）。Optimizer将会为我们更新模型的权重。
# 这里我们使用Adam优化方法；optim包还包含了许多别的优化算法。
# Adam构造函数的第一个参数告诉优化器应该更新哪些张量。
learning_rate = 1e-4
optmizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

for t in range(500):
    y_pred = model(x)
    loss = loss_fn(y_pred, y)
    print(t, loss.item())
    
    optmizer.zero_grad()
    loss.backward()
    # 调用Optimizer的step函数使它所有参数更新
    optmizer.step()

0 716.781494140625
1 698.8363647460938
2 681.4161987304688
3 664.4896850585938
4 648.0454711914062
5 632.076904296875
6 616.494140625
7 601.2987060546875
8 586.5125732421875
9 572.1312866210938
10 558.16748046875
11 544.5771484375
12 531.4393310546875
13 518.6854248046875
14 506.341552734375
15 494.38214111328125
16 482.78021240234375
17 471.487548828125
18 460.49261474609375
19 449.70166015625
20 439.1513366699219
21 428.87127685546875
22 418.85662841796875
23 409.1260986328125
24 399.67608642578125
25 390.4634094238281
26 381.4652099609375
27 372.6459655761719
28 364.03582763671875
29 355.6181640625
30 347.42901611328125
31 339.43206787109375
32 331.6266174316406
33 324.01123046875
34 316.55694580078125
35 309.28082275390625
36 302.14544677734375
37 295.1602478027344
38 288.3425598144531
39 281.6734313964844
40 275.16949462890625
41 268.8017883300781
42 262.55609130859375
43 256.4666748046875
44 250.5025634765625
45 244.66282653808594
46 238.94058227539062
47 233.33184814453125
48 22

419 7.92882201494649e-06
420 7.465824637620244e-06
421 7.029170774330851e-06
422 6.618305633310229e-06
423 6.2304470702656545e-06
424 5.864711056347005e-06
425 5.520565082406392e-06
426 5.197094196773833e-06
427 4.892274773737881e-06
428 4.605224603437819e-06
429 4.333136530476622e-06
430 4.077895027876366e-06
431 3.8379780562536325e-06
432 3.6121316497883527e-06
433 3.398773515073117e-06
434 3.198271997462143e-06
435 3.0090900509094354e-06
436 2.831018719007261e-06
437 2.663818804649054e-06
438 2.5061222004296724e-06
439 2.357149696763372e-06
440 2.217195742559852e-06
441 2.08581536753627e-06
442 1.9620842977019493e-06
443 1.8453058601153316e-06
444 1.7352593886243994e-06
445 1.6320900613209233e-06
446 1.5349124851127272e-06
447 1.443165615455655e-06
448 1.3570147530117538e-06
449 1.275698537028802e-06
450 1.1998469062746153e-06
451 1.1278410738668754e-06
452 1.0601073654470383e-06
453 9.963862339645857e-07
454 9.364456445837277e-07
455 8.805518518784083e-07
456 8.273253797597135e-07


#### 4.3 PyTorch：自定义 nn 模块
有时候需要指定比现有模块序列更复杂的模型；对于这些情况，可以通过继承 **nn.Module** 并定义**forward** 函数，这个 forward 函数可以 使用其他模块或者其他的自动求导运算来接收输入tensor，产生输出tensor。

在这个例子中，我们用自定义Module的子类构建两层网络：

In [21]:
import torch

class TwoLayerNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        """
        在构造函数中，我们实例化了两个nn.Linear模块，并将它们作为成员变量。
        """
        super(TwoLayerNet, self).__init__()
        self.linear1 = torch.nn.Linear(D_in, H)
        self.linear2 = torch.nn.Linear(H, D_out)
        
    def forward(self, x):
        """
        在前向传播的函数中，我们接收一个输入的张量，也必须返回一个输出张量。
        我们可以使用构造函数中定义的模块以及张量上的任意的（可微分的）操作。
        """
        h_relu = self.linear1(x).clamp(min=0)
        y_pred = self.linear2(h_relu)
        return y_pred
    
    
# N是批大小； D_in 是输入维度；
# H 是隐藏层维度； D_out 是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生输入和输出的随机张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 通过实例化上面定义的类来构建我们的模型。
model = TwoLayerNet(D_in, H, D_out)

# 构造损失函数和优化器。
# SGD构造函数中对model.parameters()的调用，
# 将包含模型的一部分，即两个nn.Linear模块的可学习参数。
loss_fn = torch.nn.MSELoss(reduction='sum')
optmizer = torch.optim.SGD(model.parameters(), lr=1e-4)
for t in range(500):
    y_pred = model(x)
    loss = loss_fn(y_pred, y)
    print(t, loss.item())
    
    optmizer.zero_grad()
    loss.backward()
    optmizer.step()

0 649.8460083007812
1 598.4354858398438
2 554.6557006835938
3 516.56494140625
4 483.154296875
5 453.332275390625
6 426.4673156738281
7 402.2095642089844
8 379.9554138183594
9 359.5114440917969
10 340.4114990234375
11 322.54144287109375
12 305.7870178222656
13 289.9403381347656
14 274.8873291015625
15 260.58782958984375
16 246.99244689941406
17 234.04037475585938
18 221.67271423339844
19 209.90670776367188
20 198.6969451904297
21 187.99813842773438
22 177.81097412109375
23 168.13372802734375
24 158.905029296875
25 150.13284301757812
26 141.8052520751953
27 133.87576293945312
28 126.3526840209961
29 119.24274444580078
30 112.51480102539062
31 106.13722229003906
32 100.09213256835938
33 94.36492156982422
34 88.94656372070312
35 83.83193969726562
36 79.00184631347656
37 74.43658447265625
38 70.1280517578125
39 66.07353973388672
40 62.259559631347656
41 58.66978454589844
42 55.28968811035156
43 52.11279296875
44 49.129451751708984
45 46.32559585571289
46 43.679901123046875
47 41.19280242919

433 9.787077578948811e-05
434 9.525135101284832e-05
435 9.270627197111025e-05
436 9.022933227242902e-05
437 8.781337965046987e-05
438 8.54648751555942e-05
439 8.317966421600431e-05
440 8.09530247352086e-05
441 7.878732139943168e-05
442 7.667976024094969e-05
443 7.463121437467635e-05
444 7.263308361871168e-05
445 7.06917853676714e-05
446 6.880451837787405e-05
447 6.696682248730212e-05
448 6.517658766824752e-05
449 6.343369750538841e-05
450 6.174121517688036e-05
451 6.00908970227465e-05
452 5.848260843777098e-05
453 5.6926590332295746e-05
454 5.5408996558981016e-05
455 5.393107858253643e-05
456 5.248802699497901e-05
457 5.1085997256450355e-05
458 4.972311216988601e-05
459 4.8395995690952986e-05
460 4.710376015282236e-05
461 4.5845710701541975e-05
462 4.4626653107116e-05
463 4.3434236431494355e-05
464 4.227361569064669e-05
465 4.114659896004014e-05
466 4.004766742582433e-05
467 3.898040085914545e-05
468 3.794102667598054e-05
469 3.693048347486183e-05
470 3.594472218537703e-05
471 3.498776

#### 4.4 PyTorch：控制流和权重共享
作为动态图和权重共享的一个例子，我们实现了一个非常奇怪的模型：一个全连接的ReLU网络，在每一次前向传播时，它的隐藏层的层数为随机1到4之间的数，这样可以多次重用相同的权重来计算。

因为这个模型可以使用普通的Python流控制来实现循环，并且我们可以通过在定义转发时多次重用同一个模块来实现最内层之间的权重共享。

我们利用Mudule的子类很容易实现这个模型：

In [23]:
import random
import torch

class DynamicNet(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        """
        在构造函数中，我们构造了三个nn.Linear实例，它们将在前向传播时被使用。
        """
        super(DynamicNet, self).__init__()
        self.input_linear = torch.nn.Linear(D_in, H)
        self.middle_linear = torch.nn.Linear(H, H)
        self.output_linear = torch.nn.Linear(H, D_out)
        
    def forward(self, x):
        """
        对于模型的前向传播，我们随机选择0、1、2、3，
        并重用了多次计算隐藏层的middle_linear模块。
        由于每个前向传播构建一个动态计算图，
        我们可以在定义模型的前向传播时使用常规Python控制流运算符，如循环或条件语句。
        在这里，我们还看到，在定义计算图形时多次重用同一个模块是完全安全的。
        这是Lua Torch的一大改进，因为Lua Torch中每个模块只能使用一次。
        """
        # 输入层+激活函数
        h_relu = self.input_linear(x).clamp(min=0)
        # 隐含层+激活函数（随机0层或三层）
        for _ in range(random.randint(0, 3)):
            h_relu = self.middle_linear(h_relu).clamp(min=0)
        # 输出层+激活函数
        y_pred = self.output_linear(h_relu)
        return y_pred

    
# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生输入和输出随机张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 实例化上面定义的类来构造我们的模型
model = DynamicNet(D_in, H, D_out)

# 构造我们的损失函数（loss function）和优化器（Optimizer）。
# 用平凡的随机梯度下降训练这个奇怪的模型是困难的，所以我们使用了momentum方法。
criterion = torch.nn.MSELoss(reduction='sum')
optmizer = torch.optim.SGD(model.parameters(), lr=1e-4, momentum=0.9)
for t in range(500):
    y_pred = model(x)
    
    loss = criterion(y_pred, y)
    print(t, loss.item())
    
    # 清零梯度，反向传播，更新权重
    optmizer.zero_grad()
    loss.backward()
    optmizer.step()

0 715.8121337890625
1 704.1809692382812
2 701.626220703125
3 697.8876953125
4 699.7919311523438
5 538.0111083984375
6 685.7218017578125
7 681.6803588867188
8 677.055908203125
9 671.8701171875
10 666.1175537109375
11 362.99090576171875
12 332.4790344238281
13 706.0087890625
14 645.662841796875
15 639.5615234375
16 683.2242431640625
17 623.6017456054688
18 613.3814697265625
19 156.9897003173828
20 588.0967407226562
21 650.4541015625
22 111.54657745361328
23 604.4462280273438
24 566.023193359375
25 511.8128967285156
26 94.52179718017578
27 90.94732666015625
28 586.0281982421875
29 378.7604064941406
30 344.0211181640625
31 303.866943359375
32 497.4847412109375
33 93.07014465332031
34 443.30413818359375
35 93.5810546875
36 80.44911193847656
37 164.59786987304688
38 271.45074462890625
39 129.69839477539062
40 224.70169067382812
41 98.94853210449219
42 62.98587417602539
43 160.2964324951172
44 67.38664245605469
45 123.15037536621094
46 65.94554901123047
47 166.20260620117188
48 88.49765014648

393 0.725348949432373
394 0.7445199489593506
395 0.3574395477771759
396 0.1711062490940094
397 0.8092165589332581
398 3.8731653690338135
399 0.6424040198326111
400 0.08716250956058502
401 0.1525617390871048
402 0.2117905467748642
403 0.6070722341537476
404 0.7594952583312988
405 1.1372933387756348
406 0.9124851226806641
407 0.1447743922472
408 0.6586589813232422
409 0.6865476965904236
410 0.38465312123298645
411 0.312736451625824
412 0.33871084451675415
413 0.3135518431663513
414 1.0399643182754517
415 0.8615368604660034
416 0.8024761080741882
417 0.7519544959068298
418 0.7405559420585632
419 0.11212071031332016
420 0.5608009099960327
421 0.12144853174686432
422 0.4844442903995514
423 0.9352385997772217
424 0.8902841806411743
425 0.6612224578857422
426 0.6669066548347473
427 0.5054634809494019
428 0.8209819793701172
429 0.42645615339279175
430 0.13638745248317719
431 0.512656033039093
432 0.35673093795776367
433 0.30704131722450256
434 0.8528645038604736
435 0.44987764954566956
436 0.4