In [None]:
%matplotlib inline


PyTorch: Tensor和autograd
-------------------------------

PyTorch的一个重要功能就是autograd，也就是说只要定义了forward pass(前向神经网络)，计算了loss之后，PyTorch可以自动求导计算模型所有参数的梯度。

一个PyTorch的Tensor表示计算图中的一个节点。如果``x``是一个Tensor并且``x.requires_grad=True``那么``x.grad``是另一个储存着``x``当前梯度(相对于一个scalar，常常是loss)的向量。


In [1]:
import torch

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # Uncomment this to run on GPU

# N 是 batch size; D_in 是 input dimension;
# H 是 hidden dimension; D_out 是 output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# 创建随机的Tensor来保存输入和输出
# 设定requires_grad=False表示在反向传播的时候我们不需要计算gradient
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 创建随机的Tensor和权重。
# 设置requires_grad=True表示我们希望反向传播的时候计算Tensor的gradient
w1 = torch.randn(D_in, H, device=device, dtype=dtype, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 前向传播:通过Tensor预测y；这个和普通的神经网络的前向传播没有任何不同，
    # 但是我们不需要保存网络的中间运算结果，因为我们不需要手动计算反向传播。
    y_pred = x.mm(w1).clamp(min=0).mm(w2)

    # 通过前向传播计算loss
    # loss是一个形状为(1，)的Tensor
    # loss.item()可以给我们返回一个loss的scalar
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())

    # PyTorch给我们提供了autograd的方法做反向传播。如果一个Tensor的requires_grad=True，
    # backward会自动计算loss相对于每个Tensor的gradient。在backward之后，
    # w1.grad和w2.grad会包含两个loss相对于两个Tensor的gradient信息。
    loss.backward()

    # 我们可以手动做gradient descent(后面我们会介绍自动的方法)。
    # 用torch.no_grad()包含以下statements，因为w1和w2都是requires_grad=True，
    # 但是在更新weights之后我们并不需要再做autograd。
    # 另一种方法是在weight.data和weight.grad.data上做操作，这样就不会对grad产生影响。
    # tensor.data会我们一个tensor，这个tensor和原来的tensor指向相同的内存空间，
    # 但是不会记录计算图的历史。
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # Manually zero the gradients after updating weights
        w1.grad.zero_()
        w2.grad.zero_()

0 30369562.0
1 27529672.0
2 28036926.0
3 27603856.0
4 23998504.0
5 17445446.0
6 10908277.0
7 6170470.5
8 3488673.75
9 2097048.75
10 1393327.125
11 1015624.1875
12 794099.8125
13 649693.5
14 546475.3125
15 467557.0625
16 404509.625
17 352759.09375
18 309498.8125
19 272898.0625
20 241668.375
21 214922.671875
22 191827.03125
23 171756.84375
24 154204.0
25 138826.90625
26 125322.65625
27 113416.203125
28 102883.8203125
29 93525.3046875
30 85183.1171875
31 77723.78125
32 71038.046875
33 65029.9765625
34 59621.921875
35 54744.87109375
36 50335.578125
37 46343.12109375
38 42725.38671875
39 39440.62109375
40 36452.37890625
41 33727.390625
42 31237.224609375
43 28959.123046875
44 26870.97265625
45 24956.08203125
46 23197.55859375
47 21581.00390625
48 20093.318359375
49 18721.54296875
50 17455.63671875
51 16286.9814453125
52 15206.484375
53 14206.5234375
54 13279.990234375
55 12421.716796875
56 11625.6201171875
57 10886.41796875
58 10199.80859375
59 9561.0703125
60 8966.953125
61 8413.7060546875

422 0.0010577118955552578
423 0.0010261309798806906
424 0.0009933850960806012
425 0.0009646841790527105
426 0.0009370717452839017
427 0.0009089648956432939
428 0.0008828708669170737
429 0.0008563525043427944
430 0.0008310276316478848
431 0.0008066720911301672
432 0.0007830946706235409
433 0.0007609119638800621
434 0.000739025475922972
435 0.0007178643136285245
436 0.0006986127118580043
437 0.0006796512752771378
438 0.0006603989750146866
439 0.000642913393676281
440 0.0006256248452700675
441 0.0006089266971684992
442 0.000592652359046042
443 0.0005774443270638585
444 0.0005624277982860804
445 0.0005478737875819206
446 0.0005326138925738633
447 0.0005187002243474126
448 0.0005062900600023568
449 0.0004932465380989015
450 0.00047971931053325534
451 0.0004677766119129956
452 0.0004574775230139494
453 0.00044540062663145363
454 0.0004346564819570631
455 0.00042371469317004085
456 0.0004140151431784034
457 0.0004040310741402209
458 0.00039397526415996253
459 0.000384875456802547
460 0.000376