### 1.PyTorch的核心是两个主要特征：
* 一个n维张量，类似于numpy，但可以在GPU上运行
* 搭建和训练神经网络时的自动微分/求导机制

### 2.张量
#### 2.1 Numpy
* Numpy提供了一个n维数组对象，以及许多用于操作这些数组的函数
* 是用于科学计算的通用框架
* 使用NumPy，可以较为容易的手动实现网络的前向和反向传播，从而拟合随机数据

In [12]:
# -*- coding: utf-6 -*-
import numpy as np

# N是批量大小; D_in是输入维度;
# H是隐藏的维度; D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

# 创建随机输入和输出数据
x = np.random.randn(N,D_in) # 根据给定维度生成[0,1)之间的数据，包含0，不包含1
y = np.random.randn(N,D_out)

# 随机初始化权重
w1 = np.random.randn(D_in,H)
w2 =np.random.randn(H,D_out)

learning_rate = 1e-6

h = x.dot(w1)
for t in range(500):
    # 前向传播：计算预测值y
    h = x.dot(w1)
    h_relu = np.maximum(h,0)
    y_pred = h_relu.dot(w2)

    # 计算和打印损失loss
    loss = np.square(y_pred-y).sum()
    print(' loss: ',loss)

    # 反向传播，计算w1和w2对loss的梯度
    grad_y_pred = 2.0 *(y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T) 
    grad_h = grad_h_relu.copy()
    grad_h[h<0]=0
    grad_w1 =x.T.dot(grad_h)

    # 更新权重
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

 loss:  30433360.446173325
 loss:  29454548.444982637
 loss:  33986063.62629625
 loss:  38041766.64363592
 loss:  35855162.825265855
 loss:  25735332.901504956
 loss:  14146137.874278465
 loss:  6531046.780652863
 loss:  3017961.737330654
 loss:  1598606.1338415146
 loss:  1015706.2072119865
 loss:  741172.2984830884
 loss:  585938.0257086998
 loss:  482436.4084289622
 loss:  405458.3870712052
 loss:  344839.7246098875
 loss:  295601.79695359076
 loss:  254940.87016952955
 loss:  221101.7678161362
 loss:  192570.3205399569
 loss:  168383.1933735331
 loss:  147753.82544844615
 loss:  130064.38113091455
 loss:  114834.70799684449
 loss:  101669.70033602024
 loss:  90228.63544405081
 loss:  80264.45671714004
 loss:  71555.12490618404
 loss:  63916.02685362147
 loss:  57198.00007365936
 loss:  51277.74907304211
 loss:  46045.41040893754
 loss:  41407.98586476202
 loss:  37293.93954347222
 loss:  33633.50254412526
 loss:  30368.747490482332
 loss:  27455.937381279015
 loss:  24851.740150466

#### 2.2 PyTorch：张量
* 张量（Tensor）：PyTorch的tensor在概念上与numpy的array相同： tensor是一个n维数组，PyTorch提供了许多函数用于操作这些张量。任何希望使用NumPy执行的计算也可以使用PyTorch的tensor来完成，可以认为它们是科学计算的通用工具。
* PyTorch可以利用GPU加速其数值计算。要在GPU上运行Tensor,在构造张量使用device参数把tensor建立在GPU上。

In [11]:
# -*- coding:utf-8 -*-
import torch

dtype = torch.float
device = torch.device('cpu')
device = torch.device('cuda:0')

# N是批量大小; D_in是输入维度;
# H是隐藏的维度; D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

# 创建随机输入和输出数据
x = torch.randn(N, D_in,device=device,dtype=dtype)  # 根据给定维度生成[0,1)之间的数据，包含0，不包含1
y = torch.randn(N, D_out,device=device,dtype=dtype)

# 随机初始化权重
w1 = torch.randn(D_in, H, device=device, dtype=dtype)
w2 = torch.randn(H, D_out,device=device,dtype=dtype)

learning_rate = 1e-6

for t in range(500):
    # 前向传播：计算预测值y
    h = x.mm(w1)
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2)

    # 计算和打印损失loss
    loss = (y_pred - y).pow(2).sum().item()
    print(' loss: ', loss)

    # 反向传播，计算w1和w2对loss的梯度
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.t().mm(grad_y_pred)
    grad_h_relu = grad_y_pred.mm(w2.T)
    grad_h = grad_h_relu.clone()
    grad_h[h < 0] = 0
    grad_w1 = x.T.mm(grad_h)

    # 更新权重
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

 loss:  35308600.0
 loss:  27167694.0
 loss:  20703268.0
 loss:  14675038.0
 loss:  9730498.0
 loss:  6247756.0
 loss:  4060622.75
 loss:  2750066.5
 loss:  1965486.125
 loss:  1478761.25
 loss:  1159810.25
 loss:  937825.125
 loss:  774978.75
 loss:  650740.0
 loss:  552898.625
 loss:  474015.0
 loss:  409391.875
 loss:  355701.5
 loss:  310709.0
 loss:  272673.3125
 loss:  240322.578125
 loss:  212622.890625
 loss:  188774.90625
 loss:  168168.78125
 loss:  150270.90625
 loss:  134658.34375
 loss:  120993.765625
 loss:  109008.203125
 loss:  98448.890625
 loss:  89122.2734375
 loss:  80854.953125
 loss:  73499.640625
 loss:  66940.25
 loss:  61076.7890625
 loss:  55820.7109375
 loss:  51100.36328125
 loss:  46851.02734375
 loss:  43018.6328125
 loss:  39555.796875
 loss:  36417.99609375
 loss:  33571.3984375
 loss:  30986.482421875
 loss:  28632.05859375
 loss:  26484.01171875
 loss:  24522.521484375
 loss:  22727.759765625
 loss:  21082.62109375
 loss:  19572.70703125
 loss:  18185.

### 3.自动求导
#### 3.1 pytorch：张量和自动求导
* 当使用autograd时，网络前向传播将定义一个计算图；图中的节点是tensor，边是函数， 这些函数是输出tensor到输入tensor的映射。这张计算图使得在网络中反向传播时梯度的计算十分简单


In [17]:
# -*- coding:utf-8 -*-
import torch

dytpe = torch.float
device = torch.device('cpu')
device = torch.device("cuda:0")

# N是批量大小; D_in是输入维度;
# H是隐藏的维度; D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

# 创建随机Tensors以保持输入和输出。
# 设置requires_grad = False表示我们不需要计算渐变
# 在向后传球期间对于这些Tensors。
x = torch.randn(N, D_in, device=device, dtype=dtype)
y = torch.randn(N, D_out, device=device, dtype=dtype)

# 为权重创建随机Tensors。
# 设置requires_grad = True表示我们想要计算渐变
# 在向后传播期间更新这些张量
w1 = torch.randn(D_in,H,device=device,dtype=dtype,requires_grad=True)
w2 = torch.randn(H,D_out,device=device,dtype=dtype,requires_grad=True)

learning_rate = 1e-6
for y in range(500):
    # 前向传播：使用tensors上的操作计算预测值y;
    # 由于w1和w2有requires_grad=True，涉及这些张量的操作将让PyTorch构建计算图，
    # 从而允许自动计算梯度。由于我们不再手工实现反向传播，所以不需要保留中间值的引用
    y_pred=x.mm(w1).clamp(min=0).mm(w2)

    # 使用Tensors上的操作计算和打印loss。
    # loss是一个形状为()的张量
    # loss.item() 得到这个张量对应的python数值
    loss = (y_pred - y).pow(2).sum()
    print('loss: ',loss.item())

    # 使用autograd计算反向传播。这个调用将计算loss对所有requires_grad=True的tensor的梯度。
    # 这次调用后，w1.grad和w2.grad将分别是loss对w1和w2的梯度张量。、
    loss.backward()

    # 使用梯度下降更新权重。对于这一步，我们只想对w1和w2的值进行原地改变；不想为更新阶段构建计算图，
    # 所以我们使用torch.no_grad()上下文管理器防止PyTorch为更新构建计算图
    with torch.no_grad():
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # 反向传播后手动将梯度设置为零
        w1.grad.zero_()
        w2.grad.zero_()


loss:  29578572.0
loss:  26053104.0
loss:  28070774.0
loss:  30917336.0
loss:  30529200.0
loss:  24546144.0
loss:  15835134.0
loss:  8505678.0
loss:  4295978.0
loss:  2280633.0
loss:  1379345.875
loss:  953496.625
loss:  729118.375
loss:  591094.25
loss:  495694.125
loss:  422987.25
loss:  365112.6875
loss:  317228.375
loss:  277338.8125
loss:  243485.3125
loss:  214713.03125
loss:  190003.34375
loss:  168774.5625
loss:  150385.8125
loss:  134441.703125
loss:  120516.8984375
loss:  108351.15625
loss:  97665.8828125
loss:  88256.8359375
loss:  79947.5703125
loss:  72585.921875
loss:  66053.2578125
loss:  60243.390625
loss:  55053.9609375
loss:  50412.796875
loss:  46253.71875
loss:  42519.94140625
loss:  39159.0078125
loss:  36129.8515625
loss:  33395.0859375
loss:  30923.005859375
loss:  28684.19140625
loss:  26653.17578125
loss:  24807.1640625
loss:  23126.5
loss:  21595.76171875
loss:  20198.6328125
loss:  18920.84765625
loss:  17752.080078125
loss:  16682.591796875
loss:  15701.4667

#### 3.2 定义新的自动求导函数
* 通过定义 torch.autograd.Funtion 的子类并实现forward和backword函数，来定义自己的自定义求导运算
* 通过构造一个实例并像调用函数一样，传入包含输入数据的tensor调用它，这样来使用新的自动求导运算

In [21]:
import torch
class MyRelu(torch.autograd.Function):
    """
    我们可以通过建立torch.autograd的子类来实现我们自定义的autograd函数，
    并完成张量的正向和反向传播。
    """
    @staticmethod
    def forward(ctx,x):
        """
        在正向传播中，我们接收到一个上下文对象和一个包含输入的张量；
        我们必须返回一个包含输出的张量，
        并且我们可以使用上下文对象来缓存对象，以便在反向传播中使用。
        """
        ctx.save_for_backward(x)
        return x.clamp(min=0)

    @staticmethod
    def backward(ctx, grad_output):
        """
        在反向传播中，我们接收到上下文对象和一个张量，
        其包含了相对于正向传播过程中产生的输出的损失的梯度。
        我们可以从上下文对象中检索缓存的数据，
        并且必须计算并返回与正向传播的输入相关的损失的梯度。
        """
        x, =ctx.saved_tensors
        grad_x = grad_output.clone()
        grad_x[x<0] = 0
        return grad_x

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# N是批大小； D_in 是输入维度；
# H 是隐藏层维度； D_out 是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生输入和输出的随机张量
x = torch.randn(N, D_in, device=device)
y = torch.randn(N, D_out,device=device)

# 产生随机权重的张量
w1 = torch.randn(D_in, H, device=device, requires_grad=True)
w2 = torch.randn(H, D_out, device=device, requires_grad=True)

learning_rate = 1e-6
for t in range(500):
    # 正向传播：使用张量上的操作来计算输出值y；
    # 我们通过调用 MyReLU.apply 函数来使用自定义的ReLU
    y_pred = MyRelu.apply(x.mm(w1)).mm(w2)

    # 计算并输出loss
    # 计算并输出loss
    loss = (y_pred - y).pow(2).sum()
    print(t, loss.item())

    # 使用autograd计算反向传播过程。
    loss.backward()

    with torch.no_grad():
        # 用梯度下降更新权重
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad

        # 在反向传播之后手动清零梯度
        w1.grad.zero_()
        w2.grad.zero_()

0 32178116.0
1 29365356.0
2 29153736.0
3 26920474.0
4 21427748.0
5 14226256.0
6 8347204.0
7 4662173.0
8 2729230.5
9 1753281.125
10 1247396.375
11 959790.25
12 777484.75
13 649732.5
14 553106.375
15 476347.6875
16 413638.3125
17 361513.0625
18 317490.6875
19 279996.90625
20 247828.0625
21 220116.9375
22 196101.375
23 175227.75
24 157005.765625
25 141013.5625
26 126928.328125
27 114527.8125
28 103566.28125
29 93835.8046875
30 85176.890625
31 77449.8515625
32 70539.1171875
33 64341.9296875
34 58774.078125
35 53778.32421875
36 49279.65234375
37 45220.859375
38 41545.015625
39 38209.21484375
40 35181.046875
41 32425.634765625
42 29913.568359375
43 27619.47265625
44 25523.32421875
45 23606.27734375
46 21851.36328125
47 20245.56640625
48 18772.080078125
49 17417.99609375
50 16173.21484375
51 15027.234375
52 13970.3603515625
53 12996.138671875
54 12096.154296875
55 11265.509765625
56 10498.349609375
57 9787.921875
58 9130.2890625
59 8521.087890625
60 7956.10546875
61 7431.94482421875
62 6944.8

#### 3.3 TensorFlow:静态图
* TensorFlow的计算图是静态的，而PyTorch使用动态的计算图
* 在TensorFlow中，我们定义计算图一次，然后重复执行这个相同的图，可能会提供不同的输入数据。而在PyTorch中，每一个前向通道定义一个新的计算图。
* 静态图的好处在于你可以预先对图进行优化
* 静态图和动态图的一个区别是控制流

In [None]:
import tensorflow as tf
import numpy as np

# 首先我们建立计算图（computational graph）

# N是批大小；D是输入维度；
# H是隐藏层维度；D_out是输出维度。
N, D_in, H, D_out = 64, 1000, 100, 10

# 为输入和目标数据创建placeholder；
# 当执行计算图时，他们将会被真实的数据填充
x = tf.placeholder(tf.float32, shape=(None, D_in))
y = tf.placeholder(tf.float32, shape=(None, D_out))

# 为权重创建Variable并用随机数据初始化
# TensorFlow的Variable在执行计算图时不会改变
w1 = tf.Variable(tf.random_normal((D_in, H)))
w2 = tf.Variable(tf.random_normal((H, D_out)))

# 前向传播：使用TensorFlow的张量运算计算预测值y。
# 注意这段代码实际上不执行任何数值运算；
# 它只是建立了我们稍后将执行的计算图。
h = tf.matmul(x, w1)
h_relu = tf.maximum(h, tf.zeros(1))
y_pred = tf.matmul(h_relu, w2)

# 使用TensorFlow的张量运算损失（loss）
loss = tf.reduce_sum((y - y_pred)**2.0)

# 计算loss对于w1和w2的导数
grad_w1, grad_w2 = tf.gradients(loss, [w1, w2])

# 使用梯度下降更新权重。为了实际更新权重，我们需要在执行计算图时计算new_w1和new_w2。
# 注意，在TensorFlow中，更新权重值的行为是计算图的一部分;
# 但在PyTorch中，这发生在计算图形之外。
learning_rate = 1e-6
new_w1 = w1.assign(w1 - learning_rate * grad_w1)
new_w2 = w2.assign(w2 - learning_rate * grad_w2)

# 现在我们搭建好了计算图，所以我们开始一个TensorFlow的会话（session）来实际执行计算图。
with tf.Session() as sess:

    # 运行一次计算图来初始化Variable w1和w2
    sess.run(tf.global_variables_initializer())

    # 创建numpy数组来存储输入x和目标y的实际数据
    x_value = np.random.randn(N, D_in)
    y_value = np.random.randn(N, D_out)

    for _ in range(500):
        # 多次运行计算图。每次执行时，我们都用feed_dict参数，
        # 将x_value绑定到x，将y_value绑定到y，
        # 每次执行图形时我们都要计算损失、new_w1和new_w2；
        # 这些张量的值以numpy数组的形式返回。
        loss_value, _, _ = sess.run([loss, new_w1, new_w2],
                                    feed_dict={
                                        x: x_value,
                                        y: y_value
                                    })
        print(loss_value)

### 4. nn模块
#### nn
* 对于大规模的网络，autograd太过于底层
* 在构建神经网络时，我们经常考虑将计算安排成层，其中一些具有可学习的参数，它们将在学习过程中进行优化。
    * TensorFlow里，有类似Keras，TensorFlow-Slim和TFLearn这种封装了底层计算图的高度抽象的接口，这使得构建网络十分方便
    * 在PyTorch中，包nn完成了同样的功能
* nn包中定义一组大致等价于层的模块
* 一个模块接受输入的tesnor，计算输出的tensor，而且 还保存了一些内部状态比如需要学习的tensor的参数等
* nn包中也定义了一组损失函数（loss functions），用来训练神经网络。


In [27]:
# -*- coding: utf-8 -*-
import torch

# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

#创建输入和输出随机张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 使用nn包将我们的模型定义为一系列的层
# nn.Sequential是包含其他模块的模块，并按顺序应用这些模块来产生输出
# 每个线性模型使用线性函数从输入计算输出，并保存其内部的权重和偏差张量
# 在构造函数之后，我们使用.to()方法将其移动到所需的设备
model = torch.nn.Sequential(
    torch.nn.Linear(D_in,H),
    torch.nn.ReLU(),
    torch.nn.Linear(H,D_out),
)

# nn包还包含常用的损失函数的定义；
# 在这种情况下，我们将使用平均平方误差(MSE)作为我们的损失函数。
# 设置reduction='sum'，表示我们计算的是平方误差的“和”，而不是平均值;
# 这是为了与前面我们手工计算损失的例子保持一致，
# 但是在实践中，通过设置reduction='elementwise_mean'来使用均方误差作为损失更为常见。
loss_fn = torch.nn.MSELoss(reduction='sum')

learning_rate = 1e-4
for t in range(500):
    # 前向传播：通过向模型传入x计算预测的y。
    # 模块对象重载了__call__运算符，所以可以像函数那样调用它们。
    # 这么做相当于向模块传入了一个张量，然后它返回了一个输出张量。
    y_pred = model(x)

    # 计算并打印损失。
    # 传递包含y的预测值和真实值的张量，损失函数返回包含损失的张量。
    loss = loss_fn(y_pred,y)
    print(t, loss.item())

    # 反向传播之前清零梯度
    model.zero_grad()

    # 反向传播：计算模型的损失对所有可学习参数的导数（梯度）。
    # 在内部，每个模块的参数存储在requires_grad=True的张量中，
    # 因此这个调用将计算模型中所有可学习参数的梯度。
    loss.backward()

    # 使用梯度下降更新权重。
    # 每个参数都是张量，所以我们可以像我们以前那样可以得到它的数值和梯度
    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad


0 643.3059692382812
1 593.9111938476562
2 551.6248168945312
3 515.1810302734375
4 482.95147705078125
5 454.0457763671875
6 427.9096984863281
7 404.23895263671875
8 382.6553039550781
9 362.75750732421875
10 344.1855163574219
11 326.85174560546875
12 310.49853515625
13 295.1378479003906
14 280.6236572265625
15 266.810546875
16 253.710205078125
17 241.20240783691406
18 229.20852661132812
19 217.7664794921875
20 206.79656982421875
21 196.27996826171875
22 186.27685546875
23 176.71080017089844
24 167.5751190185547
25 158.85414123535156
26 150.54006958007812
27 142.61607360839844
28 135.05540466308594
29 127.86219024658203
30 121.02880096435547
31 114.5145492553711
32 108.32154846191406
33 102.43174743652344
34 96.8521499633789
35 91.55996704101562
36 86.54949951171875
37 81.79074096679688
38 77.29391479492188
39 73.03854370117188
40 69.015380859375
41 65.21244812011719
42 61.61769104003906
43 58.230072021484375
44 55.036949157714844
45 52.022029876708984
46 49.17859649658203
47 46.502052307

#### 4.2 optim
* 经常使用AdaGrad、RMSProp、Adam等更复杂的优化器来训练神经网络

In [29]:
import torch

# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生随机输入和输出张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 使用nn包定义模型和损失函数
model = torch.nn.Sequential(
    torch.nn.Linear(D_in,H),
    torch.nn.ReLU(),
    torch.nn.Linear(H,D_out),
)
loss_fn = torch.nn.MSELoss(reduction='sum')

# 使用optim包定义优化器（Optimizer）。Optimizer将会为我们更新模型的权重。
# 这里我们使用Adam优化方法；optim包还包含了许多别的优化算法。
# Adam构造函数的第一个参数告诉优化器应该更新哪些张量。
learning_rate = 1e-4
optimizer = torch.optim.Adam(model.parameters(),lr=learning_rate)

for t in range(500):
    # 前向传播
    y_pred = model(x)

    # 计算并打印loss
    loss = loss_fn(y_pred,y)
    print(t, loss.item())

    # 反向传播之前，使用optimizer将它要更新的所有张量的梯度清零（这些张量是模型了学习的权重）
    optimizer.zero_grad()

    #反向传播：根据模型的参数计算loss的梯度
    loss.backward()

    # 调用Optimizer的step函数使它所有参数更新
    optimizer.step()

0 644.5091552734375
1 628.0556640625
2 612.083984375
3 596.6585693359375
4 581.7081909179688
5 567.1851806640625
6 553.0217895507812
7 539.255126953125
8 525.9737548828125
9 513.0512084960938
10 500.5362243652344
11 488.3689880371094
12 476.60791015625
13 465.21533203125
14 454.0823669433594
15 443.25543212890625
16 432.7326354980469
17 422.4562072753906
18 412.4526672363281
19 402.71893310546875
20 393.2773132324219
21 384.1584777832031
22 375.2449951171875
23 366.6287841796875
24 358.34027099609375
25 350.25775146484375
26 342.3652038574219
27 334.66204833984375
28 327.11090087890625
29 319.747802734375
30 312.5738525390625
31 305.5606384277344
32 298.7122497558594
33 292.01751708984375
34 285.4820556640625
35 279.0978698730469
36 272.8434143066406
37 266.6941833496094
38 260.647216796875
39 254.73548889160156
40 248.9581298828125
41 243.2889404296875
42 237.73446655273438
43 232.2922821044922
44 226.9972381591797
45 221.8069610595703
46 216.7022705078125
47 211.6923370361328
48 206.

#### 4.3 自定义nn模块
* 有时候需要指定比现有模块序列更复杂的模型
* 可以通过继承nn.Module并定义forward函数
    * forward函数可以 使用其他模块或者其他的自动求导运算来接收输入tensor，产生输出tensor

In [31]:
import torch

class TwoLayerNet(torch.nn.Module):
    def __init__(self,D_in,H,D_out):
        """
        在构造函数中，我们实例化了两个nn.Linear模块，并将它们作为成员变量。
        """
        super(TwoLayerNet,self).__init__()
        self.linear1 = torch.nn.Linear(D_in,H)
        self.linear2 = torch.nn.Linear(H, D_out)

    def forward(self,x):
        """
        在前向传播的函数中，我们接收一个输入的张量，也必须返回一个输出张量。
        我们可以使用构造函数中定义的模块以及张量上的任意的（可微分的）操作。
        """
        h_relu = self.linear1(x).clamp(min=0)
        y_pred = self.linear2(h_relu)
        return y_pred

# N是批大小； D_in 是输入维度；
# H 是隐藏层维度； D_out 是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生输入和输出的随机张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

# 通过实例化上面定义的类来构建我们的模型。
model = TwoLayerNet(D_in,H,D_out)

# 构造损失函数和优化器。
# SGD构造函数中对model.parameters()的调用，
# 将包含模型的一部分，即两个nn.Linear模块的可学习参数
loss_fn = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(),lr=1e-4)
for t in range(500):
    # 前向传播：通过向模型传递x计算预测值y
    y_pred = model(x)

    # 计算并输出loss
    loss = loss_fn(y_pred, y)
    print(t, loss.item())

    # 清零梯度，反向传播，更新权重
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

0 668.4197998046875
1 619.9055786132812
2 578.0693359375
3 541.159423828125
4 508.06500244140625
5 478.2771301269531
6 451.5179443359375
7 427.119140625
8 404.54608154296875
9 383.47979736328125
10 363.629638671875
11 345.1078796386719
12 327.6806335449219
13 311.0830993652344
14 295.2127685546875
15 280.16778564453125
16 265.842041015625
17 252.17208862304688
18 239.162109375
19 226.72271728515625
20 214.81137084960938
21 203.3628387451172
22 192.39163208007812
23 181.94094848632812
24 171.95425415039062
25 162.38058471679688
26 153.24365234375
27 144.55514526367188
28 136.25144958496094
29 128.3736572265625
30 120.91014862060547
31 113.84162902832031
32 107.14134979248047
33 100.78973388671875
34 94.78108215332031
35 89.10570526123047
36 83.73550415039062
37 78.66990661621094
38 73.89200592041016
39 69.38213348388672
40 65.1190185546875
41 61.10478210449219
42 57.3365592956543
43 53.801700592041016
44 50.48366928100586
45 47.37499237060547
46 44.45392608642578
47 41.71592712402344
48

#### 4.4 控制流和权重共享
* 一个非常奇怪的模型：一个全连接的ReLU网络，在每一次前向传播时，它的隐藏层的层数为随机1到4之间的数，这样可以多次重用相同的权重来计算
* 这个模型可以使用普通的Python流控制来实现循环，并且我们可以通过在定义转发时多次重用同一个模块来实现最内层之间的权重共享

In [34]:
import random
import torch

class DynamicNet(torch.nn.Module):
    def __init__(self,D_in,H,D_out):
        """
        在构造函数中，我们构造了三个nn.Linear实例，它们将在前向传播时被使用。
        """
        super(DynamicNet,self).__init__()
        self.input_linear = torch.nn.Linear(D_in,H)
        self.middle_linear = torch.nn.Linear(H,H)
        self.output_linear = torch.nn.Linear(H,D_out)

    def forward(self,x):
        """
        对于模型的前向传播，我们随机选择0、1、2、3，
        并重用了多次计算隐藏层的middle_linear模块。
        由于每个前向传播构建一个动态计算图，
        我们可以在定义模型的前向传播时使用常规Python控制流运算符，如循环或条件语句。
        在这里，我们还看到，在定义计算图形时多次重用同一个模块是完全安全的。
        这是Lua Torch的一大改进，因为Lua Torch中每个模块只能使用一次。
        """
        h_relu = self.input_linear(x).clamp(min=0)
        for _ in range(random.randint(0,3)):
            h_relu = self.middle_linear(h_relu).clamp(min=0)
        y_pred = self.output_linear(h_relu)
        return y_pred

# N是批大小；D是输入维度
# H是隐藏层维度；D_out是输出维度
N, D_in, H, D_out = 64, 1000, 100, 10

# 产生输入和输出随机张量
x = torch.randn(N, D_in)
y = torch.randn(N, D_out)

model = DynamicNet(D_in, H, D_out)

# 构造我们的损失函数（loss function）和优化器（Optimizer）。
# 用平凡的随机梯度下降训练这个奇怪的模型是困难的，所以我们使用了momentum方法。
criterion = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(),lr=1e-4,momentum=0.9)

for t in range(500):
    # 前向传播：通过向模型传入x计算预测的y
    y_pred = model(x)

    # 计算并打印损失
    loss = criterion(y_pred, y)
    print(t, loss.item())

    # 清零梯度，反向传播，更新权重
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()


0 687.6044311523438
1 682.154052734375
2 702.1114501953125
3 676.8717041015625
4 655.7037963867188
5 643.1021728515625
6 551.3598022460938
7 613.149658203125
8 463.871826171875
9 671.9547729492188
10 657.5535278320312
11 669.3069458007812
12 556.9661254882812
13 665.1159057617188
14 662.1488647460938
15 658.3453369140625
16 503.13421630859375
17 624.1324462890625
18 613.20947265625
19 598.17919921875
20 421.0908203125
21 558.5306396484375
22 596.1558837890625
23 343.4128112792969
24 481.06268310546875
25 290.43597412109375
26 262.6957092285156
27 481.725830078125
28 361.64501953125
29 329.435302734375
30 199.8596954345703
31 277.08319091796875
32 283.4720458984375
33 239.2086639404297
34 296.52764892578125
35 207.5323486328125
36 185.3970947265625
37 170.26840209960938
38 210.61134338378906
39 204.0251007080078
40 145.60055541992188
41 155.42044067382812
42 165.08348083496094
43 129.15261840820312
44 85.53962707519531
45 106.29557800292969
46 143.34967041015625
47 144.3863983154297
48 