### 什么是 pythorch？
他是一个基于python的科学计算库，有以下特点：
-类似numpy，它可以使用GPU计算
-可以用它来定义深度学习模型，可以灵活的进行深度学习模型的训练和使用

### Tensors
tensor类似于 numpy 的 ndarray 欸一的区别是 tensor 可以在gpu上加速训练

In [2]:
import torch

构造一个未初始化的 5x3 矩阵

In [8]:
torch.empty(5,3)

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

构造一个随机初始化的矩阵：

In [10]:
x = torch.rand(5,3)
x

tensor([[0.9623, 0.3378, 0.9717],
        [0.5263, 0.1595, 0.6606],
        [0.8230, 0.0130, 0.3258],
        [0.3231, 0.8305, 0.3452],
        [0.8249, 0.6772, 0.0222]])

构造一个全为 0 ，类型为 long 的矩阵：

In [14]:
y = torch.zeros(5,3,dtype = torch.long)
y.dtype

torch.int64

从数据直接构建 tensor

In [16]:
x = torch.tensor([5.3,3,4])
x

tensor([5.3000, 3.0000, 4.0000])

可以从一个已有 tensor 构建一个 tensor。这是方法会重用原来 tensor 的特征，例如，数据类型，除非提供新的数据。

In [31]:
x = x.new_ones(5,3,dtype = torch.float)
x

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

In [32]:
y = torch.randn_like(x, dtype = torch.float) # 随机生成和 x 形状相同的矩阵，数据类型是 float
y

tensor([[ 0.4512, -0.7958,  0.3921],
        [-1.2287,  0.9513,  0.8478],
        [-0.5753,  0.2064,  0.4146],
        [ 1.8651,  0.6105, -1.3129],
        [ 0.4988,  0.4473, -0.8213]])

得到 tensor 的形状。

In [33]:
x.shape

torch.Size([5, 3])

In [34]:
x.size()

torch.Size([5, 3])

### Operations
有很多 tensor 运算，我们先介绍加法运算。

In [36]:
x+y # 矩阵内元素相加

tensor([[ 1.4512,  0.2042,  1.3921],
        [-0.2287,  1.9513,  1.8478],
        [ 0.4247,  1.2064,  1.4146],
        [ 2.8651,  1.6105, -0.3129],
        [ 1.4988,  1.4473,  0.1787]])

另一种加法的写法

In [37]:
torch.add(x, y)

tensor([[ 1.4512,  0.2042,  1.3921],
        [-0.2287,  1.9513,  1.8478],
        [ 0.4247,  1.2064,  1.4146],
        [ 2.8651,  1.6105, -0.3129],
        [ 1.4988,  1.4473,  0.1787]])

in-place 加法

In [38]:
y.add_(x) # 下划线是将 x 的值加在 y 的身上。
y

tensor([[ 1.4512,  0.2042,  1.3921],
        [-0.2287,  1.9513,  1.8478],
        [ 0.4247,  1.2064,  1.4146],
        [ 2.8651,  1.6105, -0.3129],
        [ 1.4988,  1.4473,  0.1787]])

###### 任何 in-place 的运算都会以  _ 结尾。举例来说： x.cope_(y), x.t_() 会改变 x 的值

各种类似 numpy 的indexing 都可以在 pytorch tensor 上面使用。

In [39]:
x[:,1:]

tensor([[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]])

##### Resizing: 如果你希望 resize/reshape 一个tensor， 可以使用 torch.view 操作

In [41]:
x = torch.randn(4,4)
y = x.view(16)
z = x.view(-1,8) # 输入 -1 会自动帮助 整除 整个数组，不能是两个 -1 ，也不能是 -1 + 一个不能被整除的数
z

tensor([[-0.4344,  0.8433,  0.1803,  0.9889, -1.4027,  1.7313,  1.0014,  0.3642],
        [ 0.1604,  2.3526, -1.0215, -0.3110,  0.3864,  1.4276, -1.1543, -0.0125]])

###### 只有一个元素的 tensor 使用  .item() 方法可以把里面的 value 变成 python 的数值

In [47]:
x = torch.rand(1)
x.item()

0.26488280296325684

In [46]:
dir(x)

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_priority__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__idiv__',
 '__ilshift__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pow__',
 '__radd__',
 '__rdiv__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__reversed__',
 '__rfloordiv__',
 '__rmul__',
 '__rpow__',
 '__rshift__',
 '__rsub__',
 '__rtruediv__',
 '__setattr__',
 '__se

#### 更多阅读
各种 tensor operations ，包含transposing ， indexing ， slicing， mathematical operations， linear algebra， random numbers 在
 https://pythorch.org/docs/torch
 ### Numpy 和 Tensor 之间的转化
 在 torch tensor 和 numpy array 之间相互转化 非常容易。
 <br>torch tensor 和 numpy array 会共享内存，所以改变其中的一项也会改变另一项。
 <br>把 torch tensor 转变成 numpy array 

In [49]:
a = torch.ones(5)
a

tensor([1., 1., 1., 1., 1.])

In [50]:
b = a.numpy()
b

array([1., 1., 1., 1., 1.], dtype=float32)

改变 numpy array 里面的值

In [51]:
b[1]=2
b

array([1., 2., 1., 1., 1.], dtype=float32)

In [52]:
a

tensor([1., 2., 1., 1., 1.])

把 numpy array 转换成 torch tensor

In [57]:
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a,1,out = a)
print(a)

[2. 2. 2. 2. 2.]


In [58]:
b

tensor([2., 2., 2., 2., 2.], dtype=torch.float64)

In [60]:
a=a+1   #  与 np.add(a,1,out = a)  a =a+1 会重新分配一个内存 a 将结果赋值给a ，而 out 方式 是直接修改 a 的值 ，使用 out 减少一次内存分配
b

tensor([2., 2., 2., 2., 2.], dtype=torch.float64)

所有 cpu 上的 tensor 都支撑转成 numpy 或者 从numpy 转成 tensor
### CUDA Tensors
使用 .to 方法，tensor 可以被移动到别的 device 上

In [62]:
if torch.cuda.is_available() : # 用来检测是否可以使用 GPU 返回时时 bool 值
    device = torch.device('cuda')
    y = torch.ones_like(x , device = device) # 将tensor 转换到 gpu 上的方法
    x = x.to(device)# 将tensor 转换到 gpu 上的方法
    z = x+y
    print (z)
    print (z.to('cpu', torch.double))

False

In [63]:
# y.data.numpy() 如果 y 是 gpu 上的 tensor 是不能直接转换成 numpy 的，需要转换成 cpu
y.to('cpu').data.numpy()
y.cpu().data.numpy()
# 因为 numpy 是在 cpu 上进行操作的。

array([-0.43441123,  0.84326065,  0.1803228 ,  0.988906  , -1.4026821 ,
        1.731294  ,  1.0014081 ,  0.3641974 ,  0.16041838,  2.352633  ,
       -1.0215448 , -0.31099698,  0.3863816 ,  1.4276028 , -1.1543412 ,
       -0.01245503], dtype=float32)

### 热身：使用 numpy 实现两层神经网络
一个全链接 relu 神经网络，一个隐藏层，没有bias，用来从 x 预测 y ，使用 L2 loss。
<br>$$H = W_1 X + B_1$$
$$A = MAX (0,H)（relu 函数）$$ 
$$Y_{HAT} = W_2 A + B_2$$
<br>这一实现完全使用numpy来计算前向神经网络，loss，反向传播
<br>numpy ndarray 是一个普通的 n 维 array。他不知道任何关于深度学习或者梯度（gradient）的知识，也不知道计算图（computation graph），指数一种用来计算数学运算的数据结构。
<br>
- forword pass
- loss
- backward pass


In [68]:
N , D_IN , H , D_OUT = 64 , 1000, 100, 10 # 64个数据，输入时1000维 隐层100维 输出是10维的
# 随机创建一些训练数据
x = np.random.randn(N,D_IN)
y = np.random.randn(N,D_OUT)

w1 = np.random.randn(D_IN,H)
w2 = np.random.randn(H,D_OUT)

learning_rate = 1e-6
#搭建神经网络并训练
for it in range(500):
    # Forward pass
    h = x.dot(w1) # N * H  ---->  (N,D_IN) * (D_IN,H)  =  (N,H)
    h_relu = np.maximum(h,0) # relu.
    y_pred = h_relu.dot(w2) # N * D_OUT ---> (N,H) * (H,D_OUT) = (N,D_OUT) 
    
    # Compute loss
    loss = np.square(y_pred - y).sum()
    print(it,loss)
    
    # Backwrad pass
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred) # H*D_OUT ---> H*N  *  N*D_OUT = H*D_OUT
    grad_h_relu = grad_y_pred.dot(w2.T) # N*H  ----> N*D_OUT  *  D_OUT*H
    grad_h = grad_h_relu.copy()
    grad_h[h<0] = 0
    grad_w1 = x.T.dot(grad_h)
    
    # updata weight of w1 and w2
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2


0 33687489.34997237
1 33542260.44665605
2 38379340.39463709
3 41238441.098925695
4 35869912.50237039
5 23476027.640003655
6 11877796.478465632
7 5435913.439141745
8 2729270.0457071587
9 1669314.8531473358
10 1208584.7037059148
11 963207.6609149689
12 803674.1233254061
13 685516.762052031
14 591834.4283323273
15 514939.13524853217
16 450682.4543652262
17 396361.8885614187
18 350038.11906894675
19 310299.76885798445
20 276032.0553690813
21 246419.08090734377
22 220670.6268977009
23 198179.66758457018
24 178452.2951206786
25 161081.59239006968
26 145741.77468304464
27 132134.3433672666
28 120074.75968869308
29 109304.60865381814
30 99664.55662869514
31 91017.75760584822
32 83245.92953941133
33 76247.20511790381
34 69933.86644799335
35 64221.8649514855
36 59048.92444471843
37 54360.03183535926
38 50101.554455209276
39 46224.83120314304
40 42692.0149911397
41 39470.47824171583
42 36528.38219472139
43 33837.5168984889
44 31374.454106446537
45 29115.32112460379
46 27040.391221870537
47 25133.

### 代码解释
 - 1、grad_y_pred = 2.0 * (y_pred - y)
 - 2、grad_w2 = h_relu.T.dot(grad_y_pred) # H*D_OUT ---> H*N  *  N*D_OUT = H*D_OUT
 - 3、grad_h_relu = grad_y_pred.dot(w2.T) # N*H  ----> N*D_OUT  *  D_OUT*H
 - 4、grad_h = grad_h_relu.copy()
 - 5、grad_h[h<0] = 0
 - 6、grad_w1 = x.T.dot(grad_h)
 
 <br> 对于神经网络的前向计算过程可以看到是 
 $$h = w_1 * x$$
 $$h_{relu} = max(0,h)$$
 $$y_{pred} = w_2 * h_relu$$
 $$loss = (y_{pred}-y)^2$$
 <br> 所以当我们去求 w1 和 w2 的梯度的时候，要遵循链式求导法则
 $$\frac{\partial loss}{\partial w_2} = \frac{\partial loss}{\partial y_{pred}} * \frac{\partial y_{pred}}{\partial w_2} $$
 同理求解 $$\frac{\partial loss}{\partial w_1} = \frac{\partial loss}{\partial y_{pred}}* \frac{\partial y_{pred}}{\partial h_{relu}} *\frac{\partial h_{relu}}{\partial h }*\frac{\partial h}{\partial w_1}$$
 
 <br><br> 关于 矩阵的转置 与 乘法 的前后位置，要根据 目标结果的矩阵结构进行调整。
 <br>比如 w_2 是 h*d_out 维度的 就需要h_relu进行转置得到结果 (H * N)  *  (N * D_OUT) = (H * D_OUT)
 
    

### Pytorch： Tensors 
这次使用 Pytorch Tensors 来创建前向神经网络，计算损失，以及反向传播。
<br>pytorch tensor 和 numpy ndarray 很像，最大的区别是 pytorch tensor 能在 CPU 或者 GPU 上计算。

In [3]:
N , D_IN , H , D_OUT = 64 , 1000, 100, 10 # 64个数据，输入时1000维 隐层100维 输出是10维的
# 随机创建一些训练数据
x = torch.randn(N,D_IN) # x = np.random.randn(N,D_IN)
y = torch.randn(N,D_OUT) # y = np.random.randn(N,D_OUT)

w1 = torch.randn(D_IN,H) # w1 = np.random.randn(D_IN,H)
w2 = torch.randn(H,D_OUT) # w2 = np.random.randn(H,D_OUT)

learning_rate = 1e-6
#搭建神经网络并训练
for it in range(500):
    # Forward pass
    h = x.mm(w1)   # h = x.dot(w1) # N * H  ---->  (N,D_IN) * (D_IN,H)  =  (N,H)
    h_relu = h.clamp(min=0) # clamp 是取上下限，可以设定上下限，或单独设置上限或者下限 #h_relu = np.maximum(h,0) # relu.
    y_pred = h_relu.mm(w2) #y_pred = h_relu.dot(w2) # N * D_OUT ---> (N,H) * (H,D_OUT) = (N,D_OUT) 
    
    # Compute loss
    #loss = np.square(y_pred - y).sum()
    loss = (y_pred - y).pow(2).sum().item() # pow(2) 是计算2次方， item（） 是将 一个值的tensor 转换为 数字 
    print(it,loss)
    
    # Backwrad pass
    grad_y_pred = 2.0 * (y_pred - y)
    
    #grad_w2 = h_relu.T.dot(grad_y_pred) # H*D_OUT ---> H*N  *  N*D_OUT = H*D_OUT
    grad_w2 = h_relu.t().mm(grad_y_pred)# pytorch 中 transform 是使用 .t()
    
    #grad_h_relu = grad_y_pred.dot(w2.T) # N*H  ----> N*D_OUT  *  D_OUT*H
    grad_h_relu = grad_y_pred.mm(w2.T)
    
    #grad_h = grad_h_relu.copy()
    grad_h = grad_h_relu.clone()
    
    grad_h[h<0] = 0
    
    #grad_w1 = x.T.dot(grad_h)
    grad_w1 = x.t().mm(grad_h)
    
    # updata weight of w1 and w2
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 28864868.0
1 22573174.0
2 20584410.0
3 19761522.0
4 18468640.0
5 15900144.0
6 12422999.0
7 8836202.0
8 5923798.5
9 3866803.5
10 2557826.75
11 1753977.5
12 1265576.5
13 960247.625
14 761581.375
15 624680.5
16 525131.125
17 449207.15625
18 389000.125
19 339815.9375
20 298826.3125
21 264105.4375
22 234405.734375
23 208781.765625
24 186493.3125
25 167041.5625
26 149981.890625
27 134977.71875
28 121737.6015625
29 110006.9921875
30 99580.28125
31 90298.375
32 82020.3984375
33 74614.8828125
34 67974.5
35 62025.359375
36 56670.66796875
37 51846.3125
38 47485.2109375
39 43538.703125
40 39969.4140625
41 36730.125
42 33788.68359375
43 31116.11328125
44 28682.1484375
45 26460.5390625
46 24431.5546875
47 22576.76953125
48 20878.40625
49 19322.3984375
50 17895.240234375
51 16585.3984375
52 15381.2333984375
53 14273.6484375
54 13255.1337890625
55 12315.755859375
56 11449.8701171875
57 10650.81640625
58 9913.349609375
59 9231.18359375
60 8600.138671875
61 8016.17333984375
62 7476.57763671875
63 6977

376 0.0014393437886610627
377 0.0013920152559876442
378 0.00134615832939744
379 0.001302773249335587
380 0.0012598922476172447
381 0.0012197219766676426
382 0.0011777495965361595
383 0.0011410013539716601
384 0.0011045736027881503
385 0.0010687587782740593
386 0.0010351547971367836
387 0.0010039608459919691
388 0.0009727043798193336
389 0.0009419703274033964
390 0.0009147454402409494
391 0.0008859812514856458
392 0.0008582376758567989
393 0.0008319890475831926
394 0.0008084892178885639
395 0.0007854024297557771
396 0.0007619785610586405
397 0.000739160634111613
398 0.0007183004636317492
399 0.0006991305272094905
400 0.0006783369462937117
401 0.000658962584566325
402 0.0006404792657122016
403 0.0006223366362974048
404 0.0006051096133887768
405 0.0005881002289243042
406 0.0005724950460717082
407 0.0005580248543992639
408 0.0005416653002612293
409 0.0005262998165562749
410 0.0005132630467414856
411 0.0004995333729311824
412 0.00048626665375195444
413 0.00047466036630794406
414 0.000461360

##### Tensor 自带的自动计算梯度的函数

In [5]:
x = torch.tensor(1.,requires_grad = True) 
w = torch.tensor(2.,requires_grad = True) 
b = torch.tensor(3.,requires_grad = True)
# 定义 tensor 的时候对于需要计算梯度的 tensor 要提前声明 requires_grad  = True
y = w*x + b
y.backward()
print(x.grad)
print(w.grad)
print(b.grad)

tensor(2.)
tensor(1.)
tensor(1.)


##### 将 上面的简单的神经网路 用自动计算梯度的方式重现一遍。

In [6]:
N , D_IN , H , D_OUT = 64 , 1000, 100, 10 # 64个数据，输入时1000维 隐层100维 输出是10维的
# 随机创建一些训练数据
x = torch.randn(N,D_IN) # x = np.random.randn(N,D_IN)
y = torch.randn(N,D_OUT) # y = np.random.randn(N,D_OUT)

w1 = torch.randn(D_IN, H, requires_grad = True) # w1 = np.random.randn(D_IN,H)
w2 = torch.randn(H, D_OUT, requires_grad = True) # w2 = np.random.randn(H,D_OUT)

learning_rate = 1e-6
#搭建神经网络并训练
for it in range(500):
    # Forward pass
    y_pred = x.mm(w1).clamp(min=0).mm(w2)
    
    # Compute loss
    loss = (y_pred - y).pow(2).sum() # 这里不适用 item（） 是因为，我们要使用 tensor 的 backward 方法，不用把loss转换为数字
    print(it,loss.item())
    # Backwrad pass
    
    loss.backward()
    
    # updata weight of w1 and w2
    # 所有的 tensor 的计算在 pytorch 里面都是一个 compute graph 计算图，有些简单的计算为了不要让计算图占内存，就进行处理
    with torch.no_grad():
        # 使用这种方法以后就不会再将 w1 w2 的 gradient 记下来了
        w1 -= learning_rate * w1.grad
        w2 -= learning_rate * w2.grad
        w1.grad.zero_()
        w2.grad.zero_() # 这里使用 gard。zero() 是为了清零上次计算的梯度，如果不清零，系统会默认将每次的 grad 进行累加

0 26895730.0
1 21270212.0
2 20549032.0
3 21628784.0
4 22527788.0
5 21438294.0
6 18021872.0
7 13128427.0
8 8546938.0
9 5161103.0
10 3063709.75
11 1861585.875
12 1196805.25
13 823660.4375
14 606331.5
15 471772.03125
16 382574.59375
17 319282.6875
18 271721.5
19 234352.109375
20 204014.15625
21 178833.53125
22 157589.96875
23 139467.875
24 123868.5390625
25 110383.609375
26 98670.9921875
27 88450.3125
28 79475.359375
29 71565.296875
30 64575.48046875
31 58381.3203125
32 52875.8046875
33 47975.5234375
34 43599.42578125
35 39682.44921875
36 36166.59375
37 33006.2265625
38 30160.912109375
39 27593.416015625
40 25272.05859375
41 23170.716796875
42 21265.34765625
43 19534.841796875
44 17961.2578125
45 16528.984375
46 15223.50390625
47 14032.513671875
48 12946.642578125
49 11952.9453125
50 11043.064453125
51 10208.759765625
52 9443.271484375
53 8741.6708984375
54 8096.90869140625
55 7503.69677734375
56 6957.56787109375
57 6454.23974609375
58 5990.2470703125
59 5562.08203125
60 5166.89892578125


367 0.00020567089086398482
368 0.00020027326536364853
369 0.00019474867440294474
370 0.00018893271044362336
371 0.00018315191846340895
372 0.00017795110761653632
373 0.00017330158152617514
374 0.00016887446690816432
375 0.00016444933135062456
376 0.00016027367382775992
377 0.00015628222899977118
378 0.000152921027620323
379 0.00014884283882565796
380 0.000144464589538984
381 0.0001412861602148041
382 0.00013760336150880903
383 0.00013451404811348766
384 0.00013101528747938573
385 0.00012788655294571072
386 0.00012495653936639428
387 0.00012195236922707409
388 0.00011911858746316284
389 0.00011645037739071995
390 0.0001136025384766981
391 0.00011095836816821247
392 0.00010884502262342721
393 0.00010686594760045409
394 0.00010434607247589156
395 0.00010191217734245583
396 9.946431237040088e-05
397 9.736104402691126e-05
398 9.51928595895879e-05
399 9.341337135992944e-05
400 9.130663966061547e-05
401 8.932248601922765e-05
402 8.7477543274872e-05
403 8.593798702349886e-05
404 8.424838597420

### Pytorch:nn
这次我们使用 pytorch 中的 nn 库来构建网络。使用 pytorch autograd 来构建计算图和计算 gradients，然后 pytorch 会帮我们自动计算 gradient。

In [17]:
import torch.nn as nn

N , D_IN , H , D_OUT = 64 , 1000, 100, 10 # 64个数据，输入时1000维 隐层100维 输出是10维的
# 随机创建一些训练数据
x = torch.randn(N,D_IN) # x = np.random.randn(N,D_IN)
y = torch.randn(N,D_OUT) # y = np.random.randn(N,D_OUT)

w1 = torch.randn(D_IN, H, requires_grad = True) # w1 = np.random.randn(D_IN,H)
w2 = torch.randn(H, D_OUT, requires_grad = True) # w2 = np.random.randn(H,D_OUT)
learning_rate = 1e-6

#搭建神经网络并训练
# 使用 nn 来搭建一个神经网络
model = torch.nn.Sequential(
    torch.nn.Linear(D_IN,H), # 默认是 y = w* x + b ,这里的 b 可以通过设置进行取消 bias = False
    torch.nn.ReLU(),
    torch.nn.Linear(H,D_OUT)
)
# 对模型进行初始化，可以提升训练效果
torch.nn.init.normal(model[0].weight) # model[0] 指的是第0层 
torch.nn.init.normal(model[2].weight) # model[2] 指的是第2层 


# 使用 GPU 来计算
# model = model.to_('cuda:0')
# model = model.cuda()
loss_fn = nn.MSELoss(reduction = 'sum') #这里只是 loss function 

for it in range(500):
    # Forward pass
    y_pred = model(x) # model 会直接 进行 forward pass  即model.forward()
    
    # Compute loss
    loss = loss_fn(y_pred , y) # 这里是一个 compute graph
    
    print(it,loss.item())
    
    # Backwrad pass
    loss.backward()
    
    # updata weight of w1 and w2
    # 所有的 tensor 的计算在 pytorch 里面都是一个 compute graph 计算图，有些简单的计算为了不要让计算图占内存，就进行处理
    with torch.no_grad():
        for param in model.parameters(): # 每个 param 包含两个参数（tensor，grad）
            param -= learning_rate * param.grad
    model.zero_grad()# 在计算下一次梯度之前先清零之前计算的梯度值，不然梯度值会进行累加       



0 32353590.0
1 30785086.0
2 34271972.0
3 36053032.0
4 31488762.0
5 21031004.0
6 11212498.0
7 5348658.5
8 2717670.5
9 1613997.25
10 1121900.875
11 864857.25
12 704982.8125
13 591283.1875
14 503704.15625
15 433212.84375
16 375167.59375
17 326726.09375
18 285919.75
19 251284.0
20 221721.796875
21 196348.34375
22 174454.09375
23 155473.4375
24 138946.234375
25 124491.2734375
26 111822.5859375
27 100665.5546875
28 90821.671875
29 82106.2265625
30 74369.3359375
31 67487.4140625
32 61361.48046875
33 55885.19921875
34 50975.4453125
35 46574.59765625
36 42612.68359375
37 39039.41796875
38 35818.38671875
39 32907.19140625
40 30264.646484375
41 27864.61328125
42 25683.224609375
43 23694.69140625
44 21880.07421875
45 20222.740234375
46 18705.994140625
47 17316.029296875
48 16042.826171875
49 14875.099609375
50 13803.2373046875
51 12817.318359375
52 11909.7158203125
53 11073.091796875
54 10301.09765625
55 9588.8037109375
56 8931.341796875
57 8322.8408203125
58 7759.982421875
59 7240.3662109375
60 6

370 0.0010253206128254533
371 0.0009889404755085707
372 0.0009556067525409162
373 0.0009259427315555513
374 0.0008944894652813673
375 0.0008652627002447844
376 0.0008358624763786793
377 0.000809226359706372
378 0.0007838204619474709
379 0.0007578371441923082
380 0.0007334807305596769
381 0.0007113913306966424
382 0.0006890497170388699
383 0.0006664707907475531
384 0.0006468904321081936
385 0.0006258089561015368
386 0.0006055851117707789
387 0.000588055292610079
388 0.0005701393238268793
389 0.0005525779561139643
390 0.0005362280644476414
391 0.0005190488300286233
392 0.0005058722454123199
393 0.000489954836666584
394 0.0004758589493576437
395 0.0004634462238755077
396 0.00044955970952287316
397 0.0004373863630462438
398 0.0004255702078808099
399 0.0004139919183216989
400 0.0004025536763947457
401 0.00039043862489052117
402 0.00038062490057200193
403 0.00037055820575915277
404 0.00036080676363781095
405 0.00035117409424856305
406 0.0003415191313251853
407 0.0003330720937810838
408 0.000

In [14]:
model

Sequential(
  (0): Linear(in_features=1000, out_features=100, bias=True)
  (1): ReLU()
  (2): Linear(in_features=100, out_features=10, bias=True)
)

### Pytorch ： optim
使用 optim 可以让我们不再手动更新模型的weights，而是使用 optim 这个包来帮助我们进行更新参数，optim 刻个package 提供了各种不同的模型的优化方法，包括 SGD + momentum ，RMSProp ， Adam

In [21]:
import torch.nn as nn

N , D_IN , H , D_OUT = 64 , 1000, 100, 10 # 64个数据，输入时1000维 隐层100维 输出是10维的
# 随机创建一些训练数据
x = torch.randn(N,D_IN) # x = np.random.randn(N,D_IN)
y = torch.randn(N,D_OUT) # y = np.random.randn(N,D_OUT)

w1 = torch.randn(D_IN, H, requires_grad = True) # w1 = np.random.randn(D_IN,H)
w2 = torch.randn(H, D_OUT, requires_grad = True) # w2 = np.random.randn(H,D_OUT)

#搭建神经网络并训练
# 使用 nn 来搭建一个神经网络
model = torch.nn.Sequential(
    torch.nn.Linear(D_IN,H), # 默认是 y = w* x + b ,这里的 b 可以通过设置进行取消 bias = False
    torch.nn.ReLU(),
    torch.nn.Linear(H,D_OUT)
)
# 对模型进行初始化，可以提升训练效果
#torch.nn.init.normal(model[0].weight) # model[0] 指的是第0层 
#torch.nn.init.normal(model[2].weight) # model[2] 指的是第2层 

learning_rate = 1e-4 # Adam 的 learning rate 在 1e-3 与 1e-4 之间
optimizer = torch.optim.Adam(model.parameters(),lr = learning_rate)

#learning_rate = 1e-6 # Adam 的 learning rate 在 1e-3 与 1e-4 之间
#optimizer = torch.optim.SGD(model.parameters(),lr = learning_rate)

''' 通过比较我们可以知道，当我们使用 Adam 进行有优化的时候，不需要进行 normal 的初始化。
    但是当我们使用 GD 或者 SGD 的方式进行优化的时候，就需要使用 normal 来进行初始化。
    而且 SGD 与 GD 对应的学习率在 1e-6 左右
    Adam 的学习率 在 1e-3 和 1e-4 之间'''


# 使用 GPU 来计算
# model = model.to_('cuda:0')
# model = model.cuda()
loss_fn = nn.MSELoss(reduction = 'sum') #这里只是 loss function 

for it in range(500):
    # Forward pass
    y_pred = model(x) # model 会直接 进行 forward pass  即model.forward()
    
    # Compute loss
    loss = loss_fn(y_pred , y) # 这里是一个 compute graph
    
    print(it,loss.item())
    
    optimizer.zero_grad()
    
    # Backwrad pass
    loss.backward()
    
    optimizer.step() #自动更新优化 model 的参数 



0 29691460.0
1 23905236.0
2 21827168.0
3 19923534.0
4 16831732.0
5 12794285.0
6 8798722.0
7 5673844.5
8 3581222.25
9 2305052.75
10 1553070.75
11 1107902.5
12 834538.5
13 657531.5625
14 535732.375
15 447027.5
16 379338.53125
17 325708.71875
18 282067.0
19 245834.9375
20 215434.640625
21 189602.859375
22 167506.09375
23 148467.96875
24 131996.21875
25 117671.6640625
26 105164.40625
27 94210.3671875
28 84593.8828125
29 76112.890625
30 68617.796875
31 61974.09765625
32 56068.21875
33 50820.0546875
34 46135.43359375
35 41944.5390625
36 38188.8203125
37 34820.7578125
38 31793.10546875
39 29066.21875
40 26605.142578125
41 24380.08203125
42 22366.669921875
43 20543.1953125
44 18890.076171875
45 17388.046875
46 16021.337890625
47 14775.4677734375
48 13638.421875
49 12600.4345703125
50 11651.359375
51 10782.16015625
52 9985.728515625
53 9255.9091796875
54 8586.06640625
55 7970.2275390625
56 7403.94140625
57 6882.5673828125
58 6401.9521484375
59 5958.94970703125
60 5549.83203125
61 5171.822265625

371 0.0007242393912747502
372 0.0006989868124946952
373 0.0006747244624421
374 0.000652264105156064
375 0.0006286889547482133
376 0.0006075476994737983
377 0.000586759124416858
378 0.0005687028751708567
379 0.0005481916014105082
380 0.000531013123691082
381 0.0005144558963365853
382 0.0004977902281098068
383 0.0004815594002138823
384 0.0004657046520151198
385 0.000450614548753947
386 0.00043737521627917886
387 0.00042350622243247926
388 0.0004101276572328061
389 0.000397602649172768
390 0.0003863891470246017
391 0.00037418658030219376
392 0.00036342578823678195
393 0.0003519885940477252
394 0.00034136418253183365
395 0.00033193526905961335
396 0.0003231581940781325
397 0.00031370166107080877
398 0.00030480825807899237
399 0.0002955725067295134
400 0.00028690704493783414
401 0.0002794731699395925
402 0.00027169371605850756
403 0.00026497666840441525
404 0.0002573724777903408
405 0.0002506297314539552
406 0.0002443937410134822
407 0.00023787820828147233
408 0.00023223826428875327
409 0.0

### Pttorch： 自定义 nn Mudules=s
我们可以自定义一个模型，这个模型继承自 nn.Module类。如果需要定义一个比 Sequential 模型更加复杂的模型，需要定义一个 nn.Module 模型。

In [28]:
import torch.nn as nn

N , D_IN , H , D_OUT = 64 , 1000, 100, 10 # 64个数据，输入时1000维 隐层100维 输出是10维的
# 随机创建一些训练数据
x = torch.randn(N,D_IN) # x = np.random.randn(N,D_IN)
y = torch.randn(N,D_OUT) # y = np.random.randn(N,D_OUT)

w1 = torch.randn(D_IN, H, requires_grad = True) # w1 = np.random.randn(D_IN,H)
w2 = torch.randn(H, D_OUT, requires_grad = True) # w2 = np.random.randn(H,D_OUT)

#搭建神经网络并训练
# 使用 nn 来搭建一个神经网络
class TwoLayersNet(torch.nn.Module):
    def __init__(self, D_IN, H, D_OUT):
        super(TwoLayersNet, self).__init__()
        self.linear1 = torch.nn.Linear(D_IN, H)
        self.linear2 = torch.nn.Linear(H, D_OUT)
    def forward(self,x):
        y_pred = self.linear2(self.linear1(x).clamp(min=0))
        return y_pred

model = TwoLayersNet(D_IN, H, D_OUT)

learning_rate = 1e-4 # Adam 的 learning rate 在 1e-3 与 1e-4 之间
optimizer = torch.optim.Adam(model.parameters(),lr = learning_rate)

loss_fn = nn.MSELoss(reduction = 'sum') #这里只是 loss function 

for it in range(500):
    # Forward pass
    y_pred = model(x) # model 会直接 进行 forward pass  即model.forward()
    
    # Compute loss
    loss = loss_fn(y_pred , y) # 这里是一个 compute graph
    print(it,loss.item())
    
    optimizer.zero_grad()
    
    # Backwrad pass
    loss.backward()
    
    optimizer.step() #自动更新优化 model 的参数 

0 654.1214599609375
1 637.0352172851562
2 620.4612426757812
3 604.3917236328125
4 588.8212280273438
5 573.7405395507812
6 559.1384887695312
7 544.9327392578125
8 531.1913452148438
9 517.7940063476562
10 504.76611328125
11 492.052490234375
12 479.7879943847656
13 468.01849365234375
14 456.622314453125
15 445.6759948730469
16 435.0380554199219
17 424.7362976074219
18 414.706298828125
19 404.9183349609375
20 395.40325927734375
21 386.1645812988281
22 377.1650390625
23 368.37506103515625
24 359.78350830078125
25 351.3839416503906
26 343.1648254394531
27 335.1298828125
28 327.2994384765625
29 319.64599609375
30 312.1800231933594
31 304.9039611816406
32 297.8355407714844
33 290.9017639160156
34 284.11480712890625
35 277.47515869140625
36 270.9679870605469
37 264.5984802246094
38 258.3965148925781
39 252.3294677734375
40 246.37327575683594
41 240.5294647216797
42 234.79444885253906
43 229.18128967285156
44 223.68307495117188
45 218.31863403320312
46 213.05484008789062
47 207.875
48 202.797592

353 1.659201006987132e-05
354 1.5358995369751938e-05
355 1.4218112482922152e-05
356 1.31590177261387e-05
357 1.2177442840766162e-05
358 1.1265841749263927e-05
359 1.042340591084212e-05
360 9.640795724408235e-06
361 8.91568106453633e-06
362 8.245240678661503e-06
363 7.622378689120524e-06
364 7.045795427984558e-06
365 6.511837455036584e-06
366 6.017488885845523e-06
367 5.559593773796223e-06
368 5.13656004841323e-06
369 4.743611498270184e-06
370 4.380435711937025e-06
371 4.04431148126605e-06
372 3.7337877074605785e-06
373 3.446306664045551e-06
374 3.1811439384910045e-06
375 2.93560151476413e-06
376 2.7077776394435205e-06
377 2.4980015496112173e-06
378 2.3036238872009562e-06
379 2.1243236005830113e-06
380 1.958789653144777e-06
381 1.8056764474749798e-06
382 1.6636812461001682e-06
383 1.5333076817114488e-06
384 1.4127970189292682e-06
385 1.3015263675697497e-06
386 1.1986941217401181e-06
387 1.1043530321330763e-06
388 1.01648095096607e-06
389 9.35533194024174e-07
390 8.610781492279784e-07
39