In [None]:
import torch 
import torchvision 
import torch.nn as nn
import numpy as np
import torchvision.transforms as transforms

# 1. autograd例子
# create tensors 创建张量

# requires_grad:设置为True是允许精细的排除子图 提高计算效率
x = torch.tensor(1.,requires_grad=True)
w = torch.tensor(2.,requires_grad=True)
b = torch.tensor(3.,requires_grad=True)

# 建立一个计算图
y = w*x + b 

# 计算梯度 
# 疑问：梯度是如何计算的？？？？
y.backward()
print(x.grad)
print(w.grad)
print(b.grad)



In [7]:
# 2. autograd例子

# 创建二维的tensor
# randn 表示从标准正态分布中抽取随机数
x = torch.randn(10,3)
y = torch.randn(10,2)

# 建立一个全连接层
linear = nn.Linear(3,2)
print('w: ',linear.weight)
print('b: ',linear.bias)


### 这里nn.linear的具体用法如下：
作用：是对输入的数据进行线性变换 y=wx+b
class torch.nn.Linear(in_features, out_features, bias=True)
参数说明：
    1. in_features : 每个输入样本的大小
    2. out_features: 每个输出样本的大小
    3. bias : 偏置项 默认为True 如果为False，则表示该层不学习偏置项

weight -形状为(out_features  in_features)的模块中可学习的权值
bias -形状为(out_features)的模块中可学习的偏置

In [10]:
# 建立一个损失函数和优化器
criterion = nn.MSELoss()
optimizer = torch.optim.SGD(linear.parameters(),lr=0.01)
# 前向传播，实际上就是将输入数据喂给神经网络
pred = linear(x)
# 计算损失
loss = criterion(pred,y)
print('loss:',loss.item())
# 反向传播
loss.backward()
print('dw',linear.weight.grad)
print('db',linear.weight.grad)
# 1-step gradient descent
optimizer.step()
pred = linear(x)
loss = criterion(pred,y)
print('梯度下降优化后的损失:',loss.item())


loss: 1.18735671043396
dw tensor([[-0.7171, -0.1047, -0.4131],
        [ 0.1479,  0.3800,  0.7006]])
db tensor([[-0.7171, -0.1047, -0.4131],
        [ 0.1479,  0.3800,  0.7006]])
梯度下降优化后的损失: 1.1687290668487549


以上代码，体现了经过反向传播后的损失得到减小，也就是梯度下降的作用。

### 下面讲解上述代码中出现的具体函数：
1. class torch.nn.MSELoss(size_average=True)
创建一个用来衡量输入数据X与目标Y之间的均方差标准：
$loss(x,y)=\frac{1}{n}\Sigma(x_i-y_i)^2$
    * x,y均为任意形状，每个包含n个元素
    * 如果设置参数size_average = False,则求出的x，y的差的平方和将不会除以n
2. class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)
用来实现随机梯度下降算法
    * params 待优化的参数的iterable（类似于这种单词不要试着翻译，直接记住英文，便于理解），或者是预先定义好参数组的dict
    * lr表示学习率
    * 其原参数可选
    