In [1]:
import torch

# 反向传播
即误差反向传播，是训练神经网络的重要方法。

参照tensor.ipynb所写的一个简单的例子

建议观看视频[【官方双语】深度学习之反向传播算法 上/下 Part 3 ver 0.9 beta](https://www.bilibili.com/video/BV16x411V7Qg/?spm_id_from=333.788.recommend_more_video.-1&vd_source=3b0e33a626cf5e45835cac5d91093908)

In [9]:
# 首先我们得有训练样本X，Y， 这里我们随机生成
x = torch.rand(20, 1) * 10
y = 2 * x + (5 + torch.randn(20, 1))

# 构建线性回归函数的参数
w = torch.randn((1), requires_grad=True)
b = torch.zeros((1), requires_grad=True)   # 这俩都需要求梯度

# 设置学习率lr为0.1
lr = 0.1

for iteration in range(10):
    # 前向传播
    wx = torch.mul(w, x) #将两张量中元素
    y_pred = torch.add(wx, b)

    
    # 计算loss
    loss = (0.5 * (y-y_pred)**2).mean()
    print("*"*60)
    print(f"第{iteration}次反向传播前的梯度为:")
    try:
        print(w.grad.data,b.grad.data)
    except :
        print("梯度不存在")
    # 反向传播
    loss.backward()
    print(f"第{iteration}次反向传播后的梯度为:")
    print(w.grad.data,b.grad.data)
    print("*"*60)
    # 更新参数
    b.data.sub_(lr * b.grad)    # 这种_的加法操作时从自身减，相当于-=
    w.data.sub_(lr * w.grad)

    # 梯度清零
    w.grad.data.zero_()
    b.grad.data.zero_()

print(w.data, b.data)

************************************************************
第0次反向传播前的梯度为:
梯度不存在
第0次反向传播后的梯度为:
tensor([-142.1652]) tensor([-20.8274])
************************************************************
************************************************************
第1次反向传播前的梯度为:
tensor([0.]) tensor([0.])
第1次反向传播后的梯度为:
tensor([457.2488]) tensor([62.5591])
************************************************************
************************************************************
第2次反向传播前的梯度为:
tensor([0.]) tensor([0.])
第2次反向传播后的梯度为:
tensor([-1468.1261]) tensor([-205.1958])
************************************************************
************************************************************
第3次反向传播前的梯度为:
tensor([0.]) tensor([0.])
第3次反向传播后的梯度为:
tensor([4716.3101]) tensor([654.9400])
************************************************************
************************************************************
第4次反向传播前的梯度为:
tensor([0.]) tensor([0.])
第4次反向传播后的梯度为:
tensor([-15148.5762]) tensor([-2107.7957])
**

可以看到，参数在经过反向传播后获得了梯度。
但是有个问题，torch是怎么知道该计算谁的梯度呢


通过查询资料可以得知，torch.backward()默认情况下只累积叶子节点张量的梯度

In [3]:
# 首先我们得有训练样本X，Y， 这里我们随机生成
x = torch.rand(20, 1) * 10
y = 2 * x + (5 + torch.randn(20, 1))

# 构建线性回归函数的参数
w = torch.randn((1), requires_grad=True)
b = torch.zeros((1), requires_grad=True)   # 这俩都需要求梯度
wx = torch.mul(w, x) #将两张量中元素
y_pred = torch.add(wx, b)

print("x is leaf:",x.is_leaf)
print("y is leaf:",y.is_leaf)
print("w is leaf:",w.is_leaf)
print("b is leaf:",b.is_leaf)
print("wx is leaf:",wx.is_leaf)
print("y_pred is leaf:",y_pred.is_leaf)

x is leaf: True
y is leaf: True
w is leaf: True
b is leaf: True
wx is leaf: False
y_pred is leaf: False


那是不是意味着x,y同样也获得了梯度呢

In [4]:
# 首先我们得有训练样本X，Y， 这里我们随机生成
x = torch.rand(20, 1) * 10
y = 2 * x + (5 + torch.randn(20, 1))

# 构建线性回归函数的参数
w = torch.randn((1), requires_grad=True)
b = torch.zeros((1), requires_grad=True)   # 这俩都需要求梯度

# 设置学习率lr为0.1
lr = 0.1

for iteration in range(10):
    # 前向传播
    wx = torch.mul(w, x) #将两张量中元素
    y_pred = torch.add(wx, b)

    
    # 计算loss
    loss = (0.5 * (y-y_pred)**2).mean()
    print("*"*60)
    print(f"第{iteration}次反向传播前的梯度为:")
    try:
        print(w.grad.data,b.grad.data,x.grad.data,y.grad.data)
    except :
        print("梯度不存在")
    # 反向传播
    loss.backward()
    print(f"第{iteration}次反向传播后的梯度为:")
    print(w.grad.data,b.grad.data)
    print(x.grad.data,y.grad.data)
    print("*"*60)
    # 更新参数
    b.data.sub_(lr * b.grad)    # 这种_的加法操作时从自身减，相当于-=
    w.data.sub_(lr * w.grad)

    # 梯度清零
    w.grad.data.zero_()
    b.grad.data.zero_()

print(w.data, b.data)

************************************************************
第0次反向传播前的梯度为:
梯度不存在
第0次反向传播后的梯度为:
tensor([-21.9943]) tensor([-5.3803])


AttributeError: 'NoneType' object has no attribute 'data'

显然不太行，发现w,b后面有requires_grad，那如果去掉是不是连w,b也没法求梯度了呢？

In [5]:
# 首先我们得有训练样本X，Y， 这里我们随机生成
x = torch.rand(20, 1) * 10
y = 2 * x + (5 + torch.randn(20, 1))

# 构建线性回归函数的参数
w = torch.randn((1), requires_grad=False)
b = torch.zeros((1), requires_grad=False)   # 这俩都需要求梯度

# 设置学习率lr为0.1
lr = 0.1

for iteration in range(10):
    # 前向传播
    wx = torch.mul(w, x) #将两张量中元素
    y_pred = torch.add(wx, b)

    
    # 计算loss
    loss = (0.5 * (y-y_pred)**2).mean()
    print("*"*60)
    print(f"第{iteration}次反向传播前的梯度为:")
    try:
        print(w.grad.data,b.grad.data,x.grad.data,y.grad.data)
    except :
        print("梯度不存在")
    # 反向传播
    loss.backward()
    print(f"第{iteration}次反向传播后的梯度为:")
    print(w.grad.data,b.grad.data)
    print(x.grad.data,y.grad.data)
    print("*"*60)
    # 更新参数
    b.data.sub_(lr * b.grad)    # 这种_的加法操作时从自身减，相当于-=
    w.data.sub_(lr * w.grad)

    # 梯度清零
    w.grad.data.zero_()
    b.grad.data.zero_()

print(w.data, b.data)

************************************************************
第0次反向传播前的梯度为:
梯度不存在


RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

确实，那么如果我们为x,y也加入requires_grad=True ，那是不是意味着x,y同样也能获取梯度呢

In [6]:
# 首先我们得有训练样本X，Y， 这里我们随机生成
x = torch.rand(20, 1, requires_grad=True)
y = 2 * x + (5 + torch.randn(20, 1, requires_grad=True))

# 构建线性回归函数的参数
w = torch.randn((1), requires_grad=True)
b = torch.zeros((1), requires_grad=True)   # 这俩都需要求梯度

# 设置学习率lr为0.1
lr = 0.1

for iteration in range(10):
    # 前向传播
    wx = torch.mul(w, x) #将两张量中元素
    y_pred = torch.add(wx, b)

    
    # 计算loss
    loss = (0.5 * (y-y_pred)**2).mean()
    print("*"*60)
    print(f"第{iteration}次反向传播前的梯度为:")
    try:
        print(w.grad.data,b.grad.data)
    except :
        print("梯度不存在")
    # 反向传播
    loss.backward()
    print(f"第{iteration}次反向传播后的梯度为:")
    print(w.grad.data,b.grad.data)
    print("*"*60)
    # 更新参数
    b.data.sub_(lr * b.grad)    # 这种_的加法操作时从自身减，相当于-=
    w.data.sub_(lr * w.grad)

    # 梯度清零
    w.grad.data.zero_()
    b.grad.data.zero_()

print(w.data, b.data)

************************************************************
第0次反向传播前的梯度为:
梯度不存在
第0次反向传播后的梯度为:
tensor([-3.9470]) tensor([-6.2540])
************************************************************
************************************************************
第1次反向传播前的梯度为:
tensor([0.]) tensor([0.])


RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.

出现了些奇怪的错误，报错的意思就是，因为某个带有梯度信息的变量在被执行了一次后，这些梯度信息就被计算图释放掉了，而我们的代码却尝试第二次反向传播的时候来访问这些变量(梯度信息)。

在查询资料后发现在backward后添加retain_graph=True就可以在每次反向传播后暂时保留中间节点的梯度值，

In [7]:
# 首先我们得有训练样本X，Y， 这里我们随机生成
x = torch.rand(20, 1, requires_grad=True)

y = 2 * x + (5 + torch.randn(20, 1, requires_grad=True))

# 构建线性回归函数的参数
w = torch.randn((1), requires_grad=True)
b = torch.zeros((1), requires_grad=True)   # 这俩都需要求梯度

# 设置学习率lr为0.1
lr = 0.1

for iteration in range(10):
    # 前向传播
    wx = torch.mul(w, x) #将两张量中元素
    y_pred = torch.add(wx, b)

    
    # 计算loss
    loss = (0.5 * (y-y_pred)**2).mean()

    print("*"*60)
    print(f"第{iteration}次反向传播前的梯度为:")
    try:
        print(w.grad.data,b.grad.data,x.grad.data,y.grad.data)
    except :
        print("梯度不存在")
    # 反向传播
    loss.backward(retain_graph=True)
    print(f"第{iteration}次反向传播后的梯度为:")
    t = x.grad.data if x.grad != None  else None
    t1 = y.grad.data if y.grad != None else None
    print(w.grad.data,b.grad.data,t,t1)
    print("*"*60)
    # 更新参数
    b.data.sub_(lr * b.grad)    # 这种_的加法操作时从自身减，相当于-=
    w.data.sub_(lr * w.grad)

    # 梯度清零
    w.grad.data.zero_()
    b.grad.data.zero_()

print(w.data, b.data)

************************************************************
第0次反向传播前的梯度为:
梯度不存在
第0次反向传播后的梯度为:
tensor([-3.4236]) tensor([-5.9324]) tensor([[0.3802],
        [0.4118],
        [0.3724],
        [0.5003],
        [0.3666],
        [0.3428],
        [0.4192],
        [0.3371],
        [0.4389],
        [0.4398],
        [0.4621],
        [0.5241],
        [0.4327],
        [0.5485],
        [0.4095],
        [0.4476],
        [0.3266],
        [0.3738],
        [0.4188],
        [0.4678]]) None
************************************************************
************************************************************
第1次反向传播前的梯度为:
梯度不存在
第1次反向传播后的梯度为:
tensor([-2.9584]) tensor([-5.1490]) tensor([[0.6334],
        [0.6851],
        [0.6225],
        [0.8326],
        [0.6112],
        [0.5539],
        [0.6993],
        [0.5525],
        [0.7277],
        [0.7272],
        [0.7623],
        [0.8761],
        [0.7213],
        [0.9152],
        [0.6844],
        [0.7407],
        [0.5300],
     

  return self._grad


未经过任何计算的x有了梯度，而经过计算的y没有，那么会是这个原因吗

In [8]:
# 首先我们得有训练样本X，Y， 这里我们随机生成
x = torch.rand(20, 1, requires_grad=True) +6

y = 2 * x + (5 + torch.randn(20, 1, requires_grad=True))

# 构建线性回归函数的参数
w = torch.randn((1), requires_grad=True)
b = torch.zeros((1), requires_grad=True)   # 这俩都需要求梯度

# 设置学习率lr为0.1
lr = 0.1

for iteration in range(10):
    # 前向传播
    wx = torch.mul(w, x) #将两张量中元素
    y_pred = torch.add(wx, b)

    
    # 计算loss
    loss = (0.5 * (y-y_pred)**2).mean()

    print("*"*60)
    print(f"第{iteration}次反向传播前的梯度为:")
    try:
        print(w.grad.data,b.grad.data,x.grad.data,y.grad.data)
    except :
        print("梯度不存在")
    # 反向传播
    loss.backward(retain_graph=True)
    print(f"第{iteration}次反向传播后的梯度为:")
    t = x.grad.data if x.grad != None  else None
    t1 = y.grad.data if y.grad != None else None
    print(w.grad.data,b.grad.data,t,t1)
    print("*"*60)
    # 更新参数
    b.data.sub_(lr * b.grad)    # 这种_的加法操作时从自身减，相当于-=
    w.data.sub_(lr * w.grad)

    # 梯度清零
    w.grad.data.zero_()
    b.grad.data.zero_()

print(w.data, b.data)

************************************************************
第0次反向传播前的梯度为:
梯度不存在
第0次反向传播后的梯度为:
tensor([-111.6310]) tensor([-17.1766]) None None
************************************************************
************************************************************
第1次反向传播前的梯度为:
梯度不存在
第1次反向传播后的梯度为:
tensor([370.2808]) tensor([56.9763]) None None
************************************************************
************************************************************
第2次反向传播前的梯度为:
梯度不存在
第2次反向传播后的梯度为:
tensor([-1228.2245]) tensor([-188.9895]) None None
************************************************************
************************************************************
第3次反向传播前的梯度为:
梯度不存在
第3次反向传播后的梯度为:
tensor([4074.0305]) tensor([626.8811]) None None
************************************************************
************************************************************
第4次反向传播前的梯度为:
梯度不存在
第4次反向传播后的梯度为:
tensor([-13513.5918]) tensor([-2079.3682]) None None
********************************

给x加点东西，发现真的没法计算梯度了。

那么如何计算参数梯度的前提要求就已经确定了
1. 使用torch定义一个未经过运算的张量
2. 为张量设定requires_grad=True
3. 确保张量为叶节点

实操部分结束，那么该回到枯燥的理论部分了
<p id = "end"><p>

[返回深度学习笔记](../../深度学习.md)

[直接前往反向传播部分](./torch_basic_backward.ipynb)