## 10-torch的自动求导机制

参考资料：叶子节点和tensor的requires_grad参数 \
https://zhuanlan.zhihu.com/p/85506092

In [73]:
import torch
from torch.autograd import Function


# 计算
# y = a * (w + 1)

# 需要计算梯度-requires_grad=True
w = torch.tensor([1.], requires_grad=True)
x = torch.tensor([2.], requires_grad=True)

# 前向传播
a = torch.add(w, x)

# 保存非叶子节点a的梯度
# a.retain_grad()

b = torch.add(w, 1)
y = torch.mul(a, b)

# y = a * (w + 1)

# print(x1.is_leaf)
print(x.is_leaf)
print(w.is_leaf)

print(a.is_leaf)
print(b.is_leaf)

print(y.is_leaf)

# 反向传播-自动求导
y.backward()
print(w.grad)

# torch.Tensor
# np.ndarray

# 查看创建张良所使用的函数
print("grad_fn: \n ", w.grad_fn, x.grad_fn, a.grad_fn, b.grad_fn, y.grad_fn)

True
True
False
False
False
tensor([5.])
grad_fn: 
  None None <AddBackward0 object at 0x000001F8D4BFBA88> <AddBackward0 object at 0x000001F8D4C04A48> <MulBackward0 object at 0x000001F8D4C04AC8>


In [27]:
# x = 1
# saved_tensors e

# 0.1 * e
# 网络层数深，可能会引起梯度消失/爆炸的问题

class Exp(Function):                    # 此层计算e^x

    @staticmethod
    def forward(ctx, i):                # 模型前向
        result = i.exp()
        ctx.save_for_backward(result)   # 保存所需内容，以备backward时使用，所需的结果会被保存在saved_tensors元组中；此处仅能保存tensor类型变量，若其余类型变量（Int等），可直接赋予ctx作为成员变量，也可以达到保存效果
        return result

    @staticmethod
    def backward(ctx, grad_output):     # 模型梯度反传
        result, = ctx.saved_tensors     # 取出forward中保存的result
        return grad_output * result     # 计算梯度并返回

# 尝试使用
x = torch.tensor([1.], requires_grad=True)  # 需要设置tensor的requires_grad属性为True，才会进行梯度反传
ret = Exp.apply(x)                          # 使用apply方法调用自定义autograd function
print(ret)                                  # tensor([2.7183], grad_fn=<ExpBackward>)
ret.backward()                              # 反传梯度
print(x.grad)                               # tensor([2.7183])

tensor([2.7183], grad_fn=<ExpBackward>)
tensor([2.7183])


In [79]:
import torch
from torch.autograd import Function
 
# 类需要继承Function类，此处forward和backward都是静态方法
# 实现linear层

class MultiplyAdd(Function):  
                                                             
    @staticmethod                                  
    def forward(ctx, w, x, b):                 
        ctx.save_for_backward(w,x)    #保存参数,这跟前一篇的self.save_for_backward()是一样的
        output = w * x + b
        print("output", output)
        return output                        
         
    @staticmethod                                 
    def backward(ctx, grad_output):    #获取保存的参数,这跟前一篇的self.saved_variables()是一样的
        w,x = ctx.saved_variables  

        grad_w = grad_output * x
        grad_x = grad_output * w
        grad_b = grad_output * 1
        print("=======================================")
        print("z_pred2",grad_output)
        print("=======================================")
        return grad_w, grad_x, grad_b  # backward输入参数和forward输出参数必须一一对应

x = torch.ones(1,requires_grad=True)  # x 是1，所以grad_w=1
w = torch.rand(1,requires_grad=True)  # w 是随机的，所以grad_x=随机的一个数
b = torch.rand(1,requires_grad=True)  # grad_b 恒等于1


w2 = torch.rand(1,requires_grad=True)  # w 是随机的，所以grad_x=随机的一个数
b2 = torch.rand(1,requires_grad=True)  # grad_b 恒等于1



print('开始前向传播')
z_pred = MultiplyAdd.apply(w, x, b)   # forward,这里的前向传播是不一样的，这里没有使用函数去包装自定义的类，而是直接使用apply方法
z_pred.retain_grad()

# for i in range(200):
#     w2 = torch.rand(1,requires_grad=True)  # w 是随机的，所以grad_x=随机的一个数
#     b2 = torch.rand(1,requires_grad=True)  # grad_b 恒等于1
#     z_pred2=MultiplyAdd.apply(w2, z_pred2, b2)   # forward,这里的前向传播是不一样的，这里没有使用函数去包装自定义的类，而是直接使用apply方法


z_pred2=MultiplyAdd.apply(w2, z_pred, b2)   # forward,这里的前向传播是不一样的，这里没有使用函数去包装自定义的类，而是直接使用apply方法
print("完成, z_pred2 = ",z_pred2)

print('相当于默认z_true=0时，开始反向传播')
z_pred2.backward()                   # backward


# print("z_pred.grad", z_pred.grad)

print(x.grad, w.grad, b.grad)

开始前向传播
output tensor([1.0843])
output tensor([0.6369])
完成, z_pred2 =  tensor([0.6369], grad_fn=<MultiplyAddBackward>)
相当于默认z_true=0时，开始反向传播
z_pred2 tensor([1.])
z_pred2 tensor([0.5330])
tensor([0.3967]) tensor([0.5330]) tensor([0.5330])




In [82]:
import torch.nn as nn

class SelfDefinedRelu(torch.autograd.Function):
    @staticmethod
    def forward(ctx, inp):
        ctx.save_for_backward(inp)
        return torch.where(inp < 0., torch.zeros_like(inp), inp)
    
    @staticmethod
    def backward(ctx, grad_output):
        inp, = ctx.saved_tensors
        print("grad_output:\n",grad_output)
        print("torch.where：\n,", torch.where(inp < 0, torch.zeros_like(inp),
                                         torch.ones_like(inp)))
        return grad_output * torch.where(inp < 0, torch.zeros_like(inp),
                                         torch.ones_like(inp))

class Relu(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, x):
        out = SelfDefinedRelu.apply(x)
        return out

In [86]:
import numpy as np

torch.relu(..)

relu = torch.nn.RELU()
relu(...)

np_in = np.array([-5])
tensor_in = torch.tensor(np_in)
# 也可以这样：tensor_in = torch.tensor([-5])

'''
拓展阅读（不要求记住，因为只是作为一个工具的拓展使用参考，实际使用时可随时查阅）：
torch.tensor()和torch.Tensor()的区别
https://blog.csdn.net/weixin_42018112/article/details/91383574
'''

# (0,1) - 0.5 -> (-0.5, 0.5)
inp = torch.rand(10,requires_grad=True) - 0.5

net = Relu()

# output1 = net(tensor_in)
output2 = net(inp)
print(output2.sum())
# 只有标量才能反向传播
# output2.backward()
output2.sum().backward()

# print("",output1)
print("output2: \n",output2)

tensor(0.6382, grad_fn=<SumBackward0>)
grad_output:
 tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])
torch.where：
, tensor([0., 1., 0., 0., 0., 0., 1., 0., 1., 0.])
output2: 
 tensor([0.0000, 0.2010, 0.0000, 0.0000, 0.0000, 0.0000, 0.3184, 0.0000, 0.1188,
        0.0000], grad_fn=<SelfDefinedReluBackward>)


In [80]:
a = torch.rand(2,2)

# a
# [[0, 0],
#  [1, 0]]

# zeros_like a
# [[0, 0],
#  [0, 0]]

# ones_like a
# [[1, 1],
#  [1, 1]]

torch_where = torch.where(a < 0.5, torch.zeros_like(a), torch.ones_like(a))

print(a)
print(torch_where)

tensor([[0.2754, 0.0739],
        [0.6594, 0.2331]])
tensor([[0., 0.],
        [1., 0.]])


进行运算： $f(x) = ax^2 + bx + c$

$df/dx = 2ax + b$

In [69]:
# f(x) = a*x**2 + b*x + c
# 需要被求导

x = torch.tensor([[0.0,0.0],[1.0,2.0]],requires_grad =True)# x
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a*torch.pow(x,2)+ b*x + c

In [70]:
print("x:",x)
print("y:",y)

# RuntimeError: grad can be implicitly created only for scalar outputs
# y.backward()

y.sum().backward()

dy_dx = x.grad
print(dy_dx)

x: tensor([[0., 0.],
        [1., 2.]], requires_grad=True)
y: tensor([[1., 1.],
        [0., 1.]], grad_fn=<AddBackward0>)
tensor(3., grad_fn=<SumBackward0>)
tensor([[-2., -2.],
        [ 0.,  2.]])


输出：
x: tensor([[0.,0.],
[1.,2.]], requires_grad=True)
y: tensor([[1.,1.],
[0.,1.]], grad_fn=<AddBackward0>)
x_grad:
 tensor([[-2.,-2.],
[0.,2.]])

### 求以下函数的二阶导数：$$f(x) = ax^2 + bx + c$$

In [71]:
# 求 f(x) = a*x**2 + b*x + c

x = torch.tensor(0.0,requires_grad =True)# x
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)
y = a*torch.pow(x,2)+ b*x + c

# 设置为将允许创建更⾼阶的导数
# create_graph  = True 

dy_dx = torch.autograd.grad(y,x,create_graph=True)[0]
print(dy_dx.data)

# 求⼆阶导数
dy2_dx2 = torch.autograd.grad(dy_dx,x)[0]
print(dy2_dx2.data)

tensor(-2.)
tensor(2.)


In [72]:
import numpy as np 
import torch 

# 需要被求导
x1 = torch.tensor(1.0,requires_grad =True)# x
x2 = torch.tensor(2.0,requires_grad =True)
y1 = x1*x2
y2 = x1+x2

y1.retain_grad()
y2.retain_grad()

# 允许同时对多个⾃变量求导数
(dy1_dx1,dy1_dx2)= torch.autograd.grad(outputs=y1,
                inputs =[x1,x2],retain_graph =True)
print(dy1_dx1,dy1_dx2)

# 如果有多个因变量，相当于把多个因变量的梯度结果求和

print(y1.is_leaf, y2.is_leaf)
print(y1.grad,y2.grad)

(dy12_dx1,dy12_dx2)= torch.autograd.grad(outputs=[y1,y2],
            inputs =[x1,x2])
print(dy12_dx1,dy12_dx2)

tensor(2.) tensor(1.)
False False
tensor(1.) None
tensor(3.) tensor(2.)
