# PyTorch 自动求梯度
## 基本常识
pytorch 会自动将一个变量的变换流程记录为 DAG，然后根据链式法则和反向传播算法求梯度
求梯度的函数返回是一个常数，一般不允许 Tensor 求 Tensor 的梯度

In [4]:
# 求 out1 相对 x 的梯度，结果记录在 x.grad 里面
import torch

x = torch.ones(3, 4, requires_grad=True)
out1 = (3*x*x).sum()
out1.backward()
print(x.grad)

tensor([[6., 6., 6., 6.],
        [6., 6., 6., 6.],
        [6., 6., 6., 6.]])


In [5]:
# 求 out1 相对 x 的梯度，结果记录在 x.grad 里面
# 必须先清空 x 的梯度，否则会叠加
x.grad.data.zero_()
out2 = (2*x*x).sum()
out2.backward()
print(x.grad)

tensor([[4., 4., 4., 4.],
        [4., 4., 4., 4.],
        [4., 4., 4., 4.]])


## 如何不记录梯度

In [9]:
# 实际中可能会有一部分计算不想计入求梯度过程中，比如预测过程，此时需要设置
x = torch.ones(3, 4, requires_grad=True)
y = 3*x*x + 2*x
with torch.no_grad():
    y += 2*x
out1 = y.sum()
out1.backward()
print(x.grad)

tensor([[8., 8., 8., 8.],
        [8., 8., 8., 8.],
        [8., 8., 8., 8.]])
