# 自动求导

假设我们想对函数 $y = 2\mathbf{x}^{\top}\mathbf{x}$关于列向量 $\mathbf{x}$求导

In [1]:
import torch

x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

等价于：↓

In [2]:
x2 = torch.arange(4.0, requires_grad=True)
x2

tensor([0., 1., 2., 3.], requires_grad=True)

在我们计算$y$关于$\mathbf{x}$的梯度之前，我们需要一个地方来存储梯度

In [3]:
# 等价于 x = torch.arange(4.0, requires_grad=True)
x.requires_grad_(True)
# x.grad 存储了x的梯度
x.grad

现在让我们计算 $y$

In [4]:
# 此处，y是标量
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

通过调用反向传播函数来自动计算`y`关于`x` 每个分量的梯度
- Notice: 标量对向量求导，结果为向量！！！

In [5]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

In [6]:
x.grad == 4 * x

tensor([True, True, True, True])

现在让我们计算 `x` 的另一个函数
- 在默认情况下，PyTorch会累积梯度，我们需要清除之前的值。

- Notice: PyTorch中，带下划线的函数（例如 `zero_()`）表示重写内容

In [7]:
x.sum()

tensor(6., grad_fn=<SumBackward0>)

In [8]:
x.grad.zero_()

y = x.sum()

y.backward()
x.grad

tensor([1., 1., 1., 1.])

深度学习中，我们的目的不是计算微分矩阵，而是批量中每个样本单独计算的偏导数之和，所以先做一个sum操作，将y转换为标量，之后再求导，得到标量关于向量的导数，结果为向量，而不是矩阵。

In [9]:
x.grad.zero_()

# 此处，y是向量
y = x * x

# 等价于 y.backward(torch.ones(len(x)))
y.sum().backward()

# 向量对向量求导的结果是矩阵
x.grad

tensor([0., 2., 4., 6.])

将某些计算移动到记录的计算图之外

.detach()返回一个新的tensor，从当前计算图中分离下来的，但是仍指向原变量的存放位置，不同之处只是requires_grad为false，得到的这个tensor永远不需要计算其梯度，不具有grad。即使之后重新将它的requires_grad置为true，它也不会具有梯度grad

这样就会继续使用这个新的tensor进行计算，后面进行反向传播时，调用detach()的tensor就会停止，不能再继续向前进行传播。

注意：使用detach返回的tensor和原始的tensor共同一个内存，即一个修改另一个也会跟着改变

---
参考：https://blog.csdn.net/qq_27825451/article/details/95498211

In [10]:
x.grad.zero_()
y = x * x

u = y.detach()
z = u * x

z.sum().backward()
x.grad == u

tensor([True, True, True, True])

In [11]:
x.grad.zero_()

y.sum().backward()

x.grad == 2 * x

tensor([True, True, True, True])

即使构建函数的计算图需要通过 Python控制流（例如，条件、循环或任意函数调用），我们仍然可以计算得到的变量的梯度

In [12]:
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

# 不指定size，则表示标量
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

a.grad == d / a

tensor(True)