# 自动微分
:label:`sec_autograd`

正如我们在 :numref:`sec_calculus`中所说的那样，求导是几乎所有深度学习优化算法的关键步骤。
虽然求导的计算很简单，只需要一些基本的微积分。
但对于复杂的模型，手工进行更新是一件很痛苦的事情（而且经常容易出错）。

深度学习框架通过自动计算导数，即*自动微分*（automatic differentiation）来加快求导。
实际中，根据我们设计的模型，系统会构建一个*计算图*（computational graph），
来跟踪计算是哪些数据通过哪些操作组合起来产生输出。
自动微分使系统能够随后反向传播梯度。
这里，*反向传播*（backpropagate）意味着跟踪整个计算图，填充关于每个参数的偏导数。

**梯度的定义**：
函数在某点的梯度是一个向量——**方向与取得最大方向导数的方向一致,而它的模为方向导数的最大值**

## 一个简单的例子

作为一个演示例子，(**假设我们想对函数$y=2\mathbf{x}^{\top}\mathbf{x}$关于列向量$\mathbf{x}$求导**)。
首先，我们创建变量`x`并为其分配一个初始值。


In [1]:
import torch

x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

[**在我们计算$y$关于$\mathbf{x}$的梯度之前，我们需要一个地方来存储梯度。**]
重要的是，我们不会在每次对一个参数求导时都分配新的内存。
因为我们经常会成千上万次地更新相同的参数，每次都分配新的内存可能很快就会将内存耗尽。
注意，一个标量函数关于向量$\mathbf{x}$的梯度是向量，并且与$\mathbf{x}$具有相同的形状。


In [2]:
x.requires_grad_(True)  # 等价于x=torch.arange(4.0,requires_grad=True)，设置为需要求梯度
x.grad  # 默认值是None，所以不输出

x1 = torch.tensor([1,2,3,4,5])    #构建一个张量
print(x1.is_leaf) #注意，jupyter中True/False这两个bool值必须打印输出
print(x1.requires_grad)
print(x1.grad)
print(x1.grad_fn) #注意，jupyter中None必须打印输出

True
False
None
None


pytorch的计算图里只有两种元素：数据（tensor）和 运算（operation）
运算包括加减乘除、开方、幂指对、三角函数等可**求导运算**等
数据可分为：叶子节点（leaf node）和非叶子节点：叶子节点是用户创建的节点，不依赖其它节点。二者的区别：反向传播结束之后，非叶子节点的梯度会被释放掉，**只保留叶子节点的梯度，节省了内存**。如果想要保留非叶子节点的梯度，可以使用retain_grad()方法。
torch.tensor 具有如下属性（注意是属性，不是方法调用）：
1. 查看 是否可以求导 requires_grad
2. 查看 运算名称 grad_fn
3. 查看 是否为叶子节点 is_leaf
4. 查看 导数值 grad
针对requires_grad属性，自己定义的叶子节点默认为False，而非叶子节点默认为True，神经网络中的权重默认为True。判断哪些节点是True/False的一个原则就是从你需要求导的叶子节点到loss节点之间是一条可求导的通路。
Tensor是autograd包的核心类，若将其属性.requires_grad设置为True，它将开始追踪在其上的所有操作。完成计算后，可以调用 .backward()来完成所有梯度计算。此Tensor的梯度将累计到.grad属性中。若要停止追踪，则方法如下：
- 调用.detach()
- with torch.no_grad(): 包裹的代码块将不会被追踪

(**现在让我们计算$y$。**)


In [3]:
y = 2 * torch.dot(x, x)
print(y)
print(y.grad_fn)

tensor(28., grad_fn=<MulBackward0>)
<MulBackward0 object at 0x0000020EC362F400>


`x`是一个长度为4的向量，计算`x`和`x`的点积，得到了我们赋值给`y`的标量输出。参数中的grad_fn指向Function对象，用于反向传播的梯度计算之用。
接下来，我们[**通过调用反向传播函数来自动计算`y`关于`x`每个分量的梯度**]，并打印这些梯度。


In [4]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

函数$y=2\mathbf{x}^{\top}\mathbf{x}$关于$\mathbf{x}$的梯度（函数在某点的梯度是一个向量——**方向与取得最大方向导数的方向一致,而它的模为方向导数的最大值**）应为$4\mathbf{x}$。
让我们快速验证这个梯度是否计算正确。


In [5]:
x.grad == 4 * x

tensor([True, True, True, True])

[**现在让我们计算`x`的另一个函数。**]


In [6]:
# 在默认情况下，PyTorch会累积梯度，我们需要清除之前的值
x.grad.zero_()#梯度初始化，防止梯度累计
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

## 非标量变量的反向传播

当`y`不是标量时，向量`y`关于向量`x`的导数的最自然解释是一个矩阵。
对于高阶和高维的`y`和`x`，求导的结果可以是一个高阶张量。

然而，虽然这些更奇特的对象确实出现在高级机器学习中（包括[**深度学习中**]），
但当我们调用向量的反向计算时，我们通常会试图计算一批训练样本中每个组成部分的损失函数的导数。
这里(**，我们的目的不是计算微分矩阵，而是单独计算批量中每个样本的偏导数之和。**)

torch.autograd提供了类和函数用于对任意标量函数进行求导，要想使用自动求导，只需对已有代码稍作改变——将所有的tensor包含进Variable对象中即可
torch.autograd.backward()是计算向量或矩阵梯度的接口,参数说明:
- variables (variable 列表) – 被求微分的叶子节点
- grad_variables (Tensor 列表) – 对应variable的梯度。**仅当variable不是标量且需要求梯度的时候使用**。
- retain_variables (bool) – True,计算梯度时所需要的buffer在计算完梯度后不会被释放。如果想对一个子图多次求微分的话，需要设置为True。

In [17]:
# 对非标量调用backward需要传入一个gradient参数，该参数指定微分函数关于self的梯度。
# 在我们的例子中，我们只想求偏导数的和，所以传递一个1的梯度是合适的
x.grad.zero_()
y = x * x
# 等价于y.backward(torch.ones(len(x)))，对矢量y先求和再回溯每个叶子节点求梯度
print(y.sum())
print(type(y.sum())) #tensor(14., grad_fn=<SumBackward0>)，和是标量，因此无需参数grad_variables
y.sum().backward()
x.grad  #y对x的梯度，输出出来

tensor(14., grad_fn=<SumBackward0>)
<class 'torch.Tensor'>


tensor([0., 2., 4., 6.])

上面的情况中，y.sum()是一个标量，接下来我们看一下当backward函数的variables参数为一个矢量时，该如何求梯度。

In [23]:
x2 = torch.tensor([1.0,2.0,3.0],requires_grad=True)
y2 = (x2 + 2)**2
z2 = 4*y2
z2.backward(torch.tensor([2.,3.,4.]))#tensor参数是待求得x得梯度的系数
'''
不加tensor参数会报错：RuntimeError: grad can be implicitly created only for scalar outputs
提示，标量输出才能反向求导
'''
x2.grad

tensor([ 48.,  96., 160.])

pytorch在求导过程中，可分为以下两种情况：
1. 标量对向量求导，可以保证计算图的根节点只有一个，直接调用backward函数即可，无需`grad_tensors`参数
2. 向量/矩阵对向量/矩阵求导，实质：先求出**雅克比矩阵**中每一个元素值的求解过程，对应计算图的求解方法，然后将这个雅克比矩阵和`grad_tensors`参数对应矩阵进行**相应点乘**，得到最终结果

更多参考请见：https://wenku.baidu.com/view/24962b6a757f5acfa1c7aa00b52acfc789eb9ff5.html

## 分离计算

有时，我们希望[**将某些计算移动到记录的计算图之外**]。
例如，假设`y`是作为`x`的函数计算的，而`z`则是作为`y`和`x`的函数计算的。
想象一下，我们想计算`z`关于`x`的梯度，但由于某种原因，我们**希望将`y`视为一个常数，并且只考虑到`x`在`y`被计算后发挥的作用。**

在这里，我们可以分离`y`来返回一个新变量`u`，该变量与`y`具有相同的值，
但丢弃计算图中如何计算`y`的任何信息。
换句话说，梯度不会向后流经`u`到`x`。
因此，下面的反向传播函数计算`z=u*x`关于`x`的偏导数，同时**将`u`作为常数处理，而不是`z=x*x*x`关于`x`的偏导数**。

`detach`的中文意思是分离，官方解释是返回一个新的Tensor,从当前的计算图中分离出来，需要注意的是，返回的新Tensor和原Tensor共享一个存储空间


In [8]:
x.grad.zero_()
y = x * x
u = y.detach()
z = u * x

z.sum().backward()
x.grad == u

tensor([True, True, True, True])

由于记录了`y`的计算结果，我们可以随后在`y`上调用反向传播，
得到`y=x*x`关于的`x`的导数，即`2*x`。


In [9]:
x.grad.zero_()
y.sum().backward()
x.grad == 2 * x

tensor([True, True, True, True])

## Python控制流的梯度计算

使用自动微分的一个好处是：
[**即使构建函数的计算图需要通过Python控制流（例如，条件、循环或任意函数调用），我们仍然可以计算得到的变量的梯度**]。
在下面的代码中，`while`循环的迭代次数和`if`语句的结果都取决于输入`a`的值。


In [10]:
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

让我们计算梯度。


In [25]:
a = torch.randn(size=(), requires_grad=True) #torch.randn:用来生成随机数字的tensor，这些随机数字满足标准正态分布（0~1）
d = f(a)
d.backward()
d

tensor(1286.3048, grad_fn=<MulBackward0>)

我们现在可以分析上面定义的`f`函数。
请注意，它在其输入`a`中是分段线性的。
换言之，对于任何`a`，存在某个常量标量`k`，使得`f(a)=k*a`，其中`k`的值取决于输入`a`。
因此，我们可以用`d/a`验证梯度是否正确。


In [26]:
a.grad == d / a

tensor(True)

## 小结

* 深度学习框架可以自动计算导数：我们首先将梯度附加到想要对其计算偏导数的变量上。然后我们记录目标值的计算，执行它的反向传播函数，并访问得到的梯度。

## 练习

1. 为什么计算二阶导数比一阶导数的开销要更大？ 答：因为二阶导数的计算是在一阶导数的计算基础上进行的
1. 在运行反向传播函数之后，立即再次运行它，看看会发生什么。
答：调用backward（）进行第二次反向传播时，计算图中保存的中间值（这里我的理解是第一次求导后的值）已经被释放掉了，所以报错解决的方案：在backward()函数中设置参数`retain_graph=True`
1. 在控制流的例子中，我们计算`d`关于`a`的导数，如果我们将变量`a`更改为随机向量或矩阵，会发生什么？
1. 重新设计一个求控制流梯度的例子，运行并分析结果。
1. 使$f(x)=\sin(x)$，绘制$f(x)$和$\frac{df(x)}{dx}$的图像，其中后者不使用$f'(x)=\cos(x)$。


In [88]:
import torch
x = torch.arange(4.,requires_grad=True)
print(x)
#print(x**2)
y = 2 * torch.dot(x**2,torch.ones_like(x))
y.backward(retain_graph=True)
print(y)
print(x.grad)
print(x.grad==4*x)
x.grad.zero_()#如果没有这一行，会导致梯度累计
y.backward()
print(y)
'''
会报错
RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.
'''
print(x.grad)

tensor([0., 1., 2., 3.], requires_grad=True)
tensor(28., grad_fn=<MulBackward0>)
tensor([ 0.,  4.,  8., 12.])
tensor([True, True, True, True])
tensor(28., grad_fn=<MulBackward0>)
tensor([ 0.,  4.,  8., 12.])


[Discussions](https://discuss.d2l.ai/t/1759)


In [102]:
# 第3题
a = torch.randn(size=(3,1), requires_grad=True) #torch.randn:用来生成随机数字的tensor，这里size设置一二维长度
d = f(a)
print(a)
print(d)
'''
d.backward() 
会报错： RuntimeError: grad can be implicitly created only for scalar outputs
'''
d.sum().backward()

a.grad

tensor([[ 1.9808],
        [-0.1567],
        [ 0.9062]], requires_grad=True)
tensor([[1014.1636],
        [ -80.2131],
        [ 463.9852]], grad_fn=<MulBackward0>)


RuntimeError: grad can be implicitly created only for scalar outputs