## 1. 自动求导
深度学习框架通过自动计算导数，**即自动求导（automatic differentiation）**，加快求导速度。自动求导使系统能够随后反向传播梯度。这里，**方向传播（backpropagate）**只是意味着跟踪整个计算图，填充关于每个参数的偏导数。

**计算图（computational graph）**：跟踪计算是哪些数据通过哪些操作组合起来产生输出。

### 1.1 标量变量的反向传播
* 标量函数关于向量**x**的梯度是**向量**，并且与**x**具有相同的形状

In [1]:
import torch

x = torch.tensor([0., 1, 2, 4])
x

tensor([0., 1., 2., 4.])

如果一个张量需要我们为它计算梯度，需要将张量的requires_grad属性设置为True，那么调用backward()方法时反向传播计算梯度，计算完梯度后这个梯度并不一定会一直保存在属性grad中，只有对于requires_grad=True的叶子张量，才会将梯度一直保存在该叶子张量的grad属性中，对于非叶子节点，即中间节点的张量，在计算完梯度之后为了更搞笑地利用内存，会将梯度grad的内存释放掉

In [2]:
x.requires_grad_(True) # 等价于 `x = torch.arange(4.0, requires_grad=Tue)`
print(x)
x.grad # 默认值是None

tensor([0., 1., 2., 4.], requires_grad=True)


In [3]:
y = 2 * torch.dot(x, x) # 标量函数的梯度是向量，并且与x具有相同的形状
y

tensor(42., grad_fn=<MulBackward0>)

函数y = 2$x^{T}$x关于x的梯度应为4x

In [4]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 16.])

In [5]:
x.grad == 4 * x # 验证梯度是否计算正确

tensor([True, True, True, True])

In [6]:
x.grad.zero_() # 在默认情况下，PyTorch会累积梯度，下次计算前需要清除

tensor([0., 0., 0., 0.])

In [7]:
y = x.sum()
y

tensor(7., grad_fn=<SumBackward0>)

In [8]:
y.backward()
x.grad

tensor([1., 1., 1., 1.])

### 1.2 非标量变量的反向传播
* 向量y关于向量x的导数是一个矩阵，而对于高阶和高维的y和x，求导的结果可能是一个高阶张量。

试图计算一批训练样本中每个组成部分的损失函数的导数，目的是为了得到批量中每个样本单独计算的偏导数之和

In [9]:
# 对非标量调用`backward`函数需要传入一个`gradient`参数，该参数指定微分函数关于`self`的梯度。
# 由于当前只想求偏导数的和，故传递一个1的梯度，比较合适
x.grad.zero_() # 清楚之前的梯度值
y = x * x
y, y.shape

(tensor([ 0.,  1.,  4., 16.], grad_fn=<MulBackward0>), torch.Size([4]))

In [10]:
y.sum().backward()  # y.backward(torch.ones(len(x)))
x.grad

tensor([0., 2., 4., 8.])

### 1.3 分离计算
假如y是作为x的函数计算的，而z是作为y和x的函数计算，但是由于某种原因，需将y视为常数，此时，需要分离y来返回一个新变量u，该变量与y具有相同的值，但丢弃计算图中如何计算y的任何信息。

In [11]:
x.grad.zero_()
y = x * x
u = y.detach() # 分离y，将返回值赋值给新变量u，该变量与y具有相同的值
z = u * x # 计算z关于x的梯度时，会将u作为常数处理
z.sum().backward()
x.grad == u

tensor([True, True, True, True])

In [12]:
# y的计算结果已经记录
x.grad.zero_()
y.sum().backward()
x.grad == 2 * x

tensor([True, True, True, True])

### 1.4 Python控制流的梯度计算
即使构建函数的计算图需要通过Python控制流（条件、循环或任意函数调用），我们仍然可以计算得到的变量的梯度

In [13]:
def f(a):
    b = a * 2
    while b.norm() < 1000: # 返回所给tensor的矩阵范数或向量范数
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
        
    return c

In [26]:
a = torch.randn(size=(), requires_grad = True)
d = f(a)
d.backward()
a, d

(tensor(0.6553, requires_grad=True), tensor(1342.1163, grad_fn=<MulBackward0>))

In [27]:
a.grad == d / a

tensor(True)