# 自动微分

利用框架的反向传播, 可以自动进行微分运算

> 根据设计好的模型, 系统会构建一个计算图(computational graph), 来跟踪计算是哪些数据通过哪些操作组合起来产生输出. 自动微分使系统能够随后反向传播梯度

In [6]:
import torch

x = torch.arange(4.0, requires_grad=True)
print("x: ", x)
print("Gradient of x: ", x.grad)

x:  tensor([0., 1., 2., 3.], requires_grad=True)
Gradient of x:  None


`requires_grad=True` 指的是需要计算梯度, 为True则会分配内存来存储梯度. 只会分配一次内存, 后续多次求导时只是更新这个内存, 不会重新分配内存

注意, 一个标量函数关于向量`x`的梯度是一个与`x`形状相同的向量

In [7]:
# y = 2 * x^T * x
y = 2 * torch.dot(x, x)
print("y", y, end="\n\n")

# x.grad should be 4 * x
y.backward()
print("Gradient of x: ", x.grad)
print("x.grad == 4 * x: \n", x.grad == 4 * x)
x.grad.zero_()  # Clear the gradient

y tensor(28., grad_fn=<MulBackward0>)

Gradient of x:  tensor([ 0.,  4.,  8., 12.])
x.grad == 4 * x: 
 tensor([True, True, True, True])


此时我们可以重新理解一下"反向传播"这个词的含义. 

可以发现，是先计算y的值, 然后再由计算图得知y的值是如何根据x而改变的，最后计算y关于x的梯度.
 
也就是说, 是先正向传播, 然后再反向传播