In [1]:
%matplotlib inline
import numpy as np
from matplotlib_inline import backend_inline
from d2l import torch as d2l

In [2]:
def f(x):
    return 3 * x ** 2 - 4 * x

In [5]:
def numerical_lim(f, x, h):
    return (f(x + h) - f(x))/h

h = 0.1
for i in range(5):
    print(f'h={h:.5f}, numerical limit={numerical_lim(f, 1, h):.5f}')
    h *= 0.1

h=0.10000, numerical limit=2.30000
h=0.01000, numerical limit=2.03000
h=0.00100, numerical limit=2.00300
h=0.00010, numerical limit=2.00030
h=0.00001, numerical limit=2.00003


# 自动微分
深度学习框架通过自动计算导数，即自动微分（automatic differentiation）来加快求导。 实际中，根据设计好的模型，系统会构建一个计算图（computational graph）， 来跟踪计算是哪些数据通过哪些操作组合起来产生输出。 自动微分使系统能够随后反向传播梯度。 这里，反向传播（backpropagate）意味着跟踪整个计算图，填充关于每个参数的偏导数。

## 一个简单的例子


In [6]:
import torch

x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

In [12]:
# 需要有个地方存梯度
x.requires_grad_(True)
x.grad # 默认值是None

tensor([ 0.,  4.,  8., 12.])

In [13]:
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

x是一个长度为4的向量，计算x和x的点积，得到了我们赋值给y的标量输出。 接下来，通过调用反向传播函数来自动计算y关于x每个分量的梯度，并打印这些梯度。

In [14]:
y.backward()

In [15]:
x.grad

tensor([ 0.,  8., 16., 24.])

In [16]:
x.grad == 4 * x

tensor([ True, False, False, False])

In [17]:
# 在默认情况下，PyTorch会累积梯度，我们需要清除之前的值
x.grad.zero_()
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

In [18]:
y

tensor(6., grad_fn=<SumBackward0>)

In [19]:
x

tensor([0., 1., 2., 3.], requires_grad=True)