# 自动微分

假设我们想对函数$y=2\mathbf{x}^{\top}\mathbf{x}$关于列向量$\mathbf{x}$求导

In [None]:
import torch

# 创建一个包含4个元素的张量（向量）[0., 1., 2., 3.]，并设置requires_grad=True以跟踪对其的所有操作。
# 但是在实战中 requires_grad=True 这种一般不出现，因为集成了torch.nn模块在初始化权重时默认都添加梯度了
x = torch.arange(4.0, requires_grad=True)

# 计算y，它是x和x自身的点积乘以2。这里y是一个标量。
y = 2 * torch.dot(x, x)

# 对y进行反向传播，计算y关于x的梯度。由于y是一个标量，这等价于计算y的导数。
y.backward()

# 打印出x的梯度。由于y = 2 * x^T * x，y关于x的梯度是4 * x。
print(x.grad)

x.grad == 4 * x # tensor([True, True, True, True])

# 清除之前计算出的梯度值。在PyTorch中，如果不手动清零，梯度会累积。
x.grad.zero_()

# 计算一个新的y，它是x的所有元素的和。
y = x.sum()

# 对新的y进行反向传播，计算关于x的梯度。
y.backward()

# 打印出新的梯度。由于y是x的和，y关于x的梯度是一个全1的向量。
print(x.grad)

tensor([ 0.,  4.,  8., 12.])
tensor([ 1.,  5.,  9., 13.])


深度学习中
，我们的目的不是计算微分矩阵（即向量对向量求导这种），而是单独计算批量中每个样本的偏导数之和