# 自动微分
> 这章需要尝试理解矩阵求导的`分子布局`或`分母布局`、梯度
>
> 当然还有微积分中的偏导数、链式法则等


现假设我们相对$y=2x^Tx$关于列向量x求导

In [1]:
import torch

x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

在计算$y$关于$x$的梯度前，需要一个地方存储梯度

In [2]:
x.requires_grad_(True) #等价于 x = torch.arange(4.0, requires_grad_(True))
x.grad

计算$y$

In [3]:
y = 2 * torch.dot(x,x)
y

tensor(28., grad_fn=<MulBackward0>)

通过调用反向传播函数来自动计算$y$关于$x$每个分量的梯度

> 注：要重新计算时，要么全部清空输出再运行，要么清零已计算的梯度`x.grad.data.zero_()`

In [4]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

In [5]:
x.grad == 4 * x

tensor([True, True, True, True])

现在计算x的另一个函数

In [6]:
x.grad.zero_()
y=x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

## 非标量变量

In [7]:
x.grad.zero_()
y=x*x #这里是向量，下面通过sum转为标量

y.sum().backward()
x.grad

tensor([0., 2., 4., 6.])