# autograd机制 （0.4.0之前版本的）

在机器学习中，我们通常使用梯度下降（gradient descent）来更新模型参数从而求解。损失函数关于模型参数的梯度指向一个可以降低损失函数值的方向，我们不断地沿着梯度的方向更新模型从而最小化损失函数。虽然梯度计算比较直观，但对于复杂的模型，例如多达数十层的神经网络，手动计算梯度非常困难。

PyTorch中提供给了我们自动化求导的包 —— autograd

导入之后，**我们用一个 Variable $X$ 对象来包装Tensor变量。然后 $X$.data 就是该Tensor变量，$X$.grad 就是梯度咯**

PyTorch的 Variable 跟 Tensor 有着几乎一样的API，在 Tensor 上进行的操作也基本都能在 Variable 上进行。**区别在于：使用 Variable 对象，你会定义一张动态图，它可以帮助你进行自动求导**

![Variable对象](../images/Variable.png)

!!!! **利好消息，pytorch之后的版本会逐步废弃掉 Variable 变量，全程使用tensor就可以了。** !!!!


In [1]:
# 把必要的包给导入
import torch
from torch.autograd import Variable

如果我们想计算 $f = 3 \times x^3 + 4 \times x^2 + 6$ 的导数，该如何做呢？

In [2]:
def fn(x):
    y = 3 * x.pow(3) + 4 * x.pow(2) + 6
    return y

x1 = Variable(torch.Tensor([1]), requires_grad=True)

y1 = fn(x1)

print(y1)

Variable containing:
 13
[torch.FloatTensor of size 1]



In [3]:
y1.backward() # 自动求导

In [4]:
x1.grad # 查看梯度

Variable containing:
 17
[torch.FloatTensor of size 1]

通过调用 backward() 函数，我们自动求出了在 x = 1 的时候的导数

需要注意的一点是：如果我们输入的 Tensor 不是一个标量，而是矢量（多个值）。

那么，我们在调用backward()之前，需要让**结果变成标量** 才能求出导数。

也就是说如果不将 Y 的值变成标量，就会报错。（可以尝试把mean()给取消，看看是不是报错了）

In [5]:
x2 = Variable(torch.Tensor([[1, 2], [3, 4]]), requires_grad=True)

y2 = fn(x2).mean() # 将结果变成标量，这样就不会报错了

y2.backward() # 自动求导

In [6]:
x2.grad # 查看梯度

Variable containing:
  4.2500  13.0000
 26.2500  44.0000
[torch.FloatTensor of size 2x2]