## 2.3 自动求梯度

在深度学习中，我们经常需要对函数求梯度（gradient）。本节将介绍如何使用MXNet提供的autograd模块来自动求梯度。如果对本节中的数学概念（如梯度）不是很熟悉，可以参阅附录中["数学基础"](http://zh.gluon.ai/chapter_appendix/math.html)一节。

梯度

[梯度视频](https://www.youtube.com/watch?v=Dhou27Ergkk)

[梯度解释](https://www.zhihu.com/question/36301367)

它总是指向Z函数增长最大的方向

In [1]:
from mxnet import autograd, nd # autograd 自动求导，nd NDArray数组，相当numpy

## 2.3.1 简单的例子

对于函数y=2x⊤x ,求关于x的梯度，先创建变量x,并赋值

In [2]:
x = nd.arange(4).reshape((4,1)) # arrange 返回给定间隔内的均匀间隔的值 ,reshape对数组进行重新组合 
x


[[0.]
 [1.]
 [2.]
 [3.]]
<NDArray 4x1 @cpu(0)>

为了求有关变量x的梯度，我们需要先调用**attach_grad函数**来申请存储梯度所需要的内存

In [8]:
x.attach_grad()

下面定义有关变量x的函数。为了减少计算和内存开销，默认条件下MXNet不会记录用于求梯度的计算。我们需要调用record函数来要求MXNet记录与求梯度有关的计算。

In [9]:
with autograd.record():
    y = 2*nd.dot(x.T,x)
y


[[28.]]
<NDArray 1x1 @cpu(0)>

由于x的形状为（4, 1），y是一个标量。接下来我们可以通过调用backward函数自动求梯度。需要注意的是，如果y不是一个标量，MXNet将默认先对y中元素求和得到新的变量，再求该变量有关x的梯度。

In [6]:
y.backward()

函数  y=2x⊤x  关于 x  的梯度应为 4x 。现在我们来验证一下求出来的梯度是正确的。

In [7]:
assert (x.grad - 4*x).norm().asscalar() == 0  # norm 平方，asscalar 转换成标量
x.grad


[[ 0.]
 [ 4.]
 [ 8.]
 [12.]]
<NDArray 4x1 @cpu(0)>

## 2.3.2 训练模式和预测模式

从上面可以看出，在调用record函数后，MXNet会记录并计算梯度。此外，默认情况下autograd还会将运行模式从预测模式转为训练模式。这可以通过调用is_training函数来查看。

In [10]:
print(autograd.is_training())
with autograd.record():
    print(autograd.is_training())

False
True


## 2.3.3 对Python 控制流求梯度