# 自动求梯度
- 首先我们要知道什么是梯度。bilibili的一个视频https://www.bilibili.com/video/BV1sW411775X?from=search&seid=15175252530632268417
- 梯度用我自己的理解就是，在多元函数中，对每个变量求导之后，构成一个向量，向量和就是梯度，也就是函数在该点变化最快的方向，具体可以看一下上面的视频
- 有个问题，一元函数可以谈论梯度吗？？？因为定义里是二元的。知乎：https://www.zhihu.com/question/310955590/answer/678086435
- 其本质就是求导，理解了梯度之后，我们才能知道梯度下降是在做什么

In [1]:
# 首先导入库
from mxnet import autograd,nd

In [6]:
# 创建一个列向量x
x = nd.arange(4).reshape((4,1))
x


[[0.]
 [1.]
 [2.]
 [3.]]
<NDArray 4x1 @cpu(0)>

In [25]:
# 条用attach_grad函数来申请存储梯度所需要的内存
x.attach_grad()

In [28]:
# mxnet默认不会记录求梯度的计算，因此使用record来要求mxnet记录下求梯度的计算
with autograd.record():
    y = 2 * nd.dot(x.T, x)

In [29]:
y.backward()

In [16]:
y


[[28.]]
<NDArray 1x1 @cpu(0)>

In [31]:
(x.grad - 4 * x).norm().asscalar()
x.grad


[[ 0.]
 [ 4.]
 [ 8.]
 [12.]]
<NDArray 4x1 @cpu(0)>

# 训练模式和预测模式

In [34]:
# autograd会将运行模式从预测模式转为训练模式，可以通过打印is_training()函数来看到
# 在一些情况下，训练模式和预测模式的结果并不相同～
print(autograd.is_training())
with autograd.record():
    print(autograd.is_training())

False
True


# 对python控制流求梯度

In [46]:
def f(a):
    b = a * 2
    while b.norm().asscalar() < 1000:
        b = b * 2
    if b.sum().asscalar() > 0:
        c = b
    else:
        c = 100 * b
    return c

In [47]:
# 使用record函数记录，backward函数求梯度
a = nd.random.normal(shape = 1)
a.attach_grad()
with autograd.record():
    c = f(a)
c.backward()

In [51]:
# 观察f，我们可以知道，最后的结果c = f(a) = x * a，而x就是梯度
# 所以，我我们可以通过c / a 是否等于 x 来验证结果的正确性
a.grad == (c / a)
a.grad


[2048.]
<NDArray 1 @cpu(0)>

# 查阅文档
- dir
- help
- 官网：http://mxnet.apache.org/