In [1]:
from mxnet import autograd
from mxnet import nd
import numpy as np

# 02. 预备知识

## 2.2 数据操作

### 2.2.1 创建NDArray
我们先介绍NDArray的最基本功能：

In [2]:
# ⽤arange函数创建⼀个⾏向量
x = nd.arange(12)
x


[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11.]
<NDArray 12 @cpu(0)>

从打印`x`时显⽰的属性`<NDArray 12 @cpu(0)>`可以看出， 它是⻓度为12的⼀维数组，且被创建在CPU使⽤的内存上。其中`@cpu(0)`⾥的`0`没有特别的意义，并不代表特定的核。

通过`shape`属性来获取NDArray实例的形状，通过`size`属性得到NDArray实例中元素的总数：

In [3]:
x.shape, x.size

((12,), 12)

`reshape`函数改变NDArray的形状，`x.reshape((3, 4))`也可写成`x.reshape((-1, 4))`或`x.reshape((3, -1))`。由于`x`的元素个数是已知的，这⾥的`-1`是能够通过元素个数和其他维度的⼤小推断出来的：

In [4]:
X = x.reshape((3, 4)) 
X


[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]
<NDArray 3x4 @cpu(0)>

创建⼀个各元素为0，形状为`(2, 3, 4)`的张量：

In [5]:
nd.zeros((2, 3, 4))


[[[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]

 [[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]]
<NDArray 2x3x4 @cpu(0)>

创建各元素为1的张量：

In [6]:
nd.ones((3, 4))


[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
<NDArray 3x4 @cpu(0)>

以通过Python的列表指定需要创建的NDArray中每个元素的值：

In [7]:
Y = nd.array([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
Y


[[2. 1. 4. 3.]
 [1. 2. 3. 4.]
 [4. 3. 2. 1.]]
<NDArray 3x4 @cpu(0)>

有时需要随机⽣成NDArray中每个元素的值，下面创建⼀个形状为`(3, 4)`的NDArray，它的每个元素都随机采样于均值为0、标准差为1的正态分布：

In [8]:
nd.random.normal(0, 1, shape=(3, 4))


[[ 2.2122064   0.7740038   1.0434403   1.1839255 ]
 [ 1.8917114  -1.2347414  -1.771029   -0.45138445]
 [ 0.57938355 -1.856082   -1.9768796  -0.20801921]]
<NDArray 3x4 @cpu(0)>

### 2.2.2 运算
NDArray的数学运算：

In [9]:
X+Y


[[ 2.  2.  6.  6.]
 [ 5.  7.  9. 11.]
 [12. 12. 12. 12.]]
<NDArray 3x4 @cpu(0)>

In [10]:
X*Y


[[ 0.  1.  8.  9.]
 [ 4. 10. 18. 28.]
 [32. 27. 20. 11.]]
<NDArray 3x4 @cpu(0)>

In [11]:
X/Y


[[ 0.    1.    0.5   1.  ]
 [ 4.    2.5   2.    1.75]
 [ 2.    3.    5.   11.  ]]
<NDArray 3x4 @cpu(0)>

In [12]:
Y.exp()


[[ 7.389056   2.7182817 54.59815   20.085537 ]
 [ 2.7182817  7.389056  20.085537  54.59815  ]
 [54.59815   20.085537   7.389056   2.7182817]]
<NDArray 3x4 @cpu(0)>

In [13]:
# dot函数做矩阵乘法
nd.dot(X, Y.T)


[[ 18.  20.  10.]
 [ 58.  60.  50.]
 [ 98. 100.  90.]]
<NDArray 3x3 @cpu(0)>

可以在行上或者列上将多个NDArray进行连结(concatenate)：

In [14]:
nd.concat(X, Y, dim=0), nd.concat(X, Y, dim=1)

(
 [[ 0.  1.  2.  3.]
  [ 4.  5.  6.  7.]
  [ 8.  9. 10. 11.]
  [ 2.  1.  4.  3.]
  [ 1.  2.  3.  4.]
  [ 4.  3.  2.  1.]]
 <NDArray 6x4 @cpu(0)>, 
 [[ 0.  1.  2.  3.  2.  1.  4.  3.]
  [ 4.  5.  6.  7.  1.  2.  3.  4.]
  [ 8.  9. 10. 11.  4.  3.  2.  1.]]
 <NDArray 3x8 @cpu(0)>)

使⽤条件判断式可以得到元素为0或1的新的NDArray：

In [15]:
X == Y


[[0. 1. 0. 1.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
<NDArray 3x4 @cpu(0)>

对NDArray中的所有元素求和得到只有⼀个元素的NDArray：

In [16]:
X.sum()


[66.]
<NDArray 1 @cpu(0)>

我们可以通过`asscalar`函数将结果变换为Python中的标量。下⾯例⼦中`X`的$L_2$范数结果同上例⼀样是单元素NDArray，但最后结果变换成了Python中的标量：

In [17]:
X.norm().asscalar()

22.494442

我们也可以把`Y.exp()`、`X.sum()`、`X.norm()`等分别改写为`nd.exp(Y)`、`nd.sum(X)`、`nd.norm(X)`等。

### 2.2.3 ⼴播机制
当对两个形状不同的NDArray按元素运算时会触发⼴播机制：

In [18]:
A = nd.arange(3).reshape((3, 1)) 
B = nd.arange(2).reshape((1, 2)) 
A, B

(
 [[0.]
  [1.]
  [2.]]
 <NDArray 3x1 @cpu(0)>, 
 [[0. 1.]]
 <NDArray 1x2 @cpu(0)>)

In [19]:
# A中第⼀列的3个元素被⼴播到了第⼆列，而B中第⼀⾏的2个元素被⼴播到了第⼆⾏和第三⾏
A + B


[[0. 1.]
 [1. 2.]
 [2. 3.]]
<NDArray 3x2 @cpu(0)>

### 2.2.4 索引
NDArray的索引从0开始逐⼀递增：

In [20]:
X[1:3]


[[ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]
<NDArray 2x4 @cpu(0)>

In [21]:
# 修改指定位置的元素
X[1:2, :] = 12
X


[[ 0.  1.  2.  3.]
 [12. 12. 12. 12.]
 [ 8.  9. 10. 11.]]
<NDArray 3x4 @cpu(0)>

### 2.2.5 运算的内存开销
在前⾯的例⼦⾥我们对每个操作新开内存来存储运算结果：

In [22]:
before = id(Y)
Y = Y + X
id(Y) == before

False

如果想指定结果到特定内存，我们可以使⽤前⾯介绍的索引来进⾏替换操作：

In [23]:
Z = Y.zeros_like() 
before = id(Z)
Z[:] = X + Y
id(Z) == before

True

实际上，上例中我们还是为`X+Y`开了临时内存来存储计算结果，再复制到`Z`对应的内存。如果想避免这个临时内存开销，我们可以使⽤运算符全名函数中的`out`参数：

In [24]:
nd.elemwise_add(X, Y, out=Z) 
id(Z) == before

True

如果X的值在之后的程序中不会复⽤，我们也可以⽤`X[:] = X + Y`或者`X += Y`来减少运算的内存开销：

In [25]:
before = id(X)
X += Y 
id(X) == before

True

### 2.2.6 NDArray和NumPy相互变换
我们可以通过`array`函数和`asnumpy`函数令数据在NDArray和NumPy格式之间相互变换：

In [26]:
P = np.ones((2, 3)) 
D = nd.array(P) 
D


[[1. 1. 1.]
 [1. 1. 1.]]
<NDArray 2x3 @cpu(0)>

In [27]:
D.asnumpy()

array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float32)

## 2.3 ⾃动求梯度
MXNet提供了`autograd`模块来⾃动求梯度。

### 2.3.1 简单例⼦
我们先看⼀个简单例⼦：对函数$y = 2x^⊤x$求关于列向量$x$的梯度：

In [28]:
x = nd.arange(4).reshape((4, 1))
x


[[0.]
 [1.]
 [2.]
 [3.]]
<NDArray 4x1 @cpu(0)>

为了求有关变量$x$的梯度，我们需要先调⽤`attach_grad`函数来申请存储梯度所需要的内存；为了减少计算和内存开销，默认条件下MXNet不会记录⽤于求梯度的计算。我们需要调⽤`record`函数来要求MXNet记录与求梯度有关的计算。

In [29]:
x.attach_grad()

with autograd.record():
    y = 2 * nd.dot(x.T, x)
    y.backward()

由于$x$的形状为`(4, 1)`，$y$是⼀个标量。接下来我们可以通过调⽤`backward`函数⾃动求梯度。需要注意的是，如果$y$不是⼀个标量，MXNet将默认先对$y$中元素求和得到新的变量，再求该变量有关$x$的梯度。

函数$y = 2x^⊤x$关于$x$的梯度应为$4x$。现在我们来验证⼀下求出来的梯度是正确的：

In [30]:
assert (x.grad - 4 * x).norm().asscalar() == 0 
x.grad


[[ 0.]
 [ 4.]
 [ 8.]
 [12.]]
<NDArray 4x1 @cpu(0)>

### 2.3.2 训练模式和预测模式
在调⽤`record`函数后，MXNet会记录并计算梯度。此外，默认情况下`autograd`还会将运⾏模式从预测模式转为训练模式。这可以通过调⽤`is_training`函数来查看。

在有些情况下，同⼀个模型在训练模式和预测模式下的⾏为并不相同。我们会在后⾯的章节详细介绍这些区别。

In [31]:
print(autograd.is_training())

with autograd.record():
    print(autograd.is_training())

False
True


### 2.3.3 对Python控制流求梯度
使⽤MXNet的⼀个便利之处是，即使函数的计算图包含了Python的控制流，我们也有可能对变量求梯度：

In [32]:
def f(a):
    b = a * 2
    while b.norm().asscalar() < 1000: 
        b = b * 2
    if b.sum().asscalar() > 0:
        c = b 
    else:
        c = 100 * b
    return c

a = nd.random.normal(shape=1) 

a.attach_grad() 
with autograd.record():
    c = f(a) 
    c.backward()

# 我们来分析⼀下上⾯定义的f函数
# 事实上，给定任意输⼊a，其输出必然是f(a) = x * a的形式，其中标量系数x的值取决于输⼊a
# 由于c = f(a)有关a的梯度为x，且值为c/a，我们可以像下⾯这样验证对本例中控制流求梯度的结果的正确性
a.grad == c / a


[1.]
<NDArray 1 @cpu(0)>