In [1]:
%matplotlib inline
import d2lzh as d2l
from mxnet import autograd, nd

### 获取和读取数据

In [3]:
# 使用Fashion-MNIST数据集
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

### 初始化模型参数

In [35]:
# 输入784，输出10
num_inputs = 784
num_outputs = 10
# 随机初始化W，正态分布(0, 0.01)，shape 784x10，偏置b为1x10的全0向量
W = nd.random.normal(scale=0.01, shape=(num_inputs, num_outputs))
b = nd.zeros(num_outputs)

In [36]:
# 为参数附上梯度
W.attach_grad()
b.attach_grad()

### 实现softmax运算

In [8]:
# 对列（axis=0）或行（axis=1）的元素求和
X = nd.array([[1, 2, 3], [4, 5, 6]])
X.sum(axis=0, keepdims=True), X.sum(axis=1, keepdims=True)

(
 [[5. 7. 9.]]
 <NDArray 1x3 @cpu(0)>, 
 [[ 6.]
  [15.]]
 <NDArray 2x1 @cpu(0)>)

In [10]:
def softmax(X):
    # 对X矩阵每一个元素求exp
    X_exp = X.exp()
    # partition 是按行对每一行元素求和
    partition = X_exp.sum(axis=1, keepdims=True)
    # 对每一个元素，除以他所在行的总和，最终得到的矩阵每行元素和为1且非负
    return X_exp / partition  # 这里应用了广播机制

In [11]:
X = nd.random.normal(shape=(2, 5))
X_prob = softmax(X)
X_prob, X_prob.sum(axis=1)

(
 [[0.01606132 0.4672664  0.16146936 0.33617657 0.01902632]
  [0.27215305 0.16692853 0.04439886 0.39427412 0.12224543]]
 <NDArray 2x5 @cpu(0)>, 
 [1. 1.]
 <NDArray 2 @cpu(0)>)

### 定义模型

In [12]:
def net(X):
    # X.reshape((-1, num_inputs))，表示把X变成长度为num_inputs的向量，
    # -1表示让程序自己计算，如X是28x28，num_inputs是784，-1自动计算为1
    # 通过XW+b,得到一个样本在每个类别上的预测值1x10，再通过softmax运算，变成概率
    return softmax(nd.dot(X.reshape((-1, num_inputs)), W) + b)

### 定义损失函数

In [13]:
y_hat = nd.array([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
y = nd.array([0, 2], dtype='int32')
nd.pick(y_hat, y)


[0.1 0.5]
<NDArray 2 @cpu(0)>

In [14]:
def cross_entropy(y_hat, y):
    return -nd.pick(y_hat, y).log()

### 计算分类准确率

In [26]:
def accuracy(y_hat, y):
    # y_hat.argmax(axis=1)即预测值按行求最大值，返回索引，y是真实类别标签转成浮点
    # ==判断返回的是0或1的NDArray，求均值即是正确预测数量与总预测数量之比，再转标量
    return (y_hat.argmax(axis=1) == y.astype('float32')).mean().asscalar()

In [27]:
accuracy(y_hat, y)

0.5

In [30]:
# 本函数已保存在d2lzh包中方便以后使用。该函数将被逐步改进：它的完整实现将在“图像增广”一节中
# 输入数据集data_iter和模型net
def evaluate_accuracy(data_iter, net):
    # acc_sum为正确预测数，n为总预测数，这两个值初始化为0，随着迭代每一批小数据集，
    # 这两个值会不断变化，算出每一批次的精度
    acc_sum, n = 0.0, 0
    # 对data_iter的每一批小数据集
    for X, y in data_iter:
        # y为真实类别，转为浮点32
        y = y.astype('float32')
        # X传入模型返回softmax输出的概率，按行求最大值并返回对应索引
        # 用索引与真实类别比较，返回的NDArray再求和即正确预测的数量
        acc_sum += (net(X).argmax(axis=1) == y).sum().asscalar()
        # n 即总预测数量，y：(样本数, 1)，y.size:样本数x1=样本数
        n += y.size
    return acc_sum / n

In [31]:
# 随机初始化，未训练的结果，接近类别个数10的倒数0.1
evaluate_accuracy(test_iter, net)

0.0856

### 训练模型

In [37]:
num_epochs, lr = 5, 0.1

# 本函数已保存在d2lzh包中方便以后使用
def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,
              params=None, lr=None, trainer=None):
    for epoch in range(num_epochs):
        train_l_sum, train_acc_sum, n = 0.0, 0.0, 0
        for X, y in train_iter:
            with autograd.record():
                y_hat = net(X)
                #这步也可以不sum,因为backward默认会对l.sum().backward(),
                # 但下面要改成train_l_sum += l.sum().asscalar()
                l = loss(y_hat, y).sum() 
            l.backward()
            if trainer is None:
                d2l.sgd(params, lr, batch_size)
            else:
                trainer.step(batch_size)  # “softmax回归的简洁实现”一节将用到
            y = y.astype('float32')
            train_l_sum += l.asscalar()
            train_acc_sum += (y_hat.argmax(axis=1) == y).sum().asscalar()
            n += y.size
        test_acc = evaluate_accuracy(test_iter, net)
        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'
              % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size,
          [W, b], lr)

epoch 1, loss 0.7880, train acc 0.748, test acc 0.806
epoch 2, loss 0.5726, train acc 0.811, test acc 0.821
epoch 3, loss 0.5285, train acc 0.825, test acc 0.831
epoch 4, loss 0.5051, train acc 0.831, test acc 0.836
epoch 5, loss 0.4893, train acc 0.835, test acc 0.837


### 预测

In [None]:
# 从test里去一个批次数据出来
for X, y in test_iter:
    break

true_labels = d2l.get_fashion_mnist_labels(y.asnumpy())
pred_labels = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1).asnumpy())
titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]
# 前10个打印出来
d2l.show_fashion_mnist(X[0:9], titles[0:9])

## 练习

* 在本节中，我们直接按照softmax运算的数学定义来实现softmax函数。这可能会造成什么问题？（提示：试一试计算$\exp(50)$的大小。）
* 本节中的`cross_entropy`函数是按照[“softmax回归”](softmax-regression.ipynb)一节中的交叉熵损失函数的数学定义实现的。这样的实现方式可能有什么问题？（提示：思考一下对数函数的定义域。）
* 你能想到哪些办法来解决上面的两个问题？