# 多层感知机的从零开始实现
我们已经从上⼀节⾥了解了多层感知机的原理。下⾯，我们⼀起来动⼿实现⼀个多层感知机。⾸
先导⼊实现所需的包或模块。

In [9]:
%matplotlib inline
from mxnet import nd
import d2lzh as d2l
from mxnet.gluon import loss as gloss

## 获取和读取数据
这⾥继续使⽤Fashion-MNIST数据集。我们将使⽤多层感知机对图像进⾏分类。

In [10]:
batch_size = 256
train_data, test_data = d2l.load_data_fashion_mnist(batch_size)

## 定义模型参数
我们在[“softmax回归的从零开始实现”](3.6softmax-regression-scratch.ipynb)⼀节⾥已经介绍了，Fashion-MNIST数据集中图像形状
为28 × 28，类别数为10。本节中我们依然使⽤⻓度为28 × 28 = 784的向量表⽰每⼀张图像。因此，
输⼊个数为784，输出个数为10。实验中，我们设超参数隐藏单元个数为256。

In [11]:
num_inputs, num_outputs, num_hiddens = 784, 10, 256
W1 = nd.random.normal(scale=0.01, shape=(num_inputs, num_hiddens))
b1 = nd.zeros(num_hiddens)
W2 = nd.random.normal(scale=0.01, shape=(num_hiddens, num_outputs))
b2 = nd.zeros(num_outputs)
params = [W1, b1, W2, b2]
for param in params:
    param.attach_grad()

## 定义激活函数
这⾥我们使⽤基础的maximum函数来实现ReLU，而⾮直接调⽤relu函数。

In [12]:
def relu(x):
    return nd.maximum(x,0)

## 定义模型
同softmax回归⼀样，我们通过reshape函数将每张原始图像改成⻓度为num_inputs的向量。然
后我们实现上⼀节中多层感知机的计算表达式。

In [13]:
def net(X):
    X =  X.reshape((-1, num_inputs))
    H = relu(nd.dot(X, W1) + b1)
    return nd.dot(H, W2) + b2

## 定义损失函数
为了得到更好的数值稳定性，我们直接使⽤Gluon提供的包括softmax运算和交叉熵损失计算的函数。

In [14]:
loss = gloss.SoftmaxCrossEntropyLoss()

## 训练模型
训练多层感知机的步骤和[“softmax回归的从零开始实现”](3.6softmax-regression-scratch.ipynb)⼀节中训练softmax回归的步骤没什么
区别。我们直接调⽤d2lzh包中的train_ch3函数，它的实现已经在[“softmax回归的从零开始
实现”](3.6softmax-regression-scratch.ipynb)⼀节⾥介绍过。我们在这⾥设超参数迭代周期数为5，学习率为0.5。

In [15]:
num_epochs, lr = 5, 0.5
d2l.train_ch3(net,train_data,test_data,loss,num_epochs,batch_size,params,lr)

epoch 1, loss 0.8002, train acc 0.700, test acc 0.815
epoch 2, loss 0.4922, train acc 0.818, test acc 0.838
epoch 3, loss 0.4267, train acc 0.842, test acc 0.869
epoch 4, loss 0.3948, train acc 0.854, test acc 0.868
epoch 5, loss 0.3692, train acc 0.864, test acc 0.867
