### 多层感知机的从零开始实现

#### 获取和读取数据

In [1]:
import torch
import numpy as np
import utils

In [2]:
batch_size=256
train_iter,test_iter=utils.load_data_fashion_mnist(batch_size)

#### 定义模型参数

Fashion-MNIST数据集中图像形状28x28,类别数为10。本节中我们依然使用长度为28x28=784的向量表示每一张图像。因此，输入个数为784，输出个数为10.实验中，我们设超参数隐藏单元个数为256.

In [5]:
num_inputs=784
num_outputs=10
num_hiddens=256

W1=torch.tensor(np.random.normal(0,0.01,(num_inputs,num_hiddens)),dtype=torch.float32)
b1=torch.zeros(num_hiddens,dtype=torch.float32)
W2=torch.tensor(np.random.normal(0,0.01,(num_hiddens,num_outputs)),dtype=torch.float32)
b2=torch.zeros(num_outputs,dtype=torch.float32)

params=[W1,b1,W2,b2]
for param in params:
    param.requires_grad_(True)

#### 定义激活函数

这里我们使用基础的max函数来实现ReLU，而非直接调用relu函数。

torch.max(input,other,out=None):返回输入张量所有元素的最大值

参数:
* input(Tensor):输入张量
* other(Tensor):用于比较的张量
* out(Tensor):结果张量

In [6]:
def relu(X):
    return torch.max(input=X,other=torch.tensor(0.0))

#### 定义模型

同softmax回归一样，我们通过view函数将每张原始图像改成长度为num_inputs的向量。然后我们实现上一节中多层感知机的计算表达式。

In [7]:
def net(X):
    X=X.view((-1,num_inputs))
    H=relu(torch.mm(X,W1)+b1)
    return torch.mm(H,W2)+b2

#### 定义损失函数
为了得到更好的数值稳定性,我们直接使用PyTorch提供的交叉熵损失计算函数。

In [8]:
loss=torch.nn.CrossEntropyLoss()

#### 训练模型

训练过程和训练softmax回归没什么区别。

In [9]:
num_epochs,lr=5,100
utils.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, params, lr)

epoch 1,loss 0.0030,train acc0.714,test acc 0.789
epoch 2,loss 0.0019,train acc0.821,test acc 0.805
epoch 3,loss 0.0017,train acc0.842,test acc 0.828
epoch 4,loss 0.0015,train acc0.856,test acc 0.824
epoch 5,loss 0.0015,train acc0.863,test acc 0.847
