# 3.9 多层感知机的从零开始实现

In [1]:
import torch
import numpy as np
import d2lzh_pytorch as d2l

## 3.9.1 获取和读取数据集

In [2]:
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

##  3.9.2 定义模型参数
这里依然使用长度为28x28=784的向量表示每一张图像，因此，输入个数为784，输出个数为10，实验中，我们设置超参数隐藏单元个数为256

In [5]:
num_inputs, num_outputs, num_hiddens = 784, 10, 256

W1 = torch.tensor(np.random.normal(0, 0.01, (num_inputs, num_hiddens)), dtype=torch.float)
b1 = torch.zeros(num_hiddens, dtype=torch.float)
W2 = torch.tensor(np.random.normal(0, 0.01, (num_hiddens, num_outputs)), dtype=torch.float)
b2 = torch.zeros(num_outputs, dtype=torch.float)

params = [W1, b1, W2, b2]
for param in params:
    param.requires_grad_(requires_grad=True)

## 3.9.3 定义激活函数
这里使用基础的 max 函数实现 ReLU，而非直接调用 relu 函数

In [6]:
def relu(X):
    return torch.max(input=X, other=torch.tensor(0.0))

## 3.9.4 定义模型
同softmax回归一样，通过view函数将每张原始图像改成长度为 num_inputs 的向量，然后实现多层感知机的计算表达式

In [7]:
def net(X):
    X = X.view((-1, num_inputs))
    H = relu(torch.matmul(X, W1) + b1)
    return torch.matmul(H, W2) + b2

## 3.9.5 定义损失函数
直接使用Pytorch提供的包括softmax运算和交叉熵损失计算的函数。

In [8]:
loss = torch.nn.CrossEntropyLoss()

## 3.9.6 训练模型

In [10]:
num_epochs, lr = 5, 100.0
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, params, lr)

epoch 1, loss 0.0014, train acc 0.869, test acc 0.834
epoch 2, loss 0.0013, train acc 0.875, test acc 0.786
epoch 3, loss 0.0013, train acc 0.879, test acc 0.852
epoch 4, loss 0.0012, train acc 0.884, test acc 0.872
epoch 5, loss 0.0012, train acc 0.886, test acc 0.867
