# 多层感知机 （multilayer perceptron, MLP)

## 激活函数
    引入激活函数，使得神经网络的全连接层不再只是对数据做仿射变换（affine transformation），通过非线性函数对隐藏变量进行变换，然后再作为下一个全连接层的输入。
    
### ReLU
    ReLU（rectified linear unit）函数提供了一个很简单的非线性变换。给定元素，该函数定义为
    ReLU(x) = max(x,0)

    可以看出，ReLU函数只保留正数元素，并将负数元素清零
   
### Sigmoid函数
    sigmoid函数可以将元素的值变换到0和1之间
   $$ sigmoid(x) = \frac{1}{1+exp(-x)} $$
    
### tanh函数
    tanh（双曲正切）函数可以将元素的值变换到-1和1之间：
   $$ tanh(x) = \frac{1-exp(2x)}{1+exp(2x)} $$


## 关于激活函数的选择
ReLu函数是一个通用的激活函数，目前在大多数情况下使用。但是，ReLU函数只能在隐藏层中使用。

用于分类器时，sigmoid函数及其组合通常效果更好。由于梯度消失问题，有时要避免使用sigmoid和tanh函数。

在神经网络层数较多的时候，最好使用ReLu函数，ReLu函数比较简单计算量少，而sigmoid和tanh函数计算量大很多。

在选择激活函数的时候可以先选用ReLu函数如果效果不理想可以尝试其他激活函数

## 多层感知机
    多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络，且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。以单隐藏层为例并沿用本节之前定义的符号，多层感知机按以下方式计算输出

 $$ H = \phi(XW_h + b_h) $$
 $$ O = OW_o + b_o $$

其中，$\phi$为激活函数

   
    

In [None]:
#多层感知机pytorch实现¶

import torch
from torch import nn
from torch.nn import init
import numpy as np
import sys
sys.path.append("/home/kesci/input")
import d2lzh1981 as d2l

In [None]:
#初始化模型和各个参数
num_inputs, num_outputs, num_hiddens = 784, 10, 256
    
net = nn.Sequential(
        d2l.FlattenLayer(),
        nn.Linear(num_inputs, num_hiddens),
        nn.ReLU(),
        nn.Linear(num_hiddens, num_outputs), 
        )
    
for params in net.parameters():
    init.normal_(params, mean=0, std=0.01)

In [None]:
#训练
batch_size =256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size,root='/home/kesci/input/FashionMNIST2065')
loss = torch.nn.CrossEntropyLoss()

optimizer = torch.optim.SGD(net.parameters(), lr=0.5)

num_epochs = 5
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)
