## **多层感知机(multilayer perceptron, MLP)**

#### **1、隐藏层**

<img src = "hidelayer.png" width = 600 height = 300></img>

给定一个小批量样本 $X\in \mathcal{R}^{n\times d}$，其批量大小为 $n$，输入个数为 $d$；假设多层感知机只有一个隐藏层，其中隐藏层单元个数为 $h$ 。记隐藏层的输出（也称为隐藏层变量或隐藏变量）为 $H, H\in \mathcal{R}^{n\times h}$。因为隐藏层和输出层均是全连接层，可以设隐藏层的权重参数和偏差参数分别为 $W_h \in \mathcal{R}^{n\times h}, b_h\in \mathcal{R}^{1\times h}$ ；输出层的权重和偏差参数分别为 $W_o \in \mathcal{R}^{h\times q}, b_h\in \mathcal{R}^{1\times q}$ 

输出 $O\in \mathcal{R}^{n\times q}$ 的计算为：
#### $H = XW_h + b_h \\ O = HW_o + b_o$ 

也就是将隐藏层的输出直接作为输出层的输入。如果将上式联立起来，可得：
#### $O = (XW_h + b_h)W_o + b_o = XW_hW_o + b_hW_o + b_o$ 

可以看出，虽然神经网络引入了隐藏层，却依然等价于一个单层神经网络：输出层权重参数为：$W_hW_o$，偏差参数为 $b_hW_o + b_o$ 

#### **2、激活函数**

上述问题的根源在于全连接层只是对数据做仿射变换（affine transformation)，而多个仿射变换的叠加仍然是一个仿射变换。

解决方法是引入非线性变换，例如对隐藏层变量使用按元素运算的非线性函数进行变换，然后再作为下一个全连接层的输入。这个非线性函数称为激活函数（activation function).



**RELU函数：**  <font size=4> $Relu(x) = max(x,0)$</font> 只保留正数元素，将负数元素清零。

**Sigmoid函数：**  <font size=4> $sigmoid(x) = \frac{1}{1+exp(-x)}$ </font> 将元素的值变换为0-1之间。当输入越接近0时，sigmoid函数越接近线性变换。

**tanh函数：** <font size=4> $tanh(x) = \frac{1 - exp(-2x)}{ 1+ exp(-2x)} $</font> 将元素的值变换为 -1 到 1之间。该函数形状与sigmoid函数很像，但是tanh函数在坐标系的原点上对称。

In [26]:
from mxnet import nd
def activation(x,name):
    if name == 'relu':
        return nd.array([max(i.asscalar(),0) for i in x])
    if name == 'sigmoid':
        return 1/(1 + nd.exp( -x ))
    if name == 'tanh':
        return (1 - nd.exp(-2*x)) / (1 + nd.exp(-2*x))
        

In [27]:
%matplotlib inline 
import d2lzh as d2l
from mxnet import autograd,nd 

def xyplot(x_val,y_vals,name):
    d2l.set_figsize(figsize = (5,2.5))
    d2l.plt.plot(x_val.asnumpy(), y_vals.asnumpy())
    d2l.plt.xlabel("x")
    d2l.plt.ylabel(name + "(x)")
    


In [None]:
x = nd.arange(-8.0,8.0,0.1)
x.attach_grad()
with autograd.record():
    y 
