## 浅层神经网络

将多个类似的logistic回归单元叠加在一起，初步形成简单的神经网络。

![029](images/029.png)

多次计算$z,a$,最后计算损失函数。

![030](images/030.png)

隐藏层的意思就是实现过程中对数据的不可见。


![031](images/031.png)

$w^{[1]},b^{[1]}$表示第一层的参数和偏置。

计算简单神经网络的输出：

![032](images/032.png)


![033](images/033.png)


使用代码实现上述公式。

![034](images/034.png)

上述是循环遍历所有的样本。

![035](images/035.png)

向量化解决遍历问题，横向代表了所有的样本，竖向代表了样本的特征值。

例子：

列堆列的输入，对应列对应的输出。

![036](images/036.png)

![037](images/037.png)

## 如何选择激活函数



+ sigmoid函数$${\sigma}=\frac{1}{1+e^{-z}}$$，界限是(0,1)除非用于二元分类的输出层，不然绝对不要用。



+ tanh函数  $$tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$$

 是sigmoid函数的变换，界限是{-1，1}，使用tanh(x)有数据中心化的感觉，使得数据的平均值接近于0.
 
 **tanh(x)几乎适用于所有的场合，总是优于sigmoid函数，但是当输出在(0,1)之间时，一般使用sigmoid函数。不同层可以使用不同的激活函数**


缺点：
   当x取很大或很小的值时，函数的梯度会减少，会减缓学习的效率和精度。

+ Relu（修正线性单元）$$a=max(0,z)$$

    只要z为正，导数就是1.
    
   ![038](images/038.png)

 缺点：
 值为负值时，导数是零。
 
 通常情况下，Relu的使用效果比sigmoid和tanh都好，速度也很快，主要原因是Relu没有这种函数斜率接近与0时的情况。
 
 + leaky-Relu激活函数$$a=max(0.01z,z)$$
 
 ![040](images/040.png)
 
 为什么要使用非线性激活函数？
 
 ![041](images/041.png)
 
 线性激活函数就是输入的线性组合再输出，没有实际意义。
 
 
 只有一个地方可以使用线性组合，就是机器学习的线性回归。
    

常见激活函数的导数：

+ sigmoid函数

![042](images/042.png)

+ tanh(x)函数

![043](images/043.png)

+ Relu函数

![044](images/044.png)







In [7]:
import numpy as np
def sigmoid(x,deriv=False):
    if (der==False):
        return 1.0/(1.0+np.exp(-x))
    else:
        return (1.0/(1.0+np.exp(-x)))*(1-(1.0/(1.0+np.exp(-x))))
    
def tanh(x,deriv=False):
    if(deriv==False):
        return (1.0-np.exp(-2*x))/(1.0+np.exp(-2*x))
    else:
        return 1.0-((1.0-np.exp(-2*x))/(1.0+np.exp(-2*x))**2)
    
def relu(x,deriv=False):
    if(deriv==False):
        return np.where(x<0,0,x)
    else:
        return np.where(x<0,0,1)
def l_relu():
    if(deriv==False):
        return np.where(x<0,0.01x,x)
    else:
        return np.where(x<0,0.01,1)

def softmax(x):
    x_exp=np.exp(x)
    x_sum=np.sum(x_exp, axis=1, keepdims=True)
    s = x_exp / x_sum
    return s


以下是softmax函数的广播过程：
![045](images/045.png)



In [None]:
## 正则化函数

# L1损失函数
import numpy as np
def l1(yhat,y):
    loss=np.sum(abs(y-yhat))
    return loss

# L2损失函数

def L2(yhat,y):
    loss=np.sum(np.multiply((y-yhat),(y-yhat)))
    return loss


## 神经网络的梯度下降算法

![046](images/046.png)

正向传播：

$$Z^{[1]}=W^{[1]}X+b^{[1]}  ....第一层$$

$$A{[1]}=g^{[1]}(Z^{[1]})$$

$$Z^{[2]}=W^{[2]}A{[1]}+b^{[2]}  ...第二层$$

$$A^{[2]}=g^{[2]}(Z^{[2]})$$

反向传播：

$$dZ^{[2]}=A^{[2]}-Y       ....(1,m)维 $$

$$dW^{[2]}=\frac{1}{m}*{dZ^{[2]}{A^{[1]}}^T}$$

$$db^{[2]}=\frac{1}{m}*np.sum(dZ^{[2]},axis=1,keepdims=True)$$

$$dZ^{[1]}={W^{[2]}}^T*dZ^{[2]}*{g^{[1]}}^`(Z^{[1]})    第二个乘是点乘$$

$$dW^{[1]}=\frac{1}{m}dZ^{[1]}X^T$$

$$db^{[1]}=\frac{1}{m}*np.sum(dZ^{[1]},axis=1,keepdims=True)$$


推导过程：

![048](images/048.png)

## 随机初始化


![049](images/049.png)

一般初始化参数时选择比较小的参数。通常采用np.random.randn((n,m))*0.01等方法，保证sigmoid或者tanh的梯度较大，保证学习的效率。





