# 神经网络入门

## 损失函数
#### 1.Loss Function 损失函数
    | y-yhat |,是定义在单个样本上的，算的是一个样本的误差。
#### 2.Cost Function 代价函数
     1/N*Σ|y-yhat| , 一般是针对总体，是所有样本误差的平均，也就是损失函数的平均。
#### 3.Object Function 目标函数 
    1/N*Σ|y-yhat| +正则化项

##### 平方损失函数（MSE）（线性回归）
    平方损失函数 均方误差(MSE)是最常用的回归损失函数，计算方法是求预测值与真实值之间距离的平方和，
    公式 MSE=1/N*Σ|y-yhat|**2

##### 平均绝对误差（MAE）
    平均绝对误差（MAE）是另一种用于回归模型的损失函数。MAE是目标值和预测值之差的绝对值之和。其只衡量了预测值误差的平均模长，而不考虑方向
    公式 MAE=1/N*Σ|y-yhat|

    简单来说，MSE计算简便，但MAE对异常点有更好的鲁棒性。
    如果异常点代表在商业中很重要的异常情况，并且需要被检测出来，则应选用MSE损失函数。相反，如果只把异常值当作受损数据，则应选用MAE损失函数。

##### 对数损失函数（逻辑回归）
    取对数是为了方便计算极大似然估计，因为在MLE中，直接求导比较困难，所以通常都是先取对数再求导找极值点。损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下，使概率P(Y|X)达到最大值（换言之，就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说什么样的参数才能使我们观测到目前这组数据的概率最大）。因为log函数是单调递增的，所以logP(Y|X)也会达到最大值，因此在前面加上负号之后，最大化P(Y|X)就等价于最小化L了。

     L=-1/N Σ y*log(yhat)+(1-y)*log(1-yhat)

##### 指数损失函数（Adaboost）
    学过Adaboost算法的人都知道，它是前向分步加法算法的特例，是一个加和模型，损失函数就是指数函数。在Adaboost中，经过m此迭代之后，

     L=1/N Σ exp[-y*yhat]


##### Hinge损失函数（SVM）
    在机器学习算法中，hinge损失函数和SVM是息息相关的。


##### 决策树：
    0-1损失函数：  L=1 (y!=yhat)   L=0 (y=yhat)

    绝对值损失函数：L= |y-yhat|


## 梯度下降


#### 导数
    反映的是函数y=f(x)在某一点处沿x轴正方向的变化率。再强调一遍， 是函数f(x)在x轴上某一点处沿着x轴正方向的变化率/变化趋势。直观地看，也就是在x轴上某一点处，如果f’(x)>0，说明f(x)的函数值在x点沿x轴正方向是趋于增加的；如果f’(x)<0，说明f(x)的函数值在x点沿x轴正方向是趋于减少的。

#### 偏导数
    导数与偏导数本质是一致的，都是当自变量的变化量趋于0时，函数值的变化量与自变量变化量比值的极限。直观地说，偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。 
     区别在于： 
     导数，指的是一元函数中，函数y=f(x)在某一点处沿x轴正方向的变化率； 
     偏导数，指的是多元函数中，函数y=f(x1,x2,…,xn)在某一点处沿某一坐标轴（x1,x2,…,xn）正方向的变化率。

#### 梯度定义如下： 
     函数在某一点的梯度是这样一个向量，它的方向与取得最大方向导数的方向一致，而它的模为方向导数的最大值。 
     这里注意三点： 
     1）梯度是一个向量，即有方向有大小； 
     2）梯度的方向是最大方向导数的方向； 
     3）梯度的值是最大方向导数的值。 


#### 梯度下降法
    用梯度下降法（Gradient Descent）算法来最小化 L(θ)  Cost function，以计算出合适的所有参数 θ(w和b的值)
    既然在变量空间的某一点处，函数沿梯度方向具有最大的变化率，那么在优化目标函数的时候，自然是沿着负梯度方向去减小函数值，以此达到我们的优化目标。 

#### 步长(learning rate)(学习速度)
    步长决定了在梯度下降过程中，每一步沿梯度负方向前进的长度。

#### 梯度下降法描述：
    计算损失函数对所有参数的（负）梯度  （dJ(θ)/dθ）
    按梯度的负方向下降一定步长（直接加上负梯度） （θ = θ -α*dJ(θ)/dθ）
    重复以上步骤，直到满足精度要求


#### 反向传播
    反向传播算法是求解函数梯度的一种方法，其本质上是利用链式法则对每个参数求偏导
    反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法，用来更新权值以最小化损失函数

    反向传播算法计算的是单个训练样本对所有权重和偏置的调整——包括每个参数的正负变化以及变化的比例——使其能最快的降低损失。



## 逻辑回归

我们通过一个逻辑回归的实例来理解上面的概念

    -初始化参数(w,b) 
    - 优化 loss function 学习得到参数 (w,b): 
    - 计算 cost 和gradient 
    - 通过梯度下降修改参数w,b
    - 用学到的 (w,b) 去预测结果

##### 1.导入数据

In [1]:
import numpy as np
import h5py
import matplotlib.pyplot as plt
import h5py
import scipy
from PIL import Image
from scipy import ndimage

  from ._conv import register_converters as _register_converters


##### 2.定义所需函数

In [2]:

def sigmoid(z):
    s=1.0/(1+np.exp(-z))
    return s

##### 2.初始化参数

In [3]:
def initialize_with_zeros(dim):
    w = np.zeros((dim, 1))
    b = 0
    return w, b

##### 3.梯度下降获取参数值

In [4]:
def optimize(w,b,X,Y,num_iterations,learning_rate,print_cost):
    costs = []
    for i in range(num_iterations):
        #FORWARD PROPAGATION
        A = sigmoid(np.dot(w.T, X)+b) # compute activation
        cost = -(1.0/m)*np.sum(Y*np.log(A)+(1-Y)*np.log(1-A)) # compute cost
        if i % 100 == 0:
            costs.append(cost)
        if print_cost and i % 100 == 0:
            print("Cost after interation %i:%f"%(i,cost))

        # BACKWARD PROPAGATION (TO FIND GRAD)
        dw = (1.0/m)*np.dot(X,(A-Y).T)
        db = (1.0/m)*np.sum(A-Y)

        # update rule
        w = w - learning_rate*dw
        b = b - learning_rate*db

##### 4.预测

In [6]:
def predict(w,b,X):
    m = X.shape[1]
    Y_prediction = np.zeros((1,m))
    w = w.reshape(X.shape[0], 1)

    # Compute vector "A" predicting the probabilities of a cat being present in the picture
    ### START CODE HERE ### (≈ 1 line of code)
    A = sigmoid(np.dot(w.T, X) + b)
    ### END CODE HERE ###

    for i in range(A.shape[1]):

        # Convert probabilities A[0,i] to actual predictions p[0,i]
        ### START CODE HERE ### (≈ 4 lines of code)
        if A[0,i] > 0.5:
            Y_prediction[0,i] = 1
        else:
            Y_prediction[0,i] = 0
            
    return Y_prediction

##### 5.模型

In [7]:
def model(X_train,Y_train,X_test,Y_test ,num_iterations,learning_rate,print_cost):
       
    dim = X_train.shape[0]
    w,b = initialize_with_zeros(dim)
    parameters,grads,costs = optimize(w,b,X_train,Y_train,num_iterations,learning_rate,print_cost)
    w = parameters['w']
    b = parameters['b']
 
    Y_prediction_test = predict(w,b,X_test)
    Y_prediction_train = predict(w,b,X_train)
 
    print('train accuracy:{}%'.format(100 - np.mean(np.abs(Y_prediction_train - Y_train)) * 100))
    print('test accuracy:{}%'.format(100 - np.mean(np.abs(Y_prediction_test - Y_test)) * 100))
    d = {'costs' : costs,
         'Y_prediction_test' : Y_prediction_test,
         'Y_prediction_train' : Y_prediction_train,
         'w' : w,
         'b' : b,
         'learning_rate' : learning_rate,
         'num_iterations' : num_iterations
         }
    return d


## 神经网络


神经网络包含输入层，输出层，中间层（也叫隐藏层）。设计一个神经网络时，输入层与输出层的节点数往往是固定的，中间层则可以自由指定；

对于第l层神经网络，单个样本其各个参数的矩阵维度为：

    W[l]:(n[l],n[l-1])  
    b[l]:(n[l],1)  
    dW[l]:(n[l],n[l-1])  
    db[l]:(n[l],1)  
    Z[l]:(n[l],1)  
    A[l]:(n[l],1)    

### 激活函数
激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。
如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。


#### sigmoid函数
优点：

    1.Sigmoid函数的输出映射在(0,1)之间，单调连续，输出范围有限，优化稳定，可以用作输出层。
    2.求导容易。
缺点：

    1.由于其软饱和性，容易产生梯度消失，导致训练出现问题。
    2.其输出并不是以0为中心的。

#### tanh函数
优点：

    1.比Sigmoid函数收敛速度更快。
    2.相比Sigmoid函数，其输出以0为中心。
缺点：

    还是没有改变Sigmoid函数的最大问题——由于饱和性产生的梯度消失。

#### ReLU函数
ReLU是最近几年非常受欢迎的激活函数。
但是除了ReLU本身的之外，TensorFlow还提供了一些相关的函数，比如定义为min(max(features, 0), 6)的tf.nn.relu6(features, name=None)；或是CReLU，即tf.nn.crelu(features, name=None)。其中(CReLU部分可以参考这篇论文)。

优点：

    1.相比起Sigmoid和tanh，ReLU(e.g. a factor of 6 in Krizhevsky et al.)在SGD中能够快速收敛。例如在下图的实验中，在一个四层的卷积神经网络中，实线代表了ReLU，虚线代表了tanh，ReLU比起tanh更快地到达了错误率0.25处。据称，这是因为它线性、非饱和的形式。
    2.Sigmoid和tanh涉及了很多很expensive的操作（比如指数），ReLU可以更加简单的实现。
    3.有效缓解了梯度消失的问题。
    4.在没有无监督预训练的时候也能有较好的表现。
    5.提供了神经网络的稀疏表达能力。
缺点：

    随着训练的进行，可能会出现神经元死亡，权重无法更新的情况。如果发生这种情况，那么流经神经元的梯度从这一点开始将永远是0。也就是说，ReLU神经元在训练中不可逆地死亡了
    
#### -LReLU
当aiai比较小而且固定的时候，我们称之为LReLU。LReLU最初的目的是为了避免梯度消失。但在一些实验中，我们发现LReLU对准确率并没有太大的影响。很多时候，当我们想要应用LReLU时，我们必须要非常小心谨慎地重复训练，选取出合适的aa，LReLU的表现出的结果才比ReLU好。因此有人提出了一种自适应地从数据中学习参数的PReLU。
#### -PReLU
PReLU是LReLU的改进，可以自适应地从数据中学习参数。PReLU具有收敛速度快、错误率低的特点。PReLU可以用于反向传播的训练，可以与其他层同时优化。

#### 激活函数的选择：
sigmoid函数和tanh函数比较：
隐藏层：tanh函数的表现要好于sigmoid函数，因为tanh取值范围为[−1,+1]，输出分布在0值的附近，均值为0，从隐藏层到输出层数据起到了归一化（均值为0）的效果。
输出层：对于二分类任务的输出取值为{0,1}，故一般会选择sigmoid函数。
然而sigmoid和tanh函数在当|z|很大的时候，梯度会很小，在依据梯度的算法中，更新在后期会变得很慢。在实际应用中，要使|z|尽可能的落在0值附近。
ReLU弥补了前两者的缺陷，当z>0时，梯度始终为1，从而提高神经网络基于梯度算法的运算速度。然而当z<0时，梯度一直为0，但是实际的运用中，该缺陷的影响不是很大。
Leaky ReLU保证在z<0的时候，梯度仍然不为0。
在选择激活函数的时候，如果在不知道该选什么的时候就选择ReLU，当然也没有固定答案，要依据实际问题在交叉验证集合中进行验证分析。


### 随机初始化
神经网络模型中的参数权重W是不能全部初始化为零的。

如果在初始时，两个隐藏神经元的参数设置为相同的大小，那么两个隐藏神经元对输出单元的影响也是相同的，通过反向梯度下降去进行计算的时候，会得到同样的梯度大小，所以在经过多次迭代后，两个隐藏层单位仍然是对称的。无论设置多少个隐藏单元，其最终的影响都是相同的，那么多个隐藏神经元就没有了意义。
在初始化的时候，W参数要进行随机初始化，b则不存在对称性的问题它可以设置为0。

以2个输入，2个隐藏神经元为例：

    W = np.random.rand((2,2))* 0.01
    b = np.zero((2,1))
这里我们将W的值乘以0.01是为了尽可能使得权重W初始化为较小的值，这是因为如果使用sigmoid函数或者tanh函数作为激活函数时，W比较小，则Z=WX+bZ=WX+b所得的值也比较小，处在0的附近，0点区域的附近梯度较大，能够大大提高算法的更新速度。而如果W设置的太大的话，得到的梯度较小，训练过程因此会变得很慢。

ReLU和Leaky ReLU作为激活函数时，不存在这种问题，因为在大于0的时候，梯度均为1。

### 参数与超参数
参数：
参数即是我们在过程中想要模型学习到的信息(W[l]，b[l])， 
超参数：
超参数即为控制参数的输出值的一些网络信息，也就是超参数的改变会导致最终得到的参数W[l]，b[l]的改变。
举例：
学习速率：α
迭代次数：N
隐藏层的层数：L
每一层的神经元个数：n[1]，n[2],⋯
激活函数g(z)的选择

### 神经网络算法
1.为一个L-layer 的神经网络初始化参数

2.实现前向传播模型

    o定义线性函数 Z[l]=W[l]A[l-1]+b[l],A[0]=X
    o选择激活函数(relu/sigmoid). A[l]=g(Z[l])
    o结合以上两步定义为 [LINEAR->ACTIVATION] .
    o循环执行[LINEAR->RELU]L-1 次( 1 到L-1层) ，在最后一层执行 [LINEAR->SIGMOID] 
3.计算损失函数. 

    cost = -np.sum(np.multiply(np.log(AL),Y) + np.multiply(np.log(1 - AL), 1 - Y)) / m
4.实现反向传播模型

    o对于第L层我们需要
    dW[l] = 1/m*dZ[l]A[l-1].T    
    db[l] = 1/m*ΣdZ[l][i]   
    dA[l-1] = W[l].T*dZ[l]
    o定义激活函数的梯度下降函数(relu_backward/sigmoid_backward) dZ= relu_backward(dA)
    o综合以上两个步骤 [LINEAR->ACTIVATION] 反向传播方法得到 dW ,db,dA
    o循环执行[LINEAR->RELU] L-1  次( 1 到L-1层) 在最后一层执行 [LINEAR->SIGMOID]
5.修改参数

    W[l]=W[l] -αdW[l]
    b[l]=b[l] -αdb[l]
6.得到最终的W b

### 1.导入数据

In [8]:
import numpy as np
import matplotlib.pyplot as plt

### 2.定义所需函数

In [9]:
import numpy as np
 
def sigmoid(Z):
    A = 1/(1+np.exp(-Z))
    cache = Z
 
    return A, cache
 
def sigmoid_backward(dA, cache):
    Z = cache
 
    s = 1/(1+np.exp(-Z))
    dZ = dA * s * (1-s)
 
    assert (dZ.shape == Z.shape)
 
    return dZ
 
def relu(Z):
 
    A = np.maximum(0,Z)
    cache = Z 
    return A, cache
 
def relu_backward(dA, cache):
    Z = cache
    dZ = np.array(dA, copy=True) # just converting dz to a correct object.
    # When z <= 0, you should set dz to 0 as well. 
    dZ[Z <= 0] = 0
 
    assert (dZ.shape == Z.shape)
 
    return dZ
 

### 3.初始化参数

In [11]:
def initialize_parameters_deep(layer_dims):

    np.random.seed(3)  #用于指定随机数生成时所用算法开始的整数值
    parameters = {}
    L = len(layer_dims)            # 网络的层数

    for l in range(1, L):
        ### START CODE HERE ### (≈ 2 lines of code)
        parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l-1])*0.01
        parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))
        ### END CODE HERE ###

        assert(parameters['W' + str(l)].shape == (layer_dims[l], layer_dims[l-1]))
        assert(parameters['b' + str(l)].shape == (layer_dims[l], 1))


    return parameters

### 4.参数调整

#### 4.1前向传播

In [12]:
def linear_activation_forward(A_prev, W, b, activation):
    Z = np.dot(W, A_prev) + b
    linear_cache = (A_prev, W, b)
    if activation == "sigmoid":
        A, activation_cache = sigmoid(Z)
        ### END CODE HERE ###

    elif activation == "relu":
        A, activation_cache = relu(Z)
        ### END CODE HERE ###
    cache = (linear_cache, activation_cache)

    return A, cache

In [13]:
def L_model_forward(X, parameters):
    caches = []
    A = X
    L = len(parameters) // 2                  # number of layers in the neural network

    # Implement [LINEAR -> RELU]*(L-1). Add "cache" to the "caches" list.
    for l in range(1, L):
        A_prev = A 
        ### START CODE HERE ### (≈ 2 lines of code)
        A, cache = linear_activation_forward(A_prev, parameters['W' + str(l)], parameters['b' + str(l)], "relu")
        caches.append(cache)
        ### END CODE HERE ###

    # Implement LINEAR -> SIGMOID. Add "cache" to the "caches" list.
    ### START CODE HERE ### (≈ 2 lines of code)
    AL, cache = linear_activation_forward(A, parameters['W' + str(L)], parameters['b' + str(L)], "sigmoid")
    caches.append(cache)
    ### END CODE HERE ###
    return AL, caches

#### 4.2损失函数

In [14]:

def compute_cost(AL, Y):
    m = Y.shape[1]

    # Compute loss from aL and y.
    ### START CODE HERE ### (≈ 1 lines of code)
    cost = -np.sum(np.multiply(np.log(AL),Y) + np.multiply(np.log(1 - AL), 1 - Y)) / m
    ### END CODE HERE ###

    cost = np.squeeze(cost)      # To make sure your cost's shape is what we expect (e.g. this turns [[17]] into 17).
    return cost

#### 4.3反向传播
    o对于第L层我们需要

        dW[l] = 1/m*dZ[l]A[l-1].T    
        db[l] = 1/m*ΣdZ[l][i]   
        dA[l-1] = W[l].T*dZ[l]
    o定义激活函数的梯度下降函数(relu_backward/sigmoid_backward) dZ= relu_backward(dA)
    o综合以上两个步骤 [LINEAR->ACTIVATION] 反向传播方法得到 dW ,db,dA
    o循环执行[LINEAR->RELU] L-1  次( 1 到L-1层) 在最后一层执行 [LINEAR->SIGMOID]

In [15]:
def linear_activation_backward(dA, cache, activation):
    linear_cache, activation_cache = cache
    
    if activation == "relu":
        ### START CODE HERE ### (≈ 2 lines of code)
        dZ = relu_backward(dA, activation_cache)
        ### END CODE HERE ###

    elif activation == "sigmoid":
        ### START CODE HERE ### (≈ 2 lines of code)
        dZ = sigmoid_backward(dA, activation_cache)
        ### END CODE HERE ###
    A_prev, W, b = linear_cache
    m = A_prev.shape[1]

    ### START CODE HERE ### (≈ 3 lines of code)
    dW = np.dot(dZ, A_prev.T) / m
    db = np.sum(dZ, axis=1, keepdims=True) / m
    dA_prev = np.dot(W.T, dZ)
    
    return dA_prev, dW, db

In [16]:
def L_model_backward(AL, Y, caches):

    grads = {}
    L = len(caches) # the number of layers
    m = AL.shape[1]
    Y = Y.reshape(AL.shape) # after this line, Y is the same shape as AL

    # Initializing the backpropagation
    dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL))

    # Lth layer (SIGMOID -> LINEAR) gradients. Inputs: "AL, Y, caches". Outputs: "grads["dAL"], grads["dWL"], grads["dbL"]
    current_cache = caches[L-1]
    grads["dA" + str(L)], grads["dW" + str(L)], grads["db" + str(L)] = linear_activation_backward(dAL, current_cache, "sigmoid")

    for l in reversed(range(L-1)):
        ### START CODE HERE ### (approx. 5 lines)
        current_cache = caches[l]
        dA_prev_temp, dW_temp, db_temp = linear_activation_backward(grads["dA" + str(l + 2)], current_cache, "relu")
        grads["dA" + str(l + 1)] = dA_prev_temp
        grads["dW" + str(l + 1)] = dW_temp
        grads["db" + str(l + 1)] = db_temp
        ### END CODE HERE ###

    return grads

#### 4.4 修改参数

In [17]:
def update_parameters(parameters, grads, learning_rate):
    L = len(parameters) // 2 # number of layers in the neural network

    # Update rule for each parameter. Use a for loop.
    ### START CODE HERE ### (≈ 3 lines of code)
    for l in range(L):
        parameters["W" + str(l+1)] = parameters["W" + str(l+1)] - learning_rate * grads["dW" + str(l+1)]
        parameters["b" + str(l+1)] = parameters["b" + str(l+1)] - learning_rate * grads["db" + str(l+1)]
    ### END CODE HERE ###
    return parameters

#### 4.5合并

In [18]:
def optimize(parameters,X,Y,num_iterations,learning_rate,print_cost):
    costs = []
    for i in range(num_iterations):
        #FORWARD PROPAGATION
        AL, caches = L_model_forward(X, parameters)
        cost = compute_cost(AL, Y)
        if i % 100 == 0:
            costs.append(cost)
        if print_cost and i % 100 == 0:
            print("Cost after interation %i:%f"%(i,cost))

        # BACKWARD PROPAGATION (TO FIND GRAD)
        grads = L_model_backward(AL, Y, caches)
        # update rule
        parameters = update_parameters(parameters, grads, learning_rate)
    return parameters,costs

### 5.模型

In [19]:
def n_layer_model(X,Y,layers_dims,learning_rate=0.0075,num_iterations=3000,print_cost=False,isPlot=True):
    np.random.seed(1)
    grads = {}
    costs = []
    (n_x,n_h,n_y) = layers_dims

    """
    初始化参数
    """
    parameters = initialize_parameters_deep(layers_dims)

    """
    开始进行迭代
    """
    parameters,costs= optimize(parameters,X,Y,num_iterations,learning_rate,print_cost)
        
        
    #迭代完成，根据条件绘制图
    if isPlot:
        plt.plot(np.squeeze(costs))
        plt.ylabel('cost')
        plt.xlabel('iterations (per tens)')
        plt.title("Learning rate =" + str(learning_rate))
        plt.show()

    #返回parameters
    return parameters


### 6.测试
假设我们的是一个两层模型，输入参数是，输出参数是，隐藏层一层

In [None]:
n_x = 10
n_h = 7
n_y = 4
layers_dims = (n_x,n_h,n_y)

parameters = n_layer_model(train_x, train_set_y, layers_dims = (n_x, n_h, n_y), num_iterations = 2500, print_cost=True,isPlot=True)
