In [1]:
#1.一个神经网络的训练算法就是让权重的值调整到最佳，以使得整个网络的预测效果最好

#2.过拟合：网络对于数据中的噪声（数据）有过强的拟合能力，而没有重视数据之间的潜在的基本关系

#3.如果数据不是特别复杂，则似乎小一点的神经网络更好，因为可以防止过拟合。
   #然而防止神经网络的过拟合还有许多其它的方法：L2正则化、dropout和输入噪声等，使用这些方法比减少神经元数要更好。

#4.激活函数：在所有的隐藏层之间添加一个合适的激活函数，从而可以输出一个非线性函数。（激活函数可以是线性也可以是非线性）
    #因为数据经过激活函数的输出之后区间是有范围的，因此除了分类问题之外，一般情况下不会考虑在隐藏层与输出层之间使用激活函数。
    #分类问题中，一般，类问题可以考虑使用Sigmoid函数；多分类问题，可以考虑使用Softmax的激活函数



In [2]:
#常用的激活函数


#  Sigmoid函数（详见4.2）   因为其会造成梯度消失，因此已经不大使用
#  在靠近0和1这两端的时候，因为曲线变得非常的平缓。因此梯度基本为0


In [3]:
#  Tanh函数（双曲正切函数）
#  公式：y = [e^x - e^(-x)]/[e^x + e^(-x)]
# Tanh函数在输入很大或者是很小的时候，梯度很小，不利于权重更新

In [4]:
#  ReLU函数（线性整流函数/修正性线性单元）
#  公式 ： y = max(0,x)
#  优点：在随即梯度下降的训练当中收敛很快，在输入为正数时，不存在梯度饱和，只有线性关系，不管是前向传播还是反向传播都比Sigmoid函数要快得多

#  实现代码：
import numpy as np
def _relu(x):
    return  np.maximum(0,x)

In [1]:
###################### 5.1.3  前向传播 #############################

#神经网络前向传递的过程关键步骤

#1.输入层的每个节点，都需要与隐藏层的每个节点做点对点的计算，计算的方法是加权求和 + 激活函数
#2.利用隐藏层计算出的每个值，再同样与输出层进行计算（针对简单神经网络，若是具有多个隐藏层的神经网络，则重复以上过程）
#3.在隐藏层，将隐藏层通过计算得到的值，进行（选取）激活函数的激活
#4.输入层的数值将通过网络计算分别传播到隐藏层，再以同样的方式传播到输出层，最终的输出值与样本值进行比较。计算出误差，这
#    这个过程称为前向传播 


#  最后我们比较发现预测值和真实值之间存在误差，所以要进行反向传播来使误差减小（不断优化迭代，更新权重）

# 在点对点乘法的过程当中，借助矩阵实现复杂的神经网络的计算

##（权重矩阵W）·（输入层数据）= （结果值）
## 判断权重矩阵的形状   取决于链接的两个层之间的节点对应关系，（前一层节点个数，后一层节点个数）
#  例如：第一层的W1的形状取决于输入层 ，设输入层值有2个，第一个隐藏层的节点有3个，则W1的形状为（2，3）

In [2]:
# 5.2.1 Softmax  

# 对于多分类问题，我们需要使用Softmax分类器，它的输出是每个类别的概率
# Softmax函数的定义，在多分类（C>2）时：  Si = e^(Vi) /  ∑(e^(Vi))  
#  其中Vi表示分类器前级输出单元的输出，i表示类别索引，总类别个数 C ，Si是当前元素的指数与所有元素指数和的比值。
#代码：
# x为输入的向量
def _softmax(x):
    exp_x = np.exp(x)
    return exp_x / np.sum(exp_x)


# 当运算的值很大或者很小时容易发生上溢出或者下溢出，因此在实际应用中，我们需要对V进行一些数值处理
#    D = max(V)    Si = e^(Vi-D) / ∑(e^(Vi-D))
# 代码
# x为输入的向量
def _softmax(x):
    c = np.max(x)
    exp_x = np.exp(x-c)
    return exp_x / np.sum(exp_x)

In [3]:
# one-hotencoding 

#  独热码，直观来说就是有多少个状态就有多少个比特。而且只有一个比特为1，其余全为0的一种码制。

In [4]:
# 输出层的神经元个数

#输出层的神经元数量应根据实际需要解决的问题来决定。对于分类问题，输出层的神经元个数一般会与类别的数量保持一致

In [1]:
# 广播原则
# 如果两个数组的后源维度（从末尾开始算起的维度）的轴长度相符，或者其中一方的长度为1，则认为他们是广播兼容的。

In [2]:
# 损失函数  神经网络模型得意实现是经过前向传播计算loss，根据loss的值进行反向推导，并进行相关参数的调整。
# 常用的损失函数主要有 均方误差和交叉熵误差。


# 5.5.1 均方误差
# 均方误差  是各项数据偏离真实值的距离平方和的平均数，也即误差平方和的平均数。
# 公式：  loss = ∑（xi-xi'）^2 / n
# 其中xi 表示的是神经网络的输出，xi'表示的是真实值，i代表每个数据
#  代码
def men_squared_error(p,y):
    return np.sum((p-y)**2)/y.shape[0]


# 5.5.2 交叉熵误差
# 公式  ：   loss = -∑log(y_predict(j))
# 代码 
def cross_entropy_error(p,y):
    delta = le-7     #为避免出现log0
    return np.sum(-y*np.log(p))


#当真实类别和神经网络给出的类别相同的时候，损失函数的输出比较小
