# 计算网络参数
本例中采用交叉熵损失函数（也称负对数似然函数）。我们有$N$个样本，对应$C$个分类，那么预测值$\hat{y}\hat{y}$与实际值$y$之间的损失函数为：
$$
L(y,\hat{y}) = -\frac{1}{N} \sum_{n \in N} \sum_{i \in C} y_{n,i} log \hat{y}_{n,i}
$$

本例中使用随机梯度下降算法来寻找损失函数的最小值。为了方便编码和实现，此处使用一个固定的学习率$\eta$实现批量梯度下降算法：
$$
x \leftarrow x - \eta \Delta x
$$
上式中$\Delta x$对$x$进行求导，因此批量梯度下降首先需要对该人工神经网络模型中用到的参数$W_1 、 b_1 、 W_2 、 b_2$进行求导：
$$
\frac{\partial L}{\partial W_1}, \quad
\frac{\partial L}{\partial b_1}, \quad
\frac{\partial L}{\partial W_2}, \quad
\frac{\partial L}{\partial b_2}
$$
对权重和偏置参数进行求则是利用BP反向传播算法。得到网络中的各个参数的偏导：
$$
\delta _3 = \hat{y} - y   \\
\delta _2 = (1 - \tanh^2 z_1) \delta _3 W_{2}^{T}    \\
\frac{\partial L}{\partial W_2} = a_{1}^{T} \delta _3    \\
\frac{\partial L}{\partial b_2} = \delta _3    \\
\frac{\partial L}{\partial W_1} = x^{T} \delta _2    \\
\frac{\partial L}{\partial b_1} = \delta _2
$$


## 定义参数

In [1]:
import numpy as np


input_dim = 2 # 输入的维度
output_dim = 2 # 输出的维度， 分类数

epsilon = 0.01 # 梯度下降的学习率
reg_lambda = 0.01 # 正则化强度

## 损失函数
下面实现 calculate_loss() 损失函数。 model 字典中存储着网络中的权重参数和偏置参数，通过 model 获取网络中的参数 $W_1, b_1, W_2, b_2$, 使用神经网络的潜亏公式进行前馈计算。前馈计算后得到的预测值为 probs 。 再用 probs 与真实的输出值 y 来计算损失值。

## 预测函数
对于预测函数 predict() , 预测时只需要对模型进行一次向前传播，然后返回分类结果中概率值最大的一项。

## 反向传播算法计算梯度下降