# 神经网络----监督学习
* 应用范围以及示例：
    
输入(X) | 输出(Y) | 应用
:-: | :-: | :-: |
广告及用户信息 | 是否点击 | 线上广告（标准神经网络）
图片 | 图片索引（1000） | 图片识别或者分类 （CNN卷积神经网络）
语音 | 文本 | 语音识别 （RNN循环神经网络）
英语 | 中文 | 机器翻译 （RNN循环神经网络）
图像，雷达信息 | 其他汽车的位置 | 自动驾驶 （HNN混合神经网络）
    
<b><center>最大的优势可以很好的处理非结构化数据</b>

* 神经网络取得成功的原因：
<img src="../images/deeplearning/深度学习的优势.png", width="500px">

* 向量化更快的原因是利用了单指令多数据流SIMD，能够复制多个操作数，并把它们打包在大型寄存器的一组指令集
    * 单指令单数据（SISD）的CPU对加法指令译码后，执行部件先访问内存，取得第一个操作数；之后再一次访问内存，取得第二个操作数；随后才能进行求和运算。而在SIMD型的CPU中，指令译码后几个执行部件同时访问内存，一次性获得所有操作数进行运算


****

# 逻辑回归

### 一. 设定目标函数: $Y = W^TX + B$，其中：
* $Y$是训练集的分类标记，$Y = [y_1, y_2, \cdots, y_m]$，$y_m \subseteq [0, 1]$；
* $W$是训练变量，$W = [w_1, w_2, \cdots, w_n]^T$；
* $X$是训练参数，$X = [x_1, x_2, \cdots, x_m]$，$x_m = [x^1_m, x^2_m, \cdots, x^n_m]^T$；
* $B$是常熟变量，$B$ = $[b, b, \cdots, b]$；
* $m$是训练集数量；
* $n$是参数数量；

### 二. 分解步骤，推导只有一个训练集，正向求解，定义损失函数和代价函数：
1. 将$ds = (x, y)$ 代入$\hat{y} = W^Tx + b$中，求解$\hat{y}$；$x = [x_1, x_2, \cdots, x_n]^T$，$W = [w_1, w_2, \cdots, w_n]^T$；
2. $s = \sigma(\hat{y})=\frac{1}{1 + \mathcal{e}^{-\hat{y}}}$，将$\hat{y}$代入$\sigma$函数的原因是保证求解的范围控制在$[0,1]$之间；$\sigma$函数曲线图：
<img src="../images/deeplearning/sigmod函数曲线.png" width="300">
3. $L(\sigma(\hat{y}), y) = -\left(y\lg{\sigma(\hat{y})} + (1 - y)\lg{(1 - \sigma(\hat{y}))}\right)$，为了保证损失函数值最小化，需满足：
    * 当$y = 1$时，使$-\lg{\sigma(\hat{y})}$越小，此时$\sigma(\hat{y})$的结果接近于1；当$y = 0$时，使$-\lg{(1 - \sigma(\hat{y}))}$越小，此时$\sigma(\hat{y})$的结果接近于0；$\lg$函数曲线图：
    <img src='../images/deeplearning/log函数曲线.jpeg'>
    * $L(\sigma(\hat{y}), y)$来源：当$y = 1$时，$p(y|x) = \sigma(\hat{y})$；当$y = 0$时，$p(y|x) = 1 - \sigma(\hat{y})$；因此，$p(y|x) = \sigma(\hat{y})^y(1 - \sigma(\hat{y}))^{(1 - y)}$；求对数，$\lg{p(y|x)} = y\lg\sigma(\hat{y}) + (1 - y)\lg{(1 - \sigma(\hat{y}))} = -L(\sigma(\hat{y}), y)$，保证概率越大，损失函数值越小
4. $J(W, b) = \frac{1}{m}\sum^m_{i=1}L(\sigma(\hat{y}), y) = -\frac{1}{m}\sum^m_{i=1}[y\lg{\sigma(\hat{y})} + (1 - y)\lg{(1 - \sigma(\hat{y}))}]$，代价函数是损失函数的求和，目的也是要最小化，在本例中，$m = 1$

### 三. 逆向求消耗函数偏导值，梯度下降学习$w$和$b$的值，使得代价函数$J(w, b)$的值最小化
1. $J(W, b)$代价函数的曲面图：
<img src='../images/deeplearning/代价函数.png'>
2. $W := W - \alpha \frac{\partial{J(W, b)}}{\partial W}$，更新$W$的值，使得代价函数逐渐趋于最小值；其中$\alpha$是学习或者说更新速率，是结合经验设定的一个常量，$\frac{\partial{J(W, b)}}{\partial W}$表示代价函数在$W$处的斜率
3. $b := b - \alpha \frac{\partial{J(W, b)}}{\partial b}$，更新$b$的值，使得代价函数逐渐趋于最小值；其中$\alpha$是学习或者说更新速率，是结合经验设定的一个常量，$\frac{\partial{J(W, b)}}{\partial b}$表示代价函数在$b$处的斜率
4. 至此，完成一次迭代计算，然后利用新求解的$W$和$b$代入第二步中，重复二、三步，直到迭代次数结束或者$J(W, b)$达到最小值


****

# 单层神经网络

### 一. 神经网络计算图
<img src="../images/deeplearning/单层神经网络.png" width="600px">

### 二. 前向传播，计算代价函数值
1. $z = w_1x_1 + w_2x_2 + b$，扩展为：$Z = W^TX + B = 
[W^Tx_1+b, W^Tx_2+b, \cdots, W^Tx_m+b] = 
[w_1, w_2, \cdots, w_n]
\begin{bmatrix}x^1_1 & x^1_2 & \cdots & x^1_m \\
x^2_1 & x^2_2 & \cdots & x^2_m \\
\vdots & \vdots & \vdots & \vdots \\
x^n_1 & x^n_2 & \cdots & x^n_m
\end{bmatrix} + [b, b, \cdots, b] = $$
[(w_1x^1_1+w_2x^2_1+\cdots+w_nx^n_1+b), (w_1x^1_2+w_2x^2_2+\cdots+w_nx^n_2+b), \cdots, (w_nx^1_m+w_2x^2_m+\cdots+w_nx^n_m+b)] = 
[z_1, z_2, \cdots, z_m]$
    * python代码：```Z = np.dot(W.T, X) + B```
2. $a = \sigma(z) = \frac{1}{1 + \mathcal{e}^{-z}} = \frac{1}{1 + \mathcal{e}^{-(w_1x_1 + w_2x_2 + b)}}$，扩展为：$A = \sigma(Z) = [a_1, a_2, \cdots, a_m] = [\sigma(z_1), \sigma(z_2), \cdots, \sigma(z_m)]$
    * python代码：```A = sigmoid(Z)```
3. $\mathcal{L}(a, y) = -\left(y\lg{a} + (1 - y)\lg{(1 - a)}\right)$，扩展为：$\mathcal{L}(A, Y) = [-\left(y_1\lg{a_1} + (1 - y_1)\lg{(1 - a_1)}\right), -\left(y_2\lg{a_2} + (1 - y_2)\lg{(1 - a_2)}\right), \cdots, -\left(y_m\lg{a_m} + (1 - y_m)\lg{(1 - a_m)}\right)]$
    * python代码：```L = -(Y * np.log(A) + (1 - Y) * (np.log(1 - A)))```
4. $\mathcal{C}(A, Y) = \frac{1}{m} \sum^m_{i=1}\mathcal{L}(a, y) = \frac{1}{m} \sum\mathcal{L}(A, Y)$
    * python代码：```C = (- 1 / m) * np.sum(Y * np.log(A) + (1 - Y) * (np.log(1 - A)))```

### 三. 反向传播，计算函数对应参数的偏导即函数对应参数的斜率，更新参数值
1. $w_1' = w_1 - \alpha \frac{\partial{\mathcal{L}(a, y)}}{\partial w_1} = w_1 - \alpha \frac{\partial{\mathcal{L}(a, y)}}{\partial a} \frac{\partial a} {\partial z} \frac{\partial z} {\partial w_1} = w_1 - \alpha x_1 (a_1 - y_1)$，
$W' = 
\begin{bmatrix} w_1' \\ 
w_2' \\
\vdots \\
w_n' \\
\end{bmatrix} =
\begin{bmatrix} w_1 - \alpha x^1_1 (a_1 - y_1) \\
w_2 - \alpha x^2_1 (a_1 - y_1) \\
\vdots \\
w_n - \alpha x^n_1 (a_1 - y_1) \\
\end{bmatrix} =
W - \alpha X (a - y)$
，此时上述求导中只涉及到一组训练数据，扩展为全集训练数据集时，对应的解析公式为：$W' = W - \alpha \frac{\partial{\mathcal{C}(A, Y)}}{\partial W} = 
\begin{bmatrix} w_1' \\ 
w_2' \\
\vdots \\
w_n' \\
\end{bmatrix} =
\begin{bmatrix} w_1 - \frac{1}{m} \alpha \left( x^1_1 (a_1 - y_1) + x^1_2 (a_2 - y_2) + \cdots + x^1_m (a_m - y_m) \right)  \\
w_2 - \frac{1}{m} \alpha \left( x^2_1 (a_1 - y_1) + x^2_2 (a_2 - y_2) + \cdots + x^2_m (a_m - y_m) \right) \\
\vdots \\
w_n - \frac{1}{m} \alpha \left( x^n_1 (a_1 - y_1) + x^n_2 (a_2 - y_2) + \cdots + x^n_m (a_m - y_m) \right) \\
\end{bmatrix} =
W - \frac{1}{m} \alpha X (A - Y)^T
$
    * $\alpha \frac{\partial{\mathcal{L}(a,y)}}{\partial a} =\alpha \frac {a - y}{a (1 - a)}$
    * $\frac{\partial a} {\partial z} = a (1 - a)$
    * $\frac{\partial z} {\partial w_1} = x_1$
    * python代码为：```(1 / m) * np.dot(X, (A - Y).T)```
2. $b' = b - \alpha \frac{\partial{\mathcal{L}(a, y)}}{\partial b} = b - \alpha \frac{\partial{\mathcal{L}(a, y)}}{\partial a} \frac{\partial a} {\partial z} \frac{\partial z} {\partial b} = b - \alpha (a_1 - y_1)$，
$B' = 
\begin{bmatrix} b' \\ 
\end{bmatrix} =
\begin{bmatrix} b - \alpha (a_1 - y_1) \\
\end{bmatrix} =
B' - \alpha (a - y)$
，此时上述求导中只涉及到一组训练数据，扩展为全集训练数据集时，对应的解析公式为：$B' = B - \alpha \frac{\partial{\mathcal{C}(A, Y)}}{\partial B} = 
\begin{bmatrix} b' \\ 
\end{bmatrix} =
\begin{bmatrix} b - \frac{1}{m} \alpha \left( (a_1 - y_1) + (a_2 - y_2) + \cdots + (a_m - y_m) \right)  \\
\end{bmatrix} =
B - \frac{1}{m} \alpha (A - Y)
$
    * $\alpha \frac{\partial{\mathcal{L}(a,y)}}{\partial a} =\alpha \frac {a - y}{a (1 - a)}$
    * $\frac{\partial a} {\partial z} = a (1 - a)$
    * $\frac{\partial z} {\partial b} = 1$
    * python代码为：```(1 / m) * np.sum(A - Y)```

### 四. 循环迭代第二步和第三步，直到达到迭代次数或者找到最小代价函数为止

****

# 多层神经网络
### 单个神经元节点
* 第一层网络中的单个节点内容包括单层神经网络的所有部分（除损失函数和代价函数）
    1. $z = w_1x_1 + w_2x_2 + b$，扩展为：$Z = W^TX + B = 
[W^Tx_1+b, W^Tx_2+b, \cdots, W^Tx_m+b] = 
[w_1, w_2, \cdots, w_n]
\begin{bmatrix}x^1_1 & x^1_2 & \cdots & x^1_m \\
x^2_1 & x^2_2 & \cdots & x^2_m \\
\vdots & \vdots & \vdots & \vdots \\
x^n_1 & x^n_2 & \cdots & x^n_m
\end{bmatrix} + [b, b, \cdots, b] = $$
[(w_1x^1_1+w_2x^2_1+\cdots+w_nx^n_1+b), (w_1x^1_2+w_2x^2_2+\cdots+w_nx^n_2+b), \cdots, (w_nx^1_m+w_2x^2_m+\cdots+w_nx^n_m+b)] = 
[z_1, z_2, \cdots, z_m]$
        * python代码：```Z = np.dot(W.T, X) + B```
    2. $a = \sigma(z) = \frac{1}{1 + \mathcal{e}^{-z}} = \frac{1}{1 + \mathcal{e}^{-(w_1x_1 + w_2x_2 + b)}}$，扩展为：$A = \sigma(Z) = [a_1, a_2, \cdots, a_m] = [\sigma(z_1), \sigma(z_2), \cdots, \sigma(z_m)]$
        * python代码：```A = sigmoid(Z)```
<img src='../images/deeplearning/单个神经元节点.png' width='300px'>

### 多层神经网络前向传播
1. 第一层网络中的每个节点都有一套完整的参数变量$W$和$B$，其中$W^{[L]}=[w_1^{[L]}, w_2^{[L]}, \cdots, w_n^{[L]}], n$表示节点的数量，如下图所示$n=4, L$表示神经网络的层数，$w_n^{[L]}=[w_n^{[L](1)}, w_n^{[L](2)}, \cdots, w_n^{[L]{(n')}}], n'$表示训练集中的变量个数，也就是变量的维度。同理$B^{[L]}=[b_1^{[L]}, b_2^{[L]}, \cdots, b_n^{[L]}], b_n=[b_n^{[L](1)}, \cdots, b_n^{[L]{(n')}}]$
<img src='../images/deeplearning/多个神经元节点.png' width='300px'>
2. 第一步，先将训练集代入第一个节点，计算该节点在该神经元中的预测值，也就是$\hat{y}=\sigma(W^{[1]}X + B^{[1]})$
<img src='../images/deeplearning/多个神经元节点计算示例.png' width='400px'>
3. 将训练集代入其余所有的节点中，求得所有节点中的$\hat{y}$，这里需要注意的是$\hat{y_n^{[L]}}=[a_n^{[L](1)}, a_n^{[L](2)}, \cdots, a_n^{[L](m)}] = [\sigma(z_n^{[L](1)}), \sigma(z_n^{[L](2)}), \cdots, \sigma(z_n^{[L](m)})], n$表示神经元个数，$m$表示训练集的数量
<img src='../images/deeplearning/多个神经元节点计算示例2.png' width='400px'>
4. 根据上一步得出的结论，$\hat{Y}=A^{[1]}=
\begin{bmatrix}y_1^{[1]} \\ 
y_2^{[1]} \\ 
\vdots \\ 
y_n^{[1]}\end{bmatrix} =
\begin{bmatrix} a_1^{[1](1)} & a_1^{[1](2)} & \cdots, a_1^{[1](m)} \\
a_2^{[1](1)} & a_2^{[1](2)} & \cdots, a_2^{[1](m)} \\
\vdots \\
a_n^{[1](1)} & a_n^{[1](2)} & \cdots, a_n^{[1](m)} \\
\end{bmatrix}$
是一个$(n, m)$维的矩阵，$n$表示神经元个数，$m$表示训练集的数量，因此$W^{[2]}$是一个$(1, n)$维度的矩阵，并通过$Y' = \sigma(W^{[2]}A^{[1]} + B^{[2]})$计算最终的预估值
<img src='../images/deeplearning/多层神经网络计算.png' width='400px'>

### 多层神经网络反向传播
1. 通过如下图片详解过程完成介绍：
    <table>
        <tr>
            <td><img src='../images/deeplearning/两层神经网络详解1.jpeg'></td>
            <td><img src='../images/deeplearning/两层神经网络详解2.jpeg'></td>
            <td><img src='../images/deeplearning/两层神经网络详解3.jpeg'></td>
        </tr>
    </table>
2. 更多反向传播的实例，以及原理参考下面的深度网络计算过程

****

# 深度网络-二分分类
* 推导过程如下图
    <table>
        <tr>
            <td><img src='../images/deeplearning/深度网络推导1.jpeg'></td>
            <td><img src='../images/deeplearning/深度网络推导2.jpeg'></td>
            <td><img src='../images/deeplearning/深度网络推导3.jpeg'></td>
        </tr>
        <tr>
            <td><img src='../images/deeplearning/深度网络推导4.jpeg'></td>
            <td><img src='../images/deeplearning/深度网络推导5.jpeg'></td>
            <td><img src='../images/deeplearning/深度网络推导6.jpeg'></td>
        </tr>
        <tr>
            <td><img src='../images/deeplearning/深度网络推导7.jpeg'></td>
            <td><img src='../images/deeplearning/深度网络推导8.jpeg'></td>
        </tr>
    </table>
* 注意事项：
    * 碰到这类问题，先要数学推导一遍，然后在写代码
    * 其次是推导过程中根据如下顺序进行推导，如果能力变强可以直接从2层网络开始，切记不要一次性推导L层网络的情况，L层的情况是扩散求解
        * 1层网络，1个节点，1个训练集，1个变量
        * 1层网络，1个节点，m个训练集，n个变量
        * 2层网络，2个节点，1个训练集，1个变量
        * 2层网络，2个节点，m个训练集, n个变量
        * L层网络，n个节点，m个训练集，nx个变量
    * 由数学公式驱动写代码
    * 当在反向传播中遇到公式理解不清时，去构造上层网络中变量$W$的维度能帮忙解决部分问题

****

# 激活函数
* 不同神经元层可以使用不同的激活函数 
* sigmod(X)，目标集的范围在$[0, 1]$之间，几乎都是用在二分分类问题的输出层，不会用在其他层
* tanh(X)是sigmod函数的一个位移，区间在$[-1, 1]$之间
* ReLU(X)，rectified linear函数，当X大于0时，它的斜率是1，当X小于0时，它的斜率是0，目前在深度学习使用最为广泛
* sigmod(X)tanh(X)在X非常大或者非常小的时候，函数斜率接近0，会导致收敛速度下降，但是ReLU(X)会尽可能的规避这些缺点
* 不同激活函数的公式以及曲线图：<img src='attachment:WX20180411-092714@2x.png' width='400px'>
* 如果计算过程中不使用激活函数（线性激活函数），那么无论多少层神经网络计算出来的结果都是一个线性的模型，但是当模型是预测问题时，例如逻辑回归，可以在输出层使用线性激活函数
* 激活函数求导：
    <table>
        <tr>
            <td><img src='../images/deeplearning/sigmod函数求导.png' width='240px'></td>
            <td><img src='../images/deeplearning/tanh函数求导.png' width='240px'></td>
        </tr>
        <tr>
            <td><img src='../images/deeplearning/ReLU函数求导.png' width='200px'></td>
            <td><img src='../images/deeplearning/LeakReLU函数求导.png' width='200px'></td>
        </tr>
    </table>

****

In [3]:
# python numpy array basic operation
import numpy as np

print('hello world!')

hello world!
