# 神经网络回顾

![](https://s3.cn-north-1.amazonaws.com.cn/u-img/07e338ce-41fa-4b2a-b1b9-5997261c3f58)

这些独立的节点被称作感知器 或者神经元。它们是构成神经网络的基本单元。

Weights（权值）

当输入给到节点，激活函数可以决定节点的输出。因为它决定了实际输出，我们也把层的输出，称作“激活”。

是单位阶跃函数（Heaviside step function）。如果线性组合小于0，函数返回0，如果线性组合等于或者大于0，函数返回1

偏置 bias 

## 逻辑操作激活函数

![](https://s3.cn-north-1.amazonaws.com.cn/u-img/0aa1e0d3-8440-41b7-b327-925472eaf72e)

通过调整w,b 可以使用 w*X + b > 0 实现 AND OR NOT 操作
* AND w1 = 1, w2 = 1, b = -2
* OR  w1 = 1, w2 = 1, b = -2.1
* NOT  w = -1，bias = 0.9

![](https://s3.cn-north-1.amazonaws.com.cn/u-img/4fb8d10d-5f1b-4557-85ad-6421d5eafafe)
* XOR 用上图构建 A NOT; B AND; C OR

## 其他激活函数

其它常见激活函数还有对数几率（又称作 sigmoid），tanh 和 softmax。这节课中我们主要使用 sigmoid 函数

sigmoid(x) = 1 / (1 + e ^ (-x))

### 最简单的神经网络

![](https://s3.cn-north-1.amazonaws.com.cn/u-img/e429472f-a8bf-411a-87e5-6abf1223a725)

In [2]:
import numpy as np

def sigmoid(x):
    return 1.0 / (1.0 + np.exp(-x))

inputs = np.array([0.7, -0.3])
weights = np.array([0.1, 0.8])
bias = -0.1

output = sigmoid(np.dot(inputs, weights) + bias)

output

0.43290709503454572

## 梯度下降法

[梯度下降法的优化](http://sebastianruder.com/optimizing-gradient-descent/index.html#momentum)

E 错误，使E最小化

$$\mathbf{ E = \frac{1}{2}\sum(y^\mu-\hat y^\mu)^2 }$$


算法：

$$ W_i = W_i + \Delta W_i $$
$$ \Delta W_i = - \mu\frac{\partial E}{\partial W_i} $$

导数计算：

\begin{align}
\frac{\partial E}{\partial W_i} & = \frac{\partial}{\partial w_i} \frac{1}{2} (y-\hat y)^2 \\
& = (y - \hat y)\frac{\partial}{\partial w_i}(y - \hat y) \\
& = (y - \hat y)\frac{\partial(y - \hat y)}{\partial \hat y}\frac{\partial \hat y}{\partial w_i} \\
& = -(y-\hat y)\frac{\partial \hat y}{\partial w_i}
\end{align}

其中：

$$ \hat y = f(h) \quad \mathbf{where} \quad h= \sum_{i=0}w_i x_i $$

\begin{align}
\frac{\partial E}{\partial w_i} & = - (y-\hat y)\frac{\partial \hat y}{\partial w_i} \\
& = - (y - \hat y)\frac{\partial \hat y}{\partial h} \frac{\partial h}{\partial w_i} \\
& = - (y - \hat y)f'(h)\frac{\partial}{\partial w_i}\sum w_i x_i
\end{align}

而：
\begin{align}
& \frac{\partial}{\partial w_i} \sum_i w_i x_i \\
= & \frac{\partial}{\partial w_1}[w_1 x_1 + w_2 x_2 + ... + w_n x_n] \\
= & x_1 + 0 + 0 ...
\end{align}

得出：
$$ \frac{\partial}{\partial w_i}\sum_i w_i x_i = x_i $$

所以：

\begin{align}
\frac{\partial E}{\partial w_i} & = -(y-\hat y)f'(h)x_i \\
\Delta w_i & = \mu(y - \hat y)f'(h)x_i
\end{align}



为了方便以后的计算，定义“误差项”（ERROR TERM）$\delta$

$$ \LARGE{\delta = (y - \hat y)f'(h)} $$
$$ \LARGE{w_i = w_i + \mu \delta x_i} $$

#### 如果有多个OUTPUT

输入 $x_i$ 权重 $w_{ij}$ 假设函数 $h_j$ 预测结果 $\hat y_j$

\begin{align}
& \delta_j = (y_j - \hat y_j)f'(h_j) \\
& \Delta w_{ij} = \mu\delta_j x_i
\end{align}
