# 神经网络入门

![](https://s3.cn-north-1.amazonaws.com.cn/u-img/07e338ce-41fa-4b2a-b1b9-5997261c3f58)

这些独立的节点被称作感知器 或者神经元。它们是构成神经网络的基本单元。

Weights（权值）

当输入给到节点，激活函数可以决定节点的输出。因为它决定了实际输出，我们也把层的输出，称作“激活”。

是单位阶跃函数（Heaviside step function）。如果线性组合小于0，函数返回0，如果线性组合等于或者大于0，函数返回1

偏置 bias 

## 逻辑操作激活函数

![](https://s3.cn-north-1.amazonaws.com.cn/u-img/0aa1e0d3-8440-41b7-b327-925472eaf72e)

通过调整w,b 可以使用 w*X + b > 0 实现 AND OR NOT 操作
* AND w1 = 1, w2 = 1, b = -2
* OR  w1 = 1, w2 = 1, b = -2.1
* NOT  w = -1，bias = 0.9

![](https://s3.cn-north-1.amazonaws.com.cn/u-img/4fb8d10d-5f1b-4557-85ad-6421d5eafafe)
* XOR 用上图构建 A NOT; B AND; C OR

## 其他激活函数

其它常见激活函数还有对数几率（又称作 sigmoid），tanh 和 softmax。这节课中我们主要使用 sigmoid 函数:

$$ \sigma(x) = \frac{1}{1+e^{-x}} $$


### 最简单的神经网络

![](https://s3.cn-north-1.amazonaws.com.cn/u-img/e429472f-a8bf-411a-87e5-6abf1223a725)

In [2]:
import numpy as np

def sigmoid(x):
    return 1.0 / (1.0 + np.exp(-x))

inputs = np.array([0.7, -0.3])
weights = np.array([0.1, 0.8])
bias = -0.1

output = sigmoid(np.dot(inputs, weights) + bias)

output

0.43290709503454572

## 梯度下降法

[梯度下降法的优化](http://sebastianruder.com/optimizing-gradient-descent/index.html#momentum)

E 错误，使E最小化，m为样本数，$\hat y$ 为预测结果

$$\mathbf{ E = \frac{1}{2m}\sum_\mu(y^\mu-\hat y^\mu)^2 }$$


基本思想：

$$ W_i = W_i + \Delta W_i $$
$$ \Delta W_i = - \eta \frac{\partial E}{\partial W_i} $$

得出(过程详见下文):
$$ \Delta w_i = \mu(y - \hat y)f'(h)x_i $$


### 定义“误差项”（ERROR TERM）$\delta$

\begin{align}
& \LARGE{\delta = (y - \hat y)f'(h) ＝ (y - \hat y)f'(\sum_i w_i x_i)} \\
& \LARGE{w_i = w_i + \eta \delta x_i}
\end{align}

多条数据时

* 训练每一条数据
    * 计算输出 $ \hat y = f(\sum_i w_i x_i) $
    * 计算 Error term, $\delta = ( y - \hat y)f'(\sum_i w_i x_i) $
    * 计算 $\Delta w_i = \Delta w_i + \delta x_i $

* 更新 $ w_i = w_i + \eta \Delta w_i / m $。 $\eta$ 是学习率 $m$ 是数据条数。对权重步长做了平均化，防止数据起伏
* 重复 $e$ 代 (epoch)



### 推导过程：

\begin{align}
\frac{\partial E}{\partial W_i} & = \frac{\partial}{\partial w_i} \frac{1}{2} (y-\hat y)^2 \\
& = (y - \hat y)\frac{\partial}{\partial w_i}(y - \hat y) \\
& = (y - \hat y)\frac{\partial(y - \hat y)}{\partial \hat y}\frac{\partial \hat y}{\partial w_i} \\
& = -(y-\hat y)\frac{\partial \hat y}{\partial w_i}
\end{align}

已知 $ \hat y = f(h)$ 其中 $f$ 是激活函数，$h$ 是线性组合函数。$h= \sum_{i=0}w_i x_i $

\begin{align}
\frac{\partial E}{\partial w_i} & = - (y-\hat y)\frac{\partial \hat y}{\partial w_i} \\
& = - (y - \hat y)\frac{\partial \hat y}{\partial h} \frac{\partial h}{\partial w_i} \\
& = - (y - \hat y)f'(h)\frac{\partial}{\partial w_i}\sum w_i x_i
\end{align}

而：
\begin{align}
& \frac{\partial}{\partial w_i} \sum_i w_i x_i \\
= & \frac{\partial}{\partial w_1}[w_1 x_1 + w_2 x_2 + ... + w_n x_n] \\
= & x_1 + 0 + 0 ...
\end{align}

得出：
$$ \frac{\partial}{\partial w_i}\sum_i w_i x_i = x_i $$

所以：

\begin{align}
\frac{\partial E}{\partial w_i} & = -(y-\hat y)f'(h)x_i \\
\Delta w_i & = \mu(y - \hat y)f'(h)x_i
\end{align}



## sigmoid 函数的导数

$$ \sigma'(x) = \sigma(x)\cdot(1-\sigma(x)) $$

推导过程：

\begin{align}
\sigma'(x) & = \frac{d}{dx}\frac{1}{(1+e^{-x})} \\
& = \frac{d}{dx}(1+e^{-x})^{-1} \\
& = -(1+e^{-x})^{-2} (-e^{-x}) \\
& = \frac{e^{-x}}{1+e^{-x}}^2 \\
& = \frac{1}{1+e^{-x}}\cdot\frac{e^{-x}}{1+e^{-x}} \\
& = \frac{1}{1+e^{-x}}\cdot\frac{(1+e^{-x})-1}{1+e^{-x}} \\
& = \frac{1}{1+e^{-x}}\cdot(1-\frac{1}{1+e^{-x}}) \\
& = \sigma(x)\cdot(1-\sigma(x))
\end{align}


In [8]:
## y-hat = sigmoid(w.x) 梯度下降计算过程

def sigmoid(x):
    return 1/(1+np.exp(-x))

# Derivative of the sigmoid function
# 激活函数的导数
def sigmoid_prime(x):
    return sigmoid(x) * (1 - sigmoid(x))

x = np.array([0.1, 0.3])
y = 0.2
weights = np.array([-0.8, 0.5])
learnrate = 0.5

# the linear combination performed (h in f(h) and f'(h))
h = np.dot(x, weights)

# y-hat
nn_output = sigmoid(h)

# output error (y - y-hat)
error = y - nn_output

# output gradient (f'(h))
output_grad = sigmoid_prime(h)

# error term (lowercase delta)
error_term = error * output_grad

# Gradient descent step 
del_w = learnrate * error_term * x

---
## 实现梯度下降

我们拿一个研究生学院录取数据来用梯度下降训练一个网络。数据可以在[这里](http://www.ats.ucla.edu/stat/data/binary.csv)找到。数据有三个输入特征，*GRE分数，GPA，和本科院校排名 rank（从1到4）*。数字1代表最好，数字4代表最差。我们的目标是基于这些特征来预测一个学生能否被研究生院录取。

### 数据清理

#### Dummy Variable

rank 是类别特征，数字并不包含任何相对的值。使用 dummy variables 编码，变成4列，对应列为1，其他列为0.

![](https://s3.cn-north-1.amazonaws.com.cn/u-img/0c580bc2-b0a9-4952-bfd0-f2ce6093efe8)