误差函数是可微的，连续的；

梯度是改变率或者斜度的另一个称呼。如果你需要回顾这个概念，可以看下可汗学院对这个问题的[讲解](https://www.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/gradient-and-directional-derivatives/v/gradient)。

梯度：https://www.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/gradient-and-directional-derivatives/v/gradient

避免局部最低点方法:
    
https://ruder.io/optimizing-gradient-descent/index.html#momentum

可汗学院微积分：https://www.khanacademy.org/math/multivariable-calculus

向量：https://www.khanacademy.org/math/linear-algebra/vectors-and-spaces/vectors/v/vector-introduction-linear-algebra

矩阵：https://www.khanacademy.org/math/precalculus-2018/precalc-matrices


数据清理

rank 是类别特征，其中的数字并不表示任何相对的值。排名第 2 并不是排名第 1 的两倍；排名第 3 也不是排名第 2 的 1.5 倍。因此，我们需要用 dummy variables 来对 rank 进行编码。


首先你需要初始化权重。我们希望它们比较小，这样输入在 sigmoid 函数那里可以在接近 0 的位置，而不是最高或者最低处。很重要的一点是要随机地初始化它们，这样它们有不同的初始值，是发散且不对称的。所以我们用一个中心为 0 的正态分布来初始化权重，此正态分布的标准差（scale 参数）最好使用 $1/\sqrt{n}$ ，其中 nn 是输入单元的个数。这样就算是输入单元的数量变多，sigmoid 的输入还能保持比较小。

# 均方差

（mean of the square errors，MSE）

$$
E = \frac{1}2m\sum_{\mu=1}^{m}(y^{\mu}-\hat{y}^\mu)^2
$$

**梯度下降法**更新权重的算法概述：

1.权重步长设定为 0： $\Delta w_i = 0$

2.对训练数据中的每一条记录：

a.通过网络做正向传播，计算输出 $\hat y = f(\sum_i w_i x_i)$ 

b.计算输出单元的误差项（error term） $\delta = (y - \hat y) * f'(\sum_i w_i x_i)$

c.更新权重步长 $\Delta w_i = \Delta w_i + \delta x_i$

d.更新权重 $w_i = w_i + \eta \Delta w_i / m$. 其中 $\eta$ 是学习率， m 是数据点个数。这里我们对权重步长做了平均，为的是降低训练数据中大的变化。

3.重复 e 代（epoch）。

你也可以对每条记录更新权重，而不是把所有记录都训练过之后再取平均。

这里我们还是使用 sigmoid 作为激活函数

$f(h) = 1/(1+e^{-h})$


sigmoid 的梯度是： $f'(h) = f(h) (1 - f(h))$


其中 h 是输出单元的输入

$h = \sum_i w_i x_i$


# 用 NumPy 来实现

## 初始化
首先你需要初始化权重。我们希望它们比较小，这样输入在 sigmoid 函数那里可以在接近 0 的位置，而不是最高或者最低处。很重要的一点是要随机地初始化它们，这样它们有不同的初始值，是发散且不对称的。

所以我们用一个中心为 0 的正态分布来初始化权重，此正态分布的标准差（scale 参数）最好使用 $1/\sqrt{n}$
，其中 n 是输入单元的个数。这样就算是输入单元的数量变多，sigmoid 的输入还能保持比较小。

weights = np.random.normal(scale=1/n_features**.5, size=n_features)


实例，ex5/ex_gd.ipynb

**对于多层网络**：

![](./dl000.png)



#Number of records and input units

数据点数量以及每个数据点有多少输入节点

n_records, n_inputs = features.shape

#Number of hidden units

#隐藏层节点个数

n_hidden = 2

weights_input_to_hidden = np.random.normal(0, n_inputs**-0.5, size=(n_inputs, n_hidden))

![](./dl001.png)

## 点乘

input to the output layer


输出层的输入

output_in = np.dot(weights, inputs)

hidden_inputs = np.dot(inputs, weights_input_to_hidden)

In [1]:
import numpy as np

def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1/(1+np.exp(-x))

# Network size
N_input = 4
N_hidden = 3
N_output = 2

np.random.seed(42)
# Make some fake data
X = np.random.randn(4)

weights_input_to_hidden = np.random.normal(0, scale=0.1, size=(N_input, N_hidden))
weights_hidden_to_output = np.random.normal(0, scale=0.1, size=(N_hidden, N_output))


# TODO: Make a forward pass through the network

hidden_layer_in =  np.dot(X, weights_input_to_hidden)
hidden_layer_out = sigmoid(hidden_layer_in) 

print('Hidden-layer Output:')
print(hidden_layer_out)

output_layer_in = np.dot(hidden_layer_out,weights_hidden_to_output)
output_layer_out = sigmoid(output_layer_in)

print('Output-layer Output:')
print(output_layer_out)

Hidden-layer Output:
[0.41492192 0.42604313 0.5002434 ]
Output-layer Output:
[0.49815196 0.48539772]


# 反向传播

反向传播是训练神经网络的基础原理；

反向传播算法梯度下降的一个延伸。以一个两层神经网络为例，可以使用链式法则计算输入层-隐藏层间权重的误差。

每层的输出是由两层间的权重决定的，两层之间产生的误差，按权重缩放后在网络中向前传播。既然我们知道输出误差，便可以用权重来反向传播到隐藏层。

In [4]:
import numpy as np


def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1 / (1 + np.exp(-x))


x = np.array([0.5, 0.1, -0.2])
target = 0.6
learnrate = 0.5

weights_input_hidden = np.array([[0.5, -0.6],
                                 [0.1, -0.2],
                                 [0.1, 0.7]])

weights_hidden_output = np.array([0.1, -0.3])

## Forward pass
hidden_layer_input = np.dot(x, weights_input_hidden)
hidden_layer_output = sigmoid(hidden_layer_input)

output_layer_in = np.dot(hidden_layer_output, weights_hidden_output)
output = sigmoid(output_layer_in)

## Backwards pass
## TODO: Calculate output error
error = target - output

# TODO: Calculate error term for output layer
output_error_term = error * output * (1 - output)
print("0==============="*3)
print(output_error_term)
print("1==============="*3)
print(weights_hidden_output)
print("2==============="*3)
# TODO: Calculate error term for hidden layer
hidden_error_term = np.dot(output_error_term, weights_hidden_output) * \
                    hidden_layer_output * (1 - hidden_layer_output)

# TODO: Calculate change in weights for hidden layer to output layer
delta_w_h_o = learnrate * output_error_term * hidden_layer_output

# TODO: Calculate change in weights for input layer to hidden layer
delta_w_i_h = learnrate * hidden_error_term * x[:,None]

print('Change in weights for hidden layer to output layer:')
print(delta_w_h_o)
print('Change in weights for input layer to hidden layer:')
print(delta_w_i_h)


0.028730669543515018
[ 0.1 -0.3]
Change in weights for hidden layer to output layer:
[0.00804047 0.00555918]
Change in weights for input layer to hidden layer:
[[ 1.77005547e-04 -5.11178506e-04]
 [ 3.54011093e-05 -1.02235701e-04]
 [-7.08022187e-05  2.04471402e-04]]


反向传播（Backpropagation）是深度学习的基础。TensorFlow 或者其它框架会替你把它做好，但是你应该理解它的算法。我们后面还会讲到它，这里有些材料你可以看一下：

Andrej Karpathy：是的，你应该了解反向传播:

https://medium.com/@karpathy/yes-you-should-understand-backprop-e2f06eab496b#.vt3ax2kg9

同样来自 Andrej Karpathy：斯坦福的 CS231n 课程的一个视频

https://www.youtube.com/watch?v=59Hbtz7XgjM
