In [1]:
from IPython.display import HTML

HTML('<iframe width="800" height="450" src="https://www.youtube.com/embed/Rs9petvTBLk" frameborder="0" allow="autoplay; encrypted-media" allowfullscreen></iframe>')


## 实现隐藏层

先修要求
接下来我们会讲神经网络在多层感知器里面的数学部分。讲多层感知器我们会用到向量和矩阵。你可以通过下列讲解对此做个回顾：

- 可汗学院的 [向量入门](https://www.khanacademy.org/math/linear-algebra/vectors-and-spaces/vectors/v/vector-introduction-linear-algebra).
- 可汗学院的 [矩阵入门](https://www.khanacademy.org/math/precalculus/precalc-matrices).

## 由来

<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/multi-perceptron-text-1.png">
<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/network-with-labeled-nodes.png">
<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/multi-perceptron-text-2.png">
<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/network-with-labeled-weights.png">
<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/multi-perceptron-text-3.png">

对比上面的示意图，确保你了解了不同的权重在矩阵中与在神经网络中的对应关系。

用 NumPy 来初始化这些权重，我们需要提供矩阵的形状（shape），如果特征是一个包含以下数据的二维数组：

```
# Number of records and input units
# 数据点数量以及每个数据点有多少输入节点
n_records, n_inputs = features.shape
# Number of hidden units
# 隐藏层节点个数
n_hidden = 2
weights_input_to_hidden = np.random.normal(0, n_inputs**-0.5, size=(n_inputs, n_hidden))
```

<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/multi-perceptron-text-4.png">
<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/input-times-weights.png">
<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/multi-perceptron-text-5.png">
<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/multi-perceptron-text-6.png">

```
# Same weights and features as above, but swapped the order
hidden_inputs = np.dot(weights_input_to_hidden, features)
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-11-1bfa0f615c45> in <module>()
----> 1 hidden_in = np.dot(weights_input_to_hidden, X)

ValueError: shapes (3,2) and (3,) not aligned: 2 (dim 1) != 3 (dim 0)
```

3x2 的矩阵跟 3 个元素的数组是没法相乘的。因为矩阵中的两列与数组中的元素个数并不匹配。能够相乘的矩阵如下：

<img src="../../../sources/img/NeuralNetworkIntro/gradient-descent/matrix-mult-3.png">


这里的规则是，如果是数组在左边，数组的元素个数必须与右边矩阵的行数一样。如果矩阵在左边，那么矩阵的列数，需要与右边向量的行数匹配。

## 构建一个列向量

看上面的介绍，你有时会需要一个列向量，尽管 NumPy 默认是行向量。你可以用 `arr.T` 来对数组进行转置，但对一维数组来说，转置还是行向量。所以你可以用 `arr[:,None]` 来创建一个列向量：

```
print(features)
> array([ 0.49671415, -0.1382643 ,  0.64768854])

print(features.T)
> array([ 0.49671415, -0.1382643 ,  0.64768854])

print(features[:, None])
> array([[ 0.49671415],
       [-0.1382643 ],
       [ 0.64768854]])
```

当然，你可以创建一个二维数组，然后用 `arr.T` 得到列向量。

```
np.array(features, ndmin=2)
> array([[ 0.49671415, -0.1382643 ,  0.64768854]])

np.array(features, ndmin=2).T
> array([[ 0.49671415],
       [-0.1382643 ],
       [ 0.64768854]])
```

我个人更倾向于保持所有向量为一维数组，这样可以更好认知。

## 编程练习

下面你要实现一个 4x3x2 网络的正向传播，用 sigmoid 作为两层的激活函数。

## 要做的事情：

- 计算隐藏层的输入
- 计算隐藏层输出
- 计算输出层的输入
- 计算神经网络的输出


In [2]:
import numpy as np

def sigmoid(x):
    """
    Calculate sigmoid
    """
    return 1/(1+np.exp(-x))

# Network size
N_input = 4
N_hidden = 3
N_output = 2

np.random.seed(42)
# Make some fake data
X = np.random.randn(4)

weights_input_to_hidden = np.random.normal(0, scale=0.1, size=(N_input, N_hidden))
weights_hidden_to_output = np.random.normal(0, scale=0.1, size=(N_hidden, N_output))


# TODO: Make a forward pass through the network
# 计算隐藏层的输入
hidden_layer_in = np.dot(X, weights_input_to_hidden)
# 计算隐藏层的输出
hidden_layer_out = sigmoid(hidden_layer_in)

print('Hidden-layer Output:')
print(hidden_layer_out)

# 计算输出层的输入
output_layer_in = np.dot(hidden_layer_out, weights_hidden_to_output)
# 计算神经网络的输出
output_layer_out = sigmoid(output_layer_in)

print('Output-layer Output:')
print(output_layer_out)

Hidden-layer Output:
[ 0.41492192  0.42604313  0.5002434 ]
Output-layer Output:
[ 0.49815196  0.48539772]
