## 无框架多层神经网络识别猫咪图片

此项目目的在熟练掌握多层全连接网络的基本原理。 使用python/numpy手工实现多层神经网络。 数据集使用两组h5格式的图片数据集。
需要导入的库如下：

In [6]:
import numpy as np
import h5py    # 用于导入h5数据
import matplotlib.pyplot as plt

np.random.seed(121)

### 1. 多层神经网络每一层输入输出维度关系
由于需要从头开始实现神经网络， 在争相传播和反向传播时， 需要矩阵运算维度保持匹配。 在开工支之前先把维度弄清楚。
比如输入层X维度是$(n^{[1]}=12288,m^{[1]}=209)$, 也就是特征有12288维， 样品数209个。具体维度如下：


<table style="width:100%">
	<tr>
		<th>网络层数</th>
		<th>W维度</th>
		<th>b维度</th>
		<th>Z值</th>
		<th>A维度</th>
	</tr>
	<tr>
		<td>Layer 1</td>
		<td>$(n^{[1]}, 12288)$</td>
		<td>$(n^{[1]}, 1)$</td>
		<td>$Z^{[1]}=W^{[1]}X + b^{[1]}$</td>
		<td>$(n^{[1]}, 209)$</td>
	</tr>

	<tr>
		<td>Layer 2</td>
		<td>$(n^{[2]}, n^{[1]})$</td>
		<td>$(n^{[2]}, 1)$</td>
		<td>$Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}$</td>
		<td>$(n^{[2]}, 209)$</td>
	</tr>

	<tr>
        	<td>$\vdots$</td> 
        	<td>$\vdots$</td> 
        	<td>$\vdots$</td> 
        	<td>$\vdots$</td> 
        	<td>$\vdots$</td> 
	</tr>

	<tr>
		<td>Layer L-1</td>
		<td>$(n^{[L-1]}, n^{[L-2]})$</td>
		<td>$(n^{[L-1]}, 1)$</td>
		<td>$Z^{[L-1]}=W^{[L-1]}A^{[L-2]} + b^{[L-2]}$</td>
		<td>$(n^{[L-1]}, 209)$</td>
	</tr>
	
	<tr>
		<td>Layer L</td>
		<td>$(n^{[L]}, n^{[L-1]})$</td>
		<td>$(n^{[L]}, 1)$</td>
		<td>$Z^{[L]}=W^{[L-1]}A^{[L-1]} + b^{[L-1]}$</td>
		<td>$(n^{[L]}, 209)$</td>
	</tr>
	
</table>

网络基本构成如下：
[Linear --> RELU](L-1层) --> [Linear --> Sigmoid]

### 3. 权值初始化
* 对于神经网络而言， 不能把多神经元的W全部初始化为0， 如果的这样的话， 训练出来每个神经元结果完全一样。 效果等同于一个逻辑回归函数。 
* 为了保证多层变换以后不至于输出结果过大导致梯度爆炸，初始权值尽量小一些。 使用np.random.randn(shape)*0.01初始化W
* b可以初始位0， np.zeros(shape)

In [10]:
def l_layer_init(layer_dims_list):
    """
    
    :param 
        list_layer_dims -- python list of dims of each layer. Each element is a int number of hidden unit
    :return: 
        param_weights: python dict of W,b for each layers
    """
    L = len(layer_dims_list)
    param_weights = {}
    np.random.seed(121)
    for l in range(1, L):
        W = np.random.randn(layer_dims_list[l],layer_dims_list[l-1]) * 0.01
        b = np.zeros([layer_dims_list[l], 1])
        param_weights['W'+str(l)] = W
        param_weights['b'+str(l)] = b
    return param_weights      

假设初始一个3层网络， 输入特征10维，第二层，3个hidden unit, 输出层1维。 隐藏层和输出层的参数权重维度应该是
W1(3,10), b1(3,1), W2(1, 3), b2(1, 1), 测试一下上述函数。 

In [21]:
test_dims_list = [10, 3, 1]
test_params_weights = l_layer_init(test_dims_list)
print('W1')
print(test_params_weights['W1'].shape)
print('b1')
print(test_params_weights['b1'].shape)
print('\nW2')
print(test_params_weights['W2'].shape)
print('b2')
print(test_params_weights['b2'].shape)

W1
(3, 10)
b1
(3, 1)

W2
(1, 3)
b2
(1, 1)


### 2. 向前传播Forward Propagation
向前传播包括两部分变换
* 线性变换
* 非线性激活函数变换
因此需要把需要的激活函数定义出来。 这个项目中， 隐藏层使用relu函数， 输出层牵扯到分类问题，使用sigmoid函数。

In [22]:
def relu(Z):
    A = np.maximum(0, Z)
    return A

def sigmoid(Z):
    A = 1/(1+np.exp(-Z))
    return A

激活函数定义完毕后，准备定义forward_propagation函数
#### 2.2 定义向前传播函数
* 第一层网络， $A^{[0]}=X$
* 前L-1层网络，$Z^{[l]}=W^{[l]}A^{[l-1]} + b^{[l]}，A^{[l]}=Relu(Z^{[l]})$
* 第L层网络， $Z^{[L]}=W^{[L]}A^{[L-1]} + b^{[L]}，A^{[L]}=sigmoid(Z^{[L]})$

In [None]:
def forward_propagation(param_weights, X):
    