### Practival aspects of Deep Learning

1. Train/Dev/Test sets
    1. Data set:
        * training set 60%  /  98%
        * cross validation set 10%  / 1%
        * test set  30%  / 1%
        * 大数据时代，可以考虑将训练集比例增大
    2. Mismatched train/test set
        * 如果训练集和测试集数据来源不同，会造成误差，因此尽量保证训练集和测试集有相同分布
        * 有时没有测试集， 只有验证集也是可以的。

2. Bias and variance
    1. Bias
        * High Bias = underfitting 欠拟合
    2. Variance
        * high variance = overfitting 过拟合

3. Basic recipe for ML
    1. high bias
        * bigger network
        * train longer
    2. high variance
        * more data
        * regularization
    3. training a bigger networks always no hurt
4. bias-variance trade off in regularization
    1. regularization in LR
        * $\min_{w, b}J(w, b) \rightarrow \frac{1}{m}\sum_{i=1}{m}L(\hat{y}^i, y^i) + \frac{\lambda}{2m}||w||^2_2$
        * L2 regularization: $||w||^2_2 = \sum_{j=1}^{n_x}w_j^2 = w^Tw$
        * L1 regularization:  $||w|| = \sum_{j=1}^{n_x}w_j$
    2. regularization in neural network
        * Frobenius regularization: $||w^{l}||^2_F = \sum_{i=1}^{n^{l-1}}\sum_{j=1}^{n^{l}}w_{ij^2}$
        * regularization for bp:  
        $dw^l = $(oridinal bp part)$ + \frac{\lambda}{m}w^l$  
        $w^l = w^l - \alpha dw^l = w^l - \frac{\alpha \lambda}{m}w^l - \alpha$(oridinal bp part)$ = (1 - \frac{\alpha \lambda}{m})w^l - \alpha$(oridinal bp part)
5. regularization prevent overfitting
    1. 以tanh为例，如果z=wx+b, 且z相对小，那么利用的就是tanh的近似线性部分呢，当$\lambda$足够大时，正则化会使w变小来降低loss，此时整个nn就是近似线性回归，即在过拟合的部分会线性化，降低过拟合。

6. dropout
    1. 每个神经元有一定概率被drop
    2. invert dropout: after dropout, divided a by keep_prob to keep the expectation of a
    3. 在测试时不需要dropout， 因为a3的期望没有改变 因此不需要dropout
7. Understanding dropout
    1. 使nn不过度依赖某一个特征，因为任意一个特征都可能会被drop掉
    2. choose keep_prob
        * 参数最多的一层(w矩阵的参数最多)可以给予一个较低的keep_prob，剩下的层可以给一些更高的值或者不drop.
        * 对于输入层，可以给一个keep_prob，但是不能太低(0.9-1.0)
        

In [6]:
import numpy as np

keep_prob = 0.8
# suppose dropout with layer 3
a3 = np.random.randn(15).reshape(3, 5)
print(a3)
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob
a3 = np.multiply(a3, d3)
a3 /= keep_prob # invert drop out 确保a3期望不变
print(d3)
print(a3)

[[-0.22358108  0.45986694 -1.30313942 -0.71691509  2.23786213]
 [-0.81889032 -0.50347893  0.47094644  0.45044138  0.5085071 ]
 [ 0.23755289  0.6483599   0.0488408   0.08587225  0.30850992]]
[[False False False  True  True]
 [ True  True  True  True  True]
 [ True  True  True  True  True]]
[[-0.          0.         -0.         -0.89614386  2.79732766]
 [-1.0236129  -0.62934866  0.58868305  0.56305172  0.63563387]
 [ 0.29694112  0.81044988  0.061051    0.10734031  0.38563741]]


8. Other regularization methods
    1. data augmentation
        * 通过翻转、剪切等方式增大数据量，生成假的训练数据
    2. earily stopping
        * 提前结束迭代，通过验证集误差辨别是否发生了过拟合
        * earily stopping同时也结束了对cost function的优化，这是一个缺点
    3. Orthogonalization(正交化)

9. Normalizing training sets
    1. 将不同范围的向量，归一化到相似的范围内，可以使cost function更易于优化。
    2. 一般不使特征处于不同数量级上。

10. Vanishing/ exploding gradients
    * 考虑激活函数为线性函数，则对l层nn， $\hat{y} = w^lx$
    1. 梯度消失
        * 当$w^l$是对角大于1的对角阵时，$w^l -> w_{0,0}^l\rightarrow \infty$
    2. 梯度爆炸
        * 当$w^l$是对角小于1的对角阵时，$w^l -> w_{0,0}^l\rightarrow 0$
    3. 通过权重初始化可以抑制梯度消失和爆炸
11. Weight initialization
    1. Xavier 初始化 
        * 设置权重的时候，添加一个上一层神经元特征数的倒数的平方根，即
    $np.sqrt(\frac{2}{n^{l-1}})$

12. Numerical approximation of gradients
    1. Checking derivative computation
        * $\frac{f(\theta + \varepsilon) - f(\theta - \varepsilon)}{2\varepsilon} \approx g(\theta)$
    2. Gradient Checking
        * 将所有W, b合并为一个向量$\theta$，那么J(w, b)转为$J(\theta)$
        * $d\theta_{approx}[i] = \frac{J(\theta_1, \theta_2, ..., \theta_i+\varepsilon, ...) - J(\theta_1, \theta_2, ..., \theta_i-\varepsilon, ...)}{2\varepsilon} \approx d\theta[i] = \frac{\partial J}{\partial \theta_i}$
        * check whether $\frac{||d\theta_{a} - d\theta||_2}{||d\theta_{a}||_2  +  ||d\theta||_2}$， 当$\varepsilon < 10^{-7}$时，如果该项的值也约等于$10^{-7}$， 那么这个梯度的计算是正确的。
    3. Gradient checking implmentation notes
        * 只适用于debug阶段，train阶段不需要
        * 如果梯度检验失败，那么需要检察所有components
        * 需要正则化
        * 对dropout无效