## 机器学习模型评估
也称为性能度量(performance measure)。设计好了一个模型，如何去评价其泛化能力呢？<br>
对于给定样例集$D={(x_1,y_1),(x_2,y_2)..(x_m,y_m)}$,其中$y_i$是真实标记，$x_i$,
### **回归任务**
最常用的性能度量是MSE(mean squared error)

$E(f;D)=\frac {1}{m}\sum _{i=1}^m(f(x_i)-y_i)^2$

>在一些回归任务诸如人群密度估计(crowd counting)中，也采用MAE(Mean Absolute Error)作为评价指标。
### 分类任务的性能度量
#### 错误率(Error)与精度(accuracy)
**精度(acc)定义:**<br>
$acc(f:D)=\frac{1}{m}\sum _{i=0}^m\Pi(f(x_i)=y_i)$

**错误率(Error)定义**<br>
1-acc

### 常见的一些范数及应用场景，如L0，L1,L2,Frobenius范数

**理解范数：**平方范数$L^2$常用来衡量向量的大小，可以简单地通过$X^TX$来计算。直观上来讲，向量`x`的范数衡量从原点到点`x`的距离。
$$||x||_p=\left(\sum|x_i|^p\right)^\frac{1}{p}$$


范数在机器学习的应用场景：**正则化项**


**正则化问题的引出：**

机器学习中的一个核心问题是：**设计不仅在训练数据上表现好，而且能在新的输入(test集)上泛化好的算法。**正则化就是显式地设计来减少**测试误差**(可能会增大**训练误差**为代价)。
在机器学习中，经常会遇到过拟合的现象
有些正则化策略向目标函数增加额外项来对参数值进行软约束，如果我们细心选择，这些额外的约束和惩罚可以改善模型在测试集上的表现。有时候，这些约束和乘法被设计为编码特定类型的先验知识；其他时候，这些约束和乘法被设计为偏好简单模型，以便提高泛化能力(模型过于复杂，存在在训练集上过拟合的风险，相对简单的模型可能存在更强的泛化能力)。

许多正则化方法通过对目标函数$J(\theta;X,y)$添加一个参数惩罚$\alpha \Omega(\theta)$
当我们的训练算法最小化正则化后的木变函数$\hat J(\theta)$时，他会降低原始目标$J$关于训练误差并同时减小在某些衡量标准下的参数规模。选择不同的参数$\theta$的范数会产生偏好不同的解。

#### $L^2$参数正则化
最简单最常见的参数惩罚范数惩罚，即通常被称为**权重衰减(weight decay)**的$L^2$的参数惩罚。这个正则化策略通过向目标函数添加一个正则化项使权重更加接近原点。$L^2$也被称为岭回归
$$w=w-lr*(\alpha w + \nabla J(w))=(1-lr*\alpha )w-lr*\nabla J(w)$$
加入权重衰减后会引起学习规则的衰减，即在没不执行通常的梯度更新之前先收缩权重向量。<br>

$L^2$（**权重衰减**）正则化对最佳w值的影响,
只有在显著减小目标函数方向上的参数$w$会保留得相对较好，在无助于目标函数减小的方向(对应Hessian矩阵较小特征值)上改变参数不会显著地增加梯度。这种不重要方向对应分量会在训练过程中因正则化而衰减掉

#### $L^1$正则化
L^2权重衰减是权重衰减是最常见的形式，还有其他方法限制模型参数的规模，一个选择是使用$L^1$正则化。
$$\Omega(\theta)=\sum |w_i|$$
$$\hat J(w;X,y)=\alpha ||w||_1+J(w;X,y)$$
对应的梯度
$$\hat J(w)=\alpha sign(w)+\nabla_wJ(w)$$
其中$sign(w)$只是简单地取w各个元素的正负号
我们可以看到正则化对梯度的影响不再是线性地缩放到每个$w_i$
相比较$L^2$正则化，**$L^1$会产生更稀疏的解。此处稀疏性指的是最优值中的一些参数w为0**。$L^2$正则化不会使参数变得稀疏，而$L^1$正则化有可能通过足够大的$\alpha$实现稀疏。


由$L^1$正则化的稀疏性质已经被广泛地用于特征选择(feature selection)机制。
#### 为何L1和L2正则化可以防止过拟合
* L1&L2正则化会使模型偏好于更小的权值
* 更小的权值意味着**更低的模型复杂度**；添加L1&L2相当于为模型添加了某种先验，限制了参数分布，从而降低了模型复杂度
* 模型复杂度降低，意味着模型对于噪声与异常点的抗干扰能力增强，从而提高模型的泛化能力




### 参数初始化
一般使用服从标准正态分布(高斯分布)mean=0, std=1，或者均匀分布的随机值作为**权重**的初始化参数；使用0作为偏置的初始化参数
一些启发式方法会根据输入与输出的单元数来决定初始值的范围
* 随机正交觉着呢

### Dropout策略
Dropout通过**参数共享**提供了一种廉价的Bagging集成近似——Dropout策略相当于继承了包括所有从基础网络出去部分单元后形成的子网络
通常，隐藏层的采样概率为0.5,输入的采样概率为0.8,；超参数也可以采样，但其采样概率一般为1

### BatchNormalization批正则化

训练的本质是**学习数据的分布**,如果训练数据与测试数据的分布不同会降低模型的泛化能力。因此，应该在开始训练器时对所有的数据做归一化处理，
而在神经网络中，每个隐藏层参数不同，会使下一层的输入发生变化，从而导致每一批数据的分布也发生变化；导致网络在每次迭代中都需要你和不同的数据分布，增大了网络的训练难度与过拟合的风险。
BN方法会针对每一批数据，在网络的每一层激活之前做归一化处理，使输入的均值为0，标准差为1.目的是将数据限制在统一的分布下

#### 基本原理
具体来说(针对DNN，全连接层构成的网络)，针对每一层第k个神经元，计算**批数据**在第`k`个神经元的均值与方差，然后将归一化后的值作为该神经元的激活值
$$\hat x_k=\frac {x_k-E[x_k]}{\sqrt{Var[x_k]}}$$
>计算$E[x_k]$和$Var[x_k]$使用batch维度做平均，可以看成在batch上的白化操作

BN对**层间数据分布进行额外约束**，但是这样会降低模型的拟合能力，破坏了之前学到的**特征分布**,为了**恢复数据的原始分布**，BN引入了一个**重构变化**，也就是可学习的$\gamma$和$\beta$

训练的时候通过全局的batch计算出了期望和方差，但是在测试的时候，通常测试数据只有一个，怎么办呢？

使用**全局统统计量**来替代批统计量
训练每个batch时，都会得到一组`(均值，方差)`
根据概率论学过的使用**样本无偏估计**，即在训练的时候就要计算这两个参数用于推断(BN层里面藏了不少东西^_^)
$E[x]=E[\mu_i]$<br>
$Var[x]=\frac{m}{m-1}E[\sigma_i^2]$


batch Normalizaiton作为近一年来DL的重要成果，已经被广泛证明其有效性和重要性。虽然有些细节处理还解释不清
机器学习领域有一个很重要的假设：IID(独立同分布假设)，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保证。Batch Normalization就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同的分布

##### 随着网络深度加深，训练起来困难，收敛越来越慢？
这个是DL领域很接近本质的好问题。很多论文都是来解决这个问题的，例如RelU和ResNet
对于深度学习这种包含很多隐藏层网络结构，在训练过程中，因为各层参数在不停地变化，所以每个隐藏层都会面临covariate shift(ICS)问题，也就是在训练过程中，隐藏层输入分布老是变来边去，提出了BatchNorm基本思想：能不能让每个隐藏层的节点的激活输入分布固定下来了？BN出现了..


为什么随着网络深度加深，训练起来越来越困难，收敛越来越慢？从论文的
mini-sgd对于One exmaple的两个优势：梯度更新方向更准确；并行计算速度更快；
covariate shift：如果ML系统实例集合<X,Y>中的输入值X的分布老师变，这不符合IID假设。对于深度学习这种包含很多隐藏层的网络结构，在训练过程中，因为各层参数在不停变化，所以每个因曾都会面临covariate shift问题，也就是在训练过程中，隐藏层的输入分布老是变来边去

### BN的推理(Inference)过程
**思考：**BN在训练的时候可以根据Mini-Batch里的若干训练实例进行激活函数调整，但是在推理过程中，很明显输入只有一个实例，看不到Mini-Batch其他实例，无法求均值和方差那么这时候如何对输入做BN呢？
既然没有从Mini-Batch数据中可以得到的统计量，那就想其他办法来获得均值方差。可以从所有的训练实例中获得统计量来代替Mini-Batch里面的m个训练实例

### BN的优缺点再次总结
**优点：**<br>
1.加速网络学习收敛(消除了ICS，支持更大的学习率)，提高模型准确率
2.防止了过拟合
3.降低了对参数初始化的需求
**缺点：**
1. 十分依赖Batch size，一定要batch size足够大，效果才好；
2. 不适合用于序列数据神经网络RNN，

### 其他的归一化方式介绍
layer Norm是在batch上面，对NHW做归一化，对小batchsize效果不好
InstanceNorm实在图像像素上，对HW做归一化，用在风格迁移
GroupNorm将channel分布，然后再做归一化
SwitchableNorm是将BN,LN,IN结合，赋给权重，让网络自己学习归一化应该用什么方法



### 简单介绍一下贝叶斯概率与频率派概率，以及在统计中对于真实参数的假设
**答：**
直接与时间发生的频率相联系，被称为频率派概率;而后者涉及确定性水平，被称为贝叶斯概率
关于不确定性的常识推理，如果我们已经列出了若干条期望它具有的性质，那么满足这些性质的唯一方法就是将贝叶斯概率和频率派概率视为等同

### 介绍一下sigmoid, relu, tanh, RBF及应用场景
**答：**

#### sigmoid 
$$g(z)=\frac{1}{1+e^(-z)}$$
特点：求导方便；值域(0,1)；头尾有饱和效应，对输入微小变化不敏感;在大部分定义域内饱和
$$\frac{d}{dz}g(z)=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})=g(z)(1-g(z))$$

#### tanh
$$g(z)=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$$ 

#### ReLU？？缓解梯度爆炸？
ReLU通常是比较好的激活函数
**ReLU相比sigmoid的优势**
1.缓解了sigmoid的梯度饱和区域，缓解了梯度消失
2.计算起来更加方便，加速计算，在负半区域梯度为0，正半区域为1(0处导数为0，人为定义了导数保证了梯度的可学习性)
#### softmax
很自然地表示了具有k个可能值的离散型随机变量的概率分布

#### softplus
$$g(z)=log(1+exp(z))$$
通过图像可以看到是ReLU的平滑版本，但从经验来看，并没有
#### 为什么要使用非线性激活函数？
使用**激活函数**的目的是为了向网络中加入**非线性因素**，从而加强网络的表示能力，解决**线性模型**无法解决的问题
* 如果不适用非线性函数，整个网络都是一个线性组合函数
#### 为什么加入非线性因素能够加强网络的表示能力？——神经网络的万能近似定力
* 神经网络的万能近似定力认为给予网络足够数量的隐藏单元，他就能可以以任意的精度来映射**从一个有限空间到另一个有限空间的函数**

## 损失函数
交叉熵是非负的，在神经元达到很好的正确率的时候会接近0。这些其实就是我们想要的代价函数的特性。其实这些特性也是二次代价函数具备的。所以，交叉熵就是很好的选择了。交叉熵代价函数有一个比二次代价函数更好的特性就是它避免了学习速度下降的问题

$$\frac{\partial C}{\partial w_j}=-\frac{1}{n}\sum (s)$$

#### 感受野(Receptive filed)
在卷积神经网络CNN中，决定某一层输出结果中一个元素所对应的输入层的区域大小，被称作感受野

### 选择超参数
手动选择和自动选择。自动选择往往需要更高的计算成本
学习率可能是最重要的超参数。如果你只有时间调整一个超参数，那就是调整学习率！！
当学习率适合优化问题是，模型的有效容量最高，此时学习率是正确的，学习率关于训练误差具有U型曲线，，当学习率过大时，梯度下降可能会不经意地增加而非减少训练误差。当学习率太小时，训练不仅慢，还有可能永久听列在一个很高的训练误差上。

#### 自动超参数优化算法
1. 网格搜索
通常当超参数量较小的时候，可以使用网格搜索法。即列出每个超参数的大致候选集合。利用这些集合进行逐项组合优化。在条件允许的情况下，重复进行网格搜索会相当优秀，当然每次重复需要根据上一步得到的最优参数组合，进行进一步的细粒度调整。网格搜索最大的问题在于计算时间会随超参数的数量指数级增长。

2. 随机搜索
不需要设定一个离散的超参数集合，而是对每个超参数定义一个分布函数来生成随机超参数。例如在batch size=[16,32,64]中随机搜索

### softmax求导
当i=j:<br>
$S_i(1-S_i)$

当i$\ne$j:<br>


大规模分布式实现
模型并行
多个机器共同运行同一个数据点，每个机器负责模型的一部分。

数据并行

## 随机梯度下降(SGD)
在机器学习优化算法中，GD（gradient descent）是最常用的方法之一，简单来说就是在整个训练集中计算当前的梯度，选定一个步长进行更新。GD的优点是，基于整个数据集得到的梯度，梯度估计相对较准，更新过程更准确。但也有几个缺点，一个是当训练集较大时，GD的梯度计算较为耗时，二是现代深度学习网络的loss function往往是非凸的，基于凸优化理论的优化算法只能收敛到local minima，因此使用GD训练深度神经网络，最终收收敛点很容易落在初始点附近的一个local minima，不太容易达到较好的收敛性能。折中的方案就是mini-batch，一次采用batch size的sample来估计梯度，这样梯度估计相对于SGD更准，同时batch size能占满CPU/GPU的计算资源，又不像GD那样计算整个训练集。同时也由于mini batch能有适当的梯度噪声[8]，一定程度上缓解GD直接掉进了初始点附近的local minima导致收敛不好的缺点，所以mini-batch的方法也最为常用。

**我们平时提到的SGD通常就是用mini-batch梯度下降**，mini-batch来确定当次
通过计算少量样本的平均值可以快速得到一个对于实际梯度$\nabla C_x$，来估算梯度，加速学习过程,当然mini-batch也可以是在总的数据集中也可以使随机的。

小批量的大小通常由以下几个因素决定：
* 更大的批量会计算更精确地梯度估计，但也不是越大越好，超过一定的范围会降低
极小批量通常难以充分利用多核并行计算架构(如果计算量太小，即使多卡也没有什么太好的加速效果，因为单卡足以胜任工作)
* 如果批量处理中的所有样本可以并行地处理，那么内存消耗和批量大小会成正比。硬件可能是batch size的限制因素,因此batch size是一个重要的调参对象

通常是在犯错比较明显的时候学习的速度最快



## Dropout
Dropout可以被认为是集成大量深层神经网络的实用Bagging方法。Bagging涉及训练多个模型，每个测试样本上评估多个模型，Dropout提供了一种廉价版的Bagging集成。在dropout情况下，大部分模型共享参数

* 在 Bagging 的情况下，所有模型都是独立的；而在 Dropout 的情况下，所有模型共享参数，其中每个模型继承父神经网络参数的不同子集。
* 在 Bagging 的情况下，每一个模型都会在其相应训练集上训练到收敛。而在 Dropout 的情况下，通常大部分模型都没有显式地被训练；取而代之的是，在单个步骤中我们训练一小部分的子网络，参数共享会使得剩余的子网络也能有好的参数设定。


## 参数初始化
* 一般使用服从的高斯分布`（mean=0, stddev=1）`或均匀分布的随机值作为权重的初始化参数；使用 0 作为偏置的初始化参数
* 一些启发式方法会根据输入与输出的单元数来决定初始值的范围 
* 其他初始化方法
    随机正交矩阵（Orthogonal）
    截断高斯分布（Truncated normal distribution）


## 为什么要归一化？？

 为了后面数据处理的方便，归一化的确可以避免一些不必要的数值问题。
    为了程序运行时收敛加快。 下面图解。
    同一量纲。样本数据的评价标准不一样，需要对其量纲化，统一评价标准。这算是应用层面的需求。
    避免神经元饱和。啥意思？就是当神经元的激活在接近 0 或者 1 时会饱和，在这些区域，梯度几乎为 0，这样，在反向传播过程中，局部梯度就会接近 0，这会有效地“杀死”梯度。
    保证输出数据中数值小的不被吞食。
    
上图是代表数据是否均一化的最优解寻解过程（圆圈可以理解为等高线）。左图表示未经归一化操作的寻解过程，右图表示经过归一化后的寻解过程。

当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；而右图对两个原始特征进行了归一化，其对应的等高线显得很圆，在梯度下降进行求解时能较快的收敛。

因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。

## 卷积网络CNN
### 卷积的动机
卷积三大重要思想：
* 稀疏交互(Sparse interactions)
* 参数共享(parameter sharing)
* 等变表示(equivariant representations)

传统的神经网络中每一个输出单元与每一个输入单元都产生交互。卷积网络改进了这一点，使具有稀疏交互的特征。CNN通过核(kernel)尺寸小鱼输入的尺寸来达到这个目的
### 稀疏带来的好处
* 提高了模型的效率
* 减少了模型的存储需求和计算量，如果有`m`个输入和`n`个输出，复杂度为`o(m×n)`，如果每一个输出只来自`k`个输入，那么计算复杂度为`o(k×n)`
虽然减少了隐藏层单元之间的交互，但是实际上在**深层的单元可以间接的连接到全部或者大部分的输入(这也就是所谓的感受野)**
### 参数共享
参数共享是指在一个模型中的多个函数中使用相同的参数，也就是说一对输入和输出只绑定一组参数，在不同的输入节点中滑动
### 等变/不变性
平移不变性是一个很有用的性质，尤其是但我们关心某个特征是否出现而不太关心其出现的具体位置时。
参数共享和(池化)使神经网络具有一定的平移不变性
>池化操作也能够加强网络的平移不变性
### 卷积参数计算
#### 输出feature map尺寸
$$\frac{n-f+p}{s} +1$$
n:输入尺寸 f:卷积核ch存 s:卷积步长 p:padding数量 
>只有卷积核完全覆盖输入计算才有效，但上式算出来的商可能不是整数，惯例是向下取整
#### 卷积conv2d以及参数量
通常二维图像有多个通道，因此每一张图像实际上的shape是(channel,h,w)，conv2d做的其实是三维卷积，conv2d不仅仅会对二维图像输出后的尺寸变动，更重要的是在通道上的变动，在通道上多样的处理方法也衍生出了很多经典网络

**conv2d权重参数量:**<br>
$$out×in×k×k$$
out:输出通道数量 in:输入通道数量 k:卷积核尺寸
#### 卷积运算计算量
计算conv2d在对输入的feature map卷积的计算量,总体思路是`输出尺寸×卷积的参数量`
$$(\frac{n-f+p}{s}+1)\times out \times in \times k \times k$$
>不考虑求和和bias计算量
### 卷积中padding

1. valid卷积——不使用0填充，卷积核只允许访问图像中能够完全包含整个核的位置，输出的宽度为`n(输入图像尺寸)-f(卷积核的尺寸)+1`(假设stride=1)
在这种情况下，输出的大小每一次都会损失一部分，(一般情况下，影响不大，除非是上百层的网络)
2. same卷积——进行足够的0填充保持每一次输出和输入具有相同大小的尺寸。
$p=(k-1)/2$
p：padding填充数量  k:卷积核的尺寸


<table style="width:100%; table-layout:fixed;">
  <tr>
    <td><img width="150px" src="gif/no_padding_no_strides.gif"></td>
    <td><img width="150px" src="gif/arbitrary_padding_no_strides.gif"></td>
    <td><img width="150px" src="gif/same_padding_no_strides.gif"></td>
    <td><img width="150px" src="gif/full_padding_no_strides.gif"></td>
  </tr>
  <tr>
    <td>无填充，步长为1</td>
    <td>Arbitrary padding, no strides</td>
    <td>same 模式，有填充，步长为1</td>
    <td>Full padding, no strides</td>
  </tr>
  <tr>
    <td><img width="150px" src="gif/no_padding_strides.gif"></td>
    <td><img width="150px" src="gif/padding_strides.gif"></td>
    <td><img width="150px" src="gif/padding_strides_odd.gif"></td>
    <td></td>
  </tr>
  <tr>
    <td>无填充，步长为2</td>
    <td>Padding, strides</td>
    <td>Padding, strides (odd)</td>
    <td></td>
  </tr>
</table>

## 反卷积(Transposed convolution) 

蓝色是输入的feature map, 灰绿色是输出

<table style="width:100%; table-layout:fixed;">
  <tr>
    <td><img width="150px" src="gif/no_padding_no_strides_transposed.gif"></td>
    <td><img width="150px" src="gif/arbitrary_padding_no_strides_transposed.gif"></td>
    <td><img width="150px" src="gif/same_padding_no_strides_transposed.gif"></td>
    <td><img width="150px" src="gif/full_padding_no_strides_transposed.gif"></td>
  </tr>
  <tr>
    <td>No padding, no strides, transposed</td>
    <td>Arbitrary padding, no strides, transposed</td>
    <td>Half padding, no strides, transposed</td>
    <td>Full padding, no strides, transposed</td>
  </tr>
  <tr>
    <td><img width="150px" src="gif/no_padding_strides_transposed.gif"></td>
    <td><img width="150px" src="gif/padding_strides_transposed.gif"></td>
    <td><img width="150px" src="gif/padding_strides_odd_transposed.gif"></td>
    <td></td>
  </tr>
  <tr>
    <td>No padding, strides, transposed</td>
    <td>Padding, strides, transposed</td>
    <td>Padding, strides, transposed (odd)</td>
    <td></td>
  </tr>
</table>

## 空洞卷积 (Dilated convolution) 
蓝色是输入的feature map, 灰绿色是输出

<table style="width:25%"; table-layout:fixed;>
  <tr>
    <td><img width="150px" src="gif/dilation.gif"></td>
  </tr>
  <tr>
    <td>无填充，步长为1</td>
  </tr>
</table>

在pytorch中，有一个类叫`torch.nn.Parameter()`  
该函数功能可以理解为将一个不可训练类型的`Tensor`转换为可训练的`parameter`，并将`parameter`绑定到`module`中，因此参数可以在训练的时候可以进行优化，这些参数也成了模型的一部。  
计算网络参数量是一个常见的问题，我们常用的参数也就是通道数的

In [2]:
import torch
import torch.functional as F
import torch.nn as nn

a = torch.randn((1,3,193,193))#输入尺寸(3,193,193)
c1 = nn.Conv2d(3,10,5)#卷积k=3x3,in=3,out=10
for i in c1.parameters():
    print('conv2d 5x5x10 para shape:', i.shape)
c2 = nn.Conv2d(10,10,1)
for i in c2.parameters():
    print('conv2d 1x1x10 para shape:', i.shape)
m = nn.MaxPool2d(2,2)
for i in m.parameters():#maxpooling只保存最大元素位置，不设参数
    print('maxpooling para shape:', i.shape)
bn = nn.BatchNorm2d(10，affine=False)
for i in bn.parameters():
    print('bn para shape:', i.shape)#bn的科学系

TConv = nn.ConvTranspose2d(in_channels=10,out_channels=10,kernel_size=3)
for i in TConv.parameters():
    print('Transposed Conv:', i.shape)#Transposed Conv(转置卷积)参数量和普通的Conv是一致的

Upsample = nn.Upsample(scale_factor=2, mode='bilinear')
for i in Upsample.parameters():
    print('Upsample :', i.shape)#Upsample不包含可学习的参数
    
    
no_padding = c1(a)#经过一次5x5x10的Conv2d(no padding)
print('output after conv1:', no_padding.shape)

x = c2(no_padding)#经过一次1x1x10的Conv2d
print('output after conv2:', x.shape)

x = bn(x)
print('output after bn:', x.shape)

x = m(x)#经过一次maxpooling(stride=2)
print('output after maxpoolig:', x.shape)# in // 2




SyntaxError: invalid character in identifier (<ipython-input-2-cee7eea61fee>, line 15)

通过上面可以看出，Conv2d的参数量其实为4D-Tensor，bias等于输出通道维度
对于bn而言参数， 可学习的参数只有$\gamma$ 和 $\beta$， 每个通道只有

# 鉴别深度学习调包侠的试金石—BN
据HR说能够完全回答正确BN问题的人只有少数。  
本文全部收集来自网上，
去任何一家公司面试深度学习相关工作，有80%的可能会被问到有关BN的知识点，据说能够完全回答正确BN问题的人只有少数，为什么面试官会如此青睐这个小小的bn呢？  
**此处引用网友的评论：**
>如果跑网络跑到一定程度就大概率会遇到bn的坑，遇到就会被逼着去了解bn的细节，
所以反过来说，如果不了解bn，则大概率缺乏实践经验,
日常使用中经常遇到bn的坑，无论是pytorch还是tf还是别的框架，如果对bn的细节不够熟悉的话连debug都无从下手

本文从paper到代码梳理一下bn的前世今生  
**Batch Normalizaiton: Accelerating Deep Network Training by Reducing Internal Covariate Shift**  
**Author: 某某某 Christian Szegedy(谷歌大佬)**  
* 从paper题目中就可以看出bn的作用和原理：**加速训练，减少ICS(层间分布偏移)**  



## bn参数量
为什么要把bn的参数量单独列出来谈呢

In [23]:
for i in nn.MaxPool2d(2).parameters():
    print(i.shape)

In [24]:
c2.4

SyntaxError: invalid syntax (<ipython-input-24-b682831cc6ba>, line 1)

## 反卷积葬爱家族(Upsample, Transposed Conv, Dilated Conv)
逆卷积相对于卷积在神经网络结构的正向和反向传播中做相反的运算
不难想象就是如下的稀疏矩阵
### 空洞卷积(Dilated Convolution)
### 转置卷积(Transposed Convolution)
### 

## 标准神经网络

代价函数关于任何一个权重的改变率：


复合函数求导法则
如果函数
$u=\psi (t)$
$v=\phi (t)$
$z=f(u,v)$在对应点$(u,v)$具有连续一阶偏导数，则复合函数$z=f[\psi(t), \phi(t)]$

## 经典CNN家族
### LeNet5
一种典型的用来识别数字的卷积神经网络.
#### 模型结构
#### 模型特性

1. 卷积网络使用一个三层的序列：**卷积,池化,非线性**——这可能是自这篇论文以来面向图像的深度学习最关键的特性！！
2. 使用卷积提取空间特征,卷积具有参数量少,稀疏性,参数共享,平移不变形
3. 使用映射得到的空间进行降采样()
4. tanh或sigmoid非线性激活
5. 使用全连接层也就是机器学习中的经典MLP做最后的分类

### Inception
Inception网络是CNN
#### Inception V4
结合残差块可以显著加速Inception的训练。作者进一步展示了适当的激活值缩放如何稳定
使模块更加一致。作者还注意到某些模块有不必要的复杂性。这允许我们通过添加更多的一致的模块来提高性能


## 自编码器(Autoencoder)
自编码器是神经网络的一种，经过训练后能尝试将输入复制到输出。自编码器内部有一个隐藏层h，可以产生编码(code)用于编码输入data。该网络可以看作两部分组成，一个由函数$h=f(x)$表示编码器和一个生成重构的解码器$r=g(h)$

## 如何解决过拟合与欠拟合？
**欠拟合**<br>
1. 添加其他特征项。
2. 添加多项式特征。例如将线性模型添加二次项或三次项使模型泛化能力更强。

3. 可以增加模型的复杂程度。
4. 减少正则化系数。正则化主要为了防止过拟合
**过拟合：**解决过拟合最好用的方式还是要在数据上做文章<br>
1. 重新清洗数据，数据不纯会导致过拟合，此类情况需要重新清理数据
2. 增加训练样本数量；添加噪声数量；数据增强()
3. 降低模型的复杂度
4. 增大正则化系数
5. 采用dropout方法
6. early stoping，在val集loss开始上升的时候中断训练
7. 减少迭代次数、
8. 增大学习率？？
9. 树结构中，可以对树进行剪枝

## k折交叉验证
1. 将含有N个样本的数据集，分成k份，没分含有N/K个样本。选择其中的一份作为测试集，另外K-1份作为训练集，测试集有K种情况
2. 在每种情况中，用训练集训练模型，用测试集测试模型，计算模型的泛化误差
3. 交叉验证重复K次，每份验证一次，平均K次的结果或者使用其他结合方式，最终得到一个单一估测，得到模型最终的泛化误差，这也就是所谓的**模型集成(model ensembling)**
4. K折交叉验证的优势在于，同事重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，10折交叉验证是最常用的
>Note:1. 训练集中样本数量要足够多
2.训练集和测试集必须从完整的数据集中均匀取样。均匀取样的目的是希望减少训练集、测试集与源数据集之间的偏差。当样本数量足够多时，通过随机取样，便可实现均匀取样的效果。


1.列举常见的一些范数及其应用场景，如L0，L1，L2，L∞，Frobenius范数

2.简单介绍一下贝叶斯概率与频率派概率，以及在统计中对于真实参数的假设。

3.概率密度的万能近似器

4.简单介绍一下sigmoid，relu，softplus，tanh，RBF及其应用场景

5.Jacobian，Hessian矩阵及其在深度学习中的重要性

6.KL散度在信息论中度量的是那个直观量

7.数值计算中的计算上溢与下溢问题，如softmax中的处理方式

8.与矩阵的特征值相关联的条件数(病态条件)指什么，与梯度爆炸与梯度弥散的关系

9.在基于梯度的优化问题中，如何判断一个梯度为0的零界点为局部极大值／全局极小值还是鞍点，Hessian矩阵的条件数与梯度下降法的关系

10.KTT方法与约束优化问题，活跃约束的定义

11.模型容量，表示容量，有效容量，最优容量概念

12.正则化中的权重衰减与加入先验知识在某些条件下的等价性

13.高斯分布的广泛应用的缘由

14.最大似然估计中最小化KL散度与最小化分布之间的交叉熵的关系

15.在线性回归问题，具有高斯先验权重的MAP贝叶斯推断与权重衰减的关系，与正则化的关系

16.稀疏表示，低维表示，独立表示

17.列举一些无法基于地图的优化来最小化的代价函数及其具有的特点

18.在深度神经网络中，引入了隐藏层，放弃了训练问题的凸性，其意义何在

19.函数在某个区间的饱和与平滑性对基于梯度的学习的影响

20.梯度爆炸的一些解决办法

21.MLP的万能近似性质

22.在前馈网络中，深度与宽度的关系及表示能力的差异

23.为什么交叉熵损失可以提高具有sigmoid和softmax输出的模型的性能，而使用均方误差损失则会存在很多问题。分段线性隐藏层代替sigmoid的利弊

24.表示学习的发展的初衷？并介绍其典型例子:自编码器

25.在做正则化过程中，为什么只对权重做正则惩罚，而不对偏置做权重惩罚

26.在深度学习神经网络中，所有的层中考虑使用相同的权重衰减的利弊

27.正则化过程中，权重衰减与Hessian矩阵中特征值的一些关系，以及与梯度弥散，梯度爆炸的关系

28.L1／L2正则化与高斯先验／对数先验的MAP贝叶斯推断的关系

29.什么是欠约束，为什么大多数的正则化可以使欠约束下的欠定问题在迭代过程中收敛

30.为什么考虑在模型训练时对输入(隐藏单元／权重)添加方差较小的噪声，与正则化的关系

31.共享参数的概念及在深度学习中的广泛影响

32.Dropout与Bagging集成方法的关系，以及Dropout带来的意义与其强大的原因

33.批量梯度下降法更新过程中，批量的大小与各种更新的稳定性关系

34.如何避免深度学习中的病态，鞍点，梯度爆炸，梯度弥散

35.SGD以及学习率的选择方法，带动量的SGD对于Hessian矩阵病态条件及随机梯度方差的影响

36.初始化权重过程中，权重大小在各种网络结构中的影响，以及一些初始化的方法；偏置的初始化

37.自适应学习率算法:AdaGrad，RMSProp，Adam等算法的做法

38.二阶近似方法:牛顿法，共轭梯度，BFGS等的做法

39.Hessian的标准化对于高阶优化算法的意义

40.卷积网络中的平移等变性的原因，常见的一些卷积形式

41.pooling的做法的意义

42.循环神经网络常见的一些依赖循环关系，常见的一些输入输出，以及对应的应用场景

43.seq2seq，gru，lstm等相关的原理

44.采样在深度学习中的意义

45.自编码器与线性因子模型，PCA，ICA等的关系

46.自编码器在深度学习中的意义，以及一些常见的变形与应用

47.受限玻尔兹曼机广泛应用的原因

48.稳定分布与马尔可夫链

49.Gibbs采样的原理

50.配分函数通常难以计算的解决方案

51.几种参数估计的联系与区别:MLE／MAP／贝叶斯

52.半监督的思想以及在深度学习中的应用

53.举例CNN中的channel在不同数据源中的含义

54.深度学习在NLP，语音，图像等领域的应用及常用的一些模型

55.word2vec与glove的比较

56.注意力机制在深度学习的某些场景中为何会被大量使用，其几种不同的情形

57.wide&deep模型中的wide和deep介绍

58.核回归与RBF网络的关系

此处问题很多编者本人也只有一个来自教材书籍的局部认识，望各位批评指正，可以在评论区留下正确全面的回答，共同学习与进步。

59.LSTM结构推导，为什么比RNN好？

60.过拟合在深度学习中的常见的一些解决方案或结构设计

61.怎么理解贝叶斯模型的有效参数数据会根据数据集的规模自动调整

In [3]:
a = np.array([[12,2],[2,3]])
b = np.array([[1,2],[3,4]])
a * b #普通矩阵的乘积都是按照位置进行想成，也称为Hadamard乘积

array([[12,  4],
       [ 6, 12]])

In [1]:
import numpy as np
import sys
import random

In [26]:
import torch
import torch.nn as nn

In [31]:
l = nn.Linear(2,3)
l.weight

In [27]:
class Network:
    def __init__(self, sizes, shuffle=True):
        if not isinstance(sizes, list) or isinstance(sizes, tuple):
            raise Exception('Size must be seq-like!')
        self.num_layers = len(sizes)
        self.sizes = sizes
        self.biases = [np.random.randn(y, 1) for y in sizes[1:]]#偏置都是每一个Linear和out的个数
        self.weights = [np.random.randn(y, x)#权重参数是间隔部分才有，参数量=输入x输出，
                        for x, y in zip(sizes[:-1], sizes[1:])]#之间相加
        self.random = shuffle
    def feedForward(self, a):
        for b, w in zip(self.biases, self.weights):
            a = sigmoid(np.dot(w, a) + b)
        return a
    def SGD(self, training_data, epochs, mini_batch_size, eta,
            shuffle=True, test_data=None):
        if test_data: n_test = len(test_data)
        n = len(training_data)
        for j in range(epochs):
            if self.random:
                random.shuffle(training_data)#进行一个
            mini_batches = [training_data[k:k+mini_batch_size] for k in range(0, n, mini_batch_size)]
            for mini_batch in mini_batches:
                self.update_mini_batch(mini_batch, eta)
                if test_data:
                    print("Epoch {0}: {1} / {2}".format(j, self.evaluate(test_data), n_test))
                else:
                    print("Epoch {0} complete".format(j))
    def update_mini_batch(self, mini_batch, eta):
        """
        Update the network's weights and biases by applying 
        gradient descent using backpropagation to a single mini batch.
        The "mini_batch" is a list of tuples "(x,y)"
        """
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]#创建存储空间防止差值
        for x, y in mini_batch:
            delta_nabla_b, delta_nabla_w = self.backprop(x, y)
            nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
            nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
        self.weights = [w-(eta/len(mini_batch))*nw
                        for w, nw in zip(self.weights, nabla_w)]
        self.biases = [b-(eta/len(mini_batch))*nb
                       for b, nb in zip(self.biases, nabla_b)]
        
    def backprop(self, x, y):
        """Return a tuple ``(nabla_b, nabla_w)``representing the 
        gradient for the cost function C_x. ``nabla_b`` and ``nabla_w``
        are layer-by-layer lists of numpy arrays, similar to ``self.biases``
        and ``self.weights``.
        """
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        activation = x#
        activations = [x]#列出所有需要存储的中间层激活值
        zs = []#存储每一层的z
        for b, w in zip(self.biases, self.weights):
            z = np.dot(w, activation) + b
            zs.append(z)
            activation = Network.sigmoid(z)#计算a
            activations.append(activation)
        #计算反向传播过程
        delta = self.cost_derivative(activations[-1], y)* \
            sigmoid_prime(zs[-1])
        nabla_b[-1] = delta
        nabla_w[-1] = np.dot(delta, activations[-2].transpose())
        #
        for l in range(2, self.num_layers):
            z = zs[-l]
            sp = sigmoid_prime(z)
            delta = np.dot(self.weights[-l+1].transpose(), delta) * sp#迭代进行链式连乘
            nabla_b[-l] = delta#
            nabla_w[-l] = np.dot(delta, activations[-l-1].transpose())
        return (nabla_b, nabla_w)
    def evaluate(self, test_data):
        """Return the number of test inputs for which the neural
        network outputs the correct result. Note that the neural 
        network's output is assumed to be the index of whichever
        neuron in the final layer layer has the highest activation
        """
        test_results = [(np.argmax(self.feedForward(x)), y)
                        for (x, y) in test_data]
        return sum(int(x == y) for (x, y) in test_results)
    def cost_derivative(self, output_activations, y):
        """Return the vector of partial derivatives \partial C_x/
        \partial a for the output activations
        """
        return (output_activations-y)
    def sigmoid(z):
        return 1.0 / (1.0 + np.exp(-z))
    def sigmoid_prime(z):
        return sigmoid(z) * (1 - sigmoid(z))
    
fake_input = np.random.randn(10,2)
fake_target = np.random.randn(10,3)
tr_data = list(zip(fake_input, fake_target))  
random.shuffle(tr_data)#不需要赋值，赋值之后返回NoneType！！！
net = Network([2,5,3])
net.SGD(training_data=tr_data, epochs=30, mini_batch_size=10, eta=3 )

ValueError: operands could not be broadcast together with shapes (3,5) (3,) 

In [30]:
w = np.random.randn(10,3)
x = np.random.randn(3,5)
y = x.dot(w)#使用dot循序，前者为前(对应矩阵乘法的规则)，不要越级
y.shape

ValueError: shapes (3,5) and (10,3) not aligned: 5 (dim 1) != 10 (dim 0)

$\nabla$

In [40]:
np.random.randn(2).shape#一维的向量的维度是(2,)，表示这是一个一维

(2,)

In [42]:
w = np.random.randn(5,2)
x = np.random.randn(2)

In [49]:
y = np.dot(w,x)#返回的是一维向量shape=(n,)
print(y.shape)

(5,)


In [52]:
b = np.random.randn(5,1)
o = b + y#可以看到如果(5,)+(5,1),Numpy有返回的是一个扩维度的矩阵
o.shape#这样会认为是一个

(5, 5)

In [60]:
ori = np.array([[1],[1],[1]])
bias = np.array([1,2,3])#numpy有广播机制，可以对ori的每一列进行广播扩增，每列+bias的对应列
ori + bias

array([[2, 3, 4],
       [2, 3, 4],
       [2, 3, 4]])

In [53]:
b = np.random.randn(5)
o = b + y
o.shape#这样返回的是正常

(5,)

In [59]:
c = np.random.randn(5,1).squeeze()#可以通过squeeze进行压缩维度
c.shape

(5,)

In [38]:
y.T

array([[-4.01950951e+00, -2.43988042e+00, -3.88317800e+00,
         1.04844039e+00, -2.35706970e-01, -3.30000944e+00,
        -1.02948988e+00, -3.54962697e-01, -1.17983548e+00,
        -2.20876412e+00],
       [-1.12427221e+00, -5.48668727e-01, -2.85332738e-01,
         2.05546477e+00, -4.00807409e-01, -2.49994434e+00,
        -1.77463045e-02, -1.12857388e-01,  4.37216344e-02,
        -8.45705208e-01],
       [-1.71697835e+00, -1.27972877e+00,  9.71381837e-02,
         3.31859773e+00, -2.36665949e-01, -2.45203818e+00,
         1.92204122e-01,  2.58986788e-01, -6.19125080e-04,
        -2.51127355e-01],
       [-1.28652937e+00, -2.50005218e+00,  1.84364880e+00,
         2.94659599e+00,  1.15256377e+00,  3.03363880e+00,
         8.78224207e-01,  1.68799747e+00, -2.67869454e-01,
         3.43317310e+00],
       [ 3.28290198e+00,  2.92027946e+00,  2.30548266e+00,
        -7.56095648e-01, -6.53784061e-01, -4.77733617e-01,
         4.68819222e-01, -5.84907385e-01,  1.19789054e+00,
        -3.

In [46]:
import pickle
import gzip
import os
def load_data(path='./minist_data/mnist.pkl.gz'):
    if not os.path.exists(path):
        raise OSError('Cannot find minist data')
    f = gzip.open(path, 'rb')
    training_data, validation_data, test_data = pickle.load(f, encoding='bytes')
    f.close()
    return (training_data, validation_data, test_data)
def load_data_wrapper():
    tr_d, va_d, te_d = load_data()
    training_inputs = [np.reshape(x, (784, 1)) for x in tr_d[0]]
    training_results = [vectorized_result(y) for y in tr_d[1]]
    training_data = zip(training_inputs, training_results)
    validation_inputs = [np.reshape(x, (784, 1)) for x in va_d[0]]
    validation_data = zip(validation_inputs, te_d[1])
    test_inputs = [np.reshape(x, (784, 1)) for x in te_d[0]]
    test_data = zip(test_inputs, te_d[1])
    return (training_data, validation_data, test_data)
def vectorized_result(j):
    e = np.zeros((10,1))
    e[j] = 1.0
    return e

In [None]:
tr_d, va_d, te_d = load_data_wrapper()


In [None]:
tr

In [23]:

# net.SGD(training_data=tr_d[0], epochs=30, mini_batch_size=10, eta=3.0, test_data=te_d)

In [30]:
np.array([1,2,3]).transpose()#一维数组无法使用transpose，因为(1)只有一个轴，没法其他轴与其进行对换，转置还是本身，只有提升一个维度才能记性转换

array([1, 2, 3])

In [20]:
a.T

array([1, 2])

In [22]:
a.reshape((-1,1))

array([[1],
       [2]])

In [24]:
a = np.array([1,2])
b = np.array([1,2,3]).reshape((-1,1))
print(a.shape)
print(b.shape)
a * b

(2,)
(3, 1)


array([[1, 2],
       [2, 4],
       [3, 6]])

In [15]:
net = Network([1,2])
net.weight

[array([[0.08448187],
        [0.0616492 ]])]

## 代码规范
使用`import x`来导入包和模块<br>
使用`from x import y`
使用`from x import y as z`如果要导入的模块太长了
导入时不要使用相对名称，即使模块在同一个包中，也要使用完整包名。这样能帮助你避免无意间导入一个包两次
### 异常
允许使用异常，但必须小心
**结论：**<br>
异常必须遵循特定条件：
1. 像这样出发异常`raise Exception(Error message")`或者`raise MyException`。不要使用两个参数的形式
2. 模块或包应该定义自己的特定域异常，也不要捕获`Exception`或者`StandardError`，除非你打算重新出发异常，在异常方面，Python非常宽容，`except`真的会捕获包括Python语法错误在内的任何错误，很容易隐藏真正的bug。
```
class Error(Exception):
    pass
```
### 函数与方法装饰器
也就是@标记的。最常见的装饰器是@classmethod和@staticmethod，用于将常规函数转换成类方法和静态方法。不过，装饰器语法也允许用户自定义装饰器。特别的，对于某个