# **深度学习与神经网络**
## **深度学习介绍**
基本流程
- 数据获取
- **特征工程** 特征提取是整个流程中最重要的！
- 建立模型
- 评估与应用

相比机器学习，深度学习无需人工选择与提取特征 更加智能！但是由于庞大的参数计算量，速度较慢

- 数据特征决定模型上限
- 预处理和特征提取最为核心
- 算法与参数选取决定了如何逼近这个上限
- 
**如何提取特征？**  
层层网络在学习什么算法能提取出最好的特征

**应用领域**  
计算机视觉、自动驾驶、人脸识别、医学检测、视频换脸、图像修复  

**计算机视觉**  
每一张图片被表示成三维数组，每个像素值从0-255（颜色通道）  
challenges:拍摄角度、形状改变、部分遮蔽、背景混入

## **具体算法**
### **K近邻算法**  
- 计算已知类别数据集中的点与当前点的距离
- 按距离依次排序
- 选取与当前点距离最小的K个点
- 返回前K个点出现频率最高的类别作为当前点的预测值

具体执行过程  
数据集样例：CIFAR-10  10类标签 50000个训练数据集 10000个测试数据 图片大小32*32  
用某种算法计算每张图片的特征值 并定义两张图片的距离函数（比如定义为特征值之差）  
计算测试集与数据集中所有图像的距离→得到测试集分类结果  

结果  仅有部分分类是正确的  
问题出在哪里？→K近邻算法无法识别背景与主体 这是神经网络主要要解决的问题  

### **神经网络**  
#### **前向传播--进行分类任务与判断结果好坏**  
- 映射函数 数据+权重参数→图片特征值  （而CNN则是一种特殊的权重参数与特征值算法）  
  每个结果有其对应的权重参数以及偏置参数(b)  
  f(x,W,b)=Wx+b  
  <img src=".\fig\nn.png" width="40%">
  **神经网络要训练的就是找到分类结果最好的W** 随机初始化→优化  
  权重参数在分类中起决定性影响 bias起微调作用  
  
- 损失函数
  如何衡量分类结果？ 使用损失函数 给每次分类的结果打分  
  损失函数的不同选取决定了当前任务是在做分类还是回归  
  举个栗子 sigma其他错误类别与正确类别得分之差+？ ？决定了正确结果需要优于错误结果多少才能得到<0的损失值
  
  损失函数相同并不意味着模型同样好：不同的权重参数可以得到相同的特征值（e.g 整体大v.s局部均匀）  
  还需要考虑正则惩罚项-由权重参数决定 一般直接用平方求和  
  **损失函数=数据损失+正则化惩罚项**  通过两者比例系数调节（惩罚力度↑，正则化权重↑）
  大的惩罚力度下将得到平滑的分类边界 如何选取需要根据实际任务 我们一般希望模型越简单越好  

- 将每个类别的得分转换为概率值  
  Softmax分类器--一种指数映射 放大不同特征值之间的差异  
  损失函数为一个log映射--判断为正确类别的概率越接近0，损失函数越大  
  <img src=".\fig\softmax.png" width="40%">

#### **反向传播--在每次结果出来之后更新W（优化）**  
- 梯度下降
  求解目标函数（即损失函数）的极值  但是损失函数非常多维！涉及到所有的W元素  
   
  <img src="./fig/grad.png" width="40%">  
  
  依据不同的变量选取方法：批量梯度下降（所有变量） 准确，但慢 /随机梯度下降（随机变量） 快，但可能不收敛 /小批量梯度下降（每次更新一部分） 好用！  
  梯度计算从后往前逐层进行（类似于链式法则）  
  常见的门单元：加法、乘法、最大门单元
- 学习率
  控制梯度下降中每次移动的步长（grad前面的系数）
  学习率是决定训练效果的重要参数！ 太大的学习率将skip minimum;而太小可能会卡在local minimum   
  学习率退火算法--先采取较大步长，再减小  

#### **整体神经网络结构**  
<img src="./fig/nnstructure.png" width="60%">  

神经网络的强大之处在于用很多层（很多变换矩阵）判断复杂数据 >百万级别  

- 层次结构
  一层一层地变换数据  
- 输入层：有多少个总输入像素点，就有多少个神经元  
- 隐层：对输入层数据变换后的结果 变化、添加与提取特征 输入→W→隐层  
        一个batch就是一批处理多少个数据
- 神经元：所有的连线  
- 全连接层 每次正向得到结果层后再进行反向更新--连接整个神经结构的层
- 非线性：每次隐层之后都要进行一次非线性变换（比如上面提到的softmax）
  该非线性变换称激活函数  
  e.g Sigmoid $\sigma(x)=\frac{1}{1+e^{-x}}$ （问题：x偏大时梯度变平缓） ReLU $\sigma(x)=max(0,x)$ 常用！  

- 神经元数量对训练结果的影响
  https://cs.stanford.edu/people/karpathy/convnetjs/demo/classify2d.html 一个可视化网站  
  一般来说神经元数量越多效果越好

- 避免过拟合（神经网络太强了）
  除了正则化惩罚之外的方法
  DropOut 每次训练的过程中随机杀死一部分神经元 为了保证有效性每次要用不一样的
#### **数据预处理操作**  
- 中心化 每个坐标轴减去均值  
- 数据扩充 标准化  
- 参数初始化 通常采用随机初始化 避免非常大的浮动
  
  
  

  
  
  
  
  
  
  
  
    
  