# 深度学习
- 机器学习流程:
    - 数据获取
    - 特征工程
    - 建立模型
    - 评估与应用

## 特征工程:
- 特征工程是机器学习的核心
- 特征工程是指对特征进行处理，使得特征更适合模型的学习
- 数据特征决定了模型的上限，模型和算法只是逼近这个上限
- 预处理和特征提取是最核心的两个环节
- 特征如何提取，如何选择，如何处理，是机器学习的核心问题

### 深度学习的主流应用:
- 图片识别
- 语音识别
- 自然语言处理

1. 收集数据并给定标签
2. 训练一个分类器
3. 测试,评估

## 神经网络基础

1. 线性函数
- 从输入到输出的映射
- 每个类别的得分
- 数学表达式: $f(x) = Wx + b$
    - W: 权重 维度是 (C, D) C是类别数，D是特征数
    - b: 偏置 维度是 (C,) C是类别数
    - x: 输入特征 维度是 (D,) D是特征数
- 线性函数的输出是一个向量，向量的每个元素是一个类别的得分, 维度是 (C,)
- 线性函数的输出可以看作是一个类别的概率，通过softmax函数转换
- softmax函数: $softmax(x) = \frac{e^{x_i}}{\sum_{j=1}^{C}e^{x_j}}$
- softmax函数的输出是一个概率分布，所有元素的和是1
- softmax函数的输出可以看作是一个类别的概率
- 多组权重构成了决策边界

2. 损失函数
- 用来衡量分类的结果, 明确指导模型当前的好坏
- 同样需要正则化惩罚项

3. softmax分类器
- 线性函数的输出(得分矩阵)通过softmax函数转换为概率矩阵
- 归一化: $P(Y=k|X=x_i) = \frac{e^{S_k}}{\sum_{j}e^{S_j}}$
    - $s=f(x_i;W)$
- 损失函数: $L_i = -log(P(Y=k|X=x_i))$

这里完成前向传播, 之后为了更新参数, 需要进行反向传播(梯度下降)

4. 反向传播
- 反向传播是求解梯度的过程(梯度下降)
- 目标函数: $J(\theta_0, \theta_1) = \frac{1}{M}\sum_{i=1}^{M}h_{\theta}(x^{(i)} - y^{(i)})$
- 从输出层开始, 逐层计算梯度(链式法则)
- 门单元:
    - 加法门: $f(x, y) = x + y$ 均等
    - 乘法门: $f(x, y) = x * y$ 交换
    - 最大门: $f(x, y) = max(x, y)$ 选择最大的

## 整体构架
- 层次结构
    - 输入层
    - 隐藏层
    - 输出层
- 神经元(每层的节点)
    - 输入层: 输入特征的数量
    - 输出层: 输出类别
- 全连接
    - 层之间是和一个(m,n)的矩阵相乘(也就是不同的权重w)
        - m是上一层的神经元数量
        - n是下一层的神经元数量
- 非线性
    - 每次全连接后, 都会加上一个非线性函数(激活函数)
        - 激活函数:
        - sigmoid: $f(x) = \frac{1}{1+e^{-x}}$
        - maxout: $f(x) = max(w_1^Tx + b_1, w_2^Tx + b_2)$
        - tanh: $f(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
        - ReLU: $f(x) = max(0, x)$
        - Leaky ReLU: $f(x) = max(0.01x, x)$
        - PReLU: $f(x) = max(\alpha x, x)$
        - ELU: $f(x) = x, x > 0; f(x) = \alpha(e^x - 1), x \le 0$
     
神经网络强大在于用非常多的参数拟合复杂的数据, 但是也容易过拟合
- 通过正则化来减少过拟合, 惩罚力度越大, 模型越简单

- 激活函数
    - 用于引入非线性
    - 使得神经网络可以拟合任意函数
    - 使得神经网络可以逼近任意函数
    - sigmoid函数(已经不推荐使用)
    - tanh函数
    - ReLU函数(推荐使用)(常见)(其它是Relu的变种)
    - Leaky ReLU函数
    - PReLU函数
    - ELU函数

- 数据处理
    - 数据预处理
        - 数据归一化
        - 数据标准化
        - 数据正则化
    - 数据增强
        - 旋转
        - 翻转
        - 剪切
        - 缩放
        - 平移
        - 噪声
        - 亮度
        - 对比度
        - 饱和度
        - 色调
    - 数据降噪
        - 均值滤波
        - 中值滤波
        - 高斯滤波
        - 双边滤波
        - 非局部均值滤波
    - 数据增广
        - 随机裁剪
        - 随机旋转
        - 随机缩放
        - 随机翻转
        - 随机亮度
        - 随机对比度
        - 随机饱和度
        - 随机色调
        - 随机噪声
        - 随机模糊
        - 随机扭曲
        - 随机擦除
        - 随机颜色空间变换
        - 随机仿射变换
        - 随机透视变换
        - 随机椒盐噪声
        - 随机高斯

- 参数初始化
    - 随机初始化
        - 一般初始化为正态分布
        - 一般初始化为均匀分布
        - 一般初始化为截断正态分布
        - 一般初始化为截断均匀分布
    - 固定初始化
        - 一般初始化为0
        - 一般初始化为1
        - 一般初始化为其他
    - 高斯初始化
        - 一般初始化为高斯分布
        - 一般初始化为截断高斯分布
    - 均匀初始化
        - 一般初始化为均匀分布
        - 一般初始化为截断均匀分布
    - 截断初始化
        - 一般初始化为截断正态分布
        - 一般初始化为截断均匀分布
    - 正态初始化
        - 一般初始化为正态分布
        - 一般初始化为截断正态分布
    - 单位初始化
        - 一般初始化为单位矩阵
        - 一般初始化为单位向量
        - 一般初始化为单位矩阵的变种
    - 对角初始化
        - 一般初始化为对角矩阵
        - 一般初始化为对角向量
        - 一般初始化为对角矩阵的变种
    - 正交初始化
        - 一般初始化为正交矩阵
        - 一般初始化为正交向量
        - 一般初始化为正交矩阵的变种


- Dropout
    - 防止过拟合
    - 每次随机失活一部分神经元
    - 使得神经网络不依赖某些特征
    - 使得神经网络不依赖某些神经元
    - 使得神经网络不依赖某些层
    - 使得神经网络不依赖某些权重