### 卷积网络 CNN
* 全连接NN: 每个神经元与前后相邻层的每一个神经元都有连接关系，输入是特征，输出是与测结果。
    - 参数个数：$\sum_{各层}{(前层*后层(w)+后层(b))}$
    - 如果输入特征过多，隐藏层过多，导致网络过度复杂，待优化的参数过多容易导致模型过拟合
### 用CNN实现离散数据的分裂（以图像分类为例）
* 卷积计算过程（Convolutional）
    - 卷积计算可认为是一种有效提取图像特征的方法
    - 一般会用一个正方形的卷积核，按指定步长，在输入特征图上华东，遍历输入特征图中的每个像素点。每一个步长，卷积核会与输入特征图出现重合区域，重合区域对应元素相乘、求和再加上偏置项得到输入特征的一个像素点
    - 输入特征图的深度（channel数），决定了当前层卷积核的深度。
    - 当前层卷积核的个数，决定了当前层输出特征图的深度。
* 感受野（Receptive Field）：卷积神经网络各输出特征图中的每个像素点，在原始输入图片上映射区域的大小
* 全零填充（Padding）：保证输入图与输出特征图像素点一致，TF描述全零填充用参数padding='SAME'或padding='VAILD '
* TF描述卷积计算层
    - tf.keras.layers.Conv2D(
        - filters=卷积核个数，
        - kernel_size=卷积核尺寸，#正方形写核长整数，或 用元组形式给出（核高h,核宽w），
        - strides=滑动步长，#横纵向相同写步长整数，或（纵向步长h,横向步长w）,默认1)
        - padding="same"or"valid" #使用全零填充是same,不实用是valid(默认)
        - activation="relu"or"sigmoid"or"tanh"or"softmax"等，#如有BN此处不写
        - input_sharp=(高，宽，通道数) #输入特征图维度，可省略
    - )
* 批标准化（Batch Normalization,BN）
    - 标准化：使数据符合0均值，1为标准差的分布
    - 批标准化：对一小批数据（batch）,做标准化处理
        - 为每个卷积核引入可训练参数$\gamma$和$\beta$
        - BN层位于卷积层之后，激活层之前
        - TF描述批标准化：tf.keras.layers.BatchNormalization()
            - model=tf.keras.models.Sequential([
            - Conv2D(filter=6,kernel_size=(5,5),padding='same') #卷积层
            - BatchNormalization(), #BN层
            - Activation（‘relu’）,#激活层
            - MaxPool2D(pool_size=(2,2),strides=2,padding='same'),#池优化
            - Dropout(0.2), #dropout层
            - ])
        
* 池化（Pooling）: 池化用于减少特征数据量。最大池化可以提取图片纹理，均值池化可以保留背景特征。
    - TF描述池化
        - tf.keras.layers.MaxPool2D(
        - pool_size=池化核尺寸，#正方形写核长整数，或（高h,宽w）
        - strides=池化步长， #步长整数，或（纵向步长h,横向步长w）
        - padding='valid'或'same', #使用全零填充为'same',不使用为'valid'（默认）
        - )
        
        - tf.keras.layers.AveragePooling2D(
        - pool_size=池化核尺寸，#正方形写核长整数，或（高h,宽w）
        - strides=池化步长， #步长整数，或（纵向步长h,横向步长w）
        - padding='valid'或'same', #使用全零填充为'same',不使用为'valid'（默认）
        - )
* 舍弃（Dropout）:在神经网络训练时，将一部分神经元按照一定概率从神经网络中暂时舍弃。神经网络使用时，被舍弃的神经元回复链接。
    - TF描述舍弃: tf.keras.layers.Dropout(舍弃的概率 )
        
* 卷积神经网络：借助卷积核提取特征后，送入券链接网络
    - 卷积神经网络的主要模块（1，2，3，4步）CBAPD
        - 1.卷积(Convolutional)---2.批标准化（BN）---3.激活（activation）----4.池化(Pooling)----5.全连接(fc)
    
* cifar10数据集
    - 提供5万张32*32像素点的十分类彩色图片核标签，用于训练
    - 提供1万张32*32像素点的十分类彩色图片核标签，用于测试
    - cifar10=tf.keras.datasets.cifar10
    - (xtrain,y_train),(x_test,y_test)=cifar10.load_data()
* 卷积神经网络搭建示例 p27_cifar10.baseline.py
* 实现LeNet(1998)、AlexNet(2012)、VGGNet(2014)、IneptionNet(2014)、ResNet(2015)五个经典卷积网络
    - LeNet由Yann LeCun于1998年提出，卷积网络开篇之作。p31_cifar10_lenet5.py
    - AlexNet网络诞生于2012年，当年ImageNet竞赛的冠军，Top5错误率为16.4%。p34_cifar10_alexnet8.py
    - VGGNet诞生于2014年，当年ImageNet竞赛的亚军，Top5错误率减少到7.3%，网络非常适合硬件加速。p36_cifar10_vgg16.py
    - InceptionNet诞生于2014年，当年ImageNet竞赛的冠军，Top5错误率减少到6.67%，在同一层网络内使用了不同尺寸的卷积核，提升了模型感知力，使用BN缓解了梯度消失。通过设定少于输入特征图深度的1*1卷积核个数减少了输出特征图深度，达到了降维的作用，减少了参数量核计算量。p40_cifar10_inception10.py
    - ResNet诞生于2015年，当年ImageNet竞赛的冠军，Top5错误率减少到3.57%，提出了层间残差跳连，引入了前方信息，缓解梯度消失，使神经网络层数增加成为可能。p46_cifar10_resnet18.py

|模型名称|网络层数|
|-------|-------|
|LeNet  |5      |
|AlexNet|8
|VGG|16/19|
|InceptionNet v1|22|

### 循环神经网络RNN实现连续数据的预测（以股票数据为例）

#### 循环神经网络
    * 循环核: 参数时间共享，循环层提取时间信息
        - 前向传播时：记忆体内存储的状态信息ht,在每个时刻都被刷新，三个参数矩阵wxh whh why自始至终都是固定不变的。
        - 反向传播时：三个参数矩阵wxh whh why被梯度下降法更新
        
$y_t = softmax(h_tw_{hy}+by)$

$h_t = tanh(x_tw_{xh}+h_{t-1}w_{hh}+bh)$
        
    * 循环核时间步展开: 就是把循环核按照时间轴方向展开
        - 循环神经网络：借助循环核提取时间特征后，送入全连接网络。
    * 循环计算层： 向输出方向生长
    * TF描述循环计算层
        - tf.keras.layers.SimpleRNN(记忆体个数，activation='激活函数')
        - return_sequences=是否每个时刻输出ht到下一层
        - activation="激活函数"，默认为tanh
        - return_sequences= True 各时间步输出ht
        - return_sequences= False 仅最后时间输出ht(默认)
        
        - 入RNN时，x_train维度：[送入样本数，循环核时间展开步数，每个时间步输入特征个数]
        
#### 实践：ABCDE字母预测
    * One-hot：数据量大，过于稀疏，映射之间是独立的，没有表现出关联性
    * Embedding：一种单词编码方法，用低维向量实现编码，这种编码通过神经网络训练优化，能表达出单词间的相关性
        - tf.keras.layers.Embedding(词汇表大小，编码维度)
        - 编码维度就是用几个数字表达一个单词
        - 对1-100进行编码，【4】编码为[0.25,0.1,0.11]
        - 例：tf.keras.layers.Embedding(100,3)
        
        - 入Embedding时，x_train维度：[送入样本数，循环核时间展开步数]
    
#### 实践：股票预测
    * RNN 循环神经网络
    * LSTM 长短记忆网络
        - LSTM计算过程
            - 输入门（门限）：
$i_t = \sigma{(w_i*[h_{t-1},x_t]+b_i)}$
            - 遗忘门（门限）：
$f_t = \sigma{(w_f*[h_{t-1},x_t]+b_f)}$
            - 输出门（门限）：
$o_t = \sigma{(w_o*[h_{t-1},x_t]+b_o)}$   
            - 细胞态（长期记忆）：
$C_t = f_t*C_{t-1}+i_t*\widetilde{C_t}$    
            - 记忆体（短期记忆）：
$h_t = o_t*tanh(C_t)$
            - 候选态（归纳出新的知识）：
$\widetilde{C_t}=tanh(W_c*[h_{t-1},x_t]+b_c)$

        - tf.keras.layers.LSTM(记忆体个数，return_senquence=是否返回输出)
            - retrun_sequences= True 各时间步输出ht
            - return_sequences= False 仅最后时间步输出ht(默认)
    * GRU
        - GRU网络计算过程
            - 更新门：
$z_t=\sigma(W_z*[h_{t-1},x_t])$
            - 重置门：
$r_t=\sigma(W_r*[h_{t-1},x_t])$
            - 记忆体：
$h_t=(1-z_t)*h_{t-1}+z_t*\widetilde{h_t}$
            - 候选隐藏层：
$\widetilde{h_t}=tanh(W*[r_t*h_{t-1},x_t])$
        
        - tf.keras.layers.GRU(记忆体个数，return_sequences=是否返回输出)
            - retrun_sequences= True 各时间步输出ht
            - return_sequences= False 仅最后时间步输出ht(默认)