# basic knowledge

## DNN结构

输入层 隐藏层 输出层
输入层是一些图片或者矩阵
同层的神经单元之间相互独立，不同层之间的神经元全连接

## DNN单元

神经元的数学表达式：
a = h(w * x + b)
b是bias, w是权重矩阵，x是输入矩阵，a是下一个神经元，h是<mark>激活函数</mark>
本质上就是调参的过程，不管是分类还是回归都是找出每个神经元最优的w，b，h（模型确定的情况下），使x不变的情况下y最接近真实值

## 激活函数

h(x)可以使线性也可以是非线性
h(x) = cx
y(x) = h(h(h(x))) 就是一个3层神经网络
相当于 h(x) = c ** 3 * x ，那其实本质上还是一层，那效果就不好了，因为隐藏层数应该越深越好（也不尽然，resnet就是为了防止过拟合）

### Sigmoid 激活函数

$函数公式在此$



图像在此

- 优点：简单，适合做分类任务（在输出层的激活函数来判断属于哪个分类，将数转为概率）
- 缺点：
1. 反向传播训练时候有梯度消失的问题 (w,b就不更新了)
2. 输出值区间（0,1） 关于0不对称
3. 梯度更新在不同方向走得太远，使得优化难度增大，训练耗时

### Tanh 激活函数 （双曲正切）

$函数公式在此$

图像在此

- 优点：
1. 解决了Sigmoid函数输出值非0对称的问题
2. 训练速度快，更容易收敛
- 缺点：
1. 梯度消失的问题
2. 与Sigmoid函数类似

### ReLU函数 

$公式$ 本质上是分段函数

In [1]:
# 图像

- 优点：
1. 解决梯度消失的问题
2. 计算更为简单，没有T和S的指数运算
- 缺点：
会有神经元死亡的问题

### Leaky ReLU函数

$公式$ 

In [2]:
# 图像

- 优点：
解决神经元死亡问题
- 缺点：
无法为正负输入值提供一致的关系预测（不同区间函数不同）

### Softmax函数

## 前向传播

前向传播其实就是从输入层开始，正向的进行函数求果
这里w，b是需要一个初始值的

不管在训练，推理，验证，测试还是传播的过程中都需要正向传播

y的label就是一个y的真实值，<mark>损失函数</mark>就是用来表示y的真实值和y的预测值之间的差异的

## 损失函数

### 均方误差的损失函数

$公式$

来判断预测效果

### 交叉熵损失函数

用于图像分类

神经网络就是在不断进行着这样的过程：前向传播，计算误差，反向传播更新w和b，循环往复直到误差收敛

<mark>梯度下降就是反向传播的具体过程</mark>


## 梯度下降法

$w和b的参数更新计算公式$

a是超参数，也就是学习率，0.05到0.001之间

后续梯度下降算法会有优化，比如adam等，但是基础都是这样

### 计算案例

<!-- ![计算过程](../graph/01.png "过程1") -->
<img src="../graph/01.png" width="600" height="400" />
<img src="../graph/02.png" width="600" height="400" />
<img src="../graph/03.png" width="600" height="400" />

设置一个学习率，从后向前更新系数，动手算一下加深理解。


In [14]:
import math
1/(1+math.exp(-1))
(math.exp(1)/(1+math.exp(1))**2)*(1.731-2)

-0.0528886100419586

## 深度学习过程

- 建立model

- train and validate 产生权重，包含了模型的结构和训练好的参数w,b
  1. 数据处理
  2. 模型训练
  3. loss ACC 

- test
    输入模型，根据label进行评估

## 卷积神经网络

CNN应用在CV领域有很多比如图像分类ResNet，图像分割有UNet, 目标检测有Yolo

输入可以是图像，视频

图像的本质就是数字矩阵特征图，数字代表像素颜色，255是白色，0是黑色（专指单通道灰度图，彩色图是red，green和blue的三通道图）

输入的数据往往呈这样的格式：

128 * 28 * 28 * 1

就是batch * 大小 * 通道

### DNN相比CNNC在图像分割上的缺陷

假设一个28*28*1的图像，放入DNN，就要把数字矩阵变成一个一维数组，长度是28*28，那么就会丢失有效信息，图像特征会缺失
CNN就避免了这个问题，他把2维数据压缩成另一个2维数据，比如6*6

### 卷积运算

比如： <img src="../graph/04.png" width="300" height="200" />

卷积核其实就是DNN中的w构成了矩阵，这个核大小不变，w大小需要初始值，卷积的过程就是提取特征的过程

y = model(CNN)(x), output = 激活函数f(y)

偏置也可以加入进去 y = model(CNN)(x) + b

卷积核大小需要设定，更新依然使用梯度下降法则，激活函数使用图像分类专用的，损失函数也是专用的比如<mark>交叉熵</mark>

### 步幅

步幅代表卷积核在进行卷积操作时，每次滑动的距离

步幅过大会在外层添加0

### 填充

步幅和填充操作可以共同控制卷积后的特征图的大小，如果不填充只卷积，那么特征图会越来越小，有时候就不支持继续卷积了，所以要填充

### 特征图大小公式

<img src="../graph/05.png" width="500" height="250" />

H是输入特征图高
W是输入特征图宽
F是卷积核
P是填充
S是步幅

一般如果是小数，那么框架tensorflow或者pytorch会向下取整

### 多通道卷积运算

类似的，输入特征图有几个通道，卷积核就有几个通道，通道之间相互独立地进行卷积，<mark>最后把所有的输出特征图对应位置相加得到最终的特征图</mark>

如果有多个卷积核的话，最后输出特征图经过激活函数后就会有多个通道

<img src="../graph/06.png" width="500" height="250" />

如果有偏置的话就是类似这样

<img src="../graph/07.png" width="500" height="250" />

### 池化运算

最大池化：找某个区域中的最大值，最为代表这个区域的特征值
平均池化：类似找平均值

也有S和P，但是FH和FW变成了感受野，因为没有池化核

<img src="../graph/08.png" width="500" height="250" />

<mark>由于没有核，所以输入多少通道，输出就多少通道，不用像卷积运算那样加起来</mark>

### CNN整体结构

如图是一个单通道，卷积核数量为3的CNN架构

<img src="../graph/09.png" width="500" height="250" />






