## 梯度下降公式

$$ f \left( x - \epsilon f'(x) \right) < f(x) $$


## 单层感应器

损失函数 
𝐿
L：

$$ L = \frac{1}{2} (Y - y)^2 $$
预测值 
𝑦
y 的定义：

$$ y = f(wx + b) = \text{sign}(wx + b) $$
基于梯度下降法的参数更新公式：

$$ w_{t+1} = w_t + \Delta w = w_t - \tau \frac{\partial L}{\partial w} = w_t - \tau \frac{\partial L}{\partial y} \frac{\partial y}{\partial w} $$
更新公式的近似形式：

$$ w_{t+1} \approx w_t + \tau (Y - y) x $$

## 多层感知器

- 某一层的x与y是非线性关系
- 某一层的x与上一层的y是线性关系

$$ x_j = \sum_k w_{ji}^l y_i^{l-1} + \theta_j^l $$


$$ y_j = f(x_j) $$
其中 𝑓 表示激活函数。

### 变量说明
- \( w_{ji}^l \)：第 \( l-1 \) 层第 \( i \) 个神经元到第 \( l \) 层第 \( j \) 个神经元的权重。
- \( x_j \)：第 \( l \) 层第 \( j \) 个神经元的输入。
- \( y_j \)：第 \( l \) 层第 \( j \) 个神经元的输出。
- \( \theta_j^l \)：第 \( l \) 层第 \( j \) 个神经元的偏置。
- \( C \)：损失函数（代价函数）。


当前层的误差项 
$$ \delta_j^l = \frac{\partial C}{\partial x_j^l} = \sum_i \frac{\partial C}{\partial x_i^{l+1}} \frac{\partial x_i^{l+1}}{\partial x_j^l} = \sum_i \delta_i^{l+1} \frac{\partial x_i^{l+1}}{\partial x_j^l} $$

上一层神经元输入 
$$ x_i^{l+1} = \sum_j w_{ji}^l y_j^l + \theta_i^{l+1} $$

导数项
$$ \frac{\partial x_i^{l+1}}{\partial x_j^l} = w_{ji}^l f'(x_j^l) $$

变量说明
- \( \delta_j^l \)：第 \( l \) 层第 \( j \) 个神经元的误差项。
- \( C \)：损失函数。
- \( x_j^l \)：第 \( l \) 层第 \( j \) 个神经元的输入。
- \( x_i^{l+1} \)：第 \( l+1 \) 层第 \( i \) 个神经元的输入。
- \( y_j^l \)：第 \( l \) 层第 \( j \) 个神经元的输出。
- \( w_{ji}^l \)：第 \( l \) 层第 \( j \) 个神经元到第 \( l+1 \) 层第 \( i \) 个神经元的权重。
- \( \theta_i^{l+1} \)：第 \( l+1 \) 层第 \( i \) 个神经元的偏置。
- \( f'(x_j^l) \)：激活函数 \( f \) 对输入 \( x_j^l \) 的导数。


### 误差项递推公式：
$$ \delta_j^l = \sum_i w_{ji}^{l+1} \delta_i^{l+1} f'(x_j^l) $$

- 当前层的误差项由上一层神经元的误差项加权和计算得到，同时乘以激活函数的梯度。
- f'：激活函数的倒数
- 误差值：$$ \delta_j^l $$


### 损失函数对权重的偏导数
$$ \frac{\partial C}{\partial w_{ji}} = \delta_j^l y_i^{l-1} $$

- 算出某一节点的梯度

### 权重更新公式 (我们最终需要的)
$$ w_{ji} = w_{ji} - \eta \frac{\partial C}{\partial w_{ji}} = w_{ji} - \eta \delta_j^l y_i^{l-1} $$

其中 𝜂 是学习率，表示更新步长。



- \( \delta_j^l \)：第 \( l \) 层第 \( j \) 个神经元的误差项。
- \( w_{ji}^{l+1} \)：第 \( l+1 \) 层第 \( j \) 个神经元到第 \( l+1 \) 层第 \( i \) 个神经元的权重。
- \( f'(x_j^l) \)：激活函数 \( f \) 对第 \( l \) 层第 \( j \) 个神经元输入 \( x_j^l \) 的梯度。
- \( \eta \)：学习率，用于控制每次更新的步长。
- \( y_i^{l-1} \)：第 \( l-1 \) 层第 \( i \) 个神经元的输出。
- \( C \)：损失函数，表示模型的误差。

## RNN 序列神经网络

隐藏状态的更新公式：
$$ h_t = \tanh(W_xh x_t + W_hh h_{t-1}) $$

输出的计算公式：
$$ y_t = \tanh(W_o h_t) $$

- \( x_t \)：长度为 \( I \) 的输入向量。
- \( h_t \)：长度为 \( H \) 的隐藏状态向量。
- \( W_xh \)：输入到隐藏层的权重矩阵，维度为 \( H \times I \)。
- \( W_hh \)：隐藏层到隐藏层的权重矩阵，维度为 \( H \times H \)。
- \( W_o \)：隐藏状态到输出的权重矩阵，维度为 \( K \times H \)，其中 \( K \) 是输出维度。
- \( y_t \)：当前时间步的输出向量。
- \( \tanh \)：双曲正切激活函数，用于引入非线性。

- h(t-1) 隐藏层输入
- x(t) 输入层输入

## LSTM 长短期记忆网络

遗忘门 (Forget Gate)：
$$ f_t = \sigma(W_x^f x_t + W_h^f h_{t-1}) $$

- 0: 忘记所有信息
- 1: 不遗忘任何东西

遗忘门决定了上一个状态中哪些信息需要遗忘：
$$ f_t \cdot c_{t-1} $$

输入门 (Input Gate)：
$$ i_t = \sigma(W_x^i x_t + W_h^i h_{t-1}) $$

新信息的候选值：
$$ \tilde{c}_t = \tanh(W_x^c x_t + W_h^c h_{t-1}) $$

更新信息：
$$ c_t = f_t \cdot c_{t-1} + i_t \cdot \tilde{c}_t $$


输出门 (Output Gate)：
$$ o_t = \sigma(W_x^o x_t + W_h^o h_{t-1}) $$

输出状态 (Hidden State)：
$$ h_t = o_t \cdot \tanh(c_t) $$

- \( f_t \)：遗忘门的输出，决定遗忘多少上一时间步的信息。
- \( i_t \)：输入门的输出，决定当前输入多少新信息。
- \( \tilde{c}_t \)：候选记忆状态，表示潜在的新信息。
- \( c_t \)：当前的记忆单元状态，综合了上一状态和新信息。
- \( o_t \)：输出门的输出，决定当前时间步输出多少信息。
- \( h_t \)：隐藏状态，LSTM 的最终输出。
- \( \sigma \)：Sigmoid 激活函数，用于归一化值到 [0,1] 范围。
- \( \tanh \)：双曲正切激活函数，用于引入非线性。
- \( W_x^f, W_h^f \)：输入到遗忘门、隐藏状态到遗忘门的权重矩阵。
- \( W_x^i, W_h^i \)：输入到输入门、隐藏状态到输入门的权重矩阵。
- \( W_x^c, W_h^c \)：输入到候选记忆状态、隐藏状态到候选记忆状态的权重矩阵。
- \( W_x^o, W_h^o \)：输入到输出门、隐藏状态到输出门的权重矩阵。
- \( x_t \)：当前时间步的输入。
- \( h_{t-1} \)：前一时间步的隐藏状态。
- \( c_{t-1} \)：前一时间步的记忆单元状态。


## GRU 门控循环单元

更新门 (Update Gate)：
$$ z_t = \sigma(W_x^z x_t + W_h^z h_{t-1}) $$

重置门 (Reset Gate)：
$$ r_t = \sigma(W_x^r x_t + W_h^r h_{t-1}) $$

新信息的候选状态：
$$ \tilde{h}_t = \tanh(W_x^c x_t + r_t \cdot (W_h^c h_{t-1})) $$

当前时间步的隐藏状态 (Output)：
$$ h_t = z_t \cdot h_{t-1} + (1 - z_t) \cdot \tilde{h}_t $$

- \( z_t \)：更新门的输出，控制上一隐藏状态 \( h_{t-1} \) 和候选状态 \( \tilde{h}_t \) 的结合比例。
- \( r_t \)：重置门的输出，控制上一隐藏状态 \( h_{t-1} \) 在生成候选状态 \( \tilde{h}_t \) 时的重要性。
- \( \tilde{h}_t \)：候选隐藏状态，表示当前时间步的潜在新信息。
- \( h_t \)：当前时间步的隐藏状态输出，结合了上一时间步的信息和当前输入。
- \( h_{t-1} \)：前一时间步的隐藏状态。
- \( x_t \)：当前时间步的输入。
- \( W_x^z, W_h^z \)：输入到更新门和隐藏状态到更新门的权重矩阵。
- \( W_x^r, W_h^r \)：输入到重置门和隐藏状态到重置门的权重矩阵。
- \( W_x^c, W_h^c \)：输入到候选状态和隐藏状态到候选状态的权重矩阵。
- \( \sigma \)：Sigmoid 激活函数，用于归一化值到 [0,1] 范围。
- \( \tanh \)：双曲正切激活函数，用于引入非线性。

## CNN

1. 第 l 层的输入与输出：

第 \( l \) 层第 \( p \) 通道的输入 \( z^{(l,p)} \) 是通过对上一层所有通道的输出 \( x^{(l-1,d)} \) 与当前层的卷积核 \( W^{(l,p,d)} \) 进行卷积操作 (\( \otimes \))，再加上偏置项 \( b^{(l,p)} \) 计算得到。


$$ z^{(l,p)} = \sum_{d=1}^D W^{(l,p,d)} \otimes x^{(l-1,d)} + b^{(l,p)} $$


$$ x^{(l,d)} = f\left(z^{(l,d)}\right) $$

第 \( l \) 层第 \( d \) 通道的输出 \( x^{(l,d)} \) 是通过将输入 \( z^{(l,d)} \) 经过激活函数 \( f \) 计算得到。


2. 损失函数对卷积核的梯度：
$$ \frac{\partial L}{\partial W^{(l,p,d)}} = \delta^{(l,p)} \otimes x^{(l-1,d)} $$

卷积核的梯度 \( \frac{\partial L}{\partial W^{(l,p,d)}} \) 是通过当前层误差项 \( \delta^{(l,p)} \) 与上一层输出 \( x^{(l-1,d)} \) 的卷积计算得到。

3.当前层的误差项递推公式：

$$ \delta^{(l,d)} = f'\left(z^{(l,d)}\right) \cdot \sum_{p=1}^P \text{rot180}\left(W^{(l+1,p,d)}\right) \otimes \delta^{(l+1,p)} $$

当前层第 \( d \) 通道的误差项 \( \delta^{(l,d)} \) 是通过激活函数的导数 \( f'(z^{(l,d)}) \) 与下一层所有通道的误差项 \( \delta^{(l+1,p)} \) 以及对应卷积核旋转 180 度后的卷积计算得到。

- \( z^{(l,p)} \)：第 \( l \) 层第 \( p \) 通道的输入。
- \( x^{(l,d)} \)：第 \( l \) 层第 \( d \) 通道的输出。
- \( W^{(l,p,d)} \)：第 \( l \) 层第 \( p \) 通道与第 \( d \) 通道的卷积核。
- \( b^{(l,p)} \)：第 \( l \) 层第 \( p \) 通道的偏置。
- \( \delta^{(l,p)} \)：第 \( l \) 层第 \( p \) 通道的误差。
- \( f \)：激活函数，例如 ReLU 或 Sigmoid。
- \( f'(z) \)：激活函数的导数。
- \( \otimes \)：卷积操作。
- \( \text{rot180} \)：卷积核旋转 180 度操作。
- \( \frac{\partial L}{\partial W^{(l,p,d)}} \)：损失函数对卷积核的梯度。


## Pooling 池化

池化层的误差反向传播：

$$ \delta^{(l,p)} = f'\left(z^{(l,p)}\right) \odot \text{up}\left(\delta^{(l+1,p)}\right) $$

上采样操作 (up) 的作用：
上采样操作 \( \text{up} \) 用于将下一层误差 \( \delta^{(l+1,p)} \) 映射回池化操作之前的输入尺寸，以确保梯度正确传播。


- \( \delta^{(l,p)} \)：第 \( l \) 层第 \( p \) 通道的误差项。
- \( z^{(l,p)} \)：第 \( l \) 层第 \( p \) 通道的输入。
- \( \delta^{(l+1,p)} \)：第 \( l+1 \) 层第 \( p \) 通道的误差项。
- \( f \)：激活函数，例如 ReLU 或 Sigmoid。
- \( f'(z) \)：激活函数的导数。
- \( \odot \)：元素逐项相乘操作。
- \( \text{up} \)：上采样函数，用于逆向映射池化区域。
