In [1]:
import torch

## 🔹 1. ReLU（Rectified Linear Unit）

**定义**

$$
\mathrm{ReLU}(x)=\max(0,x)
$$

**导数**

$$
\frac{d}{dx}\mathrm{ReLU}(x)=
\begin{cases}
1, & x>0\\\\
0, & x\le 0
\end{cases}
$$

In [5]:
def relu(x):
    return torch.maximum(torch.tensor(0.0), x)

x = torch.tensor([-1, 0, 1])
print(relu(x))


tensor([0., 0., 1.])


## 🔹 2. Sigmoid（Logistic）

**定义**

$$
\sigma(x)=\frac{1}{1+e^{-x}}
$$

**导数**

$$
\sigma'(x)=\sigma(x)\bigl(1-\sigma(x)\bigr)
$$


## 🔹 3. Tanh（双曲正切）

**定义**

$$
\tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}
$$

**导数**

$$
\frac{d}{dx}\tanh(x)=1-\tanh^2(x)
$$


## 🔹 4. Softmax（多分类归一化）

**定义**

$$
\mathrm{Softmax}(z)_i=\frac{e^{z_i}}{\sum_{j=1}^{K}e^{z_j}}
$$

**雅可比（导数）**

$$
\frac{\partial\,\mathrm{Softmax}(z)_i}{\partial z_j}
=\mathrm{Softmax}(z)_i\bigl(\delta_{ij}-\mathrm{Softmax}(z)_j\bigr)
$$

## 🔹 5. Cross-Entropy（交叉熵损失）

**定义（与 Softmax 搭配）**

$$
\mathcal{L}_{CE}=-\sum_{i=1}^{K}y_i\log \hat y_i, \quad \hat y=\mathrm{Softmax}(z)
$$

## 🔹 6. MSE（均方误差）

**定义**

$$
\mathcal{L}_{MSE}=\frac{1}{N}\sum_{i=1}^{N}(\hat y_i-y_i)^2
$$

**对 \(\hat y_i\) 的导数**

$$
\frac{\partial \mathcal{L}}{\partial \hat y_i}=\frac{2}{N}(\hat y_i-y_i)
$$

## 🔹 7. L1（平均绝对误差）

**定义**

$$
\mathcal{L}_{L1}=\frac{1}{N}\sum_{i=1}^{N}|\hat{y}_i-y_i|
$$

**对 $\hat{y}_i$ 的（次）梯度**

$$
\frac{\partial \mathcal{L}}{\partial \hat{y}_i}=
\begin{cases}
\frac{1}{N}, & \hat{y}_i>y_i\\
-\frac{1}{N}, & \hat{y}_i<y_i
\end{cases}
\quad(\hat{y}_i=y_i\ \text{处取次梯度})
$$

## 🔹 8. Leaky ReLU

**定义（$\alpha\in(0,1)$）**

$$
f(x)=
\begin{cases}
x, & x>0\\
\alpha x, & x\le 0
\end{cases}
$$

**导数**

$$
f'(x)=
\begin{cases}
1, & x>0\\
\alpha, & x\le 0
\end{cases}
$$

---

## 🔹（常用）Softmax + CrossEntropy 的 logits 梯度

设 $\hat{y}=\mathrm{Softmax}(z)$，$\mathcal{L}=-\sum_i y_i\log \hat{y}_i$，则

$$
\frac{\partial \mathcal{L}}{\partial z_i}=\hat{y}_i-y_i
$$