# 激活函数

如果没有激活函数，只有线性变换，无论神经网络有多少层，输出都是输入的线性组合，最终会坍缩成一个线性函数，无法处理非线性问题。激活函数的作用就是引入非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。  
激活函数特点：1、非线性；2、可微性；3、单调性；4、定义域为实数区间  

饱和函数是指在输入值趋于正无穷和负无穷时，其导数趋近于零的函数。

视频1：https://www.bilibili.com/video/BV1qB4y1e7GJ/?spm_id_from=333.337.search-card.all.click&vd_source=071b23b9c7175dbaf674c65294124341

## 1、sigmoid函数
sigmoid函数将实数压缩到0-1之间，公式为：
$$
f(y)=\frac{1}{1+e^{-y}}
$$
sigmoid函数的图像如下，为非零均值函数：
  
<div align="center">
    <img src="激活函数/sigmoid.png" alt="图片描述" width="200"/>
</div>

sigmoid函数的导数公式为：
$$
f'(y)=f(y)(1-f(y))
$$
sigmoid函数的导数图像如下，为饱和函数：
  
<div align="center">
    <img src="激活函数/sigmoid导数.png" alt="图片描述" width="200"/>
</div>

sigmoid函数存在的问题：  
1、sigmoid函数的导数图像在y=0处有一个极值，为0.25比较小，输出值会不停被缩小，并且在y非常大和非常小时，梯度趋近于0，因此，在反向传播时，梯度更新会非常小，甚至导致梯度消失问题。

2、sigmoid的输出始终大于0，这意味着下一层神经元的输入（即前一层的输出）也始终为正值，导致在反向传播时，权重更新时，权重更新方向始终一致，导致权重更新不稳定，不易收敛。


## 2、tanh函数
tanh函数将实数压缩到-1-1之间，公式为：
$$
f(y)=\frac{1-e^{-y}}{1+e^{-y}}
$$
tanh函数的图像如下，为非零均值函数：

<div align="center">
    <img src="激活函数/tanh.png" alt="图片描述" width="300"/>
</div>

## 3、ReLU函数
ReLU函数将小于0的值置为0，大于0的值保持不变，公式为：
$$
f(y)=max(0,y)
$$
ReLU函数的图像如下，为非零均值函数：

<div align="center">
    <img src="激活函数/ReLU.png" alt="图片描述" width="300"/>
</div>

ReLU函数存在的问题：
1、ReLU函数梯度爆炸问题，当输入值大于0时，梯度为1，当输入值小于0时，梯度为0，当输入值非常大时，梯度更新会非常大，导致权重更新不稳定，不易收敛。  

2、ReLU函数在y<0时，梯度为0，导致在反向传播时，权重更新会停止，导致神经元“死亡”，即不再对任何数据有响应。

### 改进
1、Leaky ReLU函数，当y<0时，梯度为0.01，公式为：
$$
f(y)=max(0.01y,y)
$$

<div align="center">
    <img src="激活函数/L-ReLU.png" alt="图片描述" width="300"/>
</div>

2、Parametric ReLU函数，当y<0时，梯度为α，α为可学习的参数，公式为：
$$
f(y)=max(αy,y)
$$

<div align="center">
    <img src="激活函数/P-ReLU.png" alt="图片描述" width="300"/>
</div>

3、Exponential Linear Unit函数，公式为：
$$
f(y)=\begin{cases}y&y>0\\ \alpha(e^y-1)&y\leq 0\end{cases}
$$

<div align="center">
    <img src="激活函数/ELU.png" alt="图片描述" width="300"/>
</div>

## 4、swish函数(SiLU)
swish函数公式为：
$$
f(y)=y*sigmoid(\beta y)
$$
swish函数的图像如下，为非零均值函数：

<div align="center">
    <img src="激活函数/Swish.png" alt="图片描述" width="300"/>
</div>

swish函数的导数公式为：
$$
f'(y)=\beta f(y)+sigmoid(\beta y)(1-\beta f(y))
$$
swish函数的导数图像如下：

<div align="center">
    <img src="激活函数/Swish导数.png" alt="图片描述" width="300"/>
</div>

## 5、GELU函数
GELU函数公式为：

$$
f(y)=y \cdot \Phi(y)
$$
其中，Φ(y)是标准正态分布的累积分布函数，近似公式为：  
$$
\Phi(y)=0.5\left[1+\text{erf}\left(\frac{y}{\sqrt{2}}\right)\right]
$$
其中，erf是误差函数，近似公式为：  
$$
\text{erf}(y)=\frac{2}{\sqrt{\pi}}\int_{0}^{y}e^{-t^2}dt
$$
近似表达式为：  
$$
f(y)=0.5y(1+tanh(\sqrt{\frac{2}{\pi}}(y+0.044715y^3)))
$$
GELU函数的图像如下，为非零均值函数：

<div align="center">
    <img src="激活函数/GELU.png" alt="图片描述" width="300"/>
</div>

GELU函数的导数公式为：
$$
f'(y)=0.5(1+tanh(\sqrt{\frac{2}{\pi}}(y+0.044715y^3)))+0.5y\frac{1}{\sqrt{\frac{2}{\pi}}(y+0.044715y^3)}(1-tanh^2(\sqrt{\frac{2}{\pi}}(y+0.044715y^3)))
$$
GELU函数的导数图像如下：

<div align="center">

## 6、SwiGLU函数
### GLU
Gated Linear Unit函数，公式为：
$$
GLU(x, W, V, b, c) = \sigma(Wx+b) \otimes (Vx+c)
$$
其中$\sigma$在原论文中为sigmoid函数，x为输入，W为权重矩阵，b为偏置，V为权重矩阵，c为偏置，$\otimes$为逐元素乘法。

### SwiGLU
SwiGLU函数，公式为：
$$
SwiGLU(x, W, V, b, c) = \sigma(Wx+b) \otimes (Vx+c)
$$
其中$\sigma$变为了swish函数

LLaMA中结构如下图所示：
<div align="center">
    <img src="激活函数/llama中FFN.png" alt="图片描述" width="500"/>
</div>

In [2]:
# -*- coding  : utf-8 -*-
# Author: honggao.zhang

import torch
import torch.nn as nn
import torch.nn.functional as F

class FFNSwiGLU(nn.Module):
    def __init__(self, input_dim: int, hidden_dim: int):
        super().__init__()
        hidden_dim = int(2 * hidden_dim / 3)
        self.fc1 = nn.Linear(input_dim, hidden_dim, bias=False)
        self.fc2 = nn.Linear(hidden_dim, input_dim, bias=False)
        self.fc3 = nn.Linear(input_dim, hidden_dim, bias=False) 
        
    def forward(self, x):
        # LLaMA 官方提供的代码是使用 F.silu() 激活函数
        return self.fc2(F.silu(self.fc1(x)) * self.fc3(x))
    
layer = FFNSwiGLU(128, 256)
x = torch.randn(1, 128)
out = layer(x)
print(out.shape) # torch.Size([1, 128])

torch.Size([1, 128])


## 部分激活函数对比
<div align="center">
    <img src="激活函数/各激活函数对比.png" alt="图片描述" width="500"/>
</div>