# 激活函数：原理与实现

本笔记本介绍了不同类型的激活函数、它们的特性以及在神经网络中的应用。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## 1. 为什么需要激活函数？

In [None]:
print("激活函数的重要性:")
print("1. 引入非线性: 没有激活函数的神经网络只是线性回归的堆叠，无法学习复杂的非线性模式")
print("2. 特征转换: 将输入特征转换为更适合后续层处理的表示形式")
print("3. 梯度流动: 良好的激活函数有助于梯度在反向传播中顺畅流动")
print("4. 输出范围控制: 某些激活函数可以将输出限制在特定范围内")

print("\n如果没有激活函数:")
print("- 多层神经网络退化为线性模型")
print("- 无法学习复杂的函数关系")
print("- 网络深度失去意义")

## 2. Sigmoid激活函数

In [None]:
def sigmoid(x):
    """
    Sigmoid激活函数
    公式: f(x) = 1 / (1 + e^(-x))
    """
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    """
    Sigmoid激活函数的导数
    公式: f'(x) = f(x) * (1 - f(x))
    """
    return sigmoid(x) * (1 - sigmoid(x))

# 绘制Sigmoid函数及其导数
x = np.linspace(-10, 10, 100)
y_sigmoid = sigmoid(x)
y_derivative = sigmoid_derivative(x)

plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.plot(x, y_sigmoid, label='Sigmoid')
plt.title('Sigmoid激活函数')
plt.xlabel('输入值')
plt.ylabel('输出值')
plt.grid(True)
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(x, y_derivative, label='Sigmoid导数', color='orange')
plt.title('Sigmoid激活函数的导数')
plt.xlabel('输入值')
plt.ylabel('导数值')
plt.grid(True)
plt.legend()

plt.tight_layout()
plt.show()

print("Sigmoid函数的特点:")
print("- 输出范围: (0, 1)")
print("- 平滑可导")
print("- 适合二分类问题的输出层")
print("- 缺点: 存在梯度消失问题")

## 3. Sigmoid的替代方案

In [None]:
# 3.1 tanh激活函数
def tanh(x):
    """
    tanh激活函数
    公式: f(x) = (e^x - e^(-x)) / (e^x + e^(-x))
    """
    return np.tanh(x)

def tanh_derivative(x):
    """
    tanh激活函数的导数
    公式: f'(x) = 1 - f(x)^2
    """
    return 1 - np.tanh(x)**2

# 3.2 ReLU激活函数
def relu(x):
    """
    ReLU激活函数
    公式: f(x) = max(0, x)
    """
    return np.maximum(0, x)

def relu_derivative(x):
    """
    ReLU激活函数的导数
    公式: f'(x) = 1 if x > 0 else 0
    """
    return np.where(x > 0, 1, 0)

# 3.3 Leaky ReLU激活函数
def leaky_relu(x, alpha=0.01):
    """
    Leaky ReLU激活函数
    公式: f(x) = max(alpha*x, x)
    """
    return np.maximum(alpha * x, x)

def leaky_relu_derivative(x, alpha=0.01):
    """
    Leaky ReLU激活函数的导数
    公式: f'(x) = 1 if x > 0 else alpha
    """
    return np.where(x > 0, 1, alpha)

# 3.4 ELU激活函数
def elu(x, alpha=1.0):
    """
    ELU激活函数
    公式: f(x) = x if x > 0 else alpha*(e^x - 1)
    """
    return np.where(x > 0, x, alpha * (np.exp(x) - 1))

def elu_derivative(x, alpha=1.0):
    """
    ELU激活函数的导数
    公式: f'(x) = 1 if x > 0 else alpha*e^x
    """
    return np.where(x > 0, 1, alpha * np.exp(x))

## 4. 激活函数的可视化比较

In [None]:
# 计算所有激活函数的值
x = np.linspace(-10, 10, 100)
y_sigmoid = sigmoid(x)
y_tanh = tanh(x)
y_relu = relu(x)
y_leaky_relu = leaky_relu(x)
y_elu = elu(x)

# 绘制激活函数
plt.figure(figsize=(14, 7))

plt.subplot(2, 1, 1)
plt.plot(x, y_sigmoid, label='Sigmoid', linewidth=2)
plt.plot(x, y_tanh, label='tanh', linewidth=2)
plt.plot(x, y_relu, label='ReLU', linewidth=2)
plt.plot(x, y_leaky_relu, label='Leaky ReLU', linewidth=2)
plt.plot(x, y_elu, label='ELU', linewidth=2)
plt.title('各种激活函数的比较')
plt.xlabel('输入值')
plt.ylabel('输出值')
plt.grid(True)
plt.legend()

# 绘制激活函数的导数
y_sigmoid_deriv = sigmoid_derivative(x)
y_tanh_deriv = tanh_derivative(x)
y_relu_deriv = relu_derivative(x)
y_leaky_relu_deriv = leaky_relu_derivative(x)
y_elu_deriv = elu_derivative(x)

plt.subplot(2, 1, 2)
plt.plot(x, y_sigmoid_deriv, label='Sigmoid导数', linewidth=2)
plt.plot(x, y_tanh_deriv, label='tanh导数', linewidth=2)
plt.plot(x, y_relu_deriv, label='ReLU导数', linewidth=2)
plt.plot(x, y_leaky_relu_deriv, label='Leaky ReLU导数', linewidth=2)
plt.plot(x, y_elu_deriv, label='ELU导数', linewidth=2)
plt.title('各种激活函数导数的比较')
plt.xlabel('输入值')
plt.ylabel('导数值')
plt.grid(True)
plt.legend()

plt.tight_layout()
plt.show()

## 5. 如何选择激活函数？

In [None]:
print("激活函数选择指南:")

print("\n1. 隐藏层激活函数:")
print("   - ReLU: 最常用，计算高效，缓解梯度消失问题")
print("   - Leaky ReLU: 解决ReLU的死亡神经元问题")
print("   - ELU: 具有ReLU的优点，同时在负数区域平滑")
print("   - tanh: 输出中心化，适合某些需要对称输出的场景")

print("\n2. 输出层激活函数:")
print("   - 二分类问题: Sigmoid (输出范围0-1)")
print("   - 多分类问题: Softmax (输出概率分布)")
print("   - 回归问题: 线性激活函数 (无激活)")
print("   - 有界回归: Sigmoid或tanh")

print("\n3. 特殊场景:")
print("   - RNN: tanh或LSTM的内部激活函数")
print("   - GAN: Leaky ReLU用于生成器，Sigmoid用于判别器")
print("   - 强化学习: tanh或ReLU")

print("\n4. 性能考虑:")
print("   - ReLU及其变体: 计算速度快，适合深层网络")
print("   - Sigmoid/tanh: 计算较慢，可能导致梯度消失")

## 6. 多类别分类问题

In [None]:
print("多类别分类问题:")
print("1. 问题定义: 样本属于多个类别中的一个，互斥")
print("2. 输出层设计: 类别数为C时，输出层有C个神经元")
print("3. 激活函数: Softmax (将输出转换为概率分布)")
print("4. 损失函数: 交叉熵损失")

print("\n多类别分类 vs 二分类:")
print("- 二分类: 一个输出神经元，Sigmoid激活")
print("- 多类别: C个输出神经元，Softmax激活")

print("\n多类别分类 vs 多标签分类:")
print("- 多类别: 每个样本只属于一个类别")
print("- 多标签: 每个样本可以属于多个类别")
print("- 多标签分类通常使用Sigmoid激活函数而不是Softmax")

## 7. 激活函数的实际应用

In [None]:
# 示例: 不同激活函数在神经网络中的应用
def neural_network_layer(X, W, b, activation='relu'):
    """
    神经网络层的前向传播
    
    参数:
    X: 输入特征 (batch_size, input_features)
    W: 权重矩阵 (input_features, output_features)
    b: 偏置向量 (output_features,)
    activation: 激活函数名称 ('relu', 'sigmoid', 'tanh', 'leaky_relu', 'elu')
    
    返回:
    Z: 线性变换结果
    A: 激活函数输出
    """
    # 线性变换
    Z = np.dot(X, W) + b
    
    # 应用激活函数
    if activation == 'relu':
        A = relu(Z)
    elif activation == 'sigmoid':
        A = sigmoid(Z)
    elif activation == 'tanh':
        A = tanh(Z)
    elif activation == 'leaky_relu':
        A = leaky_relu(Z)
    elif activation == 'elu':
        A = elu(Z)
    else:
        raise ValueError(f"未知的激活函数: {activation}")
    
    return Z, A

# 测试不同激活函数
batch_size = 16
input_features = 10
output_features = 5

X = np.random.randn(batch_size, input_features)
W = np.random.randn(input_features, output_features) * np.sqrt(2 / input_features)
b = np.zeros(output_features)

print("输入形状:", X.shape)

for activation in ['relu', 'sigmoid', 'tanh', 'leaky_relu', 'elu']:
    Z, A = neural_network_layer(X, W, b, activation=activation)
    print(f"\n{activation}激活函数:")
    print(f"  线性输出范围: [{Z.min():.4f}, {Z.max():.4f}]")
    print(f"  激活输出范围: [{A.min():.4f}, {A.max():.4f}]")

## 8. 激活函数总结

In [None]:
print("激活函数总结:")

print("\n1. 主要激活函数及其特性:")
print("   - Sigmoid: 输出范围0-1，适合二分类输出层")
print("   - tanh: 输出范围-1-1，输出中心化")
print("   - ReLU: 计算高效，缓解梯度消失，适合隐藏层")
print("   - Leaky ReLU: 解决ReLU的死亡神经元问题")
print("   - ELU: 平滑的负值区域，具有ReLU的优点")

print("\n2. 选择建议:")
print("   - 隐藏层: 优先使用ReLU及其变体")
print("   - 输出层: 根据任务类型选择合适的激活函数")
print("   - 考虑计算效率和梯度流动特性")

print("\n3. 最佳实践:")
print("   - 从ReLU开始尝试")
print("   - 如果遇到训练问题，尝试Leaky ReLU或ELU")
print("   - 为不同的层选择合适的激活函数")
print("   - 考虑批归一化对激活函数性能的影响")