In [1]:
import numpy as np

def adam(params, grads, lr=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8, t=1,
         m=None, v=None):
    """
    实现 Adam 优化算法

    参数:
    - params: 模型的参数, 表示为一个 numpy 数组
    - grads: 参数对应的梯度, 表示为一个 numpy 数组
    - lr: 学习率
    - beta1: 一阶矩估计的指数衰减率
    - beta2: 二阶矩估计的指数衰减率
    - epsilon: 为防止除零错误而添加的小常数
    - t: 当前的时间步/迭代步
    - m: 第一矩估计, 初始为 0, 形状与 params 相同
    - v: 第二矩估计, 初始为 0, 形状与 params 相同

    返回:
    - 更新后的参数 params 和 一阶/二阶矩估计 m, v
    """
    # 初始化一阶和二阶矩估计
    if m is None:
        m = np.zeros_like(params)
    if v is None:
        v = np.zeros_like(params)

    # 更新一阶矩估计
    m = beta1 * m + (1 - beta1) * grads
    # 更新二阶矩估计
    v = beta2 * v + (1 - beta2) * (grads ** 2)

    # 计算纠正偏差的一阶和二阶矩估计
    m_hat = m / (1 - beta1 ** t)
    v_hat = v / (1 - beta2 ** t)

    # 更新参数
    params -= lr * m_hat / (np.sqrt(v_hat) + epsilon)

    # 返回更新后的参数和矩估计
    return params, m, v, t + 1

# 示例

# 假设我们有一个参数向量的初始值和它的梯度
params = np.array([0.5, 1.0, -0.3])
grads = np.array([0.1, -0.2, 0.3])

# 初始化一阶和二阶矩估计
m = np.zeros_like(params)
v = np.zeros_like(params)

# 设置 Adam 的其他超参数
lr = 0.001
beta1 = 0.9
beta2 = 0.999
epsilon = 1e-8
t = 1

# 更新参数20次
for _ in range(20):
    params, m, v, t = adam(params, grads, lr, beta1, beta2, epsilon, t, m, v)

    print("更新后的参数:", params)
    print("更新后的一阶矩估计:", m)
    print("更新后的二阶矩估计:", v)
    print("更新后的时间步:", t)
    print()  # 添加一个空行以在每次更新之间分隔输出


更新后的参数: [ 0.499  1.001 -0.301]
更新后的一阶矩估计: [ 0.01 -0.02  0.03]
更新后的二阶矩估计: [1.e-05 4.e-05 9.e-05]
更新后的时间步: 2

更新后的参数: [ 0.498  1.002 -0.302]
更新后的一阶矩估计: [ 0.019 -0.038  0.057]
更新后的二阶矩估计: [1.9990e-05 7.9960e-05 1.7991e-04]
更新后的时间步: 3

更新后的参数: [ 0.497  1.003 -0.303]
更新后的一阶矩估计: [ 0.0271 -0.0542  0.0813]
更新后的二阶矩估计: [2.9970010e-05 1.1988004e-04 2.6973009e-04]
更新后的时间步: 4

更新后的参数: [ 0.496  1.004 -0.304]
更新后的一阶矩估计: [ 0.03439 -0.06878  0.10317]
更新后的二阶矩估计: [3.9940040e-05 1.5976016e-04 3.5946036e-04]
更新后的时间步: 5

更新后的参数: [ 0.495  1.005 -0.305]
更新后的一阶矩估计: [ 0.040951 -0.081902  0.122853]
更新后的二阶矩估计: [4.990010e-05 1.996004e-04 4.491009e-04]
更新后的时间步: 6

更新后的参数: [ 0.494  1.006 -0.306]
更新后的一阶矩估计: [ 0.0468559 -0.0937118  0.1405677]
更新后的二阶矩估计: [5.98501999e-05 2.39400799e-04 5.38651799e-04]
更新后的时间步: 7

更新后的参数: [ 0.493  1.007 -0.307]
更新后的一阶矩估计: [ 0.05217031 -0.10434062  0.15651093]
更新后的二阶矩估计: [6.97903497e-05 2.79161399e-04 6.28113147e-04]
更新后的时间步: 8

更新后的参数: [ 0.492  1.008 -0.308]
更新后的一阶矩估计: [ 0.05695328 -0.113

In [2]:
import numpy as np

# 定义softmax函数
def softmax(x):
    """
    计算输入数组x的softmax值
    :param x: numpy数组，可以是任意形状，但通常是一维数组或二维数组（其中每一行代表一个向量）
    :return: softmax值数组，形状与输入数组相同
    """
    # 计算指数值，为了数值稳定性，从输入值中减去最大值
    exp_x = np.exp(x - np.max(x, axis=-1, keepdims=True))
    # 计算softmax值
    softmax_x = exp_x / np.sum(exp_x, axis=-1, keepdims=True)
    return softmax_x

# 举例说明：计算一个一维数组的softmax值
example_array = np.array([2.0, 1.0, 0.1])
softmax_values = softmax(example_array)

print("Example array:", example_array)
print("Softmax values:", softmax_values)

Example array: [2.  1.  0.1]
Softmax values: [0.65900114 0.24243297 0.09856589]


### Softmax 函数

Softmax 函数是一个常用的激活函数，通常用于将神经网络的输出转换为概率分布。对于输入向量 $z = (z_1, z_2, \dots, z_n)$，Softmax 函数定义为：

$$\sigma(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}}$$

其中，$\sigma(z_i)$ 表示输入向量中第 $i$ 个元素对应输出的概率。

#### 使用Python实现Softmax函数

在Python中，我们可以使用NumPy库来实现Softmax函数。以下是具体的实现步骤和代码示例：

```python
import numpy as np

def softmax(z):
    exp_z = np.exp(z - np.max(z))  # 为了数值稳定性，先减去最大值
    sum_exp_z = np.sum(exp_z)
    return exp_z / sum_exp_z