Реализация алгоритма оптимизатора Adam (Adaptive Moment Estimation) без использования сторонних библиотек, таких как PyTorch или TensorFlow, представляет собой интересное задание. Adam является одним из наиболее популярных оптимизаторов в глубоком обучении, который сочетает в себе преимущества двух других популярных методов: стохастического градиентного спуска (SGD) и моменного метода (Momentum).

Adam использует два скользящих средних для каждого параметра: одно для градиентов (среднее квадрат градиентов) и другое для скоростей обновления параметров (среднее скорости). Эти средние используются для адаптивного изменения скорости обучения на каждом шаге оптимизации.

Алгоритм Adam:
    Инициализация: Инициализируем параметры модели и скользящие средние для градиентов и скоростей обновления.
    Обновление скользящих средних: На каждом шаге оптимизации обновляем скользящие средние градиентов и скоростей обновления.
    Вычисление скорости обновления: Используем скользящие средние для вычисления скорости обновления.
    Обновление параметров: Применяем скорость обновления к текущим параметрам модели.
    
Код реализации:

In [1]:
import numpy as np

def adam(params, grads, s1, s2, t, learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8):
    """
    params: список параметров модели
    grads: список градиентов для каждого параметра
    s1: первый скользящий средний для градиентов
    s2: второй скользящий средний для скоростей обновления
    t: текущий шаг обучения
    learning_rate: скорость обучения
    beta1: коэффициент для первого скользящего среднего
    beta2: коэффициент для второго скользящего среднего
    epsilon: небольшое число для стабильности
    """
    # Обновление скользящих средних
    s1_t = beta1 * s1 + (1 - beta1) * grads
    s2_t = beta2 * s2 + (1 - beta2) * (grads ** 2)
    
    # Коррекция скользящих средних
    s1_corr = s1_t / (1 - beta1 ** (t + 1))
    s2_corr = s2_t / (1 - beta2 ** (t + 1))
    
    # Вычисление скорости обновления
    m_t = learning_rate * s1_corr / (np.sqrt(s2_corr) + epsilon)
    
    # Обновление параметров
    for i, param in enumerate(params):
        param -= m_t[i]
    
    # Обновление скользящих средних и шага обучения
    return s1, s2, t + 1

# Пример использования
params = [np.array([1.0]), np.array([-1.0])]
grads = [np.array([0.1]), np.array([-0.2])]
s1 = np.zeros_like(grads)
s2 = np.zeros_like(grads)
t = 0

# Выполнение нескольких шагов оптимизации
for _ in range(10):
    s1, s2, t = adam(params, grads, s1, s2, t)
    print(f"Updated parameters: {params}")


TypeError: can't multiply sequence by non-int of type 'float'

Этот код демонстрирует базовую реализацию алгоритма Adam. Он инициализирует параметры модели, градиенты, скользящие средние и шаг обучения, а затем применяет алгоритм Adam для обновления параметров модели на протяжении нескольких шагов.