In [4]:
import numpy as np

class NesterovMomentumOptimizer:
    def __init__(self, learning_rate=0.01, momentum=0.9):
        self.learning_rate = learning_rate
        self.momentum = momentum
        self.velocity = None

    def initialize(self, parameters):
        # Инициализируем скорость для каждого параметра нулями
        self.velocity = [np.zeros_like(param) for param in parameters]

    def update(self, parameters, gradients):
        if self.velocity is None:
            self.initialize(parameters)

        for i in range(len(parameters)):
            # Сохраняем текущие параметры для возврата к ним позже
            prev_params = np.copy(parameters[i])
            
            # Предварительно обновляем параметры с учетом скорости
            parameters[i] -= self.momentum * self.velocity[i]
            
            # Вычисляем скорость с учетом градиента и предварительно обновленных параметров
            self.velocity[i] = self.momentum * self.velocity[i] + self.learning_rate * gradients[i]
            
            # Окончательно обновляем параметры с учетом скорости
            parameters[i] -= self.velocity[i]
            
            # Возвращаем параметры к исходному состоянию
            parameters[i] = prev_params


In [5]:
# Создаем оптимизатор
optimizer = NesterovMomentumOptimizer(learning_rate=0.01, momentum=0.9)

# Создаем параметры и градиенты (пример)
parameters = [np.random.randn(3, 3), np.random.randn(2, 2)]
gradients = [np.random.randn(3, 3), np.random.randn(2, 2)]

# Обновляем параметры с помощью оптимизатора
optimizer.update(parameters, gradients)