In [4]:
import numpy as np

class AdagradOptimizer:
    def __init__(self, learning_rate=0.01, epsilon=1e-8):
        self.learning_rate = learning_rate
        self.epsilon = epsilon
        self.sum_squared_gradients = None

    def initialize(self, parameters):
        # Инициализируем сумму квадратов градиентов для каждого параметра
        self.sum_squared_gradients = [np.zeros_like(param) for param in parameters]

    def update(self, parameters, gradients):
        if self.sum_squared_gradients is None:
            self.initialize(parameters)

        for i in range(len(parameters)):
            # Вычисляем сумму квадратов градиентов
            self.sum_squared_gradients[i] += gradients[i] ** 2
            # Вычисляем скорость обучения для данного параметра
            learning_rate_i = self.learning_rate / (np.sqrt(self.sum_squared_gradients[i]) + self.epsilon)
            # Обновляем параметры с учетом скорости обучения
            parameters[i] -= learning_rate_i * gradients[i]


In [5]:
# Создаем оптимизатор
optimizer = AdagradOptimizer(learning_rate=0.01, epsilon=1e-8)

# Создаем параметры и градиенты (пример)
parameters = [np.random.randn(3, 3), np.random.randn(2, 2)]
gradients = [np.random.randn(3, 3), np.random.randn(2, 2)]

# Обновляем параметры с помощью оптимизатора
optimizer.update(parameters, gradients)