Требуется реализовать на языке Python класс GDM, который описывает алгоритм градиентного спуска с моментом и имеет следующий интерфейс:

In [19]:

import numpy as np

class GDM:
    '''Represents a Gradient Descent with Momentum optimizer

    Fields:
        eta: learning rate
        alpha: exponential decay factor
    '''

    eta: float
    alpha: float

    def __init__(self, *, alpha: float = 0.9, eta: float = 0.1):
        '''Initalizes `eta` and `alpha` fields'''
        raise NotImplementedError()

    def optimize(self, oracle: Oracle, x0: np.ndarray, *,
                 max_iter: int = 100, eps: float = 1e-5) -> np.ndarray:
        '''Optimizes a function specified as `oracle` starting from point `x0`.
        The optimizations stops when `max_iter` iterations were completed or 
        the L2-norm of the gradient at current point is less than `eps`

        Args:
            oracle: function to optimize
            x0: point to start from
            max_iter: maximal number of iterations
            eps: threshold for L2-norm of gradient

        Returns:
            A point at which the optimization stopped
        '''
        raise NotImplementedError()


Параметрами алгоритма являются:

alpha — скорость затухания момента,
eta — learning rate.
Параметрами процесса оптимизации являются:
oracle — оптимизируемая функция,
x0 — начальная точка,
max_iter — максимальное количество итераций,
eps — пороговое значение L2 нормы градиента.
Оптимизация останавливается при достижении max_iter количества итераций или при достижении точки, в которой L2 норма градиента меньше eps.
Класс Oracle описывает оптимизируемую функцию:



In [20]:
import numpy as np

class Oracle:
    '''Provides an interface for evaluating a function and its derivative at arbitrary point'''
    
    def value(self, x: np.ndarray) -> float:
        '''Evaluates the underlying function at point `x`

        Args:
            x: a point to evaluate funciton at

        Returns:
            Function value
        '''
        raise NotImplementedError()
        
    def gradient(self, x: np.ndarray) -> np.ndarray:
        '''Evaluates the underlying function derivative at point `x`

        Args:
            x: a point to evaluate derivative at

        Returns:
            Function derivative
        '''
        raise NotImplementedError()

In [21]:
import numpy as np

In [22]:
class Oracle:
    def get_func(self, x):
        """возвращает значение функции в точке x."""
        raise NotImplementedError

    def get_grad(self, x):
        """возвращает градиент функции в точке x."""
        raise NotImplementedError

In [23]:
class GDM:
    '''
    Поля:
        eta: скорость обучения
        alpha: скорость затухания модели
    '''
    eta: float
    alpha: float

    def __init__(self, *, alpha: float = 0.9, eta: float = 0.1):
        '''инициализация'''
        self.alpha = alpha
        self.eta = eta

    def optimize(
        self,
        oracle: Oracle,
        x0: np.ndarray,
        *,
        max_iter: int = 100,
        eps: float = 1e-5
    ) -> np.ndarray:
        """
        Поля:
            oracle: оракл
            x0: точка старта
            max_iter: максимальное количество итераций
            eps: граница спуска

        Возвращает:
            точку х остановки
        """

        x = x0
        velocity = np.zeros_like(x0)

        for _ in range(max_iter):
            grad = oracle.gradient(x)
            if np.linalg.norm(grad) < eps:
                break

            # обновляем момент
            velocity = self.alpha * velocity - self.eta * grad
            # прибавляем к следующей точке момент
            x += velocity

        return x

In [24]:
class QuadraticOracle(Oracle):
    def value(self, x: np.ndarray) -> float:
        return np.sum(x ** 2)
    
    def gradient(self, x: np.ndarray) -> np.ndarray:
        return 2 * x

In [25]:
if __name__ == "__main__":
    oracle = QuadraticOracle()
    x0 = np.array([10.0])
    optimizer = GDM(alpha=0.9, eta=0.01)
    optimal_point = optimizer.optimize(oracle, x0, max_iter=100, eps=1e-6)
    print("Оптимальная точка:", optimal_point)

Оптимальная точка: [0.04228114]
