In [1]:
import numpy as np

Функция, минимум которой мы ищем:

In [33]:
def f(arr):
    x = arr[0]
    y = arr[1]
    return (8 * (x ** 2) + 8 * (x ** 6) + 32 * (x ** 3) * (y ** 2) - 32 * x * (y ** 3) + 8 * (y ** 4) + 8 * (y ** 6))

Частная производная по 'x':

In [34]:
def fdx(arr):
    x = arr[0]
    y = arr[1]
    return (16 * x + 48 * (x ** 5) + 96 * (x ** 2) * (y ** 2) - 32 * (y ** 3))

Частная производная по 'y':

In [35]:
def fdy(arr):
    x = arr[0]
    y = arr[1]
    return (64 * (x ** 3) * y - 96 * x * (y ** 2) + 32 * (y ** 3) + 48 * (y ** 5))

Классический градиентный спуск с фиксированным шагом:

In [77]:
# Кроме начального положения точки, функция принимает значения коэффициента, отвечающего
# за длину шага градиентного спуска, и параметр, определяющий критерий остановки
def gradient_descent(starting_position, lam, eps):
    prev_position = starting_position
    prev_value = f(starting_position)
    
    for i in range(1, 1000000):
        grad = np.array([fdx(prev_position), fdy(prev_position)])
        
        # Имеет смысл нормировать градиент. Это значительно ускоряет сходимость из точек, 
        # в которых функция принимает очень большие значения
        if np.linalg.norm(grad) > 1:
            norm_grad = grad / np.linalg.norm(grad)
        else:
            norm_grad = grad
        
        # Шаг градиентного спуска
        new_position = prev_position - lam * norm_grad
        new_value = f(new_position)
        
        # Проверка критеря остановки
        if np.linalg.norm(new_value - prev_value) < eps:
            break
        else:
            prev_position = new_position
            prev_value = new_value
    
    return prev_value

In [78]:
starting_position = np.array([10, 10])
lam = 0.01
eps = 0.00000001

print(gradient_descent(starting_position, lam, eps))

7.894829554104928e-06


Минимум, найденный градиентным спуском: 7.894829554104928e-06

Покоординатный спуск:

In [130]:
def coordinate_descent(starting_position, lam, eps):
    prev_position = starting_position
    prev_value = f(starting_position)
    
    # Ищем минимум по 'x'
    for i in range(1, 10000):
        grad = np.array([fdx(prev_position), 0])
        
        if np.linalg.norm(grad) > 1:
            norm_grad = grad / np.linalg.norm(grad)
        else:
            norm_grad = grad
        
        new_position = prev_position - lam * norm_grad
        new_value = f(new_position)
        
        if np.linalg.norm(new_value - prev_value) < eps:
            break
        else:
            prev_position = new_position
            prev_value = new_value
    
    # Ищем минимум по 'y'
    for i in range(1, 10000):
        grad = np.array([0, fdy(prev_position)])
        
        if np.linalg.norm(grad) > 1:
            norm_grad = grad / np.linalg.norm(grad)
        else:
            norm_grad = grad
        
        new_position = prev_position - lam * norm_grad
        new_value = f(new_position)
        
        if np.linalg.norm(new_value - prev_value) < eps:
            break
        else:
            prev_position = new_position
            prev_value = new_value
    
    return prev_value

Запустим покоординатный спуск от точки (10, 10):

In [131]:
lam = 0.01
eps = 0.00001

starting_position = np.array([10, 10])
print(coordinate_descent(starting_position, lam, eps))

288.78570755952313


Теперь от точки (10, 1):

In [132]:
starting_position = np.array([10, 1])
print(coordinate_descent(starting_position, lam, eps))

1.3228068549827934


И от точки (10, 0.1):

In [133]:
starting_position = np.array([10, 0.1])
print(coordinate_descent(starting_position, lam, eps))

0.0008009465522805363


Это уже похоже на тот результат, который получился у нас при использовании простого градиентного спуска.

Из этого можно сделать вывод, что покоординатный спуск очень чувствителен к начальному приближению. Даже в нашем конкретном примере можно легко подобрать это приближение таким образом, чтобы спуск не сошёлся за данное число итераций.