Давайте рассмотрим, как с помощью функций Python мы сможем применить квазиньютоновские методы для оптимизации функции

.

Подгрузим необходимые библиотеки:

In [2]:
import numpy as np
from scipy.optimize import minimize

Определим функцию, которую будем оптимизировать. Вместо отдельных и  можно взять координаты единого вектора:

In [3]:
def func(x):
    return x[0]**2.0 + x[1]**2.0

Теперь определим градиент для функции:

In [4]:
def grad_func(x):
    return np.array([x[0] * 2, x[1] * 2])

Зададим начальную точку:

In [5]:
x_0 = [1.0, 1.0]

Определим алгоритм:

In [6]:
result = minimize(func, x_0, method='BFGS', jac=grad_func)

Выведем результаты:

In [8]:
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))
result

Статус оптимизации Optimization terminated successfully.
Количество оценок: 3
Решение: f([0. 0.]) = 0.00000


      fun: 0.0
 hess_inv: array([[ 0.75, -0.25],
       [-0.25,  0.75]])
      jac: array([0., 0.])
  message: 'Optimization terminated successfully.'
     nfev: 3
      nit: 2
     njev: 3
   status: 0
  success: True
        x: array([0., 0.])

Итак, мы получили, что минимум функции достигается в точке . Значение функции в этой точке также равно нулю.

Можно повторить то же самое с вариацией  L-BFGS-B:

In [10]:
# определяем нашу функцию
def func(x):
    return x[0]**2.0 + x[1]**2.0
 
#  определяем градиент функции
def grad_func(x):
    return np.array([x[0] * 2, x[1] * 2])
 
# определяем начальную точку
x_0 = [1, 1]
# реализуем алгоритм L-BFGS-B
result = minimize(func, x_0, method='L-BFGS-B', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))
result

Статус оптимизации CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL
Количество оценок: 3
Решение: f([0. 0.]) = 0.00000


      fun: 0.0
 hess_inv: <2x2 LbfgsInvHessProduct with dtype=float64>
      jac: array([0., 0.])
  message: 'CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL'
     nfev: 3
      nit: 2
     njev: 3
   status: 0
  success: True
        x: array([0., 0.])

Иногда количество итераций у двух модификаций различается, но ответ совпадает. Бывает также, что одна из вариаций может не сойтись, а другая — достичь экстремума, поэтому советуем не воспринимать их как взаимозаменяемые алгоритмы. На практике лучше пробовать разные варианты: если у вас не сошёлся алгоритм BFGS, можно попробовать L-BFGS-B, и наоборот. Также можно экспериментировать одновременно с обоими алгоритмами, чтобы выбрать тот, который будет сходиться для функции за меньшее число итераций и тем самым экономить время.

→ Важно понимать, что для некоторых функций не из всех стартовых точек получается достичь сходимости метода. Тогда их можно перебирать, к примеру, с помощью цикла.

✍ Итак, мы обсудили один из самых эффективных на сегодняшний день алгоритмов — вариацию BFGS квазиньютоновских методов. Вы будете регулярно сталкиваться с этим алгоритмом при решении различных задач и при использовании библиотек для оптимизации. Так что давайте попрактикуемся: в этом юните мы посмотрели фрагмент поэтапного разбора метода BFGS для функции
— давайте завершим начатое и найдём точку минимума ↓

 Задание 4.1

Найдите точку минимума для функции.

В качестве стартовой возьмите точку.

Значения координат округлите до целого числа.

In [14]:
# определяем нашу функцию
def func(x):
    return x[0]**2.0 - x[0]*x[1] + x[1]**2.0 + 9*x[0] - 6*x[1] + 20
 
#  определяем градиент функции
def grad_func(x):
    return np.array([2*x[0] - x[1] + 9, -x[0] + 2*x[1] - 6])
 
# определяем начальную точку
x_0 = [-400, -400]
# реализуем алгоритм L-BFGS-B
result = minimize(func, x_0, method='L-BFGS-B', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.0f' % (solution, evaluation))
result

Статус оптимизации Optimization terminated successfully.
Количество оценок: 11
Решение: f([-4.  1.]) = -1


      fun: -1.0
 hess_inv: array([[0.66666667, 0.33333333],
       [0.33333333, 0.66666667]])
      jac: array([-1.77635684e-15,  0.00000000e+00])
  message: 'Optimization terminated successfully.'
     nfev: 11
      nit: 6
     njev: 11
   status: 0
  success: True
        x: array([-4.,  1.])

Задание 4.4

Найдите минимум функции

с помощью квазиньютоновского метода BFGS.

В качестве стартовой точки возьмите .

В качестве ответа введите минимальное значение функции в достигнутой точке.

In [15]:
# определяем нашу функцию
def func(x):
    return x**2 - 3*x + 45
 
#  определяем градиент функции
def grad_func(x):
    return 2*x - 3

x_0 = 10
# реализуем алгоритм BFGS
result = minimize(func, x_0, method='BFGS', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.0f' % (solution, evaluation))
result

Статус оптимизации Optimization terminated successfully.
Количество оценок: 5
Решение: f([1.5]) = 43


      fun: 42.75
 hess_inv: array([[0.5]])
      jac: array([0.])
  message: 'Optimization terminated successfully.'
     nfev: 5
      nit: 4
     njev: 5
   status: 0
  success: True
        x: array([1.5])

Задание 4.5

Решите предыдущую задачу, применяя модификацию L-BFGS-B.
В каком случае получилось меньше итераций?


In [16]:
# определяем нашу функцию
def func(x):
    return x**2 - 3*x + 45
 
#  определяем градиент функции
def grad_func(x):
    return 2*x - 3

x_0 = 10
# реализуем алгоритм L-BFGS-B
result = minimize(func, x_0, method='L-BFGS-B', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.0f' % (solution, evaluation))
result

Статус оптимизации CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL
Количество оценок: 3
Решение: f([1.5]) = 43


      fun: 42.75
 hess_inv: <1x1 LbfgsInvHessProduct with dtype=float64>
      jac: array([0.])
  message: 'CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL'
     nfev: 3
      nit: 2
     njev: 3
   status: 0
  success: True
        x: array([1.5])

 Задание 4.7

Найдите минимум функции

, взяв за стартовую точку .
Какой алгоритм сошелся быстрее?


In [22]:
# определяем нашу функцию
def func(x):
    return x[0]**4 - 6*x[1]**2 + 10

#  определяем градиент функции
def grad_func(x):
    return np.array([4*x[0]**3, 12*x[1]])
 
# определяем начальную точку
x_0 = [100, 100]
# реализуем алгоритм L-BFGS-B
result = minimize(func, x_0, method='L-BFGS-B', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.0f' % (solution, evaluation))
result

Статус оптимизации ABNORMAL_TERMINATION_IN_LNSRCH
Количество оценок: 80
Решение: f([ 6.30130329 96.09299241]) = -53817


      fun: -53816.57909549914
 hess_inv: <2x2 LbfgsInvHessProduct with dtype=float64>
      jac: array([1000.80886128, 1153.11590889])
  message: 'ABNORMAL_TERMINATION_IN_LNSRCH'
     nfev: 80
      nit: 11
     njev: 80
   status: 2
  success: False
        x: array([ 6.30130329, 96.09299241])

In [18]:
# определяем нашу функцию
def func(x):
    return x[0]**4 - 6*x[1]**2 + 10

#  определяем градиент функции
def grad_func(x):
    return np.array([4*x[0]**3, 12*x[1]])
 
# определяем начальную точку
x_0 = [100, 100]
# реализуем алгоритм BFGS
result = minimize(func, x_0, method='BFGS', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.0f' % (solution, evaluation))
result

Статус оптимизации Optimization terminated successfully.
Количество оценок: 37
Решение: f([1.16598340e-02 1.25599922e-18]) = 10


      fun: 10.000000018482872
 hess_inv: array([[2.56856945e+02, 2.02286677e-11],
       [2.02286677e-11, 7.55805328e-02]])
      jac: array([6.34069831e-06, 1.50719906e-17])
  message: 'Optimization terminated successfully.'
     nfev: 37
      nit: 34
     njev: 37
   status: 0
  success: True
        x: array([1.16598340e-02, 1.25599922e-18])