# Метод Ньютона - алгоритм оптимизации (работает быстрее чем градиентный спуск).

Он основан на приближённом решении нелинейных уравнений с помощью касательных.

### Пример:

Найдите третий корень полинома $f(x) = 6x^5 - 5x^4 - 4x^3 + 3x^2$, взяв за точку старта 0.7. Введите получившееся значение с точностью до трёх знаков после точки-разделителя.

In [1]:
# Функция f(x), корни которой мы ищем
def f(x):
    return 6 * x**5 - 5 * x**4 - 4 * x**3 + 3 * x**2

# Производная функции f(x) — градиент (первая производная)
def grad(x):
    dx = 30 * x**4 - 20 * x**3 - 12 * x**2 + 6 * x
    return dx

# Реализация метода Ньютона для поиска корней уравнения f(x) = 0
def newtons_algo_root(f, grad, x0=0, tol=0.0001, count_val=3):
    """
    Метод Ньютона для поиска корня уравнения f(x) = 0.
    
    Параметры:
    f - функция, корень которой ищем
    grad - производная функции f
    x0 - начальное приближение
    iter_count - максимальное количество итераций
    """

    # Текущая точка (начальное приближение)
    x_cur = x0
    
    # Предыдущая точка (нужна для остановки алгоритма)
    x_pred = None
    
    ite = 1
    
    while True:
        
        fxn = f(x_cur)  # Вычисляем значение функции f(x)
        f_prime = grad(x_cur)  # Вычисляем значение производной f'(x)
        
        # Проверка деления на 0 (если производная равна 0, метод не применим)
        if f_prime == 0:
            print("Производная равна 0. Метод Ньютона не применим.")
            return None
        
        # Формула метода Ньютона: x_(n+1) = x_n - f(x_n) / f'(x_n)
        x_new = x_cur - fxn / f_prime
        
        # Вывод промежуточных результатов
        print(f'Iteration №: {ite}')
        print(f'f(xn) = {fxn}')  # Текущее значение функции
        print(f'f(xn) prime = {f_prime}')  # Значение производной
        print(f'---> Сurrent ROOT <--- : {round(x_cur, count_val)}')  # Текущий корень
        print('__' * 20)
    
        # Проверка критерия остановки (если разница между x_new и x_pred мала)
        if x_pred is not None and abs(x_pred - x_new) < tol:  break
        
        # Обновляем x_pred и x_cur для следующей итерации
        x_pred = x_cur
        x_cur = x_new
        
        ite +=1
    return round(x_cur, count_val)

# Вызов метода Ньютона с начальным приближением x0 = 0.7 и 5 итерациями
newtons_algo_root(
    f=f,
    grad=grad,
    x0=0.7
)

Iteration №: 1
f(xn) = -0.09407999999999994
f(xn) prime = -1.3369999999999997
---> Сurrent ROOT <--- : 0.7
________________________________________
Iteration №: 2
f(xn) = -0.0012133284487552132
f(xn) prime = -1.2567755749164586
---> Сurrent ROOT <--- : 0.63
________________________________________
Iteration №: 3
f(xn) = -1.3785387997788945e-06
f(xn) prime = -1.2539130914128895
---> Сurrent ROOT <--- : 0.629
________________________________________
Iteration №: 4
f(xn) = -1.8043344596208044e-12
f(xn) prime = -1.2539098089231775
---> Сurrent ROOT <--- : 0.629
________________________________________


0.629

### Пример:

Оптимизировать функцию (найти точку минимума): $f(x) = x^3 - 3x^2 - 45x + 40$. Начальной точки нет.

In [2]:
# Определяем функцию f(x), минимум которой мы ищем
def f(x):
    return x**3 - 3 * x**2 - 45 * x + 40

# Производные функции f(x)
def grad(x):
    dx = 3*x**2 - 6*x - 45  # Первая производная f'(x) (градиент)
    dxx = 6 * x - 6         # Вторая производная f''(x) (для проверки минимума)
    return [dx, dxx]        # Возвращаем список значений первой и второй производных

# Метод Ньютона для поиска минимума функции
def newtons_algo_minimum(f, grad, x0=0, tol=0.0001, count_val=3):
    """
    Метод Ньютона для поиска минимума функции f(x).
    
    Параметры:
    f - функция, минимум которой ищем
    grad - функция, возвращающая первую и вторую производные
    x0 - начальная точка
    """

    # Текущая точка (начальное приближение)
    x_cur = x0
    
    # Предыдущая точка (для критерия остановки)
    x_pred = None
    
    # Счетчик итераций
    ite = 1

    # Основной цикл метода Ньютона
    while True:
        fxn = f(x_cur)            # Вычисляем значение функции в текущей точке
        f_prime = grad(x_cur)[0]  # Первая производная (градиент)
        f_second = grad(x_cur)[1] # Вторая производная (используется в формуле)

        # Проверка деления на 0 (если производные равны 0, метод не применим)
        if (f_prime == 0) or (f_second == 0):
            print("Производная равна 0. Метод Ньютона не применим.")
            return None

        # Формула метода Ньютона для поиска минимума:
        # x_(n+1) = x_n - f'(x_n) / f''(x_n)
        x_new = x_cur - f_prime / f_second

        # Вывод промежуточных результатов
        print(f'Iteration №: {ite}')
        print(f'f(xn) = {fxn}')            # Текущее значение функции
        print(f'f(xn) prime = {f_prime}')  # Первая производная f'(x)
        print(f'f(xxn) second = {f_second}')  # Вторая производная f''(x)
        print(f'---> Сurrent MINIMUM <--- : {round(x_cur, count_val)}')
        print('__' * 20)

        # Критерий остановки: если разница между новой и предыдущей точкой < 0.0001
        if x_pred is not None and abs(x_pred - x_new) < tol:
            break

        # Обновляем x_pred и x_cur для следующей итерации
        x_pred = x_cur
        x_cur = x_new

        # Увеличиваем счетчик итераций
        ite += 1
    return round(x_cur, count_val)

# Запускаем метод Ньютона с начальным приближением x0 = 42
newtons_algo_minimum(
    f=f,
    grad=grad,
    x0=42
)

Iteration №: 1
f(xn) = 66946
f(xn) prime = 4995
f(xxn) second = 246
---> Сurrent MINIMUM <--- : 42
________________________________________
Iteration №: 2
f(xn) = 7863.108038551384
f(xn) prime = 1236.864217727543
f(xxn) second = 124.17073170731709
---> Сurrent MINIMUM <--- : 21.695
________________________________________
Iteration №: 3
f(xn) = 714.5634836428904
f(xn) prime = 297.6643508293206
f(xxn) second = 64.40475300745938
---> Сurrent MINIMUM <--- : 11.734
________________________________________
Iteration №: 4
f(xn) = -72.03041746416682
f(xn) prime = 64.0824440979098
f(xxn) second = 36.67409616029981
---> Сurrent MINIMUM <--- : 7.112
________________________________________
Iteration №: 5
f(xn) = -133.35266928891218
f(xn) prime = 9.15968525359429
f(xxn) second = 26.190002349047845
---> Сurrent MINIMUM <--- : 5.365
________________________________________
Iteration №: 6
f(xn) = -134.99720180515925
f(xn) prime = 0.3669537086002208
f(xxn) second = 24.091563762097362
---> Сurrent MIN

5.0

Тоже самое из библиотеки scipy.optimizee: 

In [3]:
from scipy.optimize import newton

def func1(x):
    return 3*x**2 - 6*x -45
def func2(x):
    return 6 * x - 6

newton(func=func1, fprime=func2, x0=50, tol=0.0001)
# 5

np.float64(5.0)

# Достоинства метода:

- Если мы минимизируем квадратичную функцию, то с помощью метода Ньютона можно попасть в минимум целевой функции за один шаг.

- Также этот алгоритм сходится за один шаг, если в качестве минимизируемой функции выступает функция из класса поверхностей вращения (т.е. такая, у которой есть симметрия).

- Для несимметричной функции метод не может обеспечить сходимость, однако скорость сходимости  всё равно превышает скорость методов, основанных на градиентном спуске.

# Недостатки метода:

- Этот метод очень чувствителен к изначальным условиям.

- При использовании градиентного спуска мы всегда гарантированно движемся по антиградиенту в сторону минимума. В методе Ньютона происходит подгонка параболоида к локальной кривизне, и затем алгоритм движется к неподвижной точке данного параболоида. Из-за этого мы можем попасть в максимум или седловую точку. Особенно ярко это видно на невыпуклых функциях с большим количеством переменных, так как у таких функций седловые точки встречаются намного чаще экстремумов.

- Поэтому здесь необходимо обозначить ограничение: метод Ньютона стоит применять только для задач, в которых целевая функция выпуклая.

- Впрочем, это не является проблемой. В линейной регрессии или при решении задачи классификации с помощью метода опорных векторов или логистической регрессии мы как раз ищем минимум у выпуклой целевой функции, то есть данный алгоритм подходит нам во многих случаях.

- Также метод Ньютона может быть затратным с точки зрения вычислительной сложности, так как требует вычисления не только градиента, но и гессиана и обратного гессиана (при делении на матрицу необходимо искать обратную матрицу).

- !!!Если у задачи много параметров, то расходы на память и время вычислений становятся астрономическими. Например, при наличии 50 параметров нужно вычислять более 1000 значений на каждом шаге, а затем предстоит ещё более 500 операций нахождения обратной матрицы. Однако метод всё равно используют, так как выгода от быстрой сходимости перевешивает затраты на вычисления.!!!

In [4]:
# Определяем функцию f(x), минимум которой мы ищем
def f(x):
    return 8*x**3 - 2*x**2 - 450

# Производные функции f(x)
def grad(x):
    dx = 24*x**2 - 4*x
    dxx = 48*x - 4
    return [dx, dxx]        # Возвращаем список значений первой и второй производных

# Запускаем метод Ньютона с начальным приближением x0 = 42
newtons_algo_minimum(
    f=f,
    grad=grad,
    x0=42,
    tol=0.0001,
    count_val=3
)

Iteration №: 1
f(xn) = 588726
f(xn) prime = 42168
f(xxn) second = 2012
---> Сurrent MINIMUM <--- : 42
________________________________________
Iteration №: 2
f(xn) = 73195.24536001583
f(xn) prime = 10541.958333498018
f(xxn) second = 1006.0039761431411
---> Сurrent MINIMUM <--- : 21.042
________________________________________
Iteration №: 3
f(xn) = 8754.77428010076
f(xn) prime = 2635.44791736657
f(xxn) second = 503.0099403264221
---> Сurrent MINIMUM <--- : 10.563
________________________________________
Iteration №: 4
f(xn) = 700.1520011704947
f(xn) prime = 658.820315309824
f(xxn) second = 251.5208744214744
---> Сurrent MINIMUM <--- : 5.323
________________________________________
Iteration №: 5
f(xn) = -306.4575186250329
f(xn) prime = 164.66342269884942
f(xxn) second = 125.7922437159364
---> Сurrent MINIMUM <--- : 2.704
________________________________________
Iteration №: 6
f(xn) = -432.1746519343719
f(xn) prime = 41.124231138972554
f(xxn) second = 62.95971878384913
---> Сurrent MINI

0.167

# Квазиньютоновские методы (сочетание градиентного спуска и метода ньютона)

В методе Ньютона мы обновляем точку на каждой итерации и вычисляется гессиан, а также его обратная матрица, что является затратным с точки зрения вычислений, но обеспечивает более быструю сходимость.

В квазиньютоновских методах вместо вычисления гессиана мы просто аппроксимируем его матрицей, которая обновляется от итерации к итерации с использованием информации, вычисленной на предыдущих шагах. Так как вместо вычисления большого количества новых величин мы использует найденные ранее значения, квазиньютоновский алгоритм тратит гораздо меньше времени и вычислительных ресурсов.

Эти способы объединены **ограничением**: процесс обновления матрицы должен быть достаточно эффективным и не должен требовать вычислений гессиана. То есть, по сути, на каждом шаге мы должны получать информацию о гессиане, не находя непосредственно сам гессиан.

Три самые популярные схемы аппроксимации:

- симметричная коррекция ранга 1 (SR1);

- схема Дэвидона — Флетчера — Пауэлла (DFP);

- схема Бройдена — Флетчера — Гольдфарба — Шанно (BFGS).

Последняя схема (BFGS) самая известная, стабильная и считается наиболее эффективной. На ней мы и остановимся.

У этой схемы есть две известных вариации:

- L-BFGS;

- L-BFGS-B.

Обе этих вариации необходимы в случае большого количества переменных для экономии памяти (так как во время их реализации хранится ограниченное количество информации). По сути, они работают одинаково, и L-BFGS-B является лишь улучшенной версией L-BFGS для работы с ограничениями.

Применим, квазиньютоновский метод к функции: $f(x, y) = x^2 + y^2$

In [5]:
import numpy as np
from scipy.optimize import minimize

Определим функцию, которую будем оптимизировать.

In [6]:
# Определяем целевую функцию
def f(xy):
    x, y = xy
    return x**2 + y**2
 
# определяем начальную точку
x_0 = [1, 1]

# реализуем алгоритм L-BFGS-B
result = minimize(f, x_0, method='BFGS')

# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = f(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

Статус оптимизации Optimization terminated successfully.
Количество оценок: 9
Решение: f([-1.07505143e-08 -1.07505143e-08]) = 0.00000


Итак, мы получили, что минимум функции достигается в точке (-1.07505143e-08 -1.07505143e-08), что практически = (0,0). Значение функции в этой точке также равно нулю.

Можно повторить то же самое с вариацией  L-BFGS-B:

In [8]:
# реализуем алгоритм L-BFGS-B
result = minimize(f, x_0, method='L-BFGS-B')

# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = f(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

Статус оптимизации CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL
Количество оценок: 9
Решение: f([-6.93562979e-09 -6.93562979e-09]) = 0.00000


Иногда количество итераций у двух модификаций различается, но ответ совпадает. Бывает также, что одна из вариаций может не сойтись, а другая — достичь экстремума, поэтому советуем не воспринимать их как взаимозаменяемые алгоритмы. На практике лучше пробовать разные варианты: если у вас не сошёлся алгоритм BFGS, можно попробовать L-BFGS-B, и наоборот.

In [33]:
# определяем нашу функцию
def func(x):
    return x[0]**4 + 6 * x[1]**2 + 10
 
# определяем начальную точку
x_0 = np.array([100, 100])

# реализуем алгоритм L-BFGS-B
result = minimize(func, x_0, method='BFGS')
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

# реализуем алгоритм L-BFGS-B
result = minimize(func, x_0, method='L-BFGS-B')
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))


Статус оптимизации Optimization terminated successfully.
Количество оценок: 111
Решение: f([ 1.31669611e-02 -6.88585813e-09]) = 10.00000
Статус оптимизации CONVERGENCE: REL_REDUCTION_OF_F_<=_FACTR*EPSMCH
Количество оценок: 120
Решение: f([-9.59527042e-03 -2.14899286e-06]) = 10.00000
