Алгоритмы оптимизации из библиотеки sklearn (для функции LogisticRegression), используемые для обучения модели:
1. newton-cg,
2. lbfgs,
3. liblinear,
4. sag,
5. saga.
4 и 5 - вариации стохастического градиентного спуска



In [7]:
# задача найти третий корень полинома, при стартовой точке х0=0.7
def f(x):
    return 6*(x**5) - 5*(x**4) - 4*(x**3) + 3*(x**2)
# создадим градиент (для этого посчитаем частные производные для функции и вернем их в виде кортежа)
def grad(x):
    dx = 30*(x**4) - 20*(x**3) - 12*(x**2) + 6*x
    return dx

x0 = 0.7
for i in range(3):
    x_new = x0 - f(x0)/grad(x0)
    x0 = x_new
print(x0)

0.6286669787778999


В многомерном случае по аналогичным рассуждениям производная превращается в градиент, а вторая производная превращается в гессиан (матрица вторых производных или матрица Гессе). Поэтому в формуле появится обратная матрица.

Метод Ньютона, если считать в количестве итераций, в многомерном случае (с гессианом) работает быстрее градиентного спуска.

In [8]:
def func(x):
    return x**3 - 3*(x**2) - 45*x + 40
# первая производная
def func1(x):
    return 3*x**2 - 6*x -45
# вторая производная
def func2(x):
    return 6*x - 6

In [9]:
#стартовая точка
init_value = 42
#кол-во итераций
iter_count = 0
#текущая точка (изначально равна стартовой)
x_curr = init_value
#точность
epsilon = 0.0001
f = func1(x_curr)

# шаг за шагом мы оптимизировали функцию
while (abs(f) > epsilon):
    f = func1(x_curr)
    f_prime = func2(x_curr)
    x_curr = x_curr - (f)/(f_prime)
    iter_count += 1
    print(x_curr)

21.695121951219512
11.734125501243229
7.1123493600499685
5.365000391507974
5.015260627016227
5.000029000201801
5.000000000105126
5.0


Достоинства метода Ньютона: 
1. Если мы минимизируем квадратичную функцию, то с помощью метода Ньютона можно попасть в минимум целевой функции за один шаг.
2. Также этот алгоритм сходится за один шаг, если в качестве минимизируемой функции выступает функция из класса поверхностей вращения (т. е. такая, у которой есть симметрия).
3. Для несимметричной функции метод не может обеспечить сходимость, однако скорость сходимости  всё равно превышает скорость методов, основанных на градиентном спуске.

4. также преимущество перед градиентным спуском - не нужно выбирать шаг

Недостатки метода Ньютона:
1. Этот метод очень чувствителен к изначальным условиям -> !метод Ньютона стоит применять только для задач, в которых целевая функция выпуклая!
2. Затратный с точки зрения вычислительной сложности

In [27]:
# задание - найти решение уравнения f(x) = 0 для поиска корня в окрестностях х0=12 
# делаем столько итераций, чтобы они были уже одинаковые хотя бы в пределе трех цифр после запятой
def f(x):
    return x**3 - 72*x - 220
def grad(x):
    return 3*(x**2) - 72
    
x0 = 12
for i in range(3):
    x_new = x0 - f(x0)/grad(x0)
    x0 = x_new
    print(x0)

10.21111111111111
9.756461564762278
9.727252176332618
9.72713442131889
9.727134419408875


In [28]:

def f(x):
    return x**2 + 9*x - 5
def grad(x):
    return 2*x + 9
    
x0 = 2.2
for i in range(3):
    x_new = x0 - f(x0)/grad(x0)
    x0 = x_new
print(x0)

0.5249395544696249


In [29]:
def func(x):
    return 8*(x**3) - 2*(x**2) - 450
# первая производная
def func1(x):
    return 24*(x**2) - 4*x
# вторая производная
def func2(x):
    return 48*x - 4

In [30]:
#стартовая точка
init_value = 42
#кол-во итераций
iter_count = 0
#текущая точка (изначально равна стартовой)
x_curr = init_value
#точность
epsilon = 0.0001
f = func1(x_curr)

# шаг за шагом мы оптимизировали функцию
while (abs(f) > epsilon):
    f = func1(x_curr)
    f_prime = func2(x_curr)
    x_curr = x_curr - (f)/(f_prime)
    iter_count += 1
    print(x_curr)

21.041749502982107
10.562707090133793
5.323351550447383
2.7040050774153417
1.3949941413301903
0.7418109325525483
0.41784523900811205
0.26096925221473555
0.19169814030401197
0.16955770984744145
0.1667151339969682
0.1666666807529666
0.16666666666666785
