https://stepik.org/lesson/570102/step/6

# Решение

**Градиент** (gradient) есть не что иное, как совокупность частных производных по каждой из независимых переменных. Его можно назвать «полной производной».

Формулы: $$\overline{a}_{n+1} = \overline{a}_n - \frac{h}{\sqrt{\overline{R}_{n+1}+ϵ}}{\overline{M}_{n+1}} $$

$ \overline{M}_{n+1} = \frac{\overline{m}_{n+1}}{1-\beta_1^{n+1}} $

$ \overline{R}_{n+1} = \frac{\overline{r}_{n+1}}{1-\beta_2^{n+1}} $

где $\beta_1, \beta_1$ – числа-константы, их смысл см. далее.

$\overline{m}_{n+1}=\beta_1 \overline{m}_n + (1-\beta_1)∇f(\overline{a}_n)$

$\overline{r}_{n+1}=\beta_2 \overline{r}_n + (1-\beta_2)(∇f(\overline{a}_n)^2$

T.е. вектора $m_{n+1}$, $r_{n+1}$ накапливают информацию о взвешенном
среднем градиента (квадрата градиента) с предыдущих позиций ГС.

Числа $\beta_1, \beta_2$ показывают, **насколько сильно забываются давние значения** градиента и квадрата градиента. Чем меньше $\beta_1, \beta_2$, тем быстрее старые значения забываются.  

Если $\beta_1, \beta_2=0$, то мы вообще не используем никакую историю.

Обычно берут: $\beta_1=0.9, \beta_2=0.999$.

### В нашей задаче: $ε=0,β_1=β_2=0.9$


In [None]:
#@title sympy + IPython.display
from sympy import symbols, ln, diff
from IPython.display import display

x_1 = symbols('x_1')
x_2 = symbols('x_2')

f = x_1**2 + 10 * x_2**2

print('Производная по x_1:\n')
display(diff(f, x_1))  # Важно использовать display

print('\nПроизводная по x_2:\n')
display(diff(f, x_2))

def position(a, h, b_1, b_2, step):
    m = [0, 0]
    r = [0, 0]
    M = [0, 0]
    R = [0, 0]

    for n in range(step):
        m[0] = b_1 * m[0] + (1 - b_1) * diff(f, x_1).subs({x_1:a[0], x_2:a[1]})
        m[1] = b_1 * m[1] + (1 - b_1) * diff(f, x_2).subs({x_1:a[0], x_2:a[1]})
        r[0] = b_2 * r[0] + (1 - b_2) * (diff(f, x_1).subs({x_1:a[0], x_2:a[1]}))**2
        r[1] = b_2 * r[1] + (1 - b_2) * (diff(f, x_2).subs({x_1:a[0], x_2:a[1]}))**2
        M[0] = m[0] / (1 - b_1**(n+1))
        M[1] = m[1] / (1 - b_1**(n+1))
        R[0] = r[0] / (1 - b_2**(n+1))
        R[1] = r[1] / (1 - b_2**(n+1))
        coord1 = a[0] - h * M[0] / R[0]**.5
        coord2 = a[1] - h * M[1] / R[1]**.5
        a = [coord1, coord2]

    return a

eps = 0
b_1 = 0.9
b_2 = 0.9
h = 0.1
a_0 = [10, 1]
step = 2

print(f'\nКоординаты позиции "шарика" в на шаге {step}:\n')
position(a_0, h, b_1, b_2, step)

Производная по x_1:



2*x_1


Производная по x_2:



20*x_2


Координаты позиции "шарика" в на шаге 2



[9.80000125973936, 0.800138600205209]

In [None]:
# Vadim Kopeykin https://stepik.org/lesson/570102/step/6?discussion=8485022&thread=solutions&unit=564645
import numpy as np


def grad(x):
    return np.array([2., 20.]) * x

a = np.array([10., 1.])
h = 0.1
b1 = b2 = 0.9
m = r = np.zeros_like(a)

for n in range(2):
    m = b1 * m + (1 - b1) * grad(a)
    r = b2 * r + (1 - b2) * grad(a)**2
    M = m / (1 - b1**(n + 1))
    R = r / (1 - b2**(n + 1))
    a -= h * M / R**0.5
print(f"{a[0]:.2f}")

9.80


In [None]:
# Данис Гарипов https://stepik.org/lesson/570102/step/6?discussion=5274045&unit=564645
# Для n-мерной функции
from math import exp, sqrt
import sympy as sp

n = int(input('Введите размерность вектора x: '))
previous_x = [float(input(f'Введите {i}-ю компоненту вектора x: ')) for i in range(1, n + 1)]
step_size = float(input('Введите длину шага: '))
b_1, b_2 = float(input('Введите b1 и b2: ')), float(input())
k = int(input('Введите число итераций: '))
h0 = step_size
# Перечисление аргументов функции
# Например, f = x1 + 5 * x2. Укажите 1-ю переменную: x1. Укажите 1-ю переменную: x2.
x_list = [sp.Symbol(input(f'Укажите {i}-ю переменную:')) for i in range(1, n + 1)]
# Целевая функция
f = x_list[0]**2 + 10 * x_list[1]**2
current_x = [1 for i in range(1, n + 1)]

for i in range(1, k + 1):
    values = dict(zip(x_list, previous_x))
    derivative = [f.diff(x_list[i]).evalf(subs=values) for i in range(0, len(x_list))]
    square_grad = [derivative[i]**2 for i in range(0, len(derivative))]
    G = sqrt(sum(square_grad))
    m = [(1- b_1) * derivative[i] for i in range(0, len(derivative))]
    r = [(1 - b_2) * square_grad[i] for i in range(0, len(square_grad))]
    previous_m, previous_r = [0 for i in range(0, len(derivative))], [0 for i in range(0, len(derivative))]

    for j in range(0, n):
        current_x[j] = previous_x[j] - (step_size / sqrt((b_2 * previous_r[j] + r[j]) / (1 - b_2))) * ((b_1 * previous_m[j] + m[j]) / (1 - b_1))
        previous_x[j] = current_x[j]
        previous_m[j], previous_r[j] = m[j], r[j]
    print(f'{i}-я итерация    Длинна шага: {step_size}    Вектор x: {current_x}')