#### **Цель работы:**
Изучить и провести сравнительный анализ различных методов оптимизации для нахождения приближения к точке минимума нелинейной функции. Оценить эффективности методов с точки зрения числа итераций, вычислительной сложности и качества получаемого решения.

#### **Задачи:**
1. Реализовать метод градиентного спуска для нахождения приближения к точке минимума функции.
2. Применить метод Ньютона для нахождения приближения к точке минимума.
3. Реализовать модифицированный метод Ньютона, в котором матрица Гессе вычисляется однократно в начальной точке. Проанализировать сходимость метода.
4. Применить метод Бройдена с выбором шага спуска при помощи метода золотого сечения.
5. Реализовать метод Бройдена с выбором шага спуска на основе условий Армихо.
6. Визуализировать процесс оптимизации для каждого метода: построить графики убывания функции по итерациям.
7. Оценить и сравнить вычислительную сложность рассмотренных методов, выбрать наиболее эффективный алгоритм.

В данной работе, как и в первой, будем исслодвать методы на примере функции Химмельблау, которая определена как: 
$$ 
f(x,y) = (x^2 + y - 11)^2 + (x + y^2 - 7)^2 
$$. 
Данная функция принадлежит классу гладких функций $ C^{\infty} $ и является многомодальной, то есть имеет несколько локальных минимумов, а именно: 
$$(3.0;2.0) \quad (-2.805;3.131) \quad (-3.779;-3.283) \quad (3.584;-1.848).$$


Градиент функции определяется как вектор, составленный из частных производных по переменным x и y. Для нашей функции:
    $$\frac{\partial f}{\partial x} = 4x(x^2 + y - 11) + 2(x + y^2 - 7)$$
    $$\frac{\partial f}{\partial y} = 2(x^2 + y - 11) + 4y(x + y^2 - 7)$$


Импортируйте че вам там надо

#### **Ход работы:**
### Задание 1. Метод градиентного спуска.

Этот итерационный метод минимизации функции был нами подробно рассмотрен в ЛР №1, поэтому детально на нем останавливаться не будем. Следует отметить, что он основан на движении в направлении антиградиента функции.


Идея метода заключается в том, что на каждой итерации обновляется текущая точка $x_k$ по формуле:

$$
x_{k+1} = x_k - \alpha_k \nabla f(x_k),
$$

где
- $\nabla f(x_k)$ — градиент функции в точке $x_k$,
- $\alpha_k > 0$ — шаг (скорость обучения), фиксированный или динамический.

Сюда реализацию алгоритма и какой мы берем шаг 

#### **Критерий остановки**
Итерации продолжаются до тех пор, пока $ \|\nabla f(x_k)\|_2 $ не станет меньше заданной точности. В нашем случае:
$$
 \|\nabla f(x_k)\|_2 \leq 0.0001
$$


#### **Вычислительная сложность**


### Задание 2. Метод Ньютона.
Это итерационный метод минимизации функции, который использует информацию о первой и второй производных функции (градиент и матрицу Гессе). Он находит приближение к точке минимума функции, используя квадратичную аппроксимацию целевой функции.

На каждой итерации точка $x_k$ обновляется по формуле:

$$
x_{k+1} = x_k - [\nabla^2 f(x_k)]^{-1} \nabla f(x_k),
$$

где:
- $\nabla f(x_k)$ — градиент функции в точке $x_k$,
- $\nabla^2 f(x_k)$ — матрица Гессе,
- $[\nabla^2 f(x_k)]^{-1}$ — обратная матрица Гессе.

#### **Условия сходимости**
Для успешного применения метода Ньютона необходимо выполнение следующих условий:
1. Гладкость функции:
- Функция должна быть дважды непрерывно дифференцируемой. 
- Матрица Гессе должна существовать и быть невырожденной $\det(\nabla^2 f(x)) \neq 0  $
2. Начальное приближение $x_{0}$ должно быть достаточно близко к точке минимума. 
3. Если функция строго выпуклая ($\nabla^2 f(x) > 0$), то метод Ньютона сходится к глобальному минимуму. 
4. При соблюдении условий метод сходится квадратично:$\|x_{k+1} - x_{min}\| \leq C \|x_k - x_{min}\|^2$

### Задание 3. Модифицированный метод Ньютона.


Это упрощённая версия классического метода Ньютона, в которой матрица Гессе вычисляется только один раз в начальной точке, что позволяет снизить вычислительные затраты, так как на каждой итерации не требуется пересчитывать и обращать матрицу Гессе.



Метод использует локальную квадратичную аппроксимацию функции, но матрица Гессе фиксируется на начальной точке $x_0$. Таким образом, направление спуска определяется как:

$$
p_k = -[\nabla^2 f(x_0)]^{-1} \nabla f(x_k)
$$

Это означает, что направление спуска зависит только от градиента в текущей точке $x_{k}$, а кривизна функции учитывается через фиксированную матрицу Гессе $\nabla^2 f(x_0)$.


Обновление функции происходит следующим образом:
$$
x_{k+1} = x_k + p_k
$$

#### **Критерий остановки**
Аналогично предыдущим методам??

#### **Сходимость**
Глобально условия сходимости такие же как и в классическом методе Ньюттона, однако скорость сходимости может быть ниже, особенно если матрица Гессе существенно меняется вдоль траектории.

#### Что-то умное для сравнения
Модифицированный метод Ньютона является компромиссом между классическим методом Ньютона и градиентным спуском. Он снижает вычислительные затраты за счёт однократного обращения матрицы Гессе, но его сходимость может быть менее эффективной для задач с сильно меняющейся кривизной.

### Задание 3. Метод Бройдена. 
Это квазиньютоновский метод минимизации функции, который аппроксимирует матрицу Гессе или её обратную. В отличие от метода Ньютона, здесь не требуется явно вычислять вторые производные, что значительно снижает вычислительные затраты. 


На каждой итерации точка $x_k$ обновляется по формуле:

$$
x_{k+1} = x_k - B_k^{-1} \nabla f(x_k)
$$

где:
- $\nabla f(x_k)$ — градиент в точке $x_k$,
- $B_k$ — аппроксимация матрицы Гессе (или ее обратной)

Матрица $B_k$ обновляется по формуле:

$$
B_{k+1} = B_k + \frac{(y_k - B_k s_k) s_k^\top}{s_k^\top s_k}
$$

где:
- $y_k = \nabla f(x_{k+1}) - \nabla f(x_k)$ — изменение градиента,
- $s_k = x_{k+1} - x_k$ — изменение аргумента.

Алгоритм выполняет итерации до достижения предельного числа шагов. 

#### **Выбор шага спуска.**
#### 3.1. Метод золотого сечения.
Задается интервал $[a, b]$. Далее вычислияются точки деления:


$$
\begin{aligned}
x_1 &= b - \phi(b-a), \\
x_2 &= a + \phi(b-a),
\end{aligned}
$$

которые делят интервал на две части в пропорции золотого сечения ($\phi = \frac{\sqrt{5}-1}{2} \approx 0.618$). Далее будем вычислять значения функции в этих двух точках внутри интервала. 

Затем будем сужать интервал, сохраняя пропорцию золотого сечения, пока не достигнем заданной точности. Сужение происходит по следующему принципу:

- если $f(x_1) < f(x_2)$, то новый интервал $[a, x_2]$
- если $f(x_1) \geq f(x_2)$, то новый интервал $[x_1, b]$


Оптимальный шаг находим следующим образом:
$$
\alpha_k = \mathop{\mathrm{arg\,min}}\limits_{\alpha > 0} f(x_k + \alpha p_k)
$$


Шаг спуска выбирается численно, что обеспечивает более точное движение вдоль направления спуска.

#### 3.2. Условия Армихо.
Эти условия используются для выбора шага, который обеспечивает достаточное уменьшение функции и предотвращает слишком маленькие шаги.
- Первое условие (достаточное уменьшение).

Шаг $\alpha_k$ должен удовлетворять неравенству:

$$
f(x_k + \alpha_k p_k) \leq f(x_k) + c_1 \alpha_k \nabla f(x_k)^\top p_k,
$$

где $0 < c_1 < 1$ — параметр, определяющий допустимое уменьшение функции (обычно $c_1 \approx 10^{-4}$).
- Второе условие (правило кривизны).
$$
\nabla f(x_k + \alpha_k p_k)^\top p_k \geq c_2 \nabla f(x_k)^\top p_k,
$$

где $c_1 < c_2 < 1$ — параметр кривизны (обычно $c_2 \approx 0.9$). Это правило помогает избежать слишком маленьких шагов, которые могут замедлить сходимость.


Параметры неточного поиска подберем самостоятельно, экспериментальным путем. Начнем со значения $\alpha_k = 1$. Затем будем проверять указанные условия Армихо. Если они не выполняются то будем уменьшать шаг следующим образом:
$$
\alpha_k = \tau \alpha_k, \quad \text{где } \tau \in (0,1) \text{ — коэффициент уменьшения}.
$$


Условия Армихо гарантируют, что значение функции на каждой итерации уменьшается, что делает метод более устойчивым.





### Сравнение методов
итерации, вычислительная нагрузка и почему так