# Квази-Ньютоновские методы
Несмотря на эффективность метод Ньютона сложность одной итерации делает его неприменимым для задач с большим числом переменных. Существуют несколько способов упростить стоимость одной итерации ценой точности и скорости сходимости. В целом, рассматриваемые в этом разделе методы имеют скорость сходимости лучше, чем у градиентного спуска, но хуже, чем у Ньютона, но при этом аналогичное выполняется и для стоимости одной итерации: сложнее, чем в градиентном спуске, но проще, чем в Ньютоне.

## Усеченные Ньютоновские методы
Этот класс методов использует приближенное решение Ньютоновской системы 
$$
\nabla f(x_k)+\nabla^2f(x_k)(x-x_k)=0
$$
вместо точного. Наиболее известеный представитель этого класса - <i>Hessian-free</i> метод. Идея заключается в том, чтобы использовать итеративные методы, использующие матрично-векторные умножения для решения симметричных линейных систем, такие как градиентный спуск, канонически используется метод сопряженных градиентов. В этих методах матрица $\nabla^2 f(x_k)$ никогда сама по себе не используется, вместо этого используется $\nabla^2 f(x_k)d_k$, где $d_k$ - это вектора, использующиеся на итерации $k$ для вычисления, чтобы решить приблизить ньютоновскую систему. Эти величины приближаются с помощью простого
$$
\nabla^2f(x_k)d\approx \frac{\nabla f(x_k+\epsilon d)-\nabla f(x_k)}{\epsilon}\tag{1}.
$$
Таким образом Hessian-free метод заключается в следующем
1. Взять начальное приближение $x_0$
2. Для $k=1, \ldots$
    * Вычислить $p_k$  как приближение решения ньютоновской системы
$$
\nabla^2f(x_k)p+\nabla f(x_k)=0
$$
с помощью МСГ, при этом используя (1) в тех случаях, где нам нужно вычислить $\nabla^2 f(x_k)p$.
    * Вычислить
$$
x_{k+1}=x_k-\alpha_k p_k
$$
где $\alpha_k$ - опциональный размер шага.

## Методы переменной метрики
Общая концепция этих методов заключается в том, чтобы отслеживать информацию о гессиане по измеренным градиентам
$$
x_{k+1}=x_k-\alpha_kH_k^{-1}\nabla f(x_k)
$$
при этом обновляя $H_k$ таким образом, чтобы
$$
H_k\rightarrow\nabla^2 f(x^*)
$$
Все методы этого типа отличаются только способом пересчета $H_k$, тем не менее все они основаны на <i>условии секущей</i> или <i>квазиньютоновском правиле</i>
$$
H_{k+1}(x_{k+1}-x_k)=\nabla f(x_{k+1})-\nabla f(x_k)
$$
что может быть осуществлено несколькими способами, обычно при этом сразу вычисляют $H_k^{-1}$ вместо $H_k$, что упрощает вычисления. Обозначим $s_k=x_{k+1}-x_k$, $y_k=\nabla f(x_{k+1})-\nabla f(x_k)$, следующие способы пересчета $H_k$ являются наиболее распространенными
* Правило однорагновой коррекции
$$
H_{k+1}^{-1}=H_k^{-1}+\frac{(s_k-H_k^{-1}y_k)(s_k-H_k^{-1}y_k)^T}{y_k^T(s_k-H_k^{-1}y_k)}
$$
* Схема Davidon-Flether-Powell (DFP)
$$
H_{k+1}^{-1}=H_k^{-1}+\frac{s_k^Ts_k}{s_k^Ty_k}-\frac{H_k^{-1}y_ky_k^TH_k^{-1}}{y_k^TH_k^{-1}y_k}
$$
* Схема Broyden-Fletcher-Goldfarb-Shanno (BFGS)
$$
H_{k+1}^{-1}=H_k^{-1}+\frac{H_k^{-1}y_ks_k^T+s_ky_k^TH_k^{-1}}{y_k^TH_k^{-1}y_k}-\left(1+\frac{s_k^Ty_k}{y_k^TH_k^{-1}y_k}\right)\frac{H_k^{-1}y_ky_k^TH_k^{-1}}{y_kH_k^{-1}y_k}
$$

Среди методов переменной метрики BFGS считается наиболее устойчивым.