# Семинар 11-12
# Метод сопряженных направлений. Метод сопряженных градиентов

**Вопрос**: Метод сопряженных направлений лучше, чем метод градиентного спуска (GD)? Метод сопряженных градиентов (CG) лучше, чем метод градиентного спуска (GD)?

## Постановка задачи

Рассмотрим квадратичную задачу:

$$f(x) = \frac{1}{2} x^T Ax - b^T x + c \;\;\; → \min_{x \in \mathbb{R}^n},$$

где $A \in \mathbb{S}_{++}$.

## Метод сопряжённых направлений 

В градиентном спуске направления убывания - анти-градиенты, но для функций с плохо обусловленным гессианом сходимость медленная.

**Главная идея метода**: это двигаться вдоль направлений, которые гарантируют сходимость за $n$ шагов.

**Def.** Множество ненулевых векторов $\{ d_0, ..., d_k \}$ называется сопряжённым относительно матрицы $A \in \mathbb{S}_{++}$, если
$$ d_{i}^T A d_{j} = 0, \;\;\; i \neq j $$.


**Псевдокод алгоритма** сопряженных направлений:

In [None]:
def ConjugateDirections(x0, A, b, p):
    x = x0
    r = A.dot(x) - b
    for i in xrange(len(p)):
        alpha = - (r.dot(p[i])) / (p[i].dot(A.dot(p[i])))
        x = x + alpha * p[i]
        r = A.dot(x) - b
    return x

**Вопрос**: Какой недостаток у данного метода?
Возможно его улучшить?

## Метод сопряженных градиентов (Conjugate gradient method)

**Главная идея метода**: новое направление $d_k$ ищется в виде $d_k = u_k + \sum_{j=0}^{k-1}\beta_{k,j}d_{j}$. Тогда, взяв за ветора $u_k = r_k$, получится избавится от недостатка метода сопряженных направлений и новое направление будет считаться следующим образом:
\begin{equation*}
  d_k = r_k + \beta_{k}d_{k-1}, \;\;\; \text{где } \beta_k = \frac{r_k^T r_k}{r_{k-1}^T r_{k-1}} 
\end{equation*}

Таким образом, для получения следующего сопряжённого направления $d_k$ необходимо хранить только сопряжённое направление $d_{k-1}$ и остаток $r_{k}$ с предыдущей итерации.

**Псевдокод алгоритма** сопряженных градиентов:

In [None]:
def ConjugateGradientQuadratic(x0, A, b):
    r = b - A.dot(x0)
    d = r
    while np.linalg.norm(r) != 0:
        alpha = r.dot(r) / d.dot(A.dot(d))
        x = x + alpha * d
        r_next = r - alpha * A.dot(d)
        beta = r_next.dot(r_next) / r.dot(r)
        d = r_next + beta * d
        r = r_next
    return x

### Теоремы сходимости

**Теорема 1.** Если матрица $A$ имеет только $m$ различных собственных значений, то метод сопряжённых градиентов cойдётся за $m$ итераций.

**Теорема 2.** Имеет место следующая оценка сходимости:
\begin{equation*}
  \| x_{k+1} - x^* \|_A \leq \left( \frac{\sqrt{\kappa(A)} - 1}{\sqrt{\kappa(A)} + 1} \right)^k \| x_0 - x^* \|_A,
\end{equation*}
где $ \|x \|_A = x^TAx $ и $\kappa(A) = \|A \| \cdot \|A^{-1} \| = \frac{\lambda_{max}}{\lambda_{min}}$.

### Метод сопряженных градиентов для неквадратичной функции:

**Главная идея метода**: использовать анти-градиенты $-f'(x_k)$ неквадратичной функции вместо остатков $r_k$ и линейный поиск шага $α_k$ вместо аналитического вычисления. Получим метод Флетчера-Ривса.

In [None]:
def ConjugateGradientQuadratic(x0, A, b):
    r = -gradf(x)
    d = r
    while np.linalg.norm(r) != 0:
        alpha = StepSearch(x, f, gradf, **kwargs)
        x = x + alpha * d
        r_next = -gradf(x)
        beta = r_next.dot(r_next) / r.dot(r)
        d = r_next + beta * d
        r = r_next
    return x


Использованные материалы:

*   [An Introduction to the Conjugate Gradient Method](https://www.cs.cmu.edu/~quake-papers/painless-conjugate-gradient.pdf)
*   [The Concept of Conjugate Gradient Descent in Python ](https://ikuz.eu/machine-learning-and-computer-science/the-concept-of-conjugate-gradient-descent-in-python/)

