# Conjugate Gradient Method

## 경사하강법 (Steepest Decent method)

$A$ 행렬이 Positive Definite인 경우 $Ax=b$ 문제는 다음 에너지 $\phi$ 를 최소화 하는 문제와 같다.

$$
\min_x \phi(x) = \frac{1}{2} x^T A x - x^T b
$$

잔차 (Residual) $r(x)$ 은 다음과 같이 정의한다.

$$
r(x) = -\nabla \phi(x) = b - Ax
$$

현 위치에서 가장 변화율이 심한 방향은 $r(x)=-\nabla \phi(x)$ 이다.
경사 하강법은 이 방향으로 해를 찾는 방법이다. 즉

$$
x_{k+1} = x_{k} + \alpha r_{k} \\
r_{k} = r(x_{k})
$$

여기서 $\alpha$ 는 학습률이다. 에너지 식의 Variation이 0이 되는 학습률을 구하면 다음과 같다.

$$
\delta \phi = \phi (x_{k} + \alpha r_{k})-\phi (x_{k}) \\
\frac{d\Delta \phi}{d\alpha} = r_k^T A x_k + \alpha r_k^T A r_k - r_k^T b = r_k^T r_k - \alpha r_k^T A r_k=0
$$

즉

$$
\alpha_k = \frac{r_k^T r_k}{r_k^T A r_k}.
$$

In [1]:
import numpy as np
import time
from iterative import cg

In [4]:
def sd(A, b, x0=None, tol=1e-12, itmax=5000, verbose=False):
    """
    Steepest Decent method
        
    Parameters
    ----------
    A : array
        Operation matrix
    b : array
        Forcing term
    tol : float
        tolerance
    itmax : integer
        maximum iteration
    verbose : bool
        print intermediate solution
    
    Result
    ------
    x : array
        solution
    """
    if not x0:
        # Initial guess
        x = b.copy()
    else:
        x = x0

    for n in range(itmax):
        # Compute Residual
        r = b - A @ x
        r2 = r.T @ r

        if np.sqrt(r2) < tol:
            break
        else:
            # Compute Learning rate
            alpha =  r2 / (r.T @ A @ r)

            # Update learning rate
            x += alpha*r
            
        if verbose:
            print(n, x)
        
    return x, n

## Conjugate Gradient Method
해를 찾는 방향 벡터가 $r_k$ 가 아니고 $d_k$ 라 하자.

$$
x_{k+1} = x_{k} + \alpha d_k
$$

이 경우에도 $\delta \phi=0$ 을 만족시키는 학습률은 아래와 같다.

$$
\alpha_k = \frac{r_k^T d_k}{d_k^T A d_k}.
$$

Conjugate Gradient method는 방향 벡터 $d_k$ 가 $A$ Conjugate (또는 $A$-Orthognal)을 만족한다.

$$
d_i^T A d_j = 0~~~\textrm{for all}~i \neq j.
$$

이 방향벡터 $d_k$ 는 residual $r_k$ 의 선형 결합으로 구성한다.

$$
d_k = r_k + \beta_k d_{k-1}
$$

$A$ Conjugate 를 만족하기 위해서는 위 식에서 양변에 $d_{k-1}^T A$를 곱한다.

$$
d_{k-1}^T A d_k = d_{k-1}^T A (r_k + \beta_k d_{k-1}).
$$

$d_{k-1}^T A d_k=0$ 이므로 $\beta_k$ 는 다음과 같다.

$$
\beta_k = -\frac{d_{k-1}^T A r_k}{d_{k-1}^T A d_{k-1}}
$$

다음 성질을 만족한다.

### Theorem 1 (Orthogonality of residual)
$$
r_{k+1}^T r_i = 0~~\textrm{for all}~i \le k 
$$

#### Proof
$x_k$ 는 $x_0$ 와 $d_1, d_2,...,d_k$ 의 선형 결합으로 표현할 수 있다. 

$$
x_{k+1} = x_0 + D_k y
$$

$D_k$ 를 이들 방향 벡터로 구성한 Matrix이다. 이를 에너지 식에 적용하면

$$
\phi(x_0 + D_k y) = \phi(x_0) + \frac{1}{2} y^T (D_k^T A D_k) y - y^T D_k^T(b - Ax_0)
$$

에너지가 최소화 되어야 하므로

$$
(D_k^T A D_k) y = D_k^T (b - Ax_0).
$$

즉

$$
D_k^T (b- Ax_0) - (D_k^T A D_k) y = D^k (b - A(x_0 + D_ky)) = D_k ^T r_{k+1} = 0
$$

그러므로 

$$
r_{k+1}^T d_i = 0~~\textrm{for all}~i \le k
$$

이를 이용하면 $i \le k$ 인 경우

$$
r_{k+1}^T r_i = r_{k+1}^T (d_i - \beta_i d_{i-1})=0
$$

즉 Residual은 서로 수직임을 알 수 있다.


### 구현
Residual의 직교성을 이용하면
$$
d_k - r_k = \beta_k d_{k-1} \\
$$

이므로

$$
r_k^T(d_k - r_k) = \beta_k r_k^T d_{k-1}=0
$$

그러므로

$$
r_k^T d_k = r_k^T r_k
$$

즉

$$
\alpha_k = \frac{r_k^T d_k}{d_k^T A d_k} = \frac{r_k^T r_k}{d_k^T A d_k}
$$

$r_k=b - Ax_k$ 이므로

$$
r_{k+1} - r_k = -A (x_{k+1} - x_k) = -\alpha_k A d_k.
$$

이를 이용하면

$$
\beta_{k+1} = -\frac{d_{k}^T A r_{k+1}}{d_{k}^T A d_{k}} =  -\frac{r_{k+1}^T(r_{k+1} - r_k)}{d_k^T(r_{k+1} - r_k)}
$$

여기서 $d_k^T r_{k+1}=0$, $r_k^T d_k= r_k^T r_k$ 이고

$$
r_{k+1}^T r_k= r_{k+1}^T (d_k + \beta_k d_{k-1}) = r_{k+1}^T d_k + \beta_k r_{k+1}^Td_{k-1} = 0
$$

을 적용하면

$$
\beta_{k+1} =  \frac{r_{k+1}^Tr_{k+1}}{r_k^T r_k}.
$$


$$
r_k = b - Ax_{k}\\
r_{k} - r_{k-1} = - A (x_{k} - x_{k-1}) = -\alpha_{k-1} A d_{k-1} \\
d_i^T (r_k - r_{k-1}) = 0
$$

### Algorithm

$$
\begin{align}
& \text{Compute} \; \; r_0 := b - Ax_0, \; p_0 := r_0 \\
& \text{For} \; j = 0, 1, \cdots, \; \text{until convergence Do:} \\
& \qquad \alpha_j \,:=\, (r_j, r_j) / (A_{p_j}, p_j) \\
& \qquad x_{j+1} \,:=\, x_j + \alpha_j p_j \\
& \qquad r_{j+1} \,:=\, r_j - \alpha_j A p_j \\
& \qquad \beta_j \,:=\, (r_{j+1}, r_{j+1}) / (r_j, r_j) \\
& \qquad p_{j+1} \,:=\, r_{j+1} + \beta_j p_j \\
& \text{EndDo} \\
\end{align}
$$

In [5]:
def CG(A, b, x0=None, tol=1e-12, itmax=5000, verbose=False):
    """
    Conjugate Gradient Method
        
    Parameters
    ----------
    A : array
        Operation matrix
    b : array
        Forcing term
    tol : float
        tolerance
    itmax : integer
        maximum iteration
    verbose : bool
        print intermediate solution
    
    Result
    ------
    x : array
        solution
    """
    
    if not x0:
        # Initial guess
        x = b.copy()
    else:
        x = x0
        
    r = b - A @ x
    r2 = r @ r

    for n in range(itmax):
        if np.sqrt(r2) < tol:
            break

        else:
            # Direction vector
            if n == 0:
                d = r.copy()
            else:
                # Update direction
                beta = r @ r / r20
                d = r + beta*d
                
            Ad = A @ d

            # Update x and residual
            alpha = r2 / (d @ Ad)
            x += alpha*d
            r -= alpha*Ad
            
            # Update magnitude of residual
            r20 = r2
            r2 = r @ r
            
        if verbose:
            print(n, x)
            
    return x, n

In [7]:
# Example
A = np.diag([1,2,3,4])
b = np.array([1,1,1,1])

print('Solution by linear algebra:\n', np.linalg.solve(A, b))
print('Solution by steepest desent:\n', sd(A, b, x0=[0,0,0,0], verbose=True)[0])
print('Solution by congugate gradient:\n', CG(A, b, x0=[0.,0.,0.,0.], verbose=True)[0])

Solution by linear algebra:
 [1.         0.5        0.33333333 0.25      ]
0 [0.4 0.4 0.4 0.4]
1 [0.64 0.48 0.32 0.16]
2 [0.784 0.496 0.336 0.304]
3 [0.8704 0.4992 0.3328 0.2176]
4 [0.92224 0.49984 0.33344 0.26944]
5 [0.953344 0.499968 0.333312 0.238336]
6 [0.9720064 0.4999936 0.3333376 0.2569984]
7 [0.98320384 0.49999872 0.33333248 0.24580096]
8 [0.9899223  0.49999974 0.3333335  0.25251942]
9 [0.99395338 0.49999995 0.3333333  0.24848835]
10 [0.99637203 0.49999999 0.33333334 0.25090699]
11 [0.99782322 0.5        0.33333333 0.2494558 ]
12 [0.99869393 0.5        0.33333333 0.25032652]
13 [0.99921636 0.5        0.33333333 0.24980409]
14 [0.99952982 0.5        0.33333333 0.25011755]
15 [0.99971789 0.5        0.33333333 0.24992947]
16 [0.99983073 0.5        0.33333333 0.25004232]
17 [0.99989844 0.5        0.33333333 0.24997461]
18 [0.99993906 0.5        0.33333333 0.25001523]
19 [0.99996344 0.5        0.33333333 0.24999086]
20 [0.99997806 0.5        0.33333333 0.25000548]
21 [0.99998684 0.5

In [8]:
# Finite Difference Matrix
def fd(n):
    A = np.zeros((n,n))

    for i in range(n):
        A[i,i] = 2
        if i > 0:
            A[i-1,i] = -1
        if i < n-1:
            A[i+1, i] = -1
            
    return A

In [9]:
n = 64

A = fd(n)
b = np.random.rand(n)

print('Solution by linear algebra:\n', np.linalg.solve(A, b))
print('Solution by steepest desent:\n', sd(A, b))
print('Solution by congugate gradient in scipy:\n', cg(A, b))
print('Solution by congugate gradient:\n', CG(A, b))

Solution by linear algebra:
 [ 15.15431454  29.36374014  42.62122868  55.25280163  67.21458479
  79.07639157  90.90250383 102.54246644 113.84862757 124.79335583
 135.43086714 145.48462786 154.84136192 164.1450708  173.36698693
 181.7034383  189.37960837 196.57811388 203.19105377 209.63844525
 215.8851804  221.54297319 226.78073457 231.8117255  236.37678117
 240.31280328 243.62258003 246.22142417 248.12951031 249.70462761
 250.53438422 250.75749076 250.27580978 249.26057532 247.94666146
 245.96410861 243.71874504 240.68830459 237.49459851 234.2308276
 230.21548003 226.10030088 221.58151169 216.2282854  210.62171087
 204.96800676 198.94291435 192.57419462 185.78101781 178.38485005
 170.76052177 162.33258369 153.34685846 143.65109475 133.95058574
 124.06232196 113.23430355 101.57491911  89.24649673  76.1604495
  62.24523227  47.56823487  32.32342712  16.41321849]
Solution by steepest desent:
 (array([ 15.12963684,  29.3143975 ,  42.547426  ,  55.15457706,
        67.09234621,  78.93020216

## GPU 병렬화

Conjugate Gradient는 크게 5가지의 연산으로 구성된다.

- SpMV (Sparse matrix-vector product)
- dot product
- scalar-vector product
- vector addition and subtraction

이 연산들은 SIMD 패턴을 가지고 있으므로 GPU에서 계산하기에 적절하다.

따라서 각 연산을 GPU에서 계산하는 커널을 작성하여 계산 시간을 단축할 수 있다.