In [1]:
import numpy as np
from copy import copy

### Processo de relaxação:

Seja o sistema linear, com $\mathbf{A}$, onde $\mathbf{A}$ e positiva definida.:

$\mathbf{Ax} + \mathbf{b} = \mathbf{0}$

Portanto, o sistema tem uma única solução.

Se $\mathbf{v}$ é uma aproximação da solução, então o resíduo é:

$\mathbf{r} = \mathbf{Av} + \mathbf{b}$

O objetivo do processo de relaxação é fazer com que o resíduo se anule.

A Função quadrática $F(v)$ é dada por:

$F(v) = \dfrac{1}{2}(\mathbf{Av}, \mathbf{v}) + (\mathbf{b}, \mathbf{v})$

Em que $(\mathbf{A}, \mathbf{v})$ e $(\mathbf{b}, \mathbf{v})$ são os produtos escalares.

Assim sendo:

$F(v) = \dfrac{1}{2} \sum\limits_{i=1}^n \sum\limits_{j=1}^n a_{ij}v_iv_j + \sum\limits_{i=1}^n b_iv_i$

Em que:

$\sum\limits_{i=1}^n \sum\limits_{j=1}^n =$

$ = a_{11}v_{1}v_{1} + a_{12}v_{1}v_{2} + \ldots + a_{1n}v_{1}v_{n}$

$+ a_{21}v_{2}v_{1} + a_{22}v_{2}v_{2} + \ldots + a_{2n}v_{2}v_{n}$

$\cdots$

$+ a_{n1}v_{n}v_{1} + a_{n2}v_{n}v_{2} + \ldots + a_{nn}v_{n}v_{n}$

e:

$\sum\limits_{i=1}^n b_iv_i = b_1v_1 + b_2v_2 + \ldots + b_nv_n$

Portanto:

$\dfrac{\partial \sum_{i=1}^n \sum_{j=1}^n a_{ij}v_iv_j}{\partial v_i} = 2 \sum\limits_{j=1}^n a_{ij}v_i$

Desde que $\mathbf{A}$ é simétrica, e:


$\dfrac{\partial \sum_{i=1}^n b_iv_i}{\partial v_i} = b_i$

Logo, podemos escrever que:

$\dfrac{\partial F(v)}{\partial v_i} = \dfrac{1}{2} \cdot 2 \sum\limits_{j=1}^n a_{ij}v_j + b_i$

$\dfrac{\partial F(v)}{\partial v_i} = \sum\limits_{j=1}^n a_{ij}v_j + b_i$

Agora:

$\nabla F(v) = \left(\dfrac{\partial F(v)}{\partial v_1}, \dfrac{\partial F(v)}{\partial v_2}, \ldots,  \dfrac{\partial F(v)}{\partial v_n} \right)$

Portanto:

$\nabla F(v) = 0 \Leftrightarrow \dfrac{\partial F(v)}{\partial v_i} = 0$

$\nabla F(v) = 0 \Leftrightarrow \sum\limits_{j=1}^n a_{ij}v_j + b_i = 0$

Assim, temos que:

$\mathbf{Av} + \mathbf{b} = 0 = \nabla F(v)$

Como $\mathbf{Av} + \mathbf{b} = \mathbf{r}$, concluímos que $\nabla F(v) = r$. Portanto, quando $\nabla F(v) = 0$, teremos $r = 0$

O objetivo é tentar anular o resíduo na direção do gradiente

<hr>

### Método dos Gradientes

Seja o sistema linear, com $\mathbf{A}$ positiva definida:

$\mathbf{Ax} + \mathbf{b} = \mathbf{0}$

Construímos a função quadrática $F(v).$

A solução do sistema dado coincide com o ponto de mínimo de $F(v)$, em que $\nabla F(v) = Av + b = r$

A direção $p$ de relaxação é dada por:

$p^{(k)} = -r^{(k-1)}$

Esta direção é dirigida para o ponto de mínimo.

Todo processo iterativo onde a direção $p$ de relaxação é a do resíduo em sentido oposto é chamado Método dos Gradientes.

Temos que:

$t_{min} = -\dfrac{(r,p)}{(Ap, p)} = -\dfrac{(r^{(k-1)}, p^{(k)})}{(Ap^{(k)}, p^{(k)})}$

$t_{min} = -\dfrac{(r,p)}{(Ap, p)} = -\dfrac{(r^{(k-1)}, r^{(k-1)})}{(Ap^{(k)}, r^{(k-1)})}$

Ao usar $t_{min}$, o novo resíduo é ortogonal à direção de relaxação. Portanto, neste processo os resíduos consecutivos são ortogonais. Isto significa que:

$(r^{(k)}, r^{(k-1)}) = 0$

Assim sendo, temos que:

$v^{(k)} = v^{(k-1)} + tp^{(k)}$

$v^{(k)} = v^{(k-1)} - t_{min}r^{(k-1)}$

In [2]:
def gradiente_old(A, b, x0, TOL=10**(-4), K_MAX = 100):
    k = 0
    while k < K_MAX:
        
        if k == 0:
            r = np.matmul(A, x0) + b
        else:
            r = r - t_min*Ar

        Ar = np.matmul(A, r)
        t_min = np.dot(r.T[0], r.T[0]) / np.dot(Ar.T[0], r.T[0])

        x0_old = copy(x0)
        x0 = x0 - t_min*r

        err = np.linalg.norm(x0 - x0_old, ord=np.infty) / np.linalg.norm(x0, ord=np.infty)
        if err < TOL:
            break

        k += 1
        
    print(f'Resíduo: {r.T}')
    print(f'Erro relativo: {err}')
    print('\n')
    print(f'Solução aproximada com {k+1} iterações e tolerância de {TOL}:')
    return x0

In [3]:
A = np.array([[10,1,0], [1,10,1], [0,1,10]])
b = np.array([[-11], [-11], [-1]])
x0 = np.array([[0], [0], [0]])
tol = 10**(-1)

In [4]:
# Solução exata (para fins de conferência)
np.matmul(np.linalg.inv(A), b)

array([[-1.],
       [-1.],
       [ 0.]])

In [5]:
gradiente_old(A, b, x0, tol)

Resíduo: [[-0.0857461   0.00445434  0.89420935]]
Erro relativo: 0.08927229204397354


Solução aproximada com 2 iterações e tolerância de 0.1:


array([[1.00077186e+00],
       [9.91759863e-01],
       [8.59247324e-04]])

### Método dos Gradientes Conjugados

In [6]:
def gradiente_conjugado_old(A, b, x0, TOL=10**(-4), K_MAX = 100):
    k = 0
    while k < K_MAX:
    
        if k == 0:
            r_old = np.matmul(A, x0) + b
            Ar = np.matmul(A, r_old)
            p = copy(-r_old)
            q = np.dot(r_old.T[0], r_old.T[0]) / np.dot(Ar.T[0], r_old.T[0])
            x0_old = copy(x0)
            x0 = x0 - q*r_old
            r = np.matmul(A, x0) + b

        else:
            alpha = np.dot(r.T[0], r.T[0]) / np.dot(r_old.T[0], r_old.T[0])
            p = -r + alpha*p
            Ap = np.matmul(A, p)
            q = np.dot(r.T[0], r.T[0]) / np.dot(Ap.T[0], p.T[0])
            x0_old = copy(x0)
            x0 = x0 + q*p
            r_old = copy(r)
            r = r_old + q*Ap
         
        err = np.linalg.norm(x0 - x0_old, ord=np.infty) / np.linalg.norm(x0, ord=np.infty)
        if err < TOL:
            break
            
        k += 1
    print(f'Resíduo: {r.T}')
    print(f'Erro relativo: {err}')
    print('\n')
    print(f'Solução aproximada com {k+1} iterações e tolerância de {TOL}:')
    return x0

In [7]:
A = np.array([[10,1,0], [1,10,1], [0,1,10]])
b = np.array([[-11], [-11], [-1]])
x0 = np.array([[0], [0], [0]])
tol = 10**(-2)

In [8]:
gradiente_conjugado_old(A, b, x0, tol)

Resíduo: [[ 6.93889390e-18 -6.93889390e-18 -1.30104261e-17]]
Erro relativo: 0.004578555248150208


Solução aproximada com 3 iterações e tolerância de 0.01:


array([[1.00000000e+00],
       [1.00000000e+00],
       [1.19262239e-17]])

In [10]:
A = np.array([[4,1,-1, 0], [1,1,-1,0], [-1,-1,5, 2], [0,0,2,4]])
b = np.array([[-7], [-8], [4], [-6]])
x0 = np.array([[0], [0], [0], [0]])

In [11]:
gradiente_conjugado_old(A, b, x0)

Resíduo: [[ 1.55602179e-16 -1.49914628e-16 -1.19964579e-16  1.28019202e-16]]
Erro relativo: 3.202566417187952e-17


Solução aproximada com 5 iterações e tolerância de 0.0001:


array([[-0.33333333],
       [ 8.66666667],
       [ 0.33333333],
       [ 1.33333333]])

In [12]:
# Solução exata:
np.matmul(np.linalg.inv(A), b)

array([[ 0.33333333],
       [-8.66666667],
       [-0.33333333],
       [-1.33333333]])

In [None]:
# Prof. Thadeu Penna

### Método do Gradiente

<br>

$\mathbf{Ax} = \mathbf{b}$

$\mathbf{r}^{(0)} = \mathbf{b} - \mathbf{Ax}^{(0)}$

$\mathbf{x}^{(1)} = \mathbf{x}^{(0)} + \lambda \mathbf{v}$

$\mathbf{r}^{(1)} = \mathbf{b} - \mathbf{Ax}^{(1)}$

<hr>

Como escolher $\lambda \mathbf{v}$ de modo que $\mathbf{r}^{(k+1)} \lt \mathbf{r}^{(k)}$?

$\nabla f(\mathbf{x}) = \mathbf{Ax} - \mathbf{b}$

<br>

$\nabla f(\mathbf{x}) = \mathbf{Ax} - \mathbf{b} = 0$ é um ponto crítico (máximo, mínimo ou inflexão)
A
<br>

Se a matriz $\mathbf{H}$ (Hessiano - matriz das derivadas segundas) = $\mathbf{A}$ é definida positiva, então $\mathbf{Ax} - \mathbf{b}$ é mínimo de $f(\mathbf{x})$

<hr>

O gradiente é a direção de maior crescimento da função. Como o objetivo é encontrar o mínimo, então utiliza-se a direção do gradiente, porém no sentido contrário.

<br>

Portanto,

$\mathbf{x}^{(1)} = \mathbf{x}^{(0)} + \lambda \mathbf{v}$

Em que:

$\mathbf{v} = -\nabla f(\mathbf{x})$

<br>

$\nabla f(\mathbf{x}^{(0)}) = \mathbf{Ax}^{(0)} - \mathbf{b} = -\mathbf{r}^{(0)}$

$\mathbf{x}^{(1)} = \mathbf{x}^{(0)} + \lambda \mathbf{r}^{(0)}$

<br>

$\mathbf{r}^{0} e \nabla f(\mathbf{x}^{(1)})$ são ortogonais

<br>

$\nabla f(\mathbf{x}^{(1)}) = \mathbf{Ax}^{(1)} - \mathbf{b} = - \mathbf{r}^{(1)}$

Dada a necessidade de $\mathbf{r}^{(1)}$ e $\mathbf{r}^{(0)}$ serem ortogonais:

$\mathbf{r}^{(1)} \cdot \mathbf{r}^{(0)} = 0$

$(\mathbf{b} - \mathbf{Ax}^{(1)}) \cdot \mathbf{r}^{(0)} = 0$

$(\mathbf{b} - \mathbf{A}(\mathbf{x}^{(0)} + \lambda \mathbf{r}^{(0)})) \cdot \mathbf{r}^{(0)} = 0$

$(\mathbf{b} - \mathbf{A}(\mathbf{x}^{(0)})  \cdot \mathbf{r}^{(0)} - \lambda(\mathbf{Ar}^{(0)}) \cdot \mathbf{r}^{(0)} = 0$

<hr>

$(\mathbf{b} - \mathbf{A}(\mathbf{x}^{(0)})  \cdot \mathbf{r}^{(0)} = \lambda(\mathbf{Ar}^{(0)}) \cdot \mathbf{r}^{(0)}$

$\mathbf{r}^{(0)}  \cdot \mathbf{r}^{(0)} = \lambda(\mathbf{Ar}^{(0)}) \cdot \mathbf{r}^{(0)}$

$\lambda = \dfrac{\mathbf{r}^{(0)}  \cdot \mathbf{r}^{(0)}}{\mathbf{r}^{(0)} \cdot \mathbf{A} \cdot \mathbf{r}^{(0)}}$

<hr>

Vantagem do método do gradiente: ele é menos sensível ao chute inicial

Entretanto, o tamanho do passo vai ficando menor a cada iteração, á medida que se aproxima da raíz

Notação de produto interno:

$\mathbf{x} \cdot \mathbf{y} = \mathbf{x}^T\mathbf{y}$

In [None]:
import numpy as np
from copy import copy

A = np.array([[10,1,0], [1,10,1], [0,1,10]])
b = np.array([[-11], [-11], [-1]])
x0 = np.array([[0], [0], [0]])
tol = 10**(-1)

In [None]:
np.matmul(np.linalg.inv(A), b)

In [None]:
def gradiente(A, b, x0, TOL=10**(-4), K_MAX=100):

    def calc_res(A, b, x):
        return b - np.matmul(A, x)

    def calc_step(r, A):
        num_lamb = np.dot(r.T[0], r.T[0])
        den_lamb = np.dot(np.dot(r.T[0], A), r.T[0])
        return num_lamb/den_lamb

    def calc_err(x_new, x0):
        return np.linalg.norm(x_new - x0, ord=np.infty) / np.linalg.norm(x_new, ord=np.infty)

    res = calc_res(A, b, x0)
    k = 0
    while k < K_MAX:

        step = calc_step(res, A)
        x_new = x0 + step*res
        res = calc_res(A, b, x_new)
        err = calc_err(x_new, x0)

        if err >= TOL:
            x0 = copy(x_new)
            k += 1
        else:
            break
            
    print(f'Resíduo: {res.T[0]}')
    print(f'Erro relativo: {err}')
    print('\n')
    print(f'Solução aproximada com {k+1} iterações e tolerância de {TOL}:')
    return x_new

In [None]:
gradiente(A, b, x0, tol)

### Método do Gradiente Conjugado

<br>

Na primeira iteração o método é idêntico ao do Gradiente (embora algumas notações estejam diferentes):

$\mathbf{d}^{(0)} = \mathbf{r}^{(0)} = \mathbf{b} - \mathbf{Ax}^{(0)}$

$\mathbf{x}^{(1)} = \mathbf{x}^{(0)} + \alpha^{(0)} \mathbf{d}^{(0)}$

Em que:

$\alpha^{(0)} = \dfrac{\mathbf{r}^{(0)} \cdot \mathbf{d}^{(0)}}{\mathbf{d}^{(0)} \cdot \mathbf{A} \cdot \mathbf{d}^{(0)}}$

$\mathbf{r}^{(1)} = \mathbf{b} - \mathbf{Ax}^{(1)} = \mathbf{r}^{(0)} - \alpha^{(0)} \mathbf{A} \cdot \mathbf{d}^{(0)}$

<br>

Como atualizar $\mathbf{d}^{(1)}?$

O objetivo é tomar uma direção conjugada (ou A-ortogonal)

$\mathbf{d}^{(k+1)} \cdot \mathbf{A} \cdot \mathbf{d}^{(i)} = 0$

<br>

$\mathbf{d}^{(1)} = \mathbf{r}^{(1)} + \beta^{(1)} \mathbf{d}^{(0)}$

$\mathbf{d}^{(1)} \cdot \mathbf{A} \cdot \mathbf{d}^{(0)} = (\mathbf{r}^{(1)} + \beta^{(1)} \mathbf{d}^{(0)}) \cdot \mathbf{A} \cdot \mathbf{d}^{(0)}$

Em que:

$\beta^{(1)} = -\dfrac{\mathbf{r}^{(1)} \cdot \mathbf{A} \cdot \mathbf{d}^{(0)}}{\mathbf{d}^{(0)} \cdot \mathbf{A} \cdot \mathbf{d}^{(0)}}$

Ou, de forma simplificada:

$\beta^{(1)} = \dfrac{\mathbf{r}^{(1)} \cdot \mathbf{r}^{(1)}}{\mathbf{r}^{(0)} \cdot \mathbf{r}^{(0)}}$

In [13]:
def gradiente_conjugado(A, b, x0, TOL=10**(-4), K_MAX=100):

    def calc_res(A, b, x):
        return b - np.matmul(A, x)

    def calc_step(d, r, A):
        num_step = np.dot(r.T[0], r.T[0])
        den_step = np.dot(np.dot(d.T[0], A), d.T[0])
        return num_step/den_step

    def calc_err(x_new, x0):
        return np.linalg.norm(x_new - x0, ord=np.infty) / np.linalg.norm(x_new, ord=np.infty)

    direct = res = calc_res(A, b, x0)
    k = 0
    while k < K_MAX:

        step = calc_step(direct, res, A)
        x_new = x0 + step*res
        err = calc_err(x_new, x0)
        
        if err >= TOL:
            x0 = copy(x_new)
            res_old = copy(res)
            res = calc_res(A, b, x_new)
            beta = np.dot(res.T[0], res.T[0]) / np.dot(res_old.T[0], res_old.T[0])
            dir_old = copy(direct)
            direct = res + beta*dir_old
            k += 1
        else:
            break
            
    print(f'Resíduo: {res.T[0]}')
    print(f'Erro relativo: {err}')
    print('\n')
    print(f'Solução aproximada com {k+1} iterações e tolerância de {TOL}:')
    return x_new

In [None]:
A = np.array([[10,1,0], [1,10,1], [0,1,10]])
b = np.array([[-11], [-11], [-1]])
x0 = np.array([[0], [0], [0]])
tol = 10**(-2)

In [None]:
np.matmul(np.linalg.inv(A), b)

In [None]:
gradiente_conjugado(A, b, x0, tol)