$ \newcommand{\mbf}{\mathbf} $
$ \newcommand{\norm}[1]{\left\Vert#1\right\Vert} $
$ \newcommand{\abs}[1]{\left\vert#1\right\vert} $
$ \newcommand{\Dar}{\Longleftrightarrow} $
$ \newcommand{\lar}{\leftarrow} $
$ \newcommand{\Rar}{\Longrightarrow} $

# O método de Gauss-Seidel

## $ \S 1 $ Introdução

Considere novamente um sistema linear $ \mbf{A}\mbf{x} = \mbf{b} $ de $ n $ equações em $ n $ variáveis $ x_1, \dots, x_n $:
\begin{equation*}
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n
\end{bmatrix} =
\begin{bmatrix}
b_1 \\
b_2 \\
\vdots \\
b_n
\end{bmatrix}.
\end{equation*}

O *método de Gauss-Seidel* (J. C. F. Gauss, 1777—1855 e P. L. von Seidel, 1821—1896) é um procedimento iterativo para resolução de sistemas deste tipo. Ele é bastante parecido com o método de Jacobi do caderno anterior. Novamente, a única hipótese necessária para a sua aplicação  (mas que ainda não é suficiente para garantir que ele convergirá; veja a $ \S 4 $) é que *as entradas diagonais de $ \mbf A $ devem ser todas não-nulas.*

## $ \S 2 $ Descrição matricial do método de Gauss-Seidel

Seja $ \mbf A $ como acima, com todas as entradas diagonais não-nulas. Sejam $ \mbf L $ a parte *abaixo ou sobre a diagonal* e $ \mbf U $ a parte *acima* da diagonal de $ \mbf A $:
\begin{equation*}
\mbf L = 
\begin{bmatrix}
a_{11} & 0 & \cdots & 0 & 0 \\
a_{21} & a_{22} & \cdots & 0 & 0 \\
\vdots & \vdots & \ddots & \vdots & \vdots \\
a_{(n-1)1} & a_{(n-1)2} & \cdots & a_{(n-1)(n-1)} & 0 \\
a_{n1} & a_{n2} & \cdots & a_{n(n-1)} & a_{nn}
\end{bmatrix}\quad \text{e} \quad
\mbf U = \begin{bmatrix}
0 & a_{12} & \cdots & a_{1(n-1)} & a_{1n} \\
0 & 0 & \cdots & a_{2(n-1)} & a_{2n} \\
\vdots & \vdots & \ddots & \vdots & \vdots \\
0 & 0 & \cdots & 0 & a_{(n-1)n} \\
0 & 0 & \cdots & 0 & 0
\end{bmatrix}.
\end{equation*}

Como $ \mbf L $ é uma matriz triangular, seu determinante é o produto das entradas diagonais, que é não-nulo por hipótese. Logo, esta matriz é invertível. Temos
\begin{alignat*}{9}
\mbf{A}\mbf{x} = \mbf{b} & \Dar (\mbf L + \mbf U) \mbf x = \mbf b \\
&\Dar \mbf L \mbf x = -\mbf U \mbf x + \mbf b \\
&\Dar \mbf x = - \mbf L^{-1}\,\mbf U \mbf x + \mbf L^{-1}\,\mbf b
\end{alignat*}
Portanto, tomando
$$ \mbf T = -\mbf L^{-1}\, \mbf U \qquad \text{e} \qquad \mbf c = \mbf L^{-1}\,\mbf b\ ,$$
concluímos que
$$
\mbf{A}\mbf{x} = \mbf{b} \Dar \mbf x = \mbf T \mbf x + \mbf c.
$$
Ou seja, $ \mbf x $ é solução do sistema original se e somente se é ponto fixo da transformação $ \mbf x \mapsto \mbf T \mbf x + \mbf c $.

Sendo assim, toda a teoria geral sobre métodos iterativos se aplica. Começando com uma aproximação inicial $ \mbf x^{(0)} $ qualquer para a solução exata, seja $ \big (\mbf{x}^{(k)} \big) $ a seqüência definida por:
* $ \mbf{x}^{(1)} = \mbf{T} \mbf{x}^{(0)} + \mbf c $;
* $ \mbf{x}^{(2)} = \mbf{T} \mbf{x}^{(1)} + \mbf c $;
* $ \mbf{x}^{(3)} = \mbf{T} \mbf{x}^{(2)} + \mbf c $;
* $ \vdots $
* $ \mbf{x}^{(k)} = \mbf{T} \mbf{x}^{(k-1)} + \mbf c $;
* $ \vdots $

Como vimos no caderno sobre métodos iterativos (Lema 4.1), *se* esta seqüência tem um limite, ele obrigatoriamente é ponto fixo da transformação $ \mbf x \mapsto \mbf T \mbf x + \mbf c $, e portanto também é solução do sistema original.

📝 Na implementação prática do método, não é recomendado inverter a matriz $ \mbf L $ para calcular $ \mbf T $, por causa do alto custo computacional. Em vez disto, construímos $ \mbf x^{(k)} $ através da relação
$$
\mbf L \mbf x^{(k)} = \mbf U \mbf x^{(k-1)} + \mbf b.
$$
Como $ \mbf L $ é triangular inferior e supõe-se indutivamente que $ \mbf x^{(k-1)} $  já tenha sido determinado, podemos encontrar $ \mbf x^{(k)} $ usando *substituição*:
* Determinamos $ x^{(k)}_1 $ a partir da primeira equação escalar;
* Substituindo este valor na segunda equação escalar, encontramos $ x^{(k)}_2 $;
* Substituindo os dois valores encontrados acima, calculamos $ x^{(k)}_3 $ por meio da terceira equação;

e assim por diante. Para mais detalhes, veja a $ \S 3 $.

📝 Na situação em que aplicaremos o método (discutida na $ \S 4 $), a escolha da aproximação inicial $ \mbf x^{(0)} $ é irrelevante para a convergência da seqüência $ \big(\mbf x^{(k)}\big) $ resultante, significando que se o procedimento fornece uma seqüência convergente para um determinado vetor inicial, qualquer outro também resultaria numa seqüência convergente.

📝 Em geral quanto mais próxima for a aproximação inicial $ \mbf x^{(0)} $ da solução exata, mais rápida será a convergência da seqüência produzida pelo método a esta solução exata. Na ausência de um palpite razoável, podemos tomar $ \mbf x^{(0)} $ como a origem de $ \mathbb R^n $ ou escolhê-lo aleatoriamente.

## $ \S 3 $ Descrição escalar do método de Gauss-Seidel

### 3.1 O método de Gauss-Seidel como separação dos termos diagonais

Considere o sistema de $ n $ equações e $ n $ variáveis original, mas agora na forma escalar:
\begin{equation*}
\begin{cases}
& a_{11} x_1 &+& a_{12}x_2 &+& \cdots &+& a_{1n}x_n &=& b_1 \\
& a_{21} x_1 &+& a_{22}x_2 &+& \cdots &+& a_{2n}x_n &=& b_2 \\
& \vdots &+& \vdots &+& \cdots &+& \vdots &=&\vdots \\
& a_{n1} x_1 &+& a_{n2}x_2 &+& \cdots &+& a_{nn}x_n &=& b_n
\end{cases}
\end{equation*}
Como antes, precisamos supor que todos os coeficientes $ a_{ii} $ são não-nulos ($ i = 1, \dots, n $). Podemos reescrever a $ i $-ésima equação isolando a variável $ x_i $:
\begin{equation*}
    x_i = \frac{1}{a_{ii}}\Bigg(b_i - \sum_{\substack{j=1 \\ j \ne i}}^n a_{ij} x_j\Bigg).
\end{equation*}
Isto sugere o seguinte procedimento iterativo:
\begin{equation}\label{E:iterativo}
x_i \lar \frac{1}{a_{ii}}\Bigg(b_i - \sum_{\substack{j=1 \\ j \ne i}}^n a_{ij} x_j\Bigg) \qquad (i = 1, 2, \dots, n). \tag{1}
\end{equation}
Começamos escolhendo um vetor inicial arbitrário
$$
\mbf x = \mbf x^{(0)} = \big(x_1^{(0)}\,,\ x_2^{(0)}\,,\ \dots\,,\ x_n^{(0)}\big).
$$
Então, em cada ciclo, usamos \eqref{E:iterativo} para recalcular as coordenadas $ x_i $ de $ \mbf x $ sucessivamente para $ i = 1, 2, \dots, n $ utilizando sempre, do lado direito, o valor mais atual dos $ x_j $. Este valor será aquele do ciclo atual caso $ j < i $, ou o do ciclo anterior caso $ j > i $. O procedimento é repetido até que a variação de $ \mbf x $ entre dois ciclos consecutivos seja pequena o suficiente.

Em símbolos:
$$
\boxed{x_i^{(k)} = \frac{1}{a_{ii}}\Bigg(b_i - \sum_{\substack{j < i}} a_{ij} x_j^{(k)} - \sum_{\substack{j > i}} a_{ij} x_j^{(k - 1)}\Bigg) \qquad (i = 1, 2, \dots, n)}
$$

📝 Este é exatamente o mesmo procedimento que o descrito em forma matricial ao final da $ \S 2 $, advindo da relação:
$$
\mbf L \mbf x^{(k)} = \mbf U \mbf x^{(k-1)} + \mbf b.
$$

📝 No método de Jacobi os $ x_i $ podem ser calculados *em paralelo* a cada ciclo, pois para calcular $ x_i^{(k)} $ precisamos apenas conhecer $ \mbf x^{(k-1)} $. Já no método de Gauss-Seidel isto não é possível porque, por exemplo, antes de podermos calcular $ x_2^{(k)} $, precisamos ter o valor de $ x_1^{(k)} $.

### 3.2 Implementação da forma escalar do método de Gauss-Seidel

In [2]:
import numpy as np


def gauss_seidel(A, b, x_0, eps, max_iter):
    """Dada uma matriz quadrada 'A' com entradas diagonais não-nulas e um vetor
    coluna 'b' de dimensão compatível, fornece uma aproximação para a solução
    do sistema linear Ax = b usando o método de Gauss-Seidel, começando com
    a aproximação inicial 'x_0' fornecida. O procedimento pára assim que a
    diferença entre duas aproximações consecutivas tiver norma menor que 'eps'
    ou que o número 'max_iter' máximo de iterações seja excedido."""
    def equacoes_iterativas(x):
        """Retorna o próximo valor de x a partir do anterior."""
        for i in range(n):
            x[i] = b[i]
            for j in range(n):
                if j != i:
                    x[i] -= A[i, j] * x[j]
            x[i] /= D[i]
        return x
    
        
    n = np.shape(A)[0]
    assert np.shape(A) == (n, n)
    assert np.shape(b) == (n,)
    assert np.shape(x_0) == (n,)
    D = np.diag(A)        # D é a parte diagonal de A
    assert np.all(D)      # verifique se a_ii != 0 para todo i
    
    erro = 10**3
    x = x_0
    iteracoes = 0
    
    while erro > eps and iteracoes < max_iter:
        x_velho = np.copy(x)
        x = equacoes_iterativas(x)
        erro = np.linalg.norm(x - x_velho, np.inf)
        iteracoes += 1
    
    print(f"Foram necessárias {iteracoes} iterações.")
    return x

**Problema 1:** Considere o sistema:
\begin{equation*}
\begin{cases}
& 4 x &-& y &-& z &=& 3 \\
& -2x &+& 6y &+& z &=& 9 \\
& -x &+& y &+& 7z  &=& -6 
\end{cases}
\end{equation*}

(a) Use o método de Gauss-Seidel para advinhar a solução *exata* e verifique sua resposta.

(b) Calcule o número de iterações necessárias para atingir uma precisão de $ 10^{-6} $ com os vetores iniciais:
$$
\mbf x^{(0)} = (0, 0, 0)\ , \quad \mbf x^{(0)} = (100, -200, 300) \quad \text{e} \quad \mbf x^{(0)} = (9999, 99999, -999999).
$$

In [6]:
A = np.array([[4., -1., -1.],
              [-2., 6., 1.],
              [-1., 1., 7.]])
print(A)
b = np.array([3., 9., -6.])

x_0 = np.array([0., 0., 0.])
x_1 = np.array([100., -200., 300.])
x_2 = np.array([9999., 99999., -999999.])
eps = 1e-6
max_iter = 100

print(gauss_seidel(A, b, x_0, eps, max_iter))
print(gauss_seidel(A, b, x_1, eps, max_iter))
print(gauss_seidel(A, b, x_2, eps, max_iter))

[[ 4. -1. -1.]
 [-2.  6.  1.]
 [-1.  1.  7.]]
Foram necessárias 7 iterações.
[ 1.0000001   2.00000006 -0.99999999]
Foram necessárias 10 iterações.
[ 1.00000002  2.         -1.        ]
Foram necessárias 13 iterações.
[ 1.          2.00000001 -1.        ]


**Problema 2:** Usando o método de Gauss-Seidel, encontre a solução do sistema de $ 6 $ equações em $ 6 $ variáveis seguinte com erro absoluto menor que $ \varepsilon = 10^{-6} $ em cada variável:
$$
\begin{bmatrix}
64 & -8 & 19 & -10 & 18 & -7 \\
4 & -41 & -25 & 3 & 0 & 4 \\
15 & -18 & 86 & 6 & -19 & -14 \\
-14 & 12 & 9 & -47 & -4 & -9 \\
5 & -15 & 12 & -13 & -48 & 2 \\
-2 & -15 & 7 & -3 & 1 & 30 
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2 \\
x_3 \\
x_4 \\
x_5 \\
x_6
\end{bmatrix} =
\begin{bmatrix}
-7 \\
-11 \\
10 \\
-9 \\
2 \\
1
\end{bmatrix}.
$$

In [18]:
A = np.array([[64 , -8  , 19  , -10 , 18  , -7 ],
             [4  , -41 , -25 , 3   , 0   , 4  ],
             [15 , -18 , 86   , 6   , -19 , -14],
             [-14, 12  , 9   , -47 , -4  , -9 ],
             [5  , -15 , 12  , -13 , -48  , 2  ],
             [-2, -15 , 7   , -3  , 1   , 30 ]])
b = np.array([-7, -11, 10, -9, 2, 1])
print(A)

x_0 = np.array([0., 0., 0., 0., 0., 0.])
eps = 1e-6
max_iter = 100

print(gauss_seidel(A, b, x_0, eps, max_iter))

[[ 64  -8  19 -10  18  -7]
 [  4 -41 -25   3   0   4]
 [ 15 -18  86   6 -19 -14]
 [-14  12   9 -47  -4  -9]
 [  5 -15  12 -13 -48   2]
 [ -2 -15   7  -3   1  30]]
Foram necessárias 12 iterações.
[-0.0265071   0.21450467  0.13801731  0.26634955 -0.14334139  0.13802749]


## $ \S 4 $ Critério de convergência

Recorde que uma matriz $ n \times n $ $ \mbf A $ é dita **(estritamente) diagonalmente dominante** se
$$
\sum_{\substack{j=1 \\ j \ne i}}^n \abs{a_{ij}} < \abs{a_{ii}} \qquad \text{para todo $ i = 1, 2, \dots, n $}\,.
$$
Em palavras, $ A $ é diagonalmente dominante se em cada linha, a entrada diagonal tem valor absoluto maior que a soma dos valores absolutos das outras entradas. 

**Teorema 4.1 (critério das linhas):** *Se $ \mbf A $ é diagonalmente dominante, então o método de Gauss-Seidel produz uma seqüência $ \big(\mbf x^{(k)} \big) $ que converge à solução exata do sistema $ \mbf A \mbf x = \mbf b $, não importa quem sejam $ \mbf x^{(0)} $ e $ \mbf b $.*

⚠️ Não vale a recíproca: pode ser que o método de Gauss-Seidel funcione mesmo que $ \mbf A $ não seja diagonalmente dominante.

Note que o critério é inteiramente análogo ao que provamos para o método de Jacobi. Entretanto, a demonstração agora é um pouco mais difícil.

**Prova do Teorema 4.1:**
Pelo Teorema 6.1 do caderno sobre métodos iterativos, basta provar que
$$
\norm{\mbf T} < 1\,, \quad \text{onde} \quad \mbf T = \mbf L^{-1} \mbf U.
$$
Por outro lado, pelo Lema 3.4 do mesmo caderno, vale $ \norm{\mbf T} < 1 $ se e somente se
$$
\norm{\mbf x} = 1 \Rar \norm{\mbf y} < 1, \quad \text{onde} \quad\text{$ \mbf y = \mbf T \mbf x $.}
$$
Pela definição de $ \mbf y $, temos $ \mbf L \mbf y = \mbf U \mbf x $, ou seja:
$$
\sum_{j=1}^{i} a_{ij} y_j = \sum_{j=i + 1}^n a_{ij}x_j \qquad \text{(para todo $ i = 1, 2, \dots, n $)}.
$$
Recorde que a norma $ \norm{\cdot} $ em $ \mathbb R^n $ é a *norma do máximo*. Escolha $ i $ tal que $ \norm{\mbf y} = \abs{y_i} $. Então:
\begin{alignat*}{9}
\abs{a_{ii}}\norm{\mbf y} &= \abs{a_{ii} y_i} \\
&= \abs{\sum_{\substack{j > i}} a_{ij} x_j - \sum_{\substack{j < i}} a_{ij} y_j} \\
& \le  \sum_{\substack{j > i}} \abs{a_{ij}} \abs{x_j} + \sum_{\substack{j < i}} \abs{a_{ij}} \abs{y_j} \\
& \le   \norm{\mbf x} \sum_{\substack{j > i}} \abs{a_{ij}} + \norm{\mbf y} \sum_{\substack{j < i}} \abs{a_{ij}}  \\
& =   \sum_{\substack{j > i}} \abs{a_{ij}} + \norm{\mbf y} \sum_{\substack{j < i}} \abs{a_{ij}} \,,
\end{alignat*}
já que $ \norm {\mbf x} = 1 $. Usando a hipótese que $ \mbf A $ é diagonalmente dominante e isolando $ \norm{\mbf y} $, concluímos que
$$
\norm{\mbf y} \le \frac{\sum_{\substack{j > i}} \abs{a_{ij}}}{\abs{a_{ii}} - \sum_{\substack{j < i}} \abs{a_{ij}}} < 1. \tag*{$ \blacksquare $}
$$


📝 Como conseqüência implícita do critério, deduzimos que *se $ \mbf A $ é diagonalmente dominante, então $ \mbf A $ é invertível*, pois neste caso o sistema $ \mbf A \mbf x = \mbf b $ tem solução para qualquer $ \mbf b $.

📝 Muitas vezes, apesar de $ \mbf A $ não ser diagonalmente dominante, efetuando trocas de linhas conseguimos transformar o sistema $ \mbf A \mbf x = \mbf b $ num sistema equivalente $ \mbf A' \mbf x = \mbf b' $ em que a matriz $ \mbf A' $ é diagonalmente dominante. Podemos então aplicar o método de Gauss-Seidel a este último.

📝 Alternativamente, poderíamos ter definido uma matriz como "(estritamente) diagonalmente dominante por colunas" se em cada coluna, a entrada diagonal tem módulo maior que a soma dos módulos das outras entradas. Esta hipótese também garante a convergência da seqüência produzida pelo método de Gauss-Seidel à solução exata.

## $ \S 5 $ Problemas

**Problema 3:** Modifique a implementação do método de Gauss-Seidel de modo que seja verificado se a matriz $ \mbf A $ dos coeficientes é diagonalmente dominante, e seja impressa uma mensagem de aviso em qualquer caso.

**Problema 4:** Modifique a implementação do método de Gauss-Seidel de modo que o procedimento termine quando o erro *relativo* for menor que um valor especificado pelo usuário.

**Problema 5:** Considere o sistema linear abaixo:
\begin{equation*}
\begin{cases}
& -x &+& 5y &+& z &=& 2 \\
& 2x &+& 3y &+& z &=& 3 \\
&  &+& 13y &+& 3z  &=& 6 
\end{cases}
\end{equation*}

(a) Mostre que ele não tem solução.

(b) O que acontece ao se tentar aplicar o método de Gauss-Seidel a ele?

**Problema 6:** 

(a) Escreva um programa para resolver o seguinte sistema de $ n $ equações em $ n $ variáveis pelo método de Gauss-Seidel (o valor $ n $ deve ser especificado pelo usuário como entrada do programa):
\begin{equation*}
\begin{bmatrix}
2 & -1 & 0 & 0 & \cdots & 0 & 0 & 0 & 1 \\
-1 & 2 & -1 & 0 & \cdots & 0 & 0 & 0 & 0 \\
0 & -1 & 2 & -1 & \cdots & 0 & 0 & 0 & 0 \\
\vdots & \vdots & \vdots & \vdots & \cdots & \vdots & \vdots & \vdots \\
0 & 0 & 0 & 0 & \cdots & -1 & 2 & -1 & 0 \\
2 & -1 & 0 & 0 & \cdots & 0 & -1 & 2 & -1 \\
2 & -1 & 0 & 0 & \cdots & 0 & 0 & -1 & 2 \\
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2 \\
x_3 \\
\vdots \\
x_{n-2} \\
x_{n-1} \\
x_{n}
\end{bmatrix} =
\begin{bmatrix}
0 \\
0 \\
0 \\
\vdots \\
0 \\
0 \\
1
\end{bmatrix}.
\end{equation*}
*Dica:* Use as funções `tri` e `diag` da biblioteca `numpy` para construção de matrizes tridiagonais e diagonais, respectivamente.

(b) Execute seu programa com $ n = 20 $.

A solução exata é dada por $ x_i = -\frac{n}{4} + \frac{i}{2} $.