$ \newcommand{\norm}[1]{\left\Vert#1\right\Vert} $
$ \newcommand{\abs}[1]{\left\vert#1\right\vert} $
$ \newcommand{\Rar}{\Longrightarrow} $
$ \newcommand{\Dar}{\Longleftrightarrow} $

# Métodos iterativos para resolução de sistemas lineares

## $ \S 1 $ Introdução
Considere um sistema linear de $ n $ equações em $ n $ variáveis $ x_1, \dots, x_n $:
\begin{equation*}
\begin{cases}
& a_{11} x_1 &+& a_{12}x_2 &+& \cdots &+& a_{1n}x_n &=& b_1 \\
& a_{21} x_1 &+& a_{22}x_2 &+& \cdots &+& a_{2n}x_n &=& b_2 \\
& \vdots &+& \vdots &+& \cdots &+& \vdots &=&\vdots \\
& a_{n1} x_1 &+& a_{n2}x_2 &+& \cdots &+& a_{nn}x_n &=& b_n
\end{cases}
\end{equation*}

Equivalentemente, usando notação matricial:
\begin{equation*}
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n
\end{bmatrix} =
\begin{bmatrix}
b_1 \\
b_2 \\
\vdots \\
b_n
\end{bmatrix}
\end{equation*}
ou simplesmente $ \boldsymbol{A}\boldsymbol{x} = \boldsymbol{b} $.

Até o momento discutimos apenas métodos *diretos* de solução. A sua característica principal é que, ignorando erros de arredondamento, eles obtêm a solução *exata* do sistema com um número finito de operações. Já os métodos **iterativos** partem de uma aproximação inicial $ \boldsymbol{x}^{(0)} $ e repetidamente a melhoram, produzindo uma seqüência $ \big(\boldsymbol{x}^{(k)}\big) $. Eles são terminados quando a variação entre duas aproximações consecutivas for julgada pequena o suficiente.

A principal desvantagem dos métodos iterativos é que nem sempre esta seqüência converge. Outra desvantagem é que geralmente eles demandam muitos recursos computacionais, por envolverem um alto número de iterações.

Em compensação, eles podem ser mais adequados na situação, bastante comum em aplicações, em que a matriz $ \boldsymbol{A} $ é de grande porte e ao mesmo tempo *esparsa* (tem muitos zeros), já que só precisamos armazenar as entradas não-nulas de $ \boldsymbol A $. Outra vantagem dos métodos iterativos é que eles são autocorretivos: erros de arredondamento (ou mesmo aritméticos) em um ciclo iterativo serão corrigidos nos ciclos seguintes.

Antes de discutir quando os métodos iterativos são bem-sucedidos, precisamos estudar as noções de distância e convergência em $ \mathbb R^n $.

## $ \S 2 $ Norma e convergência

Seja $ V $ um espaço vetorial de dimensão finita sobre $ \mathbb R $; não há perda de generalidade em supor que $ V = \mathbb R^n $ para algum $ n \ge 1 $, para ser mais concreto. Uma **norma** em $ V $ é uma função $ \norm{\cdot} \colon V \to \mathbb R $ satisfazendo as seguintes três propriedades:
* $ \norm{\boldsymbol v} \ge 0 $ para todo $ \boldsymbol v \in V $, com igualdade se e somente se $ \boldsymbol v = \boldsymbol 0 $.
* $ \norm{\lambda \boldsymbol v} = \abs{\lambda} \norm{\boldsymbol v} $ para todos $ \lambda \in \mathbb R $ e  $ \boldsymbol v \in V $.
* (**desigualdade triangular**) $ \norm{\boldsymbol u + \boldsymbol v} \le \norm{\boldsymbol u} + \norm{\boldsymbol v} $ para todos $ \boldsymbol u,\ \boldsymbol v \in V $.

**Exemplos:** Em $ \mathbb R^3 $, seja $ \boldsymbol v = (x, y, z) $ um vetor arbitrário e considere as três normas seguintes:
* A norma **euclidiana**, definida por:
$$
\norm{\boldsymbol v}_E  = \sqrt{x^2 + y^2 + z^2}.
$$
* A norma **do máximo**, definida por:
$$
\norm{\boldsymbol v}_M  = \max\{\abs{x},\,\abs{y},\,\abs{z}\}.
$$
* A norma **da soma**, definida por:
$$
\norm{\boldsymbol v}_S = \abs{x} + \abs{y} + \abs{z}.
$$

**Problema 1:** Estenda as definições destas normas a um espaço $ V = \mathbb R^n $ qualquer $ (n \ge 1 ) $ e verifique em cada caso as três propriedades exigidas de uma norma.

Um teorema de Álgebra Linear diz que quaisquer duas normas $ \norm{\cdot}_1 $ e $\norm{\cdot}_2 $ sobre um mesmo espaço vetorial *de dimensão finita* são **equivalentes** no sentido que existem constantes positivas $ c $ e $ C $ tais que
$$
c \norm{\boldsymbol v}_1 \le \norm{\boldsymbol v}_2 \le C \norm{\boldsymbol v}_1 \qquad \text{para todo }\boldsymbol v \in V.
$$
Na prática, isto significa que para todos os efeitos podemos escolher, em cada situação, a norma que for mais conveniente.

**Problema 2:** Prove que em $ \mathbb R^n $ valem as seguintes desigualdades entres as três normas, para qualquer $ \boldsymbol v $:
$$
\norm{\boldsymbol v}_M \le \norm{\boldsymbol v}_E \le \norm{\boldsymbol v}_S \le n\norm{\boldsymbol v}_M.
$$
Isto mostra a equivalência destas três normas.

Uma vez escolhida uma norma $ \norm{\cdot} $ qualquer para o espaço vetorial $ V $, dispomos de uma noção de *distância / proximidade* entre dois de seus elementos, dada pela norma de sua diferença. Podemos então definir o conceito de **convergência** em $ V $: uma seqüência $ \boldsymbol v^{(k)} \in V $ $ (k = 1, 2, \dots) $ *converge* a $ \boldsymbol v \in V $ se e somente se para todo $ \varepsilon > 0 $, existe $ k_0 \in \mathbb N $ tal que
$$
k \ge k_0 \Longrightarrow \norm{\boldsymbol v^{(k)} - \boldsymbol v} < \varepsilon.
$$
Nesta situação escrevemos
$$
\boldsymbol v = \lim_{k \to \infty} \boldsymbol v^{(k)}
$$
e chamamos $ \boldsymbol v $ de **limite** desta seqüência.

**Problema 4:** Mostre que esta definição de convergência não depende da norma escolhida. Isto é, se duas normas $ \norm{\cdot}_1 $ e $ \norm{\cdot}_2 $ em $ V $ são equivalentes e se uma seqüência $ \big(\boldsymbol v^{(k)}\big) $ converge a $\boldsymbol v $ com respeito a uma das normas, então ela também converge a este limite com respeito à outra norma.

**Problema 5:** Prove usando indução em $ m $ e a desigualdade triangular que se $ \boldsymbol v_1, \dots, \boldsymbol v_m $ são elementos de $ V $ $ (m \ge 2) $, então
$$
\norm{\sum_{j=1}^m \boldsymbol v_j} \le \sum_{j=1}^m \norm{\boldsymbol v_j}.
$$

Tomando $ V = \mathbb R^1 = \mathbb R $ e a norma usual (valor absoluto), conclua em particular que se $ a_1,\ a_2,\ \dots,\ a_n \in \mathbb R $, então
$$
\abs{\sum_{i=1}^m a_i} = \abs{a_1 + a_2 + \dots + a_m} \le \abs{a_1} + \abs{a_2} + \dots + \abs{a_m} = \sum_{i=1}^m \abs{a_i}.
$$

**Problema 6:** Mostre que, com as operações usuais de soma de matrizes e multiplicação de uma matriz por um escalar, o conjunto das matrizes quadradas $ n \times n $ ( $ n\ge 1 $) é um espaço vetorial de dimensão $ n \cdot n = n^2 $. (*Dica:* Exiba um isomorfismo entre este conjunto e $ \mathbb R^{n^2} $.)

📝 A norma euclidiana
$$
\norm{\boldsymbol x} = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2}
$$
é a mais "natural" em $ \mathbb R^n $. Sua definição é sugerida pela expressão para o comprimento do segmento que liga a origem ao ponto $ \boldsymbol x \in \mathbb R^n $, pelo teorema de Pitágoras. Entretanto, a norma do máximo é superior do ponto de vista computacional, por isto ela é utilizada na maioria das implementações de métodos numéricos.

⚠️ **Convenção:** *De agora em diante, utilizaremos exclusivamente a norma do máximo em $ \mathbb R^n $ no nosso desenvolvimento, e para simplificar a notação a denotaremos simplesmente por $ \norm{\cdot} $.*

## $ \S 3 $ Normas de matrizes

Recorde que o conjunto das matrizes $ n \times n $ com entradas reais ou, equivalentemente, o conjunto de todas as transformações lineares $ \mathbb R^n \to \mathbb R^n $, é um espaço vetorial de dimensão $ n^2 $. Sendo assim, tudo o que foi discutido na $ \S 2 $ se aplica a ele. Em particular, há uma infinidade de normas possíveis para este espaço, todas equivalentes uma à outra. Para os nossos propósitos, a mais conveniente é a seguinte:
$$
\norm{\boldsymbol A} = \underset{1 \le i \le n}{\max}\ \sum_{j=1}^n \abs{a_{ij}}.
$$
Em palavras, para calcular a norma de uma matriz $ \boldsymbol A $, primeiro somamos os valores absolutos das entradas da $ i $-ésima linha, depois tomamos a maior destas somas (para $ i $ variando de $ 1 $ a  $ n $).

Para analisar a convergência dos métodos iterativos, necessitamos dos dois resultados seguintes. Recorde que a norma em $ \mathbb R^n $ é sempre a norma do máximo.

**Lema 3.1:** *Para qualquer matriz $ n \times n $ e qualquer vetor $ \boldsymbol x \in \mathbb R^n $, vale:*
$$
\norm{\boldsymbol A \boldsymbol x} \le \norm{\boldsymbol A} \norm{\boldsymbol x}.
$$

**Prova:** Seja $ \boldsymbol x = (x_1, x_2, \dots, x_n) $. Então
\begin{alignat*}{9}
\norm{\boldsymbol A \boldsymbol x} &= \underset{1 \le i \le n}{\max}\ \big\vert \big(\boldsymbol A \boldsymbol x\big)_i\big\vert \qquad & & \text{(pela definição da norma do máximo)} \\
& = \underset{1 \le i \le n}{\max}\ \bigg\vert \sum_{j=1}^n a_{ij} x_j \bigg \vert \qquad & & \text{(pela definição do produto de $ \boldsymbol A $ e $ \boldsymbol x $)}\\
& \le \underset{1 \le i \le n}{\max}\ \sum_{j=1}^n \abs{a_{ij}} \abs{x_j}  & & \text{(pela desigualdade triangular em $ \mathbb R $)}  \\
& \le \underset{1 \le i \le n}{\max}\ \sum_{j=1}^n \abs{a_{ij}} \norm{\boldsymbol x} \qquad & & \text{(pela definição da norma do máximo)} \\
&= \norm{\boldsymbol x}\, \bigg(\underset{1 \le i \le n}{\max}\ \sum_{j=1}^n \abs{a_{ij}}\bigg) \qquad & & \text{(colocando $ \norm{\boldsymbol x} $ em evidência)}\\
& = \norm{\boldsymbol A}\norm{\boldsymbol x}  \qquad & & \text{(pela definição da norma de $ \boldsymbol A $)} \tag*{$ \blacksquare $}
\end{alignat*}

**Lema 3.2:** *Para quaisquer matrizes $ n \times n $ $ \boldsymbol A $ e $ \boldsymbol B $, vale:*
$$
\norm{\boldsymbol A \boldsymbol B} \le \norm{\boldsymbol A} \norm{\boldsymbol B}.
$$

**Prova:** Pela definição da norma de uma matriz, temos:

\begin{alignat*}{9}
\norm{\boldsymbol A \boldsymbol B} &= \underset{1 \le i \le n}{\max}\ \sum_{j=1}^n \big\vert \big(\boldsymbol A\boldsymbol B\big)_{ij}\big\vert & & \text{(pela definição da norma de uma matriz)} \\
&= \underset{1 \le i \le n}{\max}\ \sum_{j=1}^n \bigg\vert \sum_{k=1}^n a_{ik}b_{kj} \bigg\vert \qquad & & \text{(pela definição do produto de $ \boldsymbol A $ e $ \boldsymbol B $)}  \\
&\le \underset{1 \le i \le n}{\max}\ \sum_{j=1}^n \sum_{k=1}^n \abs{a_{ik}}  \abs{b_{kj}} \qquad & & \text{(pela desigualdade triangular em $ \mathbb R $)}  \\
&= \underset{1 \le i \le n}{\max}\ \sum_{k=1}^n \sum_{j=1}^n  \abs{a_{ik}}\abs{b_{kj}} \qquad & & \text{(trocando a ordem dos somatórios)}  \\
&= \underset{1 \le i \le n}{\max}\ \sum_{k=1}^n \abs{a_{ik}}\sum_{j=1}^n \abs{b_{kj}} \qquad & & \text{(colocando $ \abs{a_{ik}} $ em evidência)} \\
&\le \underset{1 \le i \le n}{\max}\ \sum_{k=1}^n \abs{a_{ik}} \norm{\boldsymbol B} \qquad & & \text{(pela definição da norma de $ \boldsymbol B $)} \\
& = \norm{\boldsymbol A} \norm{\boldsymbol B} \qquad & & \text{(pela definição da norma de $ \boldsymbol A $)}\tag*{$ \blacksquare $}
\end{alignat*}

**Corolário 3.3:** *Para qualquer matriz quadrada $ \boldsymbol T $ e qualquer inteiro $ k \ge 0 $, vale:*
$$
\norm{\boldsymbol T^k} \le \norm{\boldsymbol T}^k.
$$

O seguinte critério é útil para mostrar que a norma de uma matriz é $ < 1 $.

**Lema 3.4:** _Seja $ \boldsymbol T $ uma matriz $ n \times n $. Então $ \norm{\boldsymbol T} < 1 $ se e somente se_
$$
\norm{\boldsymbol x} = 1 \Rar \norm{\boldsymbol T \boldsymbol x} < 1.
$$

**Prova:** Seja $ t_{ij} $ a entrada $ (i, j) $ de $ \boldsymbol T $.

Suponha primeiro que $ \norm{\boldsymbol T} < 1 $. Seja $ \boldsymbol x = (x_1, x_2, \dots, x_n) $ arbitrário de norma $ 1 $. Então $ \abs{x_j} \le 1 $ para cada $ j $, logo
$$
\big (\boldsymbol T \boldsymbol x\big)_i = \sum_{j=1}^n t_{ij}x_j \le \sum_{j=1}^n \abs{t_{ij}} \abs{x_j} \le \sum_{j=1}^n \abs{t_{ij}} \le \norm{\boldsymbol T} < 1 \qquad \text{para todo $ i = 1, 2, \dots, n $.}
$$
Isto mostra que se $ \norm{\boldsymbol T} < 1 $, então vale a condição do enunciado. 

Reciprocamente, suponha que esta condição seja válida. Sejam
$$
s_{ij} = 
\begin{cases}
\phantom{-}1 & \text{se $ t_{ij} \ge 0 $} \\
-1 & \text{se $ t_{ij} < 0 $}
\end{cases} \qquad \text{e} \qquad \boldsymbol s_i = \big( t_{i1}, t_{i2}, \dots, t_{in}\big).
$$
Informalmente, $ \boldsymbol s_i $ armazena os sinais da $i$-ésima linha de $ \boldsymbol T $. Note que $ \norm{\boldsymbol s_i} = 1 $ para todo $ i $. Portanto
$$
\sum_{j=1}^n \abs{t_{ij}} = \sum_{j=1}^n t_{ij}s_{ij} = \abs{\big(\boldsymbol T\boldsymbol s_i\big)_i} \le \norm{\boldsymbol T\boldsymbol s_i} < 1
$$
por hipótese. Como isto é válido para qualquer $ i $, concluímos que 
$$
\norm{\boldsymbol T} < 1 \tag*{$ \blacksquare $}.
$$

**Problema 7:** Mostre que a condição do Lema 3.4 é equivalente à seguinte:
$$
\frac{\norm{\boldsymbol T \boldsymbol x}}{\norm{\boldsymbol x}} < 1 \quad \text{para todo $ \boldsymbol x \ne 0 $}.
$$

## $ \S 4 $ Descrição geral dos métodos iterativos

A idéia dos métodos iterativos para resolução de sistemas lineares que consideraremos é essencialmente a mesma que a do método do ponto fixo para se encontrar zeros de funções de uma variável.

Seja $ \boldsymbol A \boldsymbol x = \boldsymbol b $ o sistema linear que gostaríamos de resolver, onde $ \boldsymbol A $ tem dimensões $ n \times n $. Através de manipulações algébricas simples, podemos reescrever este sistema na forma equivalente
$$
\boldsymbol x = \boldsymbol T \boldsymbol x + \boldsymbol c
$$
para escolhas apropriadas, que variam de acordo com o método, da matriz $ n \times n $ $\boldsymbol T $ e do vetor-coluna $ n \times 1 $ $ \boldsymbol c $. Assim, $ \boldsymbol x $ será solução do sistema original se e somente se for ponto fixo da transformação $ \boldsymbol x \mapsto \boldsymbol T \boldsymbol x + \boldsymbol c $.

Para encontrar este ponto fixo, a partir de uma aproximação inicial $ \boldsymbol{x}^{(0)} $ escolhida construímos uma seqüência $ \big (\boldsymbol{x}^{(k)} \big) $ definida por 
$$ \boldsymbol{x}^{(k)} = \boldsymbol{T} \boldsymbol{x}^{(k-1)} + \boldsymbol c .$$
Ou seja:

* $ \boldsymbol{x}^{(1)} = \boldsymbol{T} \boldsymbol{x}^{(0)} + \boldsymbol c $;
* $ \boldsymbol{x}^{(2)} = \boldsymbol{T} \boldsymbol{x}^{(1)} + \boldsymbol c $;
* $ \boldsymbol{x}^{(3)} = \boldsymbol{T} \boldsymbol{x}^{(2)} + \boldsymbol c $;
* $ \vdots $
* $ \boldsymbol{x}^{(k)} = \boldsymbol{T} \boldsymbol{x}^{(k-1)} + \boldsymbol c $;
* $ \vdots $

**Lema 4.1:** *Caso a seqüência $ \big (\boldsymbol{x}^{(k)} \big) $ convirja, seu limite será solução do sistema original.*

**Prova:**
Por hipótese, existe o limite $ \boldsymbol{x}^{(\infty)} $ de $ \boldsymbol{x}^{(k)} $ conforme $ k \to \infty $. Obviamente, $ \boldsymbol{x}^{(k-1)} $ também converge para $ \boldsymbol{x}^{(\infty)} $. Fazendo $ k  \to \infty $ na relação
$$ \boldsymbol{x}^{(k)} = \boldsymbol{T} \boldsymbol{x}^{(k-1)} + \boldsymbol c $$
deduzimos que
$$ \boldsymbol{x}^{(\infty)} = \lim_k \boldsymbol{x}^{(k)} = \lim_k \big(\boldsymbol{T} \boldsymbol{x}^{(k-1)} + \boldsymbol c \big) = \lim_k \big( \boldsymbol{T} \boldsymbol{x}^{(k-1)} \big) + \boldsymbol{c} = \boldsymbol{T} \big(\lim_k \boldsymbol{x}^{(k-1)}\big) + \boldsymbol c = \boldsymbol{T} \boldsymbol{x}^{(\infty)} + \boldsymbol c.$$
Na penúltima igualdade usamos a continuidade de $ \boldsymbol T $ como função $ \mathbb R^n \to \mathbb R^n $ para comutar o limite com a aplicação de $ \boldsymbol T $.
Como por hipótese o sistema $ \boldsymbol x = \boldsymbol{T}\boldsymbol{x} + \boldsymbol{c} $ é equivalente ao original, concluímos que $ \boldsymbol{x}^{(\infty)} $ também satisfaz
$$
\boldsymbol{A}\boldsymbol{x}^{(\infty)} = \boldsymbol{b}.\tag*{$ \blacksquare $}
$$

📝 A escolha da aproximação inicial $ \boldsymbol x^{(0)} $ é irrelevante para a convergência da seqüência $ \boldsymbol x^{(k)} $ resultante, significando que  se o procedimento fornece uma seqüência convergente para uma determinada escolha inicial, qualquer outra escolha também resultaria numa seqüência convergente.

📝 Contudo, em geral quanto mais próxima for a aproximação inicial $ \boldsymbol x^{(0)} $ da solução exata $ \boldsymbol x^{(\infty)} $, mais rápida será a convergência da seqüência $ \big (\boldsymbol{x}^{(k)} \big) $ produzida pelo método a esta solução exata. Na ausência de um palpite adequado, podemos tomar $ \boldsymbol x^{(0)} $ como a origem de $ \mathbb R^n $ ou escolhê-lo aleatoriamente.

## $ \S 5 $ Critérios de parada

Como não temos tempo infinito para calcular todos os termos da seqüência $
\big(\boldsymbol x^{(k)} \big) $, temos de nos contentar em terminar o procedimento
para um $ k $ apropriado. Os critérios de parada mais comuns para os métodos
iterativos são os seguintes (em todos os casos, $ \varepsilon $ é uma tolerância
pré-escolhida):
* $(i) $ O número de iterações excede um número máximo pré-fixado.
* $ (ii) $ A variação absoluta entre duas aproximações consecutivas satisfaz
$$
\big\Vert{\boldsymbol x^{(k)} - \boldsymbol x^{(k - 1)}}\big\Vert < \varepsilon\,.
$$
* $ (iii) $ A variação relativa entre duas aproximações consecutivas satisfaz
$$
\frac{\big\Vert{\boldsymbol x^{(k)} - \boldsymbol x^{(k - 1)}}\big\Vert}{\Vert{\boldsymbol x^{(k)}}\Vert}
< \varepsilon\,.
$$
* $ (iv) $ A diferença entre a imagem da estimativa atual e $ \boldsymbol b $ satisfaz:
$$
\big\Vert{\boldsymbol A\boldsymbol x^{(k)} - \boldsymbol b}\big\Vert < \varepsilon\,.
$$
* $ (v) $ A diferença relativa entre a imagem da estimativa atual e $ \boldsymbol b $ satisfaz:
$$
\frac{\big\Vert{\boldsymbol A\boldsymbol x^{(k)} - \boldsymbol b}\big\Vert}{\Vert \boldsymbol b\Vert}
< \varepsilon \qquad (\boldsymbol b \ne \boldsymbol 0)\,.
$$

Em geral utiliza-se a combinação $ (i) + (ii) $ ou $ (i) + (iv) $. O algoritmo retorna então o termo $ \boldsymbol x^{(k)} $ atual como aproximação para a solução exata assim que uma das duas condições indicadas for satisfeita.

## $ \S 6 $ Critério suficiente para convergência

Seja
$$
\Delta_k = \boldsymbol x^{(k)} - \boldsymbol x^{(k-1)} \qquad (k = 1, 2, \dots).
$$
Fazendo uso repetido da relação
$$
\boldsymbol x^{(k)} = \boldsymbol T \boldsymbol x^{(k - 1)} + \boldsymbol c,
$$
deduzimos que:
* $ \Delta_1 = \boldsymbol x^{(1)} - \boldsymbol x^{(0)} $.
* $ \Delta_2 = \boldsymbol x^{(2)} - \boldsymbol x^{(1)} = \boldsymbol T \big(\boldsymbol x^{(1)} - \boldsymbol x^{(0)} \big) = \boldsymbol T \Delta_1 $.
* $ \Delta_3 = \boldsymbol x^{(3)} - \boldsymbol x^{(2)} = \boldsymbol T \big(\boldsymbol x^{(2)} - \boldsymbol x^{(1)} \big) = \boldsymbol T \Delta_2  = \boldsymbol T^2 \Delta_1 $.
* $ \Delta_4 = \boldsymbol x^{(4)} - \boldsymbol x^{(3)} = \boldsymbol T \big(\boldsymbol x^{(3)} - \boldsymbol x^{(2)} \big) = \boldsymbol T \Delta_3  = \boldsymbol T^3 \Delta_1 $.
* $\ \vdots $

Por indução, estabelecemos que 
\begin{equation*}
\Delta_k = \boldsymbol x^{(k)} - \boldsymbol x^{(k-1)} = \boldsymbol T^{k-1}\,\Delta_1 \qquad (k = 1, 2, \dots) \tag{1}
\end{equation*}
Então, do Lema 3.1 e do Corolário 3.3, concluímos que:
$$
\norm{\Delta_k} \le \norm{\boldsymbol T}^{k-1} \norm{\Delta_1}
$$
Daí deduzimos a seguinte condição suficiente para garantir que os métodos iterativos estudados mais tarde fornecem uma seqüência que converge à solução exata do sistema original.

**Teorema 6.1:** *Suponha que $ \norm{\boldsymbol T} < 1 $. Então a transformação $ \boldsymbol x \mapsto \boldsymbol T \boldsymbol x + \boldsymbol c $ tem um único ponto fixo em $ \mathbb R^n $, e a seqüência $ \big(\boldsymbol x^{(k)}\big) $ definida indutivamente por $ \boldsymbol x^{(k)} = \boldsymbol T \boldsymbol x^{(k - 1)} + \boldsymbol c $ $ (k =1, 2, \dots ) $ converge para ele.*

📝 Recorde que ainda não explicamos como a matriz $ \boldsymbol T $ e o vetor $ \boldsymbol c $ são obtidos a partir de $ \boldsymbol A $ e $ \boldsymbol b $; os detalhes dependem do método iterativo em questão. Porém, em todos os casos $ \boldsymbol x $ será solução exata do sistema original $ \boldsymbol A \boldsymbol x = \boldsymbol b $ se e somente se for ponto fixo da transformação $ \boldsymbol x \mapsto \boldsymbol T \boldsymbol x + \boldsymbol c $. Como a hipótese do Teorema 6.1 não envolve a aproximação inicial $ \boldsymbol x^{(0)} $ nem o valor de $ \boldsymbol b $, concluímos o seguinte:

**Corolário 6.2:** *Se $ \norm{\boldsymbol T} < 1 $, então o método iterativo produz uma seqüência $ \big(\boldsymbol x^{(k)}\big) $ convergente à solução exata do sistema $ \boldsymbol A \boldsymbol x = \boldsymbol b $ não importa quem sejam $ \boldsymbol x^{(0)} $ e $ \boldsymbol b $.*

**Prova do Teorema 6.1:** Primeiro mostremos a unicidade. Suponha que $ \boldsymbol y $ e $ \boldsymbol z $ sejam  pontos fixos da transformação $ \boldsymbol x \mapsto \boldsymbol T \boldsymbol x + \boldsymbol c $. Então
$$
\norm{\boldsymbol y - \boldsymbol z} = \norm{\big(\boldsymbol T \boldsymbol y + \boldsymbol c \big) - \big(\boldsymbol T \boldsymbol z + \boldsymbol c \big)} = \norm{\boldsymbol T\big(\boldsymbol y - \boldsymbol z\big)} \le \norm{\boldsymbol T} \norm{\boldsymbol y - \boldsymbol z}.
$$
Como $ \norm{\boldsymbol T} < 1 $ por hipótese, esta desigualdade implica que $ \norm{\boldsymbol y - \boldsymbol z} = 0 $, i.e., que $ \boldsymbol y = \boldsymbol z $.

Agora sejam $ m \ge k > 0 $ dois inteiros. Então
\begin{alignat*}{9}
\norm{\boldsymbol x^{(m)} - \boldsymbol x^{(k)}} &= \norm{\sum_{i=k + 1}^m \big( \boldsymbol x^{(i)} - \boldsymbol x^{(i - 1)} \big)} & & \\
& = \norm{\sum_{i=k + 1}^m \boldsymbol T^{i-1}\Delta_1} \\
& \le \sum_{i=k + 1}^m \norm{\boldsymbol T^{i-1}\Delta_1} \\
& \le \sum_{i=k + 1}^m \norm{\boldsymbol T}^{i-1}\norm{\Delta_1} \\
& = \norm{\boldsymbol T}^k \big(1 + \norm{\boldsymbol T} + \dots + \norm{\boldsymbol T}^{m - k - 1}\big)\norm{\Delta_1} \\
& \le \frac{\norm{\boldsymbol T}^k}{1 - \norm{\boldsymbol T}} \norm{\Delta_1}.
\end{alignat*}
No último passo, usamos o fato que
$$
\sum_{\nu=0}^\infty \norm{\boldsymbol T}^{\nu} = \frac{1}{1 - \norm{\boldsymbol T}}\,,
$$
ou seja, que a série geométrica de razão $ \norm{\boldsymbol T} < 1 $ converge para o valor à direita. Novamente pela desigualdade $ \norm{\boldsymbol T} < 1 $, dado $ \varepsilon > 0 $ qualquer, existe $ k_0 \in \mathbb N $ tal que
$$
\frac{\norm{T}^k}{1 - \norm{T}} < \varepsilon
$$
para todo $ k \ge k_0 $. Isto mostra que a seqüência $ \big(\boldsymbol x^{(k)}\big) $ é de Cauchy. Como $ \mathbb R^n $ é completo, ela converge. Finalmente, pelo Lema 4.1, seu limite é obrigatoriamente um ponto fixo da transformação 
$$ \boldsymbol x \mapsto \boldsymbol T \boldsymbol x + \boldsymbol c. \tag*{$ \blacksquare $}
$$

⚠️ A hipótese do Teorema 6.1 é suficiente mas *não* é necessária para a convergência, isto é, a seqüência $ \big( \boldsymbol x^{(k)} \big) $ pode convergir a um ponto fixo mesmo que $ \norm{\boldsymbol T} $ não seja menor que $ 1 $.

## $ \S 7 $ Análise do erro

**Teorema 7.1:** *Suponha que $ \norm{\boldsymbol T} < 1 $ e seja $ \boldsymbol x^{(\infty)} = \lim_k \boldsymbol x^{(k)} $ a solução exata do sistema $ \boldsymbol A \boldsymbol x = \boldsymbol b $. Então vale
$$
\boxed{\norm{\boldsymbol x^{(k)} - \boldsymbol x^{(\infty)}} \le \norm{\boldsymbol T}^k \norm{\boldsymbol x^{(0)} - \boldsymbol x^{(\infty)}} }
$$*

Assim, *a norma da diferença entre a $k$-ésima aproximação fornecida pelo método iterativo e a solução exata do sistema decai exponencialmente com $ k $.*

**Prova:** Por indução em $ k $ vemos que
$$
\boldsymbol x^{(k)} - \boldsymbol x^{(\infty)} = \boldsymbol T^{k}\big( \boldsymbol x^{(0)} - \boldsymbol x^{(\infty)} \big) \qquad (k = 1, 2, \dots).
$$
Portanto a conclusão segue imediatamente do Lema 3.1 e do Corolário 3.3.
<div style="text-align: right">$ \blacksquare $ </div>