$ \newcommand{\mbf}{\mathbf} $
$ \newcommand{\norm}[1]{\left\Vert#1\right\Vert} $
$ \newcommand{\abs}[1]{\left\vert#1\right\vert} $

# Métodos iterativos

## $ \S 1 $ Introdução
Considere um sistema linear de $ n $ equações em $ n $ variáveis $ x_1, \dots, x_n $:
\begin{equation*}
\begin{cases}
& a_{11} x_1 &+& a_{12}x_2 &+& \cdots &+& a_{1n}x_n &=& b_1 \\
& a_{21} x_1 &+& a_{22}x_2 &+& \cdots &+& a_{2n}x_n &=& b_2 \\
& \vdots &+& \vdots &+& \cdots &+& \vdots &=&\vdots \\
& a_{n1} x_1 &+& a_{n2}x_2 &+& \cdots &+& a_{nn}x_n &=& b_n
\end{cases}
\end{equation*}

Equivalentemente, usando notação matricial:
\begin{equation*}
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n
\end{bmatrix} =
\begin{bmatrix}
b_1 \\
b_2 \\
\vdots \\
b_n
\end{bmatrix}
\end{equation*}
ou simplesmente $ \mbf{A}\mbf{x} = \mbf{b} $.

Até o momento discutimos apenas métodos *diretos* de solução. A característica principal de todos eles é que, ignorando erros de arredondamento, obtêm a solução *exata* do sistema com um número finito de operações. Já os métodos **iterativos** iniciam com uma aproximação inicial $ \mbf{x}^{(0)} $ e repetidamente a melhoram através da aplicação de uma transformação, produzindo uma seqüência $ \big(\mbf{x}^{(k)}\big) $. Eles são terminados quando a variação entre duas aproximações consecutivas for julgada pequena o suficiente.

A principal desvantagem dos métodos iterativos é que nem sempre a seqüência $ \big(\mbf{x}^{(k)}\big) $ converge. Outra desvantagem é que geralmente eles demandam muitos recursos computacionais, por envolverem um alto número de iterações.

Em compensação, eles podem ser mais adequados quando a matriz $ \mbf{A} $ é *esparsa* (tem muitos zeros), porque só precisamos armazenar as entradas não-nulas. Ademais, os métodos iterativos são autocorretivos: erros de arredondamento (ou mesmo aritméticos) em um ciclo iterativo serão corrigidos nos ciclos seguintes.

## $ \S 2 $ Norma e convergência

Seja $ V $ um espaço vetorial de dimensão finita sobre $ \mathbb R $; não há perda de generalidade em supor que $ V = \mathbb R^n $ para algum $ n $, para ser mais concreto. Uma **norma** em $ V $ é uma função $ \norm{\cdot} \colon V \to \mathbb R $ satisfazendo as seguintes três propriedades:
* $ \norm{\mbf v} \ge 0 $ para todo $ \mbf v \in V $, com igualdade se e somente se $ \mbf v = \mbf 0 $.
* $ \norm{\lambda \mbf v} = \abs{\lambda} \norm{\mbf v} $ para todos $ \lambda \in \mathbb R $ e  $ \mbf v \in V $.
* (**desigualdade triangular**) $ \norm{\mbf u + \mbf v} \le \norm{\mbf u} + \norm{\mbf v} $ para todos $ \mbf u,\ \mbf v \in V $.

**Exemplos:** Em $ \mathbb R^3 $, seja $ \mbf v = (x, y, z) $ um vetor arbitrário e considere as três normas seguintes:
* A norma **euclidiana**, definida por:
$$
\norm{\mbf v}_E  = \sqrt{x^2 + y^2 + z^2}.
$$
* A norma **do máximo**, definida por:
$$
\norm{\mbf v}_M  = \max\{\abs{x},\,\abs{y},\,\abs{z}\}.
$$
* A norma **da soma**, definida por:
$$
\norm{\mbf v}_S = \abs{x} + \abs{y} + \abs{z}.
$$

**Problema 1:** Estenda as definições destas normas a um espaço $ V = \mathbb R^n $ qualquer $ (n \ge 1 ) $ e verifique em cada caso as propriedades exigidas de uma norma.

Um teorema de Álgebra Linear diz que quaisquer duas normas $ \norm{\cdot}_1 $ e $\norm{\cdot}_2 $ sobre um mesmo espaço vetorial *de dimensão finita* são **equivalentes** no sentido que existem constantes $ c $ e $ C $ positivas tais que
$$
c \norm{\mbf v}_1 \le \norm{\mbf v}_2 \le C \norm{\mbf v}_1 \qquad \text{para todo }\mbf v \in V.
$$
Na prática, isto significa que para todos os efeitos podemos escolher, em cada situação, a norma que for mais conveniente.

**Problema 2:** Prove que, em $ \mathbb R^n $ valem as seguintes desigualdades entres as três normas, para qualquer $ \mbf v $:
$$
\norm{\mbf v}_M \le \norm{\mbf v}_E \le \norm{\mbf v}_S \le n\norm{\mbf v}_M.
$$
Isto mostra a equivalência destas três normas.

📝 A norma euclidiana é mais "natural" em $ \mathbb R^3 $. Sua definição é sugerida pelo fato que a expressão à direita é o comprimento do segmento que liga a origem ao ponto $ \mbf v $, pelo teorema de Pitágoras. Entretanto, *a norma do máximo é muito superior do ponto de vista computacional, por isto na maioria das vezes é esta a norma escolhida na implementação de métodos numéricos.*

Uma vez feita uma escolha de uma norma $ \norm{\cdot} $ qualquer num espaço vetorial $ V $, dispomos de uma noção de *distância/proximidade* entre dois de seus elementos, dada pela norma de sua diferença. Podemos então definir a noção de **convergência** neste contexto: uma seqüência $ \mbf v^{(k)} \in V $ *converge* a um limite $ \mbf v \in V $ se para todo $ \varepsilon > 0 $, existe $ k_0 \in \mathbb N $ tal que
$$
k \ge k_0 \Longrightarrow \norm{\mbf v^{(k)} - \mbf v} < \varepsilon.
$$

## $ \S 3 $ Descrição geral dos métodos iterativos

A idéia dos métodos iterativos para resolução de sistemas lineares que consideraremos é essencialmente a mesma que a do método do ponto fixo para se encontrar zeros de funções de uma variável.

Seja $ \mbf A \mbf x = \mbf b $ o sistema linear que gostaríamos de resolver, onde $ A $ tem dimensões $ n \times n $. Através de manipulações algébricas simples, podemos reescrever este sistema na forma equivalente
$$
\mbf x = \mbf T \mbf x + \mbf c
$$
para escolhas apropriadas de matriz $ n \times n $ $\mbf T $ e vetor-coluna $ n \times 1 $ $ \mbf c $. Ou seja, $ \mbf x $ será solução do sistema original se e somente se for ponto fixo da transformação $ \mbf x \mapsto \mbf T \mbf x + \mbf c $.

Para encontrar este ponto fixo, a partir de uma aproximação inicial $ \mbf{x}^{(0)} $ escolhida, construímos uma seqüência $ \big (\mbf{x}^{(k)} \big) $ definida por 
$$ \mbf{x}^{(k)} = \mbf{T} \mbf{x}^{(k-1)} + \mbf c .$$
Ou seja:

* $ \mbf{x}^{(1)} = \mbf{T} \mbf{x}^{(0)} + \mbf c $;
* $ \mbf{x}^{(2)} = \mbf{T} \mbf{x}^{(1)} + \mbf c $;
* $ \mbf{x}^{(3)} = \mbf{T} \mbf{x}^{(2)} + \mbf c $;
* $ \vdots $
* $ \mbf{x}^{(k)} = \mbf{T} \mbf{x}^{(k-1)} + \mbf c $;
* $ \vdots $

**Lema:** Caso a seqüência $ \big (\mbf{x}^{(k)} \big) $ convirja para um certo $ \mbf{x}^{(\infty)} $, então $ \mbf{x}^{(\infty)} $ será solução do sistema original.

**Prova:**
Por hipótese, existe o limite $ \mbf{x}^{(\infty)} $ de $ \mbf{x}^{(k)} $ conforme $ k \to \infty $. Obviamente, $ \mbf{x}^{(k-1)} $ também converge para $ \mbf{x}^{(\infty)} $. Fazendo $ k  \to \infty $ na relação
$$ \mbf{x}^{(k)} = \mbf{T} \mbf{x}^{(k-1)} + \mbf c $$
deduzimos que
$$ \mbf{x}^{(\infty)} = \lim_k \mbf{x}^{(k)} = \lim_k \big(\mbf{T} \mbf{x}^{(k-1)} + \mbf c \big) = \lim_k \big( \mbf{T} \mbf{x}^{(k-1)} \big) + \mbf{c} = \mbf{T} \big(\lim_k \mbf{x}^{(k-1)}\big) + \mbf c = \mbf{T} \mbf{x}^{(\infty)} + \mbf c.$$
Na penúltima igualdade usamos a continuidade de $ \mbf T $ como função $ \mathbb R^n \to \mathbb R^n $ para comutar o limite com a aplicação de $ \mbf T $.
Como por hipótese o sistema $ \mbf x = \mbf{T}\mbf{x} + \mbf{c} $ é equivalente ao original, concluímos que $ \mbf{x}^{(\infty)} $ também satisfaz
$$
\mbf{A}\mbf{x}^{(\infty)} = \mbf{b}.\tag*{$ \blacksquare $}
$$

📝 Veremos mais tarde que a escolha da aproximação inicial $ \mbf x^{(0)} $ é irrelevante para a convergência da seqüência $ \mbf x^{(k)} $ resultante, significando que  se o procedimento fornece uma seqüência convergente para uma determinada escolha inicial, qualquer outra escolha também resultaria numa seqüência convergente.

📝 Entretanto, geralmente quanto mais próxima for a aproximação inicial $ \mbf x^{(0)} $ da solução exata $ \mbf x^{(\infty)} $, mais rápida será a convergência da seqüência $ \big (\mbf{x}^{(k)} \big) $ produzida pelo método a esta solução exata. Na ausência de um palpite adequado, podemos tomar $ \mbf x^{(0)} $ como a origem de $ \mathbb R^n $ ou escolhê-lo aleatoriamente.

## $ \S 4 $ Critérios de parada

Os critérios de parada mais comuns para os métodos iterativos são:
* $(i) $ O número de iterações excede um número máximo pré-fixado.
* $ (ii) $ A variação absoluta entre duas aproximações consecutivas satisfaz
$$
\norm{\mbf x^{(k)} - \mbf x^{(k - 1)}} < \varepsilon,
$$
para algum $ \varepsilon > 0 $ pré-escolhido.
* $ (iii) $ A variação relativa entre duas aproximações consecutivas satisfaz
$$
\frac{\norm{\mbf x^{(k)} - \mbf x^{(k - 1)}}}{\norm{\mbf x^{(k)}}} < \varepsilon,
$$
para algum $ \varepsilon > 0 $ pré-escolhido.

Em geral utiliza-se a combinação $ (i) + (ii) $ ou $ (i) + (iii) $. O procedimento retorna então o valor atual de $ \mbf x^{(k)} $ como aproximação para a solução exata assim que uma das duas condições indicadas for satisfeita.

## $ \S 5 $ Análise do erro