# Aula 5

O professor recomendou o livro do Nick Highman (Accuracy and Stability of Numerical Algorithms) para complementar o assunto de ponto flutuante e aritimética

---

Recapitulando, podemos definir uma função que converte um número real em sua representação em ponto flutante:

$$
\begin{array}{ll}
fl :& \mathbb{R} \to F(\beta,t, m, M)\\
 & x \to fl(x) = round(x)
\end{array}\\
fl(x) = (1+\delta)x, |\delta| \leq 1/2 \beta^{1-t}
$$

As operações +, -, /, *, são definidas de acordo com o padrão da IEEE.

Lembre-se que na precisão simples (32 bits) 8 bits são usados para o expoente, 24 para o decimal, o sinal é dado por um bit implícito e portanto não é armazenado.

Quando números são carregados nos registradores do CPU para algum cálculo, há 2 bits a mais além do disponível na arquitetura para evitar problemas durante o cálculo. Os bits de guarda e arredondamento (*Guard and Round bit*) evitam problemas quando ocorre underflow ou overflow. Com esses dois bits extra, apenas presente no CPU, é possível provar que a aritimética em ponto flutuante é compatível com a representação dos números na representação de ponto flutuante.
Ou seja, o erro acumulado pelas operações tem a mesma limitante que a operação de conversão de um número real em ponto flutuante $fl(x)$.

Esse teorema está provado no livro do Higman

**Teorema:** 
$$
fl(x \Box y) = (1+\delta)(x \Box y), \\
|\delta| \leq 1/2 \beta ^{1-t}\\
\Box = - + / *
$$

Isso é importante pois temos um único limitante no cálculo do erro tanto para a representação quanto para as operações básicas. Com isso é mais fácil calcular a estimativa do erro de uma série de operações.
Lembrando que a cada operações entre números em ponto flutuante é preciso fazer a conversão novamente para ponto flutuante pois o resultado pode não estar mais na representação utilizada pelo computador. A CPU faz isso automaticamente



---
Voltando aos sistemas lineares para começar a análise da complexidade computacional

### Sistemas lineares

$Ax=b$

$$
\begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1n} \\
    a_{21} & a_{22} & a_{23} & \dots  & a_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{m1} & a_{m2} & a_{m3} & \dots  & a_{mn}
\end{bmatrix} \begin{bmatrix}
    x_1 \\
    x_2 \\
    \vdots \\
    x_n 
\end{bmatrix} = 
\begin{bmatrix}
    b_1 \\
    b_2 \\
    \vdots \\
    b_n 
\end{bmatrix}
$$

Sendo A não singular, pela decomposição LU (A tem submatrizes principais não nulas - $det(A_k) \neq 0, k=1 \ldots n-1$) temos:

$$
A=LU \implies
LUx=b \implies 
\left\{
    \begin{array}{l}
        Ly = b\\
        Ux = y
    \end{array}
\right.
$$
Esse sistema é fácil de resolver pois as matrizes são triangulares.

$$
Ly=b \implies
\left[
    \begin{array}{cccc|c}
    1 & 0 & \dots & 0 \\
    l_{21} & 1 & \dots & 0 \\
    \vdots & \vdots & \ddots & \vdots \\
    l_{n1} & l_{n2} & \dots & 1
    \end{array}
    \right] \begin{bmatrix}
    y_1 \\
    y_2 \\
    \vdots \\
    y_n 
\end{bmatrix} = 
\begin{bmatrix}
    b_1 \\
    b_2 \\
    \vdots \\
    b_n 
\end{bmatrix} \implies
\left\{
    \begin{array}{l}
        y_1 = b_1\\
        y_2 = b_2 - l_{21} y_1\\
        \vdots\\
        y_k = b_k - \sum_{j=1}^{k-1}l_{kj} yj
    \end{array}
\right.
$$

$$
Ux = y \implies
\left[
    \begin{array}{cccc|c}
    u_{11} & u_{12} & \dots & u_{1n} \\
    0 & u_{22} & \dots & u_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & \dots & u_{nn}
    \end{array}
    \right] 
\begin{bmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n 
\end{bmatrix} = 
\begin{bmatrix}
    y_1 \\
    y_2 \\
    \vdots \\
    y_n 
\end{bmatrix} \implies
\left\{
    \begin{array}{l}
        x_n = y_n/u_{nn}\\
        \displaystyle x_{n-1} = \frac{y_{n-1} - u_{n-1 n} x_n}{u_{n-1 n-1}} \\
        \vdots\\
        \displaystyle x_k = \frac{y_k - \sum_{j=k+ 1}^{n} u_{k j } x_j}{u_{kk}}
    \end{array}
\right.
$$

Tendo as expressões para cada coeficiente utilizado na decompostiação LU, podemos fazer o cálculo do custo computacional.
Consideraremos que as operações aritiméticas $- \; + \; / \; *$ tem o mesmo custo.

A complexidade computacional é definida coo o número de operações que um algoritmo faz como uma função do tamanho do problema. No nosso contexto, o tamanho será dado pela dimensão da matriz ou vetor sendo computado.

Para calcular $x_k \implies \left\{
    \begin{array}{l}
        \text{multiplicações} \implies n (k+1) + 1 = n-k, \text{ (dentro do somatório mais a divisão)}\\
        \text{somas} \implies n - (k+1) = n - k -1, \text{ ($y_k$ e os termos do somatório )}\\
        \hline
        \text{total} = 2(n-k)+1
    \end{array}
\right.$ 

Logo, o custo para o todo o vetor $X$ é $\sum_{k=1}^{n} 2(n-k) +1 = 2n^2 - 2(n+1)/2 + n = 2n^2 -n^2 -n+ n = n^2$

Esse custo é para a solução para trás (backwards), calcular $X$ dados $U$ e $y$.

A solução para frente (forward), calcular $y$ dados $L$ e $b$ tem custo $n^2-n$.

A resolução do sistema é "rápida" se comparada com a decomposição da matriz A, para resolver leva-se $O(n^2)$, enquanto que para fazer a decomposição LU de $A$ leva-se $2/3 n^3$.

---
### Método da eliminação de Gauss (GEM)

É assumido $det(A_k) \neq 0$ pois faremos a conexão do GEM com a decomposição LU.

Relembrando o algoritmo:

$$
\begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1n} \\
    a_{21} & a_{22} & a_{23} & \dots  & a_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} & a_{n2} & a_{n3} & \dots  & a_{nn}
\end{bmatrix} \implies l_{21} = \frac{a_{21}}{a_{11}} \text{, bem definido pois }  det(A_1) \neq 0 \implies a_{11} \neq 0
$$
Com esse coeficiente podemos eliminar os coeficientes da matriz $A$ abaixo da primeira linha (2°linha = 2°linha - $l_{21} 1°linha$)

$$
\begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1n} \\
    0 & a'_{22} & a'_{23} & \dots  & a'_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & a'_{n2} & a'_{n3} & \dots  & a'_{nn}
\end{bmatrix}
\left\{
    \begin{array}{l}
        a'_{2j} = a_{2j} - l_{21} a_{1j}, j=2 \ldots n\\
        \vdots \\
        a'_{nj} = a_{nj} - l_{n1} a_{1j}, j=2 \ldots n\\
    \end{array}
\right.
$$

Uma variante é fazer o pivotamento parcial (partial pivoting), onde é para calcular o coeficiente não é pego o maior valor na coluna, mas apenas o maior da linha atual para baixo. Isso será explicado com mais detalhes depois.

Após essa primeira iteração temos o seguinte:
$$
\begin{bmatrix}
    1 & 0 & 0 & \dots  & 0 \\
    -l_{21} & 1 & 0 & \dots  & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    -l_{n1} & 0 & 0 & \dots  & 1
\end{bmatrix}
\begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1n} \\
    a_{21} & a_{22} & a_{23} & \dots  & a_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    a_{n1} & a_{n2} & a_{n3} & \dots  & a_{nn}
\end{bmatrix} = 
\begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1n} \\
    0 & a'_{22} & a'_{23} & \dots  & a'_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & a'_{n2} & a'_{n3} & \dots  & a'_{nn}
\end{bmatrix} = M_1 A
$$
A primeira matriz chamada de $M_1$ é a matriz que elimina os coeficientes da primeira coluna abaixo da primeira linha. Com isso o problema é reduzido a uma submatriz de tamanho $n-1 \times n-1$. Esse mesmo processo pode ser repetido recursivamente diminuindo o tamanho do problema.

$$
\begin{bmatrix}
    1 & 0 & 0 & 0 & \dots  & 0 \\
    0 & -l_{32} & 1 & 0 & \dots  & 0 \\
    \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & -l_{n2} & 0 & 0 & \dots  & 1
\end{bmatrix}
\begin{bmatrix}
    a_{11} & a_{12} & a_{13} & \dots  & a_{1n} \\
    0 & a'_{22} & a'_{23} & \dots  & a'_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & a'_{n2} & a'_{n3} & \dots  & a'_{nn}
\end{bmatrix} = 
\begin{bmatrix}
    1 & 0 & 0 & \dots  & 0 \\
    0 & a'_{22} & a'_{23} & \dots  & a'_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & a''_{n3} & \dots  & a''_{nn}
\end{bmatrix} = M_1 M_2 A
$$

Repetindo isso $n-1$ vezes obteremos:
$$
M_{n-1} M_{n-2} \ldots M_2 M_1 A =
\left[
    \begin{array}{cccc|c}
    u_{11} & u_{12} & \dots & u_{1n} \\
    0 & u_{22} & \dots & u_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & \dots & u_{nn}
    \end{array}
    \right] 
$$

Podemos escrever a matriz$$
M_k = 
\begin{bmatrix}
    1 & 0 & \dots & \overbrace{0}^\text{k-ésima coluna} & 0 & 0 \\
    0 & 1 & \dots & 0 & 0 & 0 \\
    \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & \dots & 1 & \dots  & 0 \\
    0 & 0 & \dots & -l_{k+1 k} & \dots  & 0 \\
    \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & \dots & -l_{n k} & \dots  & 1
\end{bmatrix}
$$

Outra forma de escrevê-lá é multiplicando um vetor $m_k$ com zeros no início e $l_{k+i k}$ no resto do vetor pelo vetor da base canonica $e_k$ transposta:
$$
m_k = \begin{bmatrix}
    0 \\
    0 \\
    \vdots \\
    0 \\
    l_{k+1 k} \\
    l_{k+2 k} \\
    \vdots \\
    l_{n k} \\
\end{bmatrix}
$$
$$
\begin{bmatrix}
    0 \\
    0 \\
    \vdots \\
    0 \\
    l_{k+1 k} \\
    l_{k+2 k} \\
    \vdots \\
    l_{n k} \\
\end{bmatrix} 
\begin{bmatrix} 0 & 0 & \dots & 0 & \overbrace{1}^{k-ésima coluna} & 0 & \dots & 0 \end{bmatrix} = 
\begin{bmatrix}
    0 & 0 & \dots & \overbrace{0}^\text{k-ésima coluna} & 0 & 0 \\
    0 & 0 & \dots & 0 & 0 & 0 \\
    \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & \dots & 0 & \dots  & 0 \\
    0 & 0 & \dots & -l_{k+1 k} & \dots  & 0 \\
    \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & \dots & -l_{n k} & \dots  & 0
\end{bmatrix}
$$

Logo, $M_k = I - m_k e_k^t$.

Essa construção é interessante por fica fávil mostrar que $M_k$ é invertível.

Supondo que a inversa de $M_k$ é $I + m_k e_k^t$, temos:

$$
M_k M_k^{-1} = (I - m_k e_k^t)(I + m_k e_k^t) = I + m_ke_k^t - m_ke_k^t - m_k(\overbrace{e_k^tm_k}^\text{escalar zero})e_k^t = I
$$

Logo, temos uma expressão para inversa de cada $M_k$ e podemos fatorar a matriz $A$ em termos de $M_k$ e $U$.

$$
M_{n-1} M_{n-2} \ldots M_2 M_1 A = U \implies A = \underbrace{M_1^{-1} M_2^{-1} \ldots M_{n-2}^{-1} M_{n-1}^{-1}}_{L} U
$$

Cada matriz $M_k^{-1}$ é uma matriz elementar

$$
\underbrace{
\begin{bmatrix}
    1 & 0 & 0 & \dots  & 0 \\
    l_{21} & 1 & 0 & \dots  & 0 \\
    l_{31} & 0 & 1 & \dots  & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    l_{n1} & 0 & 0 & \dots  & 1
\end{bmatrix}
\begin{bmatrix}
    1 & 0 & 0 & \dots  & 0 \\
    0 & 1 & 0 & \dots  & 0 \\
    0 & l_{32} & 1 & \dots  & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & l_{n2} & 0 & \dots  & 1
\end{bmatrix}
}_{
\displaystyle \begin{bmatrix}
    1 & 0 & 0 & \dots  & 0 \\
    l_{21} & 1 & 0 & \dots  & 0 \\
    l_{31} & 0 & 1 & \dots  & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    l_{n1} & 0 & 0 & \dots  & 1
\end{bmatrix}
\displaystyle \begin{bmatrix}
    1 & 0 & 0 & \dots  & 0 \\
    0 & 1 & 0 & \dots  & 0 \\
    0 & l_{32} & 1 & \dots  & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & l_{n2} & 0 & \dots  & 1
\end{bmatrix} = 
\begin{bmatrix}
    1 & 0 & 0 & \dots  & 0 \\
    l_{21} & 1 & 0 & \dots  & 0 \\
    l_{31} & l_{32} & 1 & \dots  & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    l_{n1} & l_{n2} & 0 & \dots  & 1
\end{bmatrix} 
}
\dots 
\begin{bmatrix}
    1 & 0 & 0 & \dots & 0 & 0 \\
    0 & 1 & 0 & \dots & 0 & 0 \\
    0 & 0 & 1 & \dots & 0 & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\
    0 & 0 & 0 & \dots & l_{n n-1} & 1
\end{bmatrix}
= L
$$


$$
L = 
\begin{bmatrix}
    1 & 0 & \dots & 0 & 0\\
    l_{21} & 1 & \dots & 0 & 0 \\
    \vdots & \vdots & \ddots & \vdots & \vdots \\
    l_{n1} & l_{n2} & \dots & l_{n n-1} & 1
\end{bmatrix}
$$


---
GEM não é indicado em qualquer situação, mas é muito utilizado

Ele pode ocasionar preenchimento (filling in), isso significa que posição que antes era preenchidas com zero podem não ser mais, sendo siginifcativo em matrizes esparsas.

O GEM também pode ter instabilidades em alguns casos. O professor comentou sobre um dos "million problems" para o GEM, sobre uma matriz ser muito instável enquanto que outras geradas aletaoriamente não são tão instáveis assim.

---
#### Complexidade computacionaldo GEM
Já temos o processo para calcular L e U. Utilizando o cálculo das matrizes $M_k$ temos:

$$
a_{2j} = a_{2j} - l_{j1}a_{1j}, j=2 \ldots n \implies \\
\text{total de operações para a coluna 1 =} \overbrace{(n-2+1)}^{\text{iterando de } j=2 \ldots n}\underbrace{2}_\text{uma multiplicação e uma subtração} + \overbrace{1}^{\displaystyle\text{contabilizando } \displaystyle l_{j1} = \displaystyle \frac{a_{j1}}{a_{11}}} = 2n+1
$$

Essa conta foi apenas para a primeira coluna, é preciso repetir para as outras colunas, e depois repetir partindo da linha de baixo.

Primeira coluna, total de operações $(n-1)(2n+1)$

Segunda coluna, total de operações $(n-2)(2n-1)$, agora consideramos apenas a submatriz de dimensão $(n-1) \times (n-1)$

k-ésima coluna, total de operações $(n-k)(2(n-k+1)+1)$, agora consideramos apenas a submatriz de dimensão $(n-(k-1)) \times (n-(k-1))$


Com isso temos:

$$
\begin{align}
\text{Total } &= \sum_{k=1}^{n-1} (n-k) (2(n-k+1) +1)\\
 &= \sum_{k=1}^{n-1} 2n^2 - 2nk + 3n - 2nk + 2k^2 + 3k\\
 &= 2n^2(n-1) - 4n \frac{(1 + n-1)(n-1)}{2} + 3n (n-1) + 3\frac{(1 + n-1)(n-1)}{2} + 2 \frac{n(n-1)(2n-1)}{6}\\
 &= 2n^3-2n - 2n^3+2n^2 +3n^2-3n +\frac{3}{2}(n^2-n) +\frac{2n^3+n^2-n}{3}\\
 &= 5n^2 -5n +\frac{3}{2}n^2 - \frac{3}{2}n + \frac{2}{3} n^3 + \frac{1}{3}n^2 - \frac{1}{3}n\\
 &= \frac{2}{3} n^3 + 9n^2 -9n
\end{align}
$$

Logo, total de operações é $O(n^3)$.

Tem um algoritmo com uma constante menor que esse $\displaystyle \frac{2}{3}$ da decomposição LU, mas continua sendo $n^3$




---

### Pivotamento parcial (Partial Pivoting)

No pivotamento parcial procura-se o maior elemento da coluna para usar como pivô.

Por exemplo, dada uma matriz $A$, não começa pelo elemento $a_{11}$ para fazer a eliminação dos elementos abaixo da primeira linha e primeira coluna. Ao invés, procura-se pelo maior em módulo.

$$
|a_{k1}| = \max_{j=1 \ldots n}{|a_{j1}|}
$$

Com isso é preciso fazer n-1 comparações para a seleção desse elemento. Após encontrar o maior elemento, troca-se a linha atual, no caso a primeira, pela linha do maior elemento, então segue-se o procedimento do GEM normalmente.

Esse processo de pegar o maior elemento da coluna garante que o coeficiente será $l_{ij} \neq 1$, isso garante maior estabilidade do GEM. Pois esse coeficiente $l_{ij}$ é utilizado multiplicação em cada etapa (ex. $a_{22} = a_{22} - l_{21}(a_{12} + \epsilon)$, esse $\epsilon$ representa um erro da operação de ponto flutuante associada à multiplicação), garantindo que seja menor que 1, melhora a establidade do processo.


Utilizando a notação anterior do GEM $M_{n-1} M_{n-2} \ldots M_2 M_1 A = U$, podemos escrever o pivotamento parcial com a adição de uma matriz de permutação a cada $M_k$.

$$
M_{n-1} P_{n-1} M_{n-2} P_{n-2} \ldots M_2 P_2 M_1 P_1 A = U\\
M_{n-1} P_{n-1} M_{n-2} P_{n-2} \ldots M_2 \underbrace{\tilde{M}_1}_{P_2M_1P_2^{-1}} P_2 P_1 A = U, \\
\text{ pois } P_i^{-1}P_i = I \implies \ldots M_2 P_2 M_1 P_1 A = \ldots M_2 P_2 M_1 I P_1 A = \ldots M_2 \overbrace{P_2 M_1 P_2^{-1}}^{\tilde{M}_1} P_2 P_1 A \\
$$

Essa nova matriz $\tilde{M}_k$ tem mesma forma de $M_k$ pois $P_{k+1}$ muda as linhas, portanto, a parte da identidade será mudada ($M_k = I + m_ke_k^t$), mas $P_{k+1}^{-1}$ volta a estrutura da diagonal de votla para a identidade. $P_{k+1}^{-1}$ muda as colunas e portanto não afeta as linhas mantendo a forma da matriz. O que muda são os coeficientes não nulos relativos a $m_ke_k^t$.

Com isso, podemos representar o GEM com pivotamento parcial como:

$$
\tilde{M}_{n-1}  \tilde{M}_{n-2} \ldots \tilde{M}_2 \tilde{M}_1 P_{n-1} P_{n-2} \ldots P_2 P_1 A = U\\
 L^{-1}PA = U  \implies PA=LU
$$

É preciso alertar ao fato de que apesar do pivotamento parcial melhorar a estabilidade do método, seu custo aumentou. A cada iteração é preciso fazer uma busca na coluna o que requer certa de n-k comparações para cada submatriz sendo computada. No total isso aumenta o custo computacional em cerca de $O(n^2)$ operações.

---
### Pivotamento total (Total Pivoting)

Podemos melhorar a estabilidade em relação ao pivotamento parcial se ao invés de buscar pelo maior elemento da coluna, buscar-mos pelo maior na submatriz sendo considerada. 

Assim que o maior elemento é localizado é feita a troca das linhas e colunas para colocá-lo na posição do pivô $a_{kk}$.

Essa operação pode ser representada por duas matrizes de permutação $P_iAP_k$

$$
\overbrace{P}^\text{opera nas linhas}A\underbrace{C}_\text{opera nas colunas} = LU
$$

O processo para chegar nesse fórmula é similar ao empregado no pivotamento parcial.

O pivotamento total não é muito utilizado pois para cada submatriz é preciso fazer uma busca em toda a submatriz, o que custa cerca de $(n-k)^2$ operações, e no processo isso fica em torno de $O(n^3)$ operações.

---
OBS: lembrar que em ambos os casos, pivotamento parcial e total, é preciso aplicar as permutações ao vetor $b$