In [1]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.linalg as sla

## Métodos para sistemas não triviais

#### Questão: como resolver sistemas de equações cuja matriz de coeficientes não seja nem diagonal, nem triangular?

A saída: usar métodos que transformem esse sistema em um sistema que possa ser resolvido por uma das abordagens triviais.

Duas possíveis abordagens: 

* métodos diretos: a solução do sistema é encontrada após um conjunto pré-conhecido de operações;
* métodos iterativos: a solução é encontrada de forma iterativa.

Nessa aula trabalharemos com métodos diretos!

Objetivos dos métodos diretos: encontrar um sistema de equações equivalente (formado por outras equações, mas que possue o mesmo conjunto solução), obtido pelo uso de somente três possíveis operações:

* multiplicação de um linha por uma constante não nula
* substituição de uma linha por ela mesma somada a um múltiplo de outra linha
* permutação de duas linhas

Possíveis abordagens:

![](metodos_diretos.png)

onde $U$ indica uma matriz triangular superior e $L$, triangular inferior e $I$ uma matriz identidade.



### Eliminação Gaussiana

Objetivo: modificar a matriz de coeficientes para se turnar uma matriz triangular superior. 

Método normalmente visto em cursos e livros de álgebra linear ou mesmo em introduções a algebra matricial no ensino médio.

As equações originais são modificadas por um processo conhecido como *escalonamento*, ou *eliminação*.

![](escalonamento.png)

Essa operação é feita `n-1` vezes, sendo esse _n_ o número de equações do sistema. _O que isso significa?_ que nós temos de repetir as operações de transformações de escalonamento ou eliminação para primeira coluna, depois para a segunda coluna, e assim por diante, até a última coluna. Essa abordagem é chamada de _escalonamento por coluna_.

De uma forma geral o método segue as seguintes etapas:

 __1. construção da matriz estendida__

$$
A|b =\begin{pmatrix}
a_{11} & a_{12} & a_{13} & \cdots & a_{1n} & b_1\\
a_{21} & a_{22} & a_{23} &\cdots & a_{2n} & b_2 \\
a_{31} & a_{32} & a_{33} &\cdots & a_{3n} & b_3\\
\vdots & \vdots & \ddots & \vdots\\
a_{n1} & a_{n2} & a_{n3} & \cdots & a_{nn} & b_n
\end{pmatrix}
$$

Como vimos em aulas anteriores, podemos usar a função ``c_`` da numpy. Um exemplo:

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b = np.array([1,2,3])
print(A)
print(b)

In [None]:
np.c_[A,b]

__2. Eliminação dos termos da primeira coluna, a partir da segunda linha__

Todos os termos referentes à incógnita $x_1$, exceto o termo $a_{11}$, que é o __pivô__ da coluna, ou seja, o elemento a partir do qual as operações elementares são conduzidas. A escolha do pivô, nesse formato, é basicamente pela posição (o primeiro da coluna). Em resumo, o objetivo é fazer $a_{i1}$, para $i > 1$.

Para isso, serão realizadas as seguintes substituições nas linhas da matriz (por notação, chamaremos
aqui a $i$-ésima linha da matriz estendida de $L_i$, e sua versão, após as alterações, de $L'_i$):

$$
L'_2 = L_2 - \frac{a_{21}}{a_{11}} \cdot L_1
$$

$$
L'_3 = L_3 - \frac{a_{31}}{a_{11}} \cdot L_1
$$

$$
L'_4 = L_4 - \frac{a_{41}}{a_{11}} \cdot L_1
$$

$$
\vdots
$$

$$
L'_n = L_n - \frac{a_{n1}}{a_{11}} \cdot L_1
$$

obtendo uma matriz estendida modificada

$$
(A|b)^{(1)} =\begin{pmatrix}
a_{11} & a_{12} & a_{13} & \cdots & a_{1n} & b_1\\
0 & a'_{22} & a'_{23} &\cdots & a'_{2n} & b'_2 \\
0 & a'_{32} & a'_{33} &\cdots & a'_{3n} & b'_3\\
\vdots & \vdots & \ddots & \vdots\\
0 & a'_{n2} & a'_{n3} & \cdots & a'_{nn} & b'_n
\end{pmatrix}
$$


__3. Eliminação dos termos da segunda coluna, a partir da terceira linha__

Mesmo procedimento anterior, porém com o pivô agora é o elemento $a_{22}$ da matriz $(A|b)^{(1)}$, ou seja, o objetivo é fazer $a_{i2}$, para $i > 2$.

As substituições a serem feitas são:

$$
L''_3 = L'_3 - \frac{a_{32}}{a_{22}} \cdot L'_2
$$

$$
L''_4 = L'_4 - \frac{a_{42}}{a_{22}} \cdot L'_2
$$

$$
\vdots
$$

$$
L''_n = L'_n - \frac{a_{n2}}{a_{22}} \cdot L'_2
$$

obtendo uma matriz estendida modificada

$$
(A|b)^{(2)} =\begin{pmatrix}
a_{11} & a_{12} & a_{13} & \cdots & a_{1n} & b_1\\
0 & a'_{22} & a'_{23} &\cdots & a'_{2n} & b'_2 \\
0 & 0 & a'_{33} &\cdots & a'_{3n} & b'_3\\
\vdots & \vdots & \ddots & \vdots\\
0 & 0 & a'_{n3} & \cdots & a'_{nn} & b'_n
\end{pmatrix}
$$

__4. Obtenção da matriz escalonada__

Os passos acima continuam até que a última linha tenha somente o elemento de maior índice, ou seja, que a última linha do sistema tenha somente uma variável a ser descoberta, gerando uma matriz estendida escalonada da forma

$$
(A|b)^{(n)} =\begin{pmatrix}
a_{11} & a_{12} & a_{13} & \cdots & a_{1n} & b_1\\
0 & a'_{22} & a'_{23} &\cdots & a'_{2n} & b'_2 \\
0 & 0 & a'_{33} &\cdots & a'_{3n} & b'_3\\
\vdots & \vdots & \ddots & \vdots\\
0 & 0 & 0 & \cdots & a'_{nn} & b'_n
\end{pmatrix}
$$

em que

* todos os coeficientes e termos independentes serão diferentes dos originais, exceto, na primeira linha
* a matriz de coeficientes obtida após o escalonamento é uma matriz superior triangular, e nós sabemos como encontrar a solução, o que nos leva ao passo 5.

__5. Cálculo da solução do sistema__

Uma vez escalonada a matriz, basta, então, aplicar a técnica da substituição retroativa usada para sistemas triangulares superiores para encontrar os valores das incógnitas do sistema de equações lineares avaliado.

__A grande pergunta: como fazer isso em python?__

Nós temos a grande sorte de que o Numpy nos permite fazer essas operações de forma vetorial!

Vamos ver um exemplo passo a passo usando o Python para enterdermos o processo. Considere o sistema

$$
  \begin{split}
    2x_1 + 3x_2 -1x_3  &= 5\\
    4x_1 + 4x_2 -3x_3  &= 3\\
    2x_1 - 3x_2 +1x_3  &= -1\\
  \end{split}
$$

cujas matriz de coeficientes e vetor independente são

In [None]:
A = np.array([[2,3,-1],[4,4,-3],[2,-3,1]])
A

In [None]:
b = np.array([5,3,-1])
b

Vamos repetir todos os passos discutidos anteriormente:

_1. construção da matriz estendida_

In [None]:
A_b = np.c_[A,b]
A_b

_2. Eliminação dos termos da primeira coluna, a partir da segunda linha, seguindo a expressão_

$$
L'_i = L_i - \frac{a_{i1}}{a_{11}} \cdot L_1, \forall i > 1
$$

No nosso caso, como o pivô ta na primeira linha, temos de modificar a partir da segunda linha

$$
L'_2 = L_2 - \frac{a_{21}}{a_{11}} \cdot L_1
$$

In [None]:
#linha 2 - indice 1
A_b[1] = A_b[1] - (A_b[1,0]/A_b[0,0])*A_b[0]
A_b[1]

$$
L'_3 = L_3 - \frac{a_{31}}{a_{11}} \cdot L_1
$$

In [None]:
A_b[2] = A_b[2] - (A_b[2,0]/A_b[0,0])*A_b[0]
A_b[2]

e a matriz estendida após a operação na primeira coluna se torna

In [None]:
array([[ 2,  3, -1,  5],
       [ 4,  4, -3,  3],
       [ 2, -3,  1, -1]])

In [None]:
A_b

_3. Eliminação dos termos da segunda coluna, a partir da terceira linha, seguindo a expressão_

$$
L''_i = L_i - \frac{a_{i2}}{a_{22}} \cdot L'_2, \forall i > 2
$$

No nosso caso, como o pivô ta na segunda linha, temos de modificar a terceira linha

$$
L''_3 = L'_3 - \frac{a_{32}}{a_{22}} \cdot L'_2
$$

In [None]:
A_b[2] = A_b[2] - (A_b[2,1]/A_b[1,1])*A_b[1]
A_b[2]

e obtemos assim a matriz escalonada

In [None]:
A_b

In [None]:
array([[ 2,  3, -1,  5],
       [ 4,  4, -3,  3],
       [ 2, -3,  1, -1]])

array([[ 2,  3, -1,  5],
       [ 0, -2, -1, -7],
       [ 0, -6,  2, -6]])

array([[ 2,  3, -1,  5],
       [ 0, -2, -1, -7],
       [ 0,  0,  5, 15]])

que se refere ao sistema equivalente

$$
  \begin{split}
    2x_1 + 3x_2 -1x_3  &= 5\\
     -2x_2 -1x_3  &= -7\\
    5x_3  &= 15\\
  \end{split}
$$

que é triangular superior e nós sabemos bastante bem como resolvê-lo!

Nossa questão agora é: ___como construir uma função que execute o processo de eliminação completo, sem o passo a passo...___

Temos de observar que dois índices se modificam: um referente a linha, o outro a coluna. Chamaremos o de linha `l` e o de coluna `c`, por motivos óbvios.

E observamos, tanto no exemplo teórico, quando no exemplo usando Python que fizemos a pouco, que considerando o pivô numa dada coluna, fazemos todas as operações de linha, e só depois passamos para o pivô de outra coluna.

Além disso, o índice da linha sempre varia do índice da coluna do pivô para cima.

De posse dessas duas considerações, é fácil construirmos uma função que faça as transformações.

Assim,

In [None]:
#para lembrar do range
list(range(3-1))

In [4]:
def escalona(A,b):
    Ab = np.c_[A,b] #matriz estendida
    n = len(A)
    for c in range(n-1): #escolher a coluna
        for l in range(c+1,n): # escolher linha
            Ab[l] = Ab[l] - (Ab[l,c]/Ab[c,c])*Ab[c]
    return Ab[:,:-1], Ab[:,-1]

quando $c = 0$, $l = 1$:

quando $c = 0$, $l = 2$:

Testando para nosso exemplo anterior, em que

In [None]:
print('A = \n', A)
print('\nb = ',b)

temos

In [None]:
A,b = escalona(A,b)
print('A_ = \n', A)
print('\nb_ = ',b)

que é o mesmo resultado que obtemos!

## Eliminação Gaussiana usando Scipy

Na biblioteca `scipy`, temos a opção de usar a função `solve`, do submódulo `linalg`, que implementa a solução completa do sistema usando diversas abordagens (ver [documentação](https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.solve.html)).

![](sla_solve.png)

Para usar é razoavelmente simples:

In [None]:
x = sla.solve(A,b)
x

In [None]:
print('A = \n', A)
print('\nb = ',b)

In [None]:
A@x

In [None]:
A_,b_ = escalona(A,b)
print('A_ = \n', A_)
print('\nb_ = ',b_)

In [None]:
A_@x

Devemos perceber que a função retorna a solução do sistema, e não apenas o escalonamento!

### Eliminação Gaussiana com Pivotamento

Consideremos agora os seguintes exemplos.

Primeiro, o sistema

$$
  \begin{split}
    x_1 + x_2 +x_3  &= 1\\
    4x_1 + 4x_2 +2x_3  &= 2\\
    2x_1 + x_2 -x_3  &= 0\\
  \end{split}
$$

cujas matriz de coeficientes e vetor independente são

In [2]:
A = np.array([[1,1,1],[4,4,2],[2,1,-1]])
A

array([[ 1,  1,  1],
       [ 4,  4,  2],
       [ 2,  1, -1]])

In [3]:
b = np.array([1,2,0])
b

array([1, 2, 0])

Usando a função `escalona`, obtemos

In [5]:
A_,b_ = escalona(A,b)
print('A_ = \n', A_)
print('\nb_ = ',b_)

A_ = 
 [[                   1                    1                    1]
 [                   0                    0                   -2]
 [-9223372036854775808 -9223372036854775808 -9223372036854775808]]

b_ =  [                   1                   -2 -9223372036854775808]


  Ab[l] = Ab[l] - (Ab[l,c]/Ab[c,c])*Ab[c]
  Ab[l] = Ab[l] - (Ab[l,c]/Ab[c,c])*Ab[c]


Temos um erro aqui...

Esse erro acontece devido a uma divisão por zero, como mostrado na mensagem de erro. Além disso podemos supor que esse erro ocorre provavelmente no escalonamento da segunda coluna, pelos valores estranhos mostrados na terceira linha da matriz $A$ que a função mostra na saída.

De fato, escalonando a primeira coluna, nós teríamos

In [6]:
A_b = np.c_[A,b]
A_b

array([[ 1,  1,  1,  1],
       [ 4,  4,  2,  2],
       [ 2,  1, -1,  0]])

In [7]:
A_b[1] = A_b[1] - (A_b[1,0]/A_b[0,0])*A_b[0]
A_b[1]

array([ 0,  0, -2, -2])

In [8]:
A_b[2] = A_b[2] - (A_b[2,0]/A_b[0,0])*A_b[0]
A_b[2]

array([ 0, -1, -3, -2])

In [9]:
A_b

array([[ 1,  1,  1,  1],
       [ 0,  0, -2, -2],
       [ 0, -1, -3, -2]])

O pivô da segunda coluna será um zero, e teremos um problema... esse tipo de erro ocorre quando o pivô que convencionalmente escolhemos tem valor zero, pois aí temos uma divisão por zero que não é permitida. 

Problemas também podem surgir quando o elemento pivô é muito próximo de zero, em
vez de exatamente igual a zero, porque, se a ordem de grandeza do elemento pivô é
pequena comparada com a dos outros elementos, então podem ocorrer erros de
arredondamento.

Para ilustrar isso, vamos considerar o seguinte sistema 

$$
\begin{bmatrix}
      \varepsilon & 2\\
      1 & 2
    \end{bmatrix}
    \begin{bmatrix}
      x_1\\x_2
    \end{bmatrix}
    =
    \begin{bmatrix}
      4\\3
    \end{bmatrix}
$$

Vamos fazer a eliminação pela abordagem convencional, como vimos até agora. A matriz estendida do sistema é

$$
\left[\begin{array}{cc|c}
\varepsilon & 2 & 4\\
1 & 2 & 3
\end{array}
\right]
$$

Fazendo o escalonamento na primeira coluna, teríamos

$$
L'_2 = L_2 - \dfrac{a_{21}}{a_{11}} \cdot L_1 = [1 ~~~~~~ 2 ~~~~~~ 3] - \dfrac{1}{\varepsilon} \cdot [\varepsilon ~~~~~~ 2 ~~~~~~ 4] = \left[0 ~~~~~~ \dfrac{2\varepsilon - 2}{\varepsilon}  ~~~~~~ \dfrac{3\varepsilon - 4}{\varepsilon}\right]
$$

e, portanto, a matriz escalonada será

$$
\left[\begin{array}{ccc}
\varepsilon & 2 & 4\\
0 & \dfrac{2\varepsilon - 2}{\varepsilon} & \dfrac{3\varepsilon - 4}{\varepsilon}
\end{array}
\right]
$$

e o sistema equivalente será

$$
\begin{bmatrix}
      \varepsilon & 2\\
      0 & \dfrac{2\varepsilon - 2}{\varepsilon}
    \end{bmatrix}
    \begin{bmatrix}
      x_1\\x_2
    \end{bmatrix}
    =
    \begin{bmatrix}
      4\\\dfrac{3\varepsilon - 4}{\varepsilon}
    \end{bmatrix}
$$

Resolvendo esse sistema, obtemos

$$
x_2 = \dfrac{\dfrac{3\varepsilon - 4}{\varepsilon}}{\dfrac{2\varepsilon - 2}{\varepsilon}} = \dfrac{3\varepsilon - 4}{2\varepsilon - 2}
$$

e

$$
x_1 = \dfrac{4 - 2x_2}{\varepsilon} = \dfrac{1}{\varepsilon} \cdot \left[4 - 2 \cdot \left(\dfrac{3\varepsilon - 4}{2\varepsilon - 2}\right)\right]
$$

Quando temos um valor muito pequeno para $\varepsilon$, isto é, muito próximo de 0, a solução será

$$
\lim_{\varepsilon \rightarrow 0} x_2 = \dfrac{3 \cdot 0 - 4}{2 \cdot 0 - 2} = \dfrac{- 4}{ - 2} = 2
$$

$$
\lim_{\varepsilon \rightarrow 0} x_1 = \dfrac{1}{0} \cdot \left[4 - 2 \cdot \left(\dfrac{3 \cdot 0 - 4}{2 \cdot 0 - 2}\right)\right] \rightarrow \infty
$$

Ou seja, um valor muito pequeno do pivô (no nosso caso o $\varepsilon  \rightarrow 0$), percebe-se que uma das saídas diverge, gerando um erro por cancelamento catastrófico, isto é, quando há overflow na computação.

___Como evitar esses problemas então?___

A abordagem é basicamente mudar a forma como se escolhe o pivô. Mais especificamente, a abordagem mais comum, chamada de __pivotamento parcial__, escolhe-se o maior coeficiente disponível na coluna abaixo do elemento pivô convencional. Uma vez identificado esse valor, é feito um reposicionamento do pivô, por meio de uma permuta de posição entre a linha do atual pivô e a do valor selecionado. Dessa forma, sempre se garantirá que o pivô, após essa operação, seja o maior valor da coluna, evitando os problemas ilustrados acima. 

Se procurarmos o maior elemento também nas colunas, além de nas linhas, e então
trocarmos, o processo é chamado de pivotamento completo. O __pivotamento completo__ é
usado raramente, pois trocar colunas muda a ordem dos x's e, conseqüentemente, acrescenta uma complexidade significativa e normalmente injustificada ao programa de computador. Aqui nos concentraremos especificamente em pivotamento parcial. 

A única diferença para a implementação da eliminação convencional é que, agora, teremos de inserir dois passos extras:

* seleção do maior valor abaixo do pivô da coluna analisada: nesse coluna, temos de verificar se há algum coeficiente de valor absoluto maior que o valor do atual pivô (elemento $a_{ii}$, na $i$-ésima coluna), para as linhas com índice maior que a linha do pivô. Em outras palavras, queremos encontrar, na coluna $c$,  a linha $p$ que esteja entre as linhas $c$ (onde está o atual pivô) e $n$ (última linha), tal que

$$
|a_{pc}| = \max{(|a_{(c:n,c)}|)}, \text{ com } c \leq p < n
$$

em que o índice $(c:n,n)$ referencia as linhas  $c$ à $n$, na coluna $c$.

* havendo um valor maior que o pivô, as linhas do pivô e desse valor serão permutadas. Não havendo, mantém-se o valor do atual pivô.

Basicamente, o que muda para a implementação que fizemos é essa reorganização, caso necessário, de linha e de seleção do nosso pivô, feita logo após o primeiro _for_.

Para auxiliar no exercício de implementação, vamos ver algumas abordagens que o numpy nos dá para trabalhar nessas operações (lembrando que essas funções são sugestões, não sendo a única forma de resolver esses problemas).

Vamos considerar uma matriz de exemplo

In [10]:
v = np.array([[3,2,-4],[2,3,-1],[-4,-5,1]])
v

array([[ 3,  2, -4],
       [ 2,  3, -1],
       [-4, -5,  1]])

Primeira coisa a aprender: _como escolher o novo pivô?_

Apesar da Numpy ter duas funções que podem nos auxiliar, a `max()` que retorna o maior valor de um vetor, e a `argmax()`, que retorna o índice do maior valor de um vetor, nós temos de atentar que comparamos sempre os valores absolutos do vetor.

Assim, para escolher o pivô no escalonamento da primeira coluna, podemos, antes de tudo, encontrar os valores absolutos dos coeficientes dessa coluna

In [16]:
np.abs(v[1:,1])

array([3, 5])

E agora verificar qual o índice do maior valor (que no caso é 4)

In [18]:
p = np.abs(v[1:,1]).argmax() + 1
p

2

O que temos aqui? Olhando pra descrição que fizemos anteriormente, nós temos $p$ é o índice da linha que tem o maior valor absoluto, do pivô para baixo. 

É importante percebermos que, na indexação usada para analisar a linha, ao invés de usar `v[:,0]`, que retornaria a coluna 0 inteira, usamos `v[0:,0]`, explicitando qual a primeira linha a ser considerada na coluna. Isso se dá, porque, no escalonamento de segunda coluna, nós analisaremos só da segunda linha (onde está o pivô padrão) para baixo, ou seja, faremos `v[1:,1]`.

Uma outra coisa a perceber é que estamos somando ao final do computo de $p$ o valor do índice da linha e coluna, fazendo `p = np.abs(v[c:,c]).argmax() + c`. Isso é feito porque, ao fazer o fatiamento pra poder buscar o maior elemento do pivô para baixo, nós mudamos a indexação da cópia feita e `argmax()` retornará o valor dessa nova indexação. Por exemplo, olhando para a segunda coluna, onde o pivô padrão estará na posição $a_{22}$, sem essa correção, teríamos

In [None]:
p = np.abs(v[1:,1]).argmax()
p

ou seja, poderíamos dizer que o maior valor absoluto está na linha de posição 1 (segunda linha); só que isso não é verdade, bastando olhar para a matriz original. Com a correção, temos

In [None]:
p = np.abs(v[1:,1]).argmax() + 1
p

que nos indica que o maior valor de fato está na terceira linha, como de fato acontece quando comparamos segunda e terceira linhas da coluna 2 na matriz `v`.

Por fim, uma vez selecionado o novo pivô, ou seja, que a condição $p \neq c$ for satisfeita, é preciso modificar a posição das linhas, bastando para isso refazer uma atribuição das duas linhas, na forma `v[[c,p]] = v[[p,c]]`. 

Assim, para a primeira coluna, onde `c = 0` e `p=2`, como calculamos acima, teríamos

In [19]:
v

array([[ 3,  2, -4],
       [ 2,  3, -1],
       [-4, -5,  1]])

In [20]:
v[[0,2]] = v[[2,0]]

In [22]:
v

array([[-4, -5,  1],
       [ 2,  3, -1],
       [ 3,  2, -4]])

In [26]:
v[[1,2]] = v[[2,1]]

In [27]:
v

array([[-4, -5,  1],
       [ 3,  2, -4],
       [ 2,  3, -1]])

e a primeira e terceira linhas foram permutadas, conforme o esperado.