In [1]:
import numpy as np
from scipy.linalg import solve_triangular
import time

## Decomposição LU

Dado um sistema $Ax = b$, decompões $A$ em um  matriz triangular inferior $L$ com diagonal 1 e em uma matriz triangular inferior $U$. Fazemos essa decomposição pois temos algoritmos rápidos para resolver sistema triangulares.

$A = LU$

$\left[\begin{array}{c c c c c}
{a_{11}}&  a_{12}&  a_{13}& \cdots& a_{1n}\\ 
a_{21}&  a_{22}&  a_{23}& \cdots& a_{2n}\\
a_{31}&  a_{32}&  a_{33}& \cdots& a_{3n}\\
\vdots& & & & \vdots&\\
a_{n1}&  a_{n2}&  a_{n3}& \cdots& a_{nn}\end{array}\right] =  \left[\begin{array}{c c c c c}
{1}&  &  &  & \\ 
l_{21}&  1& & & \\
l_{31}&  l_{32}&  1& &\\
\vdots& & & \ddots& \\
l_{n1}&  l_{n2}&  l_{n3}& \cdots& 1\end{array}\right] \cdot \left[\begin{array}{c c c c c}{u_{11}}&  u_{12}&  u_{13}& \cdots& u_{1n}\\ 
&  u_{22}&  u_{23}& \cdots& u_{2n}\\
&  &  u_{33}& \cdots& u_{3n}\\
& & & \ddots & \vdots&\\
&  &  & & u_{nn}\end{array}\right]$ 

Para resolver

$Ax = b \Leftrightarrow LUx = b$

Primeiro chamamos $Ux$ de $y$ ficando com $L\underset{y}{\underbrace{Ux}}= b$, então resolvemos esse o sistema triangular inferior $Ly=b$.

Depois de encontrar o $y$ resolvemos o sistema triangular superior $Ux = y$ e encontramos o resultado do sistema $Ax=b$ de forma mais simples.

Como calcular $L$ e $U$

Para calcular os termos de $L$ e $U$ podemos usar os seguintes termos gerais:

$u_{ij} = a_{ij} - \sum _{k=1}^{i-1}l_{ik}u_{kj}$


$l_{ij} = \frac{a_{ij} - \sum _{k=1}^{j-1}l_{ik}u_{kj}}{u_{jj}}$

Primeiro calcula uma linha de $U$ depois uma coluna de $L$, pois eles são dependentes.

Para garantir que pode existir LU
 
### Menores Principais

Se $A$ possui todos os menores principais não-singulares, isto é, $det(A_{k})\neq 0, k=1,…,n-1$ podemos garantir que existem uma única $L$ e uma única $U$, tal que $A = LU$

Se $A$ possui o último menor principal $\neq0$, isto é, $det(A_{n})\neq 0$ podemos garantir que o sistema linear tem apenas uma solução

onde $A_{1} = a_{11}, A_{2} = \begin{bmatrix}, ...
 a_{11}& a_{12} \\ 
 a_{21}& a_{12} 
\end{bmatrix}$

### Propriedades

Uma outra aplicação de $LU$ é para calculo de determinante.

Então $A=LU \Rightarrow det(A) = det(LU)\Rightarrow det(A) = det(L)det(U)$, como determinante de uma matriz triangular é a multiplicação dos elementos da diagonal da matriz ficamos com $det(A) = \underset{1}{\underbrace{det(L)}}det(U$).

Assim, para calcular o determinante de $A$ é só multiplicar os elementos da diagonal da matriz $U$.








In [16]:
def lu_decomposition(A, b):
    U = A.copy()
    b = b.copy()
    
    n = len(b)
    L = np.eye(n)
    
    for i in range(n):
        pivot = U[i, i]
            
        for k in range(i+1, n):
            m = U[k, i]/pivot
            U[k] = U[k] - U[i]*m
            b[k] = b[k] - b[i]*m
            
            L[k, i] = m
    
    return L, U, b

In [3]:
A = np.array([[-1,2,-2,1], [-2,2,-3,0], [-2,0,-1,-3], [-2,0,0,-2]])
b = np.array([1,1,1,1])

L, U, b = lu_decomposition(A, b)

In [4]:
A = np.array([[1, 1], 
              [0, 0]])

b = np.array([1,1])

L, U, b = lu_decomposition(A, b)
L@U

array([[1., 1.],
       [0., 0.]])

In [5]:
E1 = np.array([[1,0,0,0], 
               [2,1,0,0], 
               [2,0,1,0], 
               [2,0,0,1]])

E2 = np.array([[1,0,0,0], 
               [0,1,0,0], 
               [0,2,1,0], 
               [0,2,0,1]])

E3 = np.array([[1,0,0,0], 
               [0,1,0,0], 
               [0,0,1,0], 
               [0,0,2,1]])

E1@E2@E3

array([[1, 0, 0, 0],
       [2, 1, 0, 0],
       [2, 2, 1, 0],
       [2, 2, 2, 1]])

In [6]:
U

array([[1, 1],
       [0, 0]])

## Eliminação Gaussiana

###  Relembrando conceitos

#### Sistemas Lineares equivalentes

 - Dois sistemas são ditos equivalentes se possuem a mesma solução
 
 ##### Operações Elementares
 
     Denotando $L_{i}$ a $i$-ésima linha de um sistema linear, temos 3 operações elementares:
     
     1. Trocar duas linhas no sistema: $L_{i}\leftrightarrow L_{j}$
     2. Multiplicar uma linha por um escalar $\lambda \neq 0: L_{i}\leftarrow \lambda L_{i}$
     3. Somar a uma linha um múltiplo de uma outra linha: $L_{i}\leftarrow L_{i}+\lambda L_{j}$
     
     Dessas três operações apenas a $3^{o}$ preserva o determinante:
     
     Prova:
     Dada as matrizes A e B\
     \
     $A = \begin{bmatrix}... \\l_{j}\\ ...\\l_{i}\\...\end{bmatrix} \bar{A} =\begin{bmatrix}... \\l_{j}\\ ...\\l_{j}+\lambda l_{j}\\...\end{bmatrix}$
     
     $det(\bar{A}) = det\left (\begin{bmatrix}... \\l_{j}\\ ...\\l_{j}+\lambda l_{j}\\...\end{bmatrix}\right )
 =  det\left (\begin{bmatrix}... \\l_{j}\\ ...\\l_{i}\\...\end{bmatrix}\right )+ \lambda det\left (\begin{bmatrix}... \\l_{j}\\ ...\\l_{j}\\...\end{bmatrix}\right) = det\left (\begin{bmatrix}... \\l_{j}\\ ...\\l_{i}\\...\end{bmatrix}\right ) + \lambda 0 = det(A) $
     
     
 - Se um sistema linear é obtido partir de outro sistema através de uma sequência finita de operações elementares, são equivalentes




## Eliminação Gaussiana

A eliminação de gauss tem o objetivo de transformar um sistema linear complicado em um equivalente fácil de resolver por exemplo um triangular, preservando o determinante.

###  Relembrando conceitos

#### Sistemas Lineares equivalentes
- Dois sistemas são ditos equivalentes se possuem a mesma solução
- Se um sistema linear é obtido partir de outro sistema através de uma sequência finita de operações elementares, são equivalentes

#### Operações Elementares
  
  Denotando $L_{i}$ a $i$-ésima linha de um sistema linear, temos 3 operações elementares:
  
  1. Trocar duas linhas no sistema: $L_{i}\leftrightarrow L_{j}$
  2. Multiplicar uma linha por um escalar $\lambda \neq 0: L_{i}\leftarrow \lambda L_{i}$
  3. Somar a uma linha um múltiplo de uma outra linha: $L_{i}\leftarrow L_{i}+\lambda L_{j}$
     
  Dessas três operações apenas a $3^{o}$ preserva o determinante:
     
     Prova:
     Dada as matrizes $A$ e $\bar{A}$\
     \
     $A = \begin{bmatrix}... \\l_{j}\\ ...\\l_{i}\\...\end{bmatrix} \bar{A} =\begin{bmatrix}... \\l_{j}\\ ...\\l_{j}+\lambda l_{j}\\...\end{bmatrix}$
     
     $det(\bar{A}) = det\left (\begin{bmatrix}... \\l_{j}\\ ...\\l_{j}+\lambda l_{j}\\...\end{bmatrix}\right )
 =  det\left (\begin{bmatrix}... \\l_{j}\\ ...\\l_{i}\\...\end{bmatrix}\right )+ \lambda det\left (\begin{bmatrix}... \\l_{j}\\ ...\\l_{j}\\...\end{bmatrix}\right) = det\left (\begin{bmatrix}... \\l_{j}\\ ...\\l_{i}\\...\end{bmatrix}\right ) + \lambda 0 = det(A) $
 


###  Método

Para resolver o sistema de $Ax = b$, usamos a matriz aumentada $[A|b]$ e aplicamos os seguintes passos:

Dada a matriz aumentada $[A|b] =\left[\begin{array}{c c c c c|c}\color{red}{a_{11}}&  a_{12}&  a_{13}& ...& a_{1n}& b_{1}\\ a_{21}&  a_{22}&  a_{23}& ...& a_{2n}& b_{2}\\ a_{31}&  a_{32}&  a_{33}& ...& a_{3n}& b_{3}\\ \vdots& & & & \vdots& \vdots\\ a_{n1}&  a_{n2}&  a_{n3}& ...& a_{nn}& b_{n}\end{array}\right]$

1) Escolhe um pivô arbitrário, nesse caso $a_{11}$\
2) Zerar todos os valores abaixo do pivô

Para isso vamos usar a $3^{o}$ operação $L_{2}\leftarrow L_{2}+ m_{21} L_{1}$, para zerar o primeiro elemento de $L_{2}$, que é nosso objetivo, o $m_{21}$ será igual a $m_{21} = -a_{21}/a_{11}$
Lembrando que tem que alterar todos os valores da linha que está sendo modificada incluindo os elementos de b

Ao fazer esse mesmo procedimento para todas as outras linhas $L_{i}\leftarrow L_{i}+ m_{i1} L_{1}$, onde $i=(2,3,...,n)$ com $m_{i1} = -a_{i1}/a_{11}$, zeramos todos os elementos abaixo do pivô.

3) Escolhe um novo pivô e faz o mesmo procedimento agora visando zerar os elementos da  $2^{a}$ coluna

$[A|b] = \left[\begin{array}{c c c c c|c}{a_{11}}& a_{12}&  a_{13}& ...& a_{1n}& b_{1}\\ 0&  \color{red}{a_{22}}&  a_{23}& ...& a_{2n}& b_{2}\\ 0&  a_{32}&  a_{33}& ...& a_{3n}& b_{3}\\ \vdots& & & & \vdots& \vdots\\ 0&  a_{n2}&  a_{n3}& ...& a_{nn}& b_{n}\end{array}\right]$


Fazendo $L_{i}\leftarrow L_{i}+ m_{i2} L_{2}$, onde $i=(3,4,...,n)$ com $m_{i2} = -a_{i2}/a_{22}$, zeramos os elementos da $2^{a}$ coluna

4) Vamos fazer esse procedimento até $L_{i}\leftarrow L_{i}+ m_{i,n-1} L_{n-1}$, onde $i=(3,4,...,n)$ com $m_{i,n-1} = -a_{i,n-1}/a_{n-1,n-1}$

$[A|b] =\left[\begin{array}{c c c c c|c}{a_{11}}& a_{12}&  a_{13}& ...& a_{1n}& b_{1}\\ 0& {a_{22}}&  a_{23}& ...& a_{2n}& b_{2}\\ 0&  0&  a_{33}& ...& a_{3n}& b_{3}\\ \vdots& & & & \vdots& \vdots\\ 0&  0&  0& ...& a_{nn}& b_{n}\end{array}\right]$


5) O resultado final é um sistema triangular e é só fazer as substituições e encontrar os resultados desse sistema

### Eliminação de Gauss e LU

#### Foma Matricial

Podemos representar as operações de forma matricial, temos uma equação $Ax = b$

1) Anular todos os elementos abaixo do pivô, multiplicando os dois lados da expressão por nossa $M_{1}$, tendo agora uma $A_{1}$ que tem todos os elementos abaixo do pivo = 0 

$M_{1} A x = M_{1} b \Leftrightarrow \left[\begin{array}{c c c c c}1&  &  & & \\ m_{21}&  1&  & & \\ m_{31}&  &  1& &\\ \vdots& & & \ddots& \\ m_{n1}&  &  & & 1\end{array}\right]\cdot\left[\begin{array}{c c c c c}\color{red}{a_{11}}&  a_{12}&  a_{13}& ...& a_{1n}\\ a_{21}&  a_{22}&  a_{23}& ...& a_{2n}\\ a_{31}&  a_{32}&  a_{33}& ...& a_{3n}\\ \vdots& & & & \vdots\\ a_{n1}&  a_{n2}&  a_{n3}& ...& a_{nn}\end{array}\right]\cdot x = M_{1}b\Leftrightarrow \left[\begin{array}{c c c c c}{a_{11}}& a_{12}&  a_{13}& ...& a_{1n}\\ 0&  \color{red}{a_{22}}&  a_{23}& ...& a_{2n}\\ 0&  a_{32}&  a_{33}& ...& a_{3n}\\ \vdots& & & & \vdots\\ 0&  a_{n2}&  a_{n3}& ...& a_{nn}\end{array}\right]\cdot x = M_{1}b$ 

2) Anular todos os elementos abaixo do pivô, agora temos a expressão $A_{1}x = M_{1}b$, ao multiplicar $A_{1}$ po toda da expressão geramos uma $A_{2}$ com os elementos zerados 

$M_{2}A_{1}x = M_{2}M_{1} b \Leftrightarrow \left[\begin{array}{c c c c c}1&  &  & & \\ &  1&  & & \\ &  m_{32}&  1& &\\ & \vdots& & \ddots& \\ &  m_{n2}&  & & 1\end{array}\right]\cdot\left[\begin{array}{c c c c c}{a_{11}}& a_{12}&  a_{13}& ...& a_{1n}\\ 0&  \color{red}{a_{22}}&  a_{23}& ...& a_{2n}\\ 0&  a_{32}&  a_{33}& ...& a_{3n}\\ \vdots& & & & \vdots\\ 0&  a_{n2}&  a_{n3}& ...& a_{nn}\end{array}\right]\cdot x = M_{2}M_{1}b\Leftrightarrow \left[\begin{array}{c c c c c}{a_{11}}& a_{12}&  a_{13}& ...& a_{1n}\\ 0& {a_{22}}&  a_{23}& ...& a_{2n}\\ 0&  0&  a_{33}& ...& a_{3n}\\ \vdots& & & & \vdots& \vdots\\ 0&  0&  a_{n3}& ...& a_{nn}\end{array}\right]\cdot x = M_{2}M_{1}b$

3) Faz o mesmo procedimento para todas colunas até chegar no pivo $a_{n-1,n-1}$ gerando nossa matriz com a triangular inferior que utilizamos para resolver o sistema de forma simples

$M_{n-1}A_{n-1}x = M_{n-1}...M_{1} b \Leftrightarrow \left[\begin{array}{c c c c c}1&  &  & & \\ &  1&  & & \\ &  &  1& &\\ & & & \ddots& \\ &  &  & m_{n,n-1}& 1\end{array}\right]\cdot\left[\begin{array}{c c c c c}{a_{11}}&  a_{12}&  a_{13}& ...& a_{1,n-1}& a_{1n}\\ 0&  a_{22}&  a_{23}& ...& a_{2,n-1}& a_{2n}\\ 0&  0&  a_{33}& ...& a_{3,n-1}& a_{3n}\\ \vdots& & & & \vdots\\ 0&  0&  0& ...& a_{n,n-1}& a_{nn}\end{array}\right]\cdot x = M_{n-1}...M_{1}b\Leftrightarrow \left[\begin{array}{c c c c c}{a_{11}}&  a_{12}&  a_{13}& ...& a_{1,n-1}& a_{1n}\\ 0&  a_{22}&  a_{23}& ...& a_{2,n-1}& a_{2n}\\ 0&  0&  a_{33}& ...& a_{3,n-1}& a_{3n}\\ \vdots& & & & \vdots\\ 0&  0&  0& ...& 0& a_{nn}\end{array}\right]\cdot x = M_{n-1}...M_{1}b$

Dessa forma conseguimos fazer a fatoração $LU$ justamente utilizando a eliminação de gauss, nossa $U$ neste caso é justamente a nossa matriz triangular final 

$U = \left[\begin{array}{c c c c c}{a_{11}}&  a_{12}&  a_{13}& ...& a_{1,n-1}& a_{1n}\\ 0&  a_{22}&  a_{23}& ...& a_{2,n-1}& a_{2n}\\ 0&  0&  a_{33}& ...& a_{3,n-1}& a_{3n}\\ \vdots& & & & \vdots\\ 0&  0&  0& ...& 0& a_{nn}\end{array}\right]$

Para achar a $L$ é um pouco mais indireto mas sabemos que $A_{n-1}x = M_{n-1}...M_{1}b$ e que $A_{n-1} = U$, então podemos afirmar que $Ux = M_{n-1}...M_{1}b$ como $LUx = b$ podemos dizer que $L = (M_{n-1}...M_{1})^{-1} \Leftrightarrow L = M^{-1} = M^{-1}_{1}M^{-1}_{2}...M^{-1}_{n-1}$ ou seja :

$L = \left[\begin{array}{c c c c c}1&  &  & & \\ -m_{21}&  1&  & & \\ -m_{31}& -m_{32}&  1& &\\ \vdots& \vdots& \vdots& \ddots& \\ -m_{n,1}& -m_{n,2} & -m_{n,3} & -m_{n,n-1}& 1\end{array}\right]$

### Pivô igual ou próximo de 0

Quando o pivô é 0 não podemos utilizar o método de gauss para calcular os $m_{ij}$ nós dividimos pelo pivô e não pode fazer divisão por 0, por isso são necessárias adaptações.

No caso de ser próximo ao 0 também ocorrem problemas de aproximação e o resultado pode ficar errado.

Por isso o método precisa ser mudado e fazemos um procedimento chamado pivoteamento parcial.

#### Pivoteamento parcial

Pivoteamento de linha, o pivoteamento total leva em conta linha e coluna mas é muito custoso computacionalmente

Para cada passo $k$ ao invés de escolher um pivô arbitrário, escolhe para ser o pivô o maior elemento da coluna em módulo. Ao encontrar permuta a linha que contêm esse maior elemento com a linha $k$, depois só fazer o método de eliminação de gauss demonstrado anteriormente.

Para permutar as linhas pela forma matricial é so fazer $P\cdot A$. O $P$ será justamente a matriz identidade com as linhas referentes permutadas. Por exemplo, se quero permutar na minha matriz $A$ a linha $i$ com a linha $j$ só pegar a matriz identidade permutar a linha $i$ com a linha $j$ e multiplicar pela $A$.

#### Decomposição LU

Caso um dos menores pricipais seja singular não pode fazer a decomposição $LU$ da forma normal, então fazemos da seguinte forma: 

$$P \cdot A = L \cdot U$$ onde P é a matriz de permutações.

Para resolver:
Sabemos que $Ax = B \Leftrightarrow (LU)x = (PA)x = Pb$

1) Resolver $Ly = PB$ encontrando o valor de $y$\
2) Resolver $Ux = y$ 

Para achar $U$ pode ser feita da mesma forma sem o pivoteamento então $U$ é justamente a matriz triangular resultante da eliminação de gauss

Para $L$ é um pouco diferente, vale lembrar que a $U$ sem o pivoteamento parcial $U = M_{n-1}...M_{2}M_{1}A$, já com o pivoteamento multiplicamos cada etapa pela permutação necessária então fica  $U = M_{n-1}P_{n-1}...M_{2}P_{2}M_{1}P_{1}A$.

Isolando $A$ podemos deixar a expressão da forma $A = (M_{n-1}P_{n-1}...M_{2}P_{2}M_{1}P_{1})^{-1}U$, ao multiplicar $P$, sendo $P$ a composição de todas as permutações que foram feitas, dos dois lados chegamos na forma $AP = P(M_{n-1}P_{n-1}...M_{2}P_{2}M_{1}P_{1})^{-1}U$. Já que $PA = LU$, podemos afirmar que $L = P(M_{n-1}P_{n-1}...M_{2}P_{2}M_{1}P_{1})^{-1}$.


### Se sobrar falo de calculo da inversa

In [15]:
def gaussian_elimination(A, b):
    A = A.copy()
    b = b.copy()
    
    n = len(b)
    
    for i in range(n):
        pivot = A[i, i]
            
        for k in range(i+1, n):
            m = A[k, i]/pivot
            A[k] = A[k] - A[i]*m
            b[k] = b[k] - b[i]*m
    
    return A, b

In [8]:
def solve_upper(A, b):
    A = A.copy()
    b = b.copy()
    
    n = len(b)
    solution = []
    
    for i in range(n-1, -1, -1):
        sum_ = np.sum(A[i, i+1:n])
        current_solution = (b[i] - sum_)/A[i,i]
    
        solution.append(current_solution)
        A[:, i] = A[:, i] * current_solution
        
    return solution[::-1]

In [9]:
def solve_lower(A, b):
    A = A.copy()
    b = b.copy()
    
    n = len(b)
    solution = []
    
    for i in range(n):
        sum_ = np.sum(A[i, 0:i])
        current_solution = (b[i] - sum_)/A[i,i]
    
        solution.append(current_solution)
        A[:, i] = A[:, i] * current_solution
        
    return solution

In [10]:
def cholesky(A):
    n = len(A)
    L = np.zeros((n, n))
    
    L[0, 0] = np.sqrt(A[0, 0])
    
    for i in range(1, n):
        for j in range(0, i+1):
            sum_ = 0
            for k in range(0, j):
                sum_ += L[i, k] * L[j, k]
            
            if i == j:           
                L[i, i] = np.sqrt(A[i, i] - sum_)
            else:
                L[i, j] = (A[i, j] - sum_)/L[j, j]
    
    return L, L.transpose()

## Decomposição de Cholesky

### SPD

Uma matriz simétrica $A \in \mathcal{M}_{n,n} (A = A^{t})$ é dita simétrica positiva
definida (SPD), se $x^{t} \cdot Ax > 0$, para todo vetor não-nulo $v\in \mathbb{R}^{n}$.

Para testar se a matriz simétrica $A$ é SPD podemos checar os testes abaixo, se um deles estiver sendo garantido então podemos afirmar que é SPD:

1) $det(A_{k})>0,k=1,2,...,n$; \
2) todos os autovalores de $A$ são positivos 

Para provar isso podemos pegar por exemplo uma matriz diagonal e fazer a operação $x^{t} \cdot Dx > 0$, o resultado será $a_{11}x_{1}^{2} + a_{22}x_{2}^{2} + a_{33}x_{3}^{2}+...+a_{nn}x_{n}^{2}$

Então se eu tenho um $a_{i}<0$ e o vetor $x$ todos os elementos são 0, exceto a o $x_{i}$ que é 1, ao fazer o $\sum_{i=1}^{n}{a_{i}x_{i}^{2}} =  a_{i} < 0$. E para ser SVD sabemos que $x^{t} \cdot Ax > 0$, então para que isso aconteça todos os $a_{i}$ precisam ser maiores que 0. 

Então se $A$ é diagonal e SPD $\Rightarrow a_{i}>0$

Agora pensando em uma matriz genérica $A$, primeiro diagonalizamos ela ficando com $P^{-1}DP$, escolhendo uma $P$ ortogonal podemos escrever como $P^{t}DP$, substituindo na equação $x^{t}Ax$ ficamos com  $x^{t}Ax = \underset{(Px)^{t}}{\underbrace{x^{t}P^{t}}}DPx$, chamando $Px$ de $y$ ficamos com $y^{t}Dy$.

Então podemos afirmar que $x^{t}Ax >0 \Leftrightarrow y^{t}Dy >0$, e sabemos que para a expressão $y^{t}Dy >0$ somente se os $d_{i}>0$. Como diagonalizamos a $A$ sabemos que os $d_{i}$ são os autovalores de $A$, então para que a matriz $A$ seja $SPD$ é necessário que todos os autovalores da mesma sejam positivos, como queríamos demonstrar.

Como o determinante é o produto dos autovalores e os autovalores precisam ser maiores que 0 para ser SPD, então o determinante também precisa ser maior que 0 para ser SPD.

### Método

Sendo SPD podemos utilizar a decomposição de Cholesky, mais eficiente que a decomposição $LU$. Vamos decompor a matriz $A$ em $A = H \cdot H^{T}$, sendo $H$ uma matriz triangular inferior com os elementos da diagonal $>0$

$H = \left[\begin{array}{c c c c c}
{h_{11}}& &  & & \\ 
h_{21}&  h_{22}& & & \\
h_{31}&  h_{32}&  h_{33}& & \\
\vdots& \vdots& \vdots& \ddots& &\\
h_{n1}&  h_{n2}&  h_{n3}& \cdots& h_{nn}\end{array}\right]$

Para encontrar os elementos de $H$ podemos usar o termo geral:

1) Para diagonal 

$\left\{\begin{matrix}
h_{11} = \sqrt{a_{11}},\\
h_{ii} = (a_{ii} - \sum_{k=1}^{j-1}{h_{ik}^{2}})^{1/2} 
\end{matrix}\right.$

2) Fora da diagonal

$\left\{\begin{matrix}h_{i1} = \frac{a_{i1}}{h_{11}}, i = 2,3,...,n , \\
h_{ij} = \frac{(a_{ij}- \sum_{k=1}^{j-1}{h_{ik}h_{jk}})}{h_{jj}}, 2 \leq j < i \end{matrix}\right.$

## COMPARAR EFICIENCIA




<img src="images/cholesky.jpg" width="500">

In [11]:
def solve_cholesky(A, b):
    # https://homepages.dcc.ufmg.br/~ana.coutosilva/Aulas-CN/SistemasLineares/Cholesky.pdf
    
    L, Lt = cholesky(A)
    y = solve_lower(L, b)
    
    solution = solve_upper(Lt, y)
    return solution

In [12]:
import matplotlib.pyplot as plt

## Gauss-Jacobi


![jacobi](images/jacobi.png)

In [13]:
def jacobi(A, b):
    n = len(b)
    x = np.random.rand(n)
    k = np.random.rand(n)
    
    for _ in range(1000):
        for i in range(n):
            sum_ = 0
            for j in range(n):   
                if i != j:
                    sum_ += A[i, j] * k[j]
            
            x[i] = (b[i] - sum_)/A[i, i]
        
        if np.linalg.norm(x-k)/np.linalg.norm(x) < 1e-9:
            break
        else:
            k = x.copy()
            
    return k

# Métodos iterativos
<!-- ![seidel](images/seidel.jpg) -->

Se tiver limitaçao computacional para usar um método numérico, não tem memória suficiente por exemplo, devemos usar os metodos iterativos.

## Conceitos

Dados um sistema $Ax = b$, a ideia do método iterativo é partir de um chute inicial $x^{(0)}$ em $\mathbb{R}^{n}$ chegar iterativamente em um $x^{(k)}$, onde $k$ simboliza o número da iteração, que convirga para o correto. Formalmente:

Uma sequência de vetores { $x^{(0)},x^{(1)},...,x^{(k)}$ } converge para um vetor $x$, se: 

$\lim_{x \to\infty}\left \| x^{(k)}- x \right \|= 0$


Para todos os métodos o ideia é semelhante:

1) É preciso transformar o sistema $Ax = b$ em um sistema equivalente

$$x = Cx + g,$$ em que $C \in \mathcal{M}(n,n)$ e $g\in\mathbb{R}^{n}$ são conhecidos.

Para isso, por exemplo podemos dizer que $C = I - A$ e $g = b$, substituindo na equação $x = Cx + g$ temos $x = (I-A)x + b \Leftrightarrow x = Ix - Ax +b \Leftrightarrow x = x - Ax +b  \Leftrightarrow Ax = b$ 


2) Dado um $x^{(0)}$, obtemos a sequência {$x^{(0)}, x^{(1)},...$} através do método iterativo, ou seja, a partir de um chute inicial $x^{(0)}$ consiguiremos todos os outros:

$$x^{(k+1)} = C x^{(k)} + g, k=0,1,2,...$$

### Convergência 

#### Critério geral de convergência 

Seja { $x^{(0)},x^{(1)},...,x^{(k)}$ } sequência gerada pelo processo iterativo $x^{(k+1)} = C x^{(k)} + g$, k=0,1,2,...:

1) Se $\left \| C \right \|_{M}< 1,$ onde $\left \| \cdot \right \|_{M}$ é uma norma consistente, então a sequência converge.

2) $x^{(k)} \rightarrow x$ se somente se o raio espectral de $C$ < 1 .

#### Prova

Como provar que $\left \| x^{(k)}- x \right \|_{v}\rightarrow 0$ ou simplesmente $x^{(k)} \rightarrow x$, provar atravez do critério de convergência 1:

Sabemos que $Ax = b \Leftrightarrow x = Cx +b$ e que o processo iterativo se da da seguinte forma $x^{(k+1)} = C x^{(k)} + g$

Diminuindo $x$ dos dois lados $x^{(k+1)} - x = C x^{(k)} + g - x$, sabendo que $x = Cx + g$ podemos substituir no segundo lado da expressão tendo agora $x^{(k+1)} - x = C x^{(k)} + g - Cx - g \Leftrightarrow x^{(k+1)} - x = C ( x^{(k)} - x)$

Aplicando módulo dos dois lados, fica $\left \| x^{(k+1)} - x \right \| = \left \| C ( x^{(k)} - x) \right \|$ e usando a hipótese podemos dizer que existe uma norma consistente de matriz então podemos separar ficando com $\left \| x^{(k+1)} - x \right \| \leq \left \| C \right \|\left \|( x^{(k)} - x) \right \|$

Sabemos então que $\left \| x^{(k+1)} - x \right \| \leq \left \| C \right \|\left \|( x^{(k)} - x) \right \|$, a partir disso podemos inferir que $\left \|( x^{(k)} - x) \right \| \leq \left \| C \right \|\left \|( x^{(k-1)} - x) \right \| $, ao substituir esse valor encontrado ficamos com a expressão $\left \| x^{(k+1)} - x \right \| \leq \left \| C \right \|\left \| C \right \|\left \|( x^{(k-1)} - x) \right \|$

Podemos repetir esse processo até chegarmos na equação $\left \| x^{(k+1)} - x \right \| \leq \left \| C \right\|^{k} \left \|( x^{(0)} - x) \right \|$

Ao aplicar limite $\lim_{k \to\infty}\left \| C \right\|^{k} \underset{cte}{\underbrace{\left \|( x^{(0)} - x) \right \|}}$, se tem um número elevado a $k$, onde $k \rightarrow \infty$ para esse número ir para a 0 apenas se $C<1$ que nesse caso por hipótese é verdade. Então chegamos que o resultado de $\lim_{k \to\infty}\left \| C \right\|^{k} \left \|( x^{(0)} - x) \right \| = 0$

Como $0\leq\left \| x^{(k+1)} - x \right \| \leq \left \| C \right\|^{k} \left \|( x^{(0)} - x) \right \|$, ao aplicar limite em toda a expressão sabemos que o limite com $k \rightarrow 0$ é 0 e o limite da parte direita também foi provado que é 0, então pelo teorema de confronto podemos afirmar que $\lim_{k \to\infty}\left \| x^{(k+1)} - x \right \|=0$, como queríamos demonstrar.

### Critério de parada

1) Erro absoluto, ao satisfazer a condição abaixo o processo é finalizado:

$$\left \| x^{(k+1)} - x^{(k)}\right \| < \varepsilon $$

2) Erro relativo, usado quando não quer levar em conta a ordem de grandeza, ao satisfazer a condição abaixo o processo é finalizado:

$$\frac{\left \| x^{(k+1)} - x^{(k)}\right \|}{x^{(k+1)}}<\varepsilon $$

3) Teste de resíduo, dessa forma vemos se o $Ax^{(k)}$ está tendendo ao $b$, ou seja o $x^{(k)$ próximo do $x$ correto, ao satisfazer a condição abaixo o processo é finalizado:

$$\left \| b - Ax^{(k)}\right \| < \varepsilon $$

4) Número de iterações, ao satisfazer a condição abaixo o processo é finalizado:

$$k = k_{max} $$


Norma é considerada consistente se:
$\left \| Ax \right \|_{v}\leq \left \| A \right \|_{M}\left \| x \right \|_{v}$


## Método de Gauss-Jacobi

Para selecionar o $C$ e a $g$ no método de gauss-jacobi:

Dado $Ax=b$

$\left\{\begin{matrix}
 a_{11}{\color{Red} {x_{1}}} + a_{12}x_{2} +a_{13}x_{3}+ ...+ a_{1n}x_{n}  = b_{1} \\ 
 a_{21}x_{1} + a_{22}{\color{Red} x_{2}} +a_{23}x_{3}+ ...+ a_{2n}x_{n}  = b_{2} \\ 
 a_{31}x_{1} + a_{32}x_{2} +a_{33}{\color{Red} x_{3}}+ ...+ a_{3n}x_{n}  = b_{3} \\ 
 \vdots \\
 a_{n1}x_{1} + a_{n2}x_{2} +a_{n3}x_{3}+ ...+ a_{nn}{\color{Red} x_{n}}  = b_{n} \\ 
\end{matrix}\right.$

1) Isola cada coordenada$x_{i}$ da diagonal da matriz $A$

$\left\{\begin{matrix}
 {\color{Red} {x_{1}}} = (b_{1} - a_{12}x_{2} - a_{13}x_{3} - ... - a_{1n}x_{n}) / a_{11}\\ 
 {\color{Red} {x_{2}}} = (b_{2} - a_{21}x_{1} - a_{23}x_{3} - ... - a_{2n}x_{n}) /  a_{22} \\ 
 {\color{Red} {x_{3}}} = (b_{3} - a_{31}x_{1} - a_{32}x_{2} - ... - a_{3n}x_{n}) / a_{33} \\ 
 \vdots \\
 {\color{Red} {x_{n}}} = (b_{n} - a_{n1}x_{1} - a_{n2}x_{2} - ... - a_{n,n-1}x_{n-1})) / a_{nn}\\ 
\end{matrix}\right.$

2) Transforma na forma matricial para encontrar o $g$ que seriam as partes que não multiplica $x$

$g = \begin{bmatrix}
b_{1}/a_{11}\\ 
b_{2}/a_{22}\\ 
b_{3}/a_{33}\\ 
\vdots \\ 
b_{n}/a_{nn}\end{bmatrix}$

3) Já para a $C$ olhamos justamente os elementos que multiplicam $x$, cada elemento da matriz é coeficiente dos $x_{i}$

$C = \begin{bmatrix}
        0& - a_{12}/ a_{11}& - a_{13}/ a_{11}& ...& - a_{1n}/ a_{11}\\ 
 - a_{21}/  a_{22}&        0& - a_{23}/  a_{22}& ...& - a_{2n}/  a_{22}\\ 
 - a_{31}/ a_{33}& - a_{32}/ a_{33}&        0& ...& - a_{3n}/ a_{33}\\ 
  \vdots &   \vdots&   \vdots&  \ddots & \vdots\\ 
 - a_{n1}/ a_{nn}& - a_{n2}/ a_{nn}& ...& - a_{n,n-1}& 0
\end{bmatrix}$

4) Depois de obter $C$ e $g$ só substituir e começar o processo iterativo $x^{(k+1)} = C x^{(k)} + g, k=0,1,2,...$

$\left\{\begin{matrix}
 {{x_{1}^{{\color{Red} {(k+1)}}}}} = (b_{1} - a_{12}x_{2}^{\color{Blue} {(k)}} - a_{13}x_{3}^{\color{Blue} {(k)}} - ... - a_{1n}x_{n}^{\color{Blue} {(k)}}) / a_{11}\\ 
 {{x_{2}^{{\color{Red} {(k+1)}}}}} = (b_{2} - a_{21}x_{1}^{\color{Blue} {(k)}} - a_{23}x_{3}^{\color{Blue} {(k)}} - ... - a_{2n}x_{n}^{\color{Blue} {(k)}}) /  a_{22} \\ 
 {{x_{3}^{{\color{Red} {(k+1)}}}}} = (b_{3} - a_{31}x_{1}^{\color{Blue} {(k)}} - a_{32}x_{2}^{\color{Blue} {(k)}} - ... - a_{3n}x_{n}^{\color{Blue} {(k)}}) / a_{33} \\ 
 \vdots \\
 {{x_{n}^{{\color{Red} {(k+1)}}}}} = (b_{n} - a_{n1}x_{1}^{\color{Blue} {(k)}} - a_{n2}x_{2}^{\color{Blue} {(k)}} - ... - a_{n,n-1}x_{n-1}^{\color{Blue} {(k)}})) / a_{nn}\\ 
\end{matrix}\right.$

### Forma Matricial

Para obter $x^{(k+1)} = C x^{(k)} + g, k=0,1,2,...$ a partir de $Ax=b$ de forma matricial :

Decompondo em $A = D + R$, onde D é a diagonal de $A$ e $R = A - D$  e substituindo na equação

$Ax=b \Leftrightarrow (R+D)x=b \Leftrightarrow (R)x + Dx = b$

Quem está com os elementos da diagonal está um passo a frente no método iterativo, então podemos dizer que 

$Rx^{(k)} + Dx^{(k+1)} = b$

Isolando $x^{(k+1)} = D^{-1}((-Rx^{(k)}) + b) \Leftrightarrow  x^{(k+1)} = \underset{C}{\underbrace{(-RD^{-1})}}x^{(k)} + \underset{g}{\underbrace{bD^{(-1)}}}$

### Critérios de convergência

O método de gauss-jacobi converge para a solução $Ax=b$ para qualquer $x^{(0}$ se satisfazer uma das condições abaixo:

1) Critério das linhas
Para cada linha da matriz A, tira o elemento da diagonal, soma os demais em módulo e divide pelo módulo da diagonal, se para todas as linhas for menor que 1, o método de gauss-jacobi converge, ou seja:

$\alpha = \underset{1 \leq k \leq n}{max (\alpha_{k})<1}$, com $\alpha_{k}=\frac{\sum _{\underset{j\neq k}{j=1}}^{n}\left | a_{kj} \right |}{\left | a_{kk} \right |}$

1) Critério das colunas
A mesma coisa do método anterior agora para as colunas

$\alpha = \underset{1 \leq k \leq n}{max (\alpha_{k})<1}$, com $\alpha_{k}=\frac{\sum _{\underset{i\neq k}{i=1}}^{n}\left | a_{ik} \right |}{\left | a_{kk} \right |}$


## Método de Gauss-Seidel

Método muito semelhante ao gauss-jacobi mas um pouco modificado de forma que a convergência acontece mais rápido. A diferença é que assim que é calculado o próximo $x$ ele já é utilizado na próxima iteração.

$\left\{\begin{matrix}
 {{x_{1}^{{\color{Red} {(k+1)}}}}} = (b_{1} - a_{12}x_{2}^{\color{Blue} {(k)}} - a_{13}x_{3}^{\color{Blue} {(k)}} - ... - a_{1n}x_{n}^{\color{Blue} {(k)}}) / a_{11}\\ 
 {{x_{2}^{{\color{Red} {(k+1)}}}}} = (b_{2} - a_{21}x_{1}^{\color{Red} {(k+1)}} - a_{23}x_{3}^{\color{Blue} {(k)}} - ... - a_{2n}x_{n}^{\color{Blue} {(k)}}) /  a_{22} \\ 
 {{x_{3}^{{\color{Red} {(k+1)}}}}} = (b_{3} - a_{31}x_{1}^{\color{Red} {(k+1)}} - a_{32}x_{2}^{\color{Red} {(k+1)}} - ... - a_{3n}x_{n}^{\color{Blue} {(k)}}) / a_{33} \\ 
 \vdots \\
 {{x_{n}^{{\color{Red} {(k+1)}}}}} = (b_{n} - a_{n1}x_{1}^{\color{Red} {(k+1)}} - a_{n2}x_{2}^{\color{Red} {(k+1)}} - ... - a_{n,n-1}x_{n-1}^{\color{Red} {(k+1)}})) / a_{nn}\\ 
\end{matrix}\right.$

### Forma matricial

Os valores de $x$ que estão no passo $k+1$ são aqueles que estão sendo multiplicados pela estrutura triangular inferior da matriz $A$, incluindo a diagonal dela. Já os elementos de $x$ que estão no passo $k$ vão estar multiplicados pelos coeficientes da matriz $A$ que estão na estrutura triangular dela sem a diagonal.

Para obter $x^{(k+1)} = C x^{(k)} + g, k=0,1,2,...$ a partir de $Ax=b$ de forma matricial:

Decompondo em $A = L + R$, onde $L$ é matriz triangular inferior a e $R$ a matriz triangular superior sem a diagonal e substituindo na equação.

$Ax=b \Leftrightarrow (R+L)x=b \Leftrightarrow Rx + Lx = b$

Como os elementos de $L$ estão a um passo a frente no método iterativo

$Rx^{(k)} + Lx^{(k+1)} = b$

Isolando $x^{(k+1)} = \underset{C}{\underbrace{-RL^{-1}}}x^{(k)} + \underset{g}{\underbrace{bL^{-1}}}$

### Critérios de convergência

O método de gauss-seidel converge para a solução $Ax=b$ para qualquer $x^{(0}$ se satisfazer uma das condições abaixo, caso não satisfaça não podemos deduzir nada:

Muito semelhante ao critério de convergência de gauss-jacobi só que agora ao invés de chamar de $\alpha$ chamamos de $\beta$, o $\beta_{1}$ é calculado da mesma forma que $\alpha_{1}$ no método da linha, mas os restantes tem algumas mudanças, agora utilizamos os $\beta_{i}$ já calculados para calcular o $\beta$ dá próxima iteração.

$\beta = \underset{1 \leq i \leq n}{max (\beta_{i})<1}$, com $\beta_{1}=\frac{\sum _{j=2}^{n}\left | a_{1j} \right |}{\left | a_{11} \right |}$ e com $\beta_{i}=\frac{\sum _{j=1}^{i-1}\left | a_{ij} \right |\beta_{j} +{\sum _{j=i+1}^{n}\left | a_{ij} \right |}}{\left | a_{ii} \right |} $

Quanto menor o $\beta$, mais rápida será a convergência


### Comparando

Método de gauss jacobi paralelizavel, não depende das outras iterações
Método de gauss seidel converge mais rápido














In [14]:
def seidel(A, b):
    
    # https://www3.nd.edu/~zxu2/acms40390F12/Lec-7.3.pdf
    
    n = len(b)
    x = np.random.rand(n)
    k = np.random.rand(n)
    
    for _ in range(1000):
        for i in range(n):
            sum_ = 0
            for j in range(n):   
                if i != j:
                    sum_ += A[i, j] * x[j]
            
            x[i] = (b[i] - sum_)/A[i, i]
        
        if np.linalg.norm(x - k)/np.linalg.norm(x) < 1e-9:
            break
        else:
            k = x.copy()
            
    return x

## Testes

In [15]:
A = np.array([[4,1,1], [1,2,-1], [1,-1,3]], dtype=np.float64)
b = np.array([3,1,3/2], dtype=np.float64)

# A = np.array([[3,-2,1], [1,-3,2], [-1,2,4]], dtype=np.float64)
# b = np.array([3,1,3/2], dtype=np.float64)

In [16]:
np.linalg.solve(A,b)

array([0.5, 0.5, 0.5])

In [17]:
gauss = list(gaussian_elimination(A, b))
solve_upper(gauss[0], gauss[1])

[0.5, 0.5, 0.5]

In [18]:
solve_cholesky(A, b)

[0.5, 0.5, 0.5000000000000001]

In [19]:
jacobi(A,b)

array([0.5, 0.5, 0.5])

In [20]:
seidel(A,b)

array([0.5, 0.5, 0.5])