# Fatoração Cholesky

<a href="http://socrative.com">CQ: quando a Fatoração LU funciona?</a>

André-Louis Cholesky (1875-1918) foi um soldado francês conhecido pelo seu importante trabalho na matemática aplicada.

<img  height="200" width="200" src="http://www.bibmath.net/bios/images/cholesky.jpg"/>
Source: http://www.bibmath.net/

A fatoração Cholesky pode ser usada para a estimação de parâmetros de uma regressão linear. Mas o que é uma regressão linear?

Resposta curta: É um modelo que descreve a relação entre uma variável dependente $y$ e uma ou mais variáveis explanatórias denotadas por $X$.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/1200px-Linear_regression.svg.png" alt="Linear regression.svg" width="400">
Source: <a href="https://en.wikipedia.org/wiki/Linear_regression">Wikipedia</a>

Para estimar os parâmetros da regressão linear

$$
f(x_i) = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \ldots + \beta_p x_i^p
$$

a partir dos pontos $(x_i, y_i)$, com $i=1,\ldots,m$, é preciso resolver o sistema

$$
A^\top A \beta = A^\top y,
$$

onde $$A =
\begin{bmatrix}
    1 & x_{1} & x_{1}^2 & \dots  & x_{1}^p \\
    1 & x_{2} & x_{2}^2 & \dots  & x_{2}^p \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    1 & x_{m} & x_{m}^2 & \dots  & x_{m}^p
\end{bmatrix}
$$

A fatoração de Cholesky pode ser usada para decompor $A^\top A$, pois $A^\top A$ é uma matriz **semidefinida positiva**, para qualquer $A \in \mathbb{R}^{n \times n}$. De maneira mais geral, Cholesky pode ser aplicada a qualquer matriz semidefinida positiva. Mas o que é isso?

Uma matriz **simétrica** $A_{n \times n}$ pode ser classificada segundo o sinal dos seus autovalores ou, equivalentemente, segundo o sinal de sua forma quadrática $v^\top A v$:
 * definida positiva: $\lambda_i > 0 $, para $i=1,\ldots,n$, ou $v^\top A v > 0$;
 * semidefinida positiva: $\lambda_i \geq 0 $, para $i=1,\ldots,n$ com pelo menos um $\lambda_i = 0$, ou $v^\top A v \geq 0$;
 * definida negativa: $\lambda_i < 0 $, para $i=1,\ldots,n$, ou $v^\top A v < 0$;
 * semidefinida negativa: $\lambda_i \leq 0 $, para $i=1,\ldots,n$ com pelo menos um $\lambda_i = 0$, ou $v^\top A v \leq 0$.

**Teorema**: toda matriz $A \in \mathbb{R}^{n \times n}$ semidefinida positiva possui uma fatoração $A=L L^\top$ onde $L$ é uma matriz triangular inferior. Em particular, quando $A$ é definida positiva, a fatoração $A=L L^\top$ é única.

O que podemos dizer da direção contrária? Uma matriz $A=L L^\top$ é semidefinida positiva? 

A partir deste teorema, podemos definir o algoritmo.

$$A = L L^\top = 
\begin{bmatrix}
    l_{11} & 0 & 0 & \dots  & 0 \\
    l_{21} & l_{22} & 0 & \dots  & 0 \\
    l_{31} & l_{32} & l_{33} & \dots  & 0 \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    l_{n1} & l_{n2} & l_{n3} & \dots  & l_{nn}
\end{bmatrix}
\begin{bmatrix}
    l_{11} & l_{21} & l_{31} & \dots  & l_{n1} \\
    0 & l_{22} & l_{32} & \dots  & l_{n2} \\
    0 & 0 & l_{33} & \dots  & l_{n3} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & 0 & \dots  & l_{nn}
\end{bmatrix}
$$

In [11]:
from math import sqrt
from pprint import pprint
import numpy as np
 
def mycholesky(A):
    """Faz a fatoração Cholesky da matriz A, que precisa
    ser semidefinida positiva. A função retorna a matriz
    triangular inferior L."""


### Considerações adicionais
 * Em que situação o método acima vai gerar um erro?
 * Qual o custo computacional?

In [13]:
import numpy as np
from scipy.linalg import cholesky
A = np.array([[9,6,-3,3],[6,20,2,22],[-3,2,6,2],[3,22,2,28]])
print(A)
U = cholesky(A)
U.transpose()

[[ 9  6 -3  3]
 [ 6 20  2 22]
 [-3  2  6  2]
 [ 3 22  2 28]]


array([[ 3.,  0.,  0.,  0.],
       [ 2.,  4.,  0.,  0.],
       [-1.,  1.,  2.,  0.],
       [ 1.,  5., -1.,  1.]])

## Exemplos de matriz definida positiva
 * <a href="http://mathonweb.com/help/backgd4.htm">Matrizes representando sistemas lineares vindos de redes de circuitos</a>
 * <a href="https://en.wikipedia.org/wiki/Laplacian_matrix">Laplaciano de um grafo $L = D - A$, onde $D$ é uma matriz diagonal com os graus e $A$ é a matriz de adjacências de um grafo não-direcionado.</a>
 * <a href="http://ttic.uchicago.edu/~dmcallester/ttic101-07/lectures/Gaussians/Gaussians.pdf">Matriz de covariância de um conjunto de variáveis aleatórias</a>
 * <a href="https://en.wikipedia.org/wiki/Kernel_method">Matriz formada através de Kernel functions: cada entrada representa o produto interno de dois pontos representados em uma base formada por funções.</a> 

In [23]:
?scipy.linalg.cho_factor

In [25]:
# Resolvendo um sistema usando Cholesky
import scipy.linalg
b = np.array([1,2,3,4])

soln = scipy.linalg.cho_solve((U,False),b)
print(soln)

[ 3.05555556 -4.91666667  2.5         3.5       ]
