Vimos como adaptar um conjunto de dados por alguns modelos específicos.
De uma maneira geral, podemos considerar um modelo da forma
$$ f(x) = \alpha_1 \phi_1(x) + \dots + \alpha_n \phi_n(x), $$
e fazer o mesmo procedimento.

Esse problema com esse modelo é dito **quadrados mínimos lineares discretos.**

Para encontrar os parâmetros $\alpha$ fazemos o mesmo procedimento anterior:
$$ \min E(\alpha) = \frac{1}{2} \sum_{i=1}^m [f(x_i) - y_i]^2
= \frac{1}{2} \sum_{i=1}^m \bigg[\sum_{j=1}^n \alpha_j\phi_j(x_i) - y_i\bigg]^2. $$

Derivando em cada $\alpha_k$ nos dá um sistema $M\alpha = c$, onde
$$ M_{kj} = \sum_{i=1}^m \phi_k(x_i)\phi_j(x_i) \qquad \mbox{e}
\qquad c_j = \sum_{i=1}^m \phi_j(x_i) y_i. $$

Dados a função $\phi_j$ e os pontos $x_i$, podemos definir um vetor $\overline{\phi}_j = (\phi_j(x_1), \dots, \phi_j(x_m))^T$, isto é, o vetor obtido aplicando $\phi_j$ em cada elemento $x_i$.
Com essa definição, podemos escrever
$$ M_{k,j} = \langle\overline{\phi}_k,\overline{\phi}_j\rangle \qquad \mbox{e} \qquad
c_j = \langle\overline{\phi}_j, y\rangle. $$

O sistema $M\alpha = c$ é chamado de **sistema normal**, e ele tem uma característica muito importante:
A matriz $M$ é semidefinida positiva, e em muitos casos, definida positiva.

**Def.: ** Uma matriz simétrica $A$ é dita definida positiva se $v^TAv > 0$ para todo $v\neq 0$.

**Exercício: ** Demonstre que uma matriz simétrica definida positiva é não singular usando apenas a definição acima.

**Def.: ** Uma matriz simétrica $A$ é dita semi-definida positiva se $v^TAv \geq 0$ para todo $v$.

**Teo.: ** A é definida positiva se, e somente se, seus autovalores são positivos.

**Teo.: ** A é semi-definida positiva se, e somente se, seus autovalores são positivos ou nulos.

**Teo.: ** A é definida positiva se todos os determinantes $det(A[1:k,1:k])$ são positivos, para $k = 1,\dots,n$.

Existem muitos outros teoremas sobre definida positiva, mas um ponto importante aqui é que se $A$ é definida positiva, então ela é não-singular. Além disso, pelo teorema dos autovalores, sabemos como determinar se $A$ é definida positiva na prática.
Na prática, no entanto, as contas não valem a pena, e o teorema abaixo é muito mais útil:

**Teo.: ** $A$ é simétrica definida positiva se, e somente se, existe uma matriz $G$ quadrada não-singular tal que $A = GG^T$.

Podem existir mais de uma matriz $G$ que satisfaça essa propriedade, mas estamos preocupados com uma em particular:
A matriz da **decomposição de Cholesky**.

A decomposição de Cholesky de uma matriz $A$ simétrica definida positiva é a matriz $G$ triangular inferior que satisfaz $A = GG^T$
e com diagonal positiva.

In [2]:
G = [2 0; -1/2 sqrt(15)/2]

2x2 Array{Float64,2}:
  2.0  0.0    
 -0.5  1.93649

In [3]:
G*G'

2x2 Array{Float64,2}:
  4.0  -1.0
 -1.0   4.0

*Desenvolvimento feito em sala*

In [12]:
# Implementação
function cholesky(A)
    return chol(A)'
end

cholesky (generic function with 1 method)

In [13]:
A = [4.0  -1.0; -1.0  4.0]
cholesky(A)

2x2 LowerTriangular{Float64,Array{Float64,2}}:
  2.0  0.0    
 -0.5  1.93649

In [26]:
A = rand(10,10)
A = A*A' + eye(10)
G = cholesky(A)
norm(A - G*G', Inf)

2.6645352591003757e-15

## Forma matricial

Com os vetores $\overline{\phi}_1, \dots, \overline{\phi}$, podemos montar a matriz
$$ A = [\overline{\phi}_1 \cdots \overline{\phi}_n]. $$
Com essa matriz, podemos ver que $ A^TA = M$ e que $A^Ty = c$.
Ou seja, o sistema que queremos resolver é, na verdade
$$ A^TA\alpha = A^Tb, $$
ou seja, $A^T(A\alpha - b) = 0$.

Isso quer dizer que o sistema normal tem alguma relação com o sistema sobre-determinado $A\alpha = b$.
De fato, se pensarmos novamente no problema de minimizar aquela $E(\alpha)$, cada termo dentro do somatório é
uma linha de $A\alpha - b$.
Em outras palavras,
$$ E(\alpha) = \frac{1}{2}\sum_{i=1}^m (A\alpha-b)_i^2
= \frac{1}{2}\Vert A\alpha - b\Vert^2. $$

De fato, se calculamos $\nabla E(\alpha) = 0$, obtemos as equações normais.
Isso generaliza o problema de quadrados mínimos.
Esse problema aparece com frequência em outros contextos, e é bastante importante sabermos resolvê-lo eficientemente.

** Exercício: ** Calcule as derivadas parciais de $f(x) = \frac{1}{2}x^TQx + x^Tg$.
Escreva a forma do gradiente.

Computacionalmente, o problema de quadrados mínimos, como descrito acima, envolve o cálculo de $A^TA$, depois de Cholesky, e depois da resolução do sistema. Alguns códigos, em particular o [CHOLMOD](http://faculty.cse.tamu.edu/davis/suitesparse.html), calculam a decomposição de Cholesky diretamente da matriz $A$, o que reduz bastante o trabalho computacional.

Uma outra possibilidade de resolver esse problema seria usar algum método iterativo. Os métodos que vimos não são bons para isso, pois envolvem a formação da matriz $A$. No entanto, existe um outro método, chamado **Método dos Gradientes Conjugados**, que é bastante útil para esse problema.

In [46]:
A = rand(5000, 5);

In [47]:
v = rand(5)

5-element Array{Float64,1}:
 0.730023
 0.927737
 0.478004
 0.74684 
 0.877347

In [30]:
# Pra fazer A'*A*v tem duas opções:

In [87]:
@time (A'*A) * v

  0.000099 seconds (8 allocations: 656 bytes)


5-element Array{Float64,1}:
 4943.36
 5018.93
 4884.24
 4972.31
 5052.14

In [78]:
@time A' * (A * v)

  0.000078 seconds (10 allocations: 39.438 KB)


5-element Array{Float64,1}:
 4943.36
 5018.93
 4884.24
 4972.31
 5052.14

In [118]:
function quadmin(F, x, y)
    n = length(F)
    m = length(x)
    A = zeros(m, n)
    for j = 1:n
        f = F[j]
        for i = 1:m
            A[i,j] = f(x[i])
        end
    end
    return (A'*A)\(A'*y)
end

quadmin (generic function with 1 method)

In [130]:
using Plots
gr()

m = 500
x = sort(5 * rand(m) - 2) # x ∈ [-2,3]
y = 2 + 0.2 * exp(x) - 0.5 * x + 0.3 * x.^2 + rand(m)*0.2

scatter(x, y, ms=3)

In [135]:
# O modelo é dado pelas funções
# f1(x) = 1, f2(x) = exp(x), f3(x) = x, f4(x) = x^2
F = [x->1, x->x, x->x^2, x->exp(x)]
α = quadmin(F, x, y)

scatter(x, y, ms=3)
plot!(t->dot(α, [f(t) for f in F]), x[1], x[end], c=:red, lw=2)

In [136]:
[f(2) for f in F]

4-element Array{Any,1}:
 1      
 2      
 4      
 7.38906

In [137]:
for f in F
    fx = f(1.2)
    println("f(1.2) = $fx")
end

f(1.2) = 1
f(1.2) = 1.2
f(1.2) = 1.44
f(1.2) = 3.3201169227365472


## Exercício para 10 de Outubro

Muitas vezes, além dos erros obtidos numa medição, existem os
**outliers**, isto é, dados que foram obtidos de *maneira errada*.
Talvez por algum instrumento defeituoso, ou alguma metodologia
que foi entendida errada.

In [143]:
m = 500
x = sort(5 * rand(m) - 2) # x ∈ [-2,3]
y = 2 - 0.5 * x + 0.3 * x.^2 + rand(m)*0.1 + [rand() < 0.05 ? 2 : 0 for i=1:m]

scatter(x, y, ms=3)

In [144]:
A = [ones(x) x x.^2];
α = A\y
scatter(x, y, ms=3)
plot!(x->dot(α,[1,x,x^2]), x[1], x[end], c=:red, lw=2)

Estude alguma maneira de remover outliers de um conjunto de dados,
faça uma explicação dessa maneira, e faça um código que faz
essa remoção de outliers de um conjunto de dados. Depois, teste
com o problema dado.

Os passos são:
- resolva com outliers e plote
- remova outliers com o seu código
- resolva sem outliers e plote