# Resolvendo o problema de quadrados mínimos linear (em construção)
*Créditos: parcialmente traduzido de https://users.wpi.edu/~walker/MA3257/HANDOUTS/least-squares_handout.pdf*

O método dos quadrados mínimos aplicado à regressão linear $f(x_i) = \beta_1 x_{i,1} + \beta_2 x_{i,2} + \ldots + \beta_p x_{i,p}$ consiste em minimizar o desvio

$$
D(\beta) = \min_\beta \sum_i (\beta_1 x_{i,1} + \ldots + \beta_p x_{i,p} -  y_i)^2.
$$

Podemos reescrever a função objetivo acima como

$$
D(\beta) = \min_\beta \| \mathbf{X}\beta - \mathbf{y} \|_2^2,
$$

onde

$$
\mathbf{X} = \begin{bmatrix}
x_{1,1} & x_{1,2} & \ldots & x_{1,p} \\ 
x_{2,1} & x_{2,2} & \ldots & x_{2,p} \\ 
\vdots & \vdots & \ddots & \vdots \\
x_{n,1} & x_{n,2} & \ldots & x_{n,p} \\ 
\end{bmatrix}
$$

Vimos em sala que minimizar $D(\beta)$ equivale a resolver o sistema

$$
\mathbf{X}^\top \mathbf{X} \beta = \mathbf{X}^\top y,
$$

que é um sistema com $p$ equações e $p$ variáveis. Estas equações são conhecidas como **Equações Normais**, pois a solução $\beta$ deve satisfazer $\mathbf{X}^\top (y - \mathbf{X}\beta) = \mathbf{0}$, ou seja, o vetor resíduo $(y - \mathbf{X}\beta)$ deve ser ortogonal às colunas de $\mathbf{X}$.

## Existência e Unicidade da solução

Lembre-se que posto de uma matriz é o número máximo de linhas ou colunas linearmente independentes. Dado que $\mathbf{X}$ é $n \times p$ com $n \neq p$, temos necessariamente que $\textrm{posto}(\mathbf{X}) \leq p$. Se $\textrm{posto}(\mathbf{X}) = p$, dizemos que X é de **posto completo**.

**Proposição 1**: Se $v \in \mathbf{R}^p, X^\top X v = 0 \iff Xv = 0$.

**Proposição 2**: $X^\top X$ é não-singular se e somente se $X$ é de posto completo.

*Prova:* $X^\top X \,\textrm{é não-singular}\, \iff X^\top X v \neq 0, \quad \forall v \neq 0$.

Pela Proposição 1, $X^\top X v \neq 0 \iff Xv \neq 0$. Note que $Xv$ é uma combinação linear das colunas de $X$. Portanto, a única forma de garantir que $Xv \neq 0$ para todo $v \neq 0$ é garantir que as colunas de $X$ são linearmente independentes. Portanto, $X$ é de posto completo. CQD.

Como consequência da Proposição 2, as equações normais possuem solução única para todo $y$ se $X$ é de posto completo. Além disso, temos mais um resultado.

**Proposição 3**: As equações normais sempre tem pelo menos uma solução.

*Prova:* Vamos usar um resultado geral da Álgebra Linear que afirma que um sistema linear $Mz = c$ tem solução se e somente se $c^\top v = 0$ sempre que $M^\top v = 0$. 

Aplicamos este resultado fazendo $M = X^\top X$ e $c = X^\top y$. Suponha que $(X^\top X)^\top v = 0$. Como $(X^\top X)^\top = X^\top X$, temos $X^\top X v = 0$ e, pela Proposição 1, $X v = 0$. Então $(X^\top y) v = y^\top (Xv) = 0$. CQD.

**Proposição 4**: Se $X$ não é de posto completo, então as equações normais tem infinitas soluções, e quaisquer duas soluções $\beta$ e $\widehat{\beta}$ satisfazer $X(\beta-\widehat{\beta})=0$.

*Prova:* Pela Proposição 3, as equações normais tem uma solução $\beta$. Se $X$ não é de posto completo, então existe $v$ não-nulo tal que $Xv = 0$. Para qualquer escalar $\lambda$, verifica-se que $\beta + \lambda v$ também é uma solução. Portanto, existem infinitas soluções. Se $\widehat{\beta}$ também é uma solução, então

$$
X^\top X (\beta - \widehat{\beta}) = X^\top X\beta - X^\top X\widehat{\beta} = X^\top y - X^\top y = 0.
$$

Da proposição 1, segue que $X(\beta - \widehat{\beta}) = 0$.

## Resolvendo as equações normais

Obviamente $X^\top X$ é simétrica. Se $X$ é de posto completo, então para todo $v \neq 0$, temos que $X^\top X v \neq 0$ pela Proposição 2 e, portanto $Xv \neq 0$ pela Proposição 1. Nesse caso, podemos mostrar que $v^\top (X^\top X) v > 0$. Portanto, **se $X$ é de posto completo, então $X^\top X$ é simétrica e definida positiva**.

Assumindo que $X$ é de posto completo, podemos aplicar a Decomposição Cholesky a $X^\top X$ e resolver as equações normais de maneira estável e eficiente.

## Métodos alternativos de solução

Existem circustâncias em que resolver as equações normais não é a melhor forma de resolver o problema de quadrados mínimos linear. Seja $X$ de posto completo. O número de condição de $X^\top X$ segundo a norma-2 é dado por

$$
\kappa_2 (X^\top X) = \frac{\sigma_1^2}{\sigma_n^2},
$$

onde $\sigma_1$ é o o maior valor singular de $X$ em módulo e $\sigma_n$, o menor. Como $\kappa_2 = \frac{\sigma_1}{\sigma_n}$, podemos escrever

$$
\kappa_2 (X^\top X) = \kappa_2(X)^2.
$$

**Consequência:** Quando $\kappa_2(X)$ é grande, *não* devemos encontrar os parâmetros da regressão linear resolvendo as equações normais, mesmo que usando Cholesky.

Iremos ver dois métodos alternativos:
1. Resolução via Decomposição QR
2. Resolução via Decomposição em Valores Singulares (SVD)