# Exercício Prático 7: QR e estimadores de quadrados mínimos

Neste exercício vamos estudar o uso da decomposição QR na obtenção de estimadores de quadrados mínimos de uma regressão linear. A grande vantagem da decomposição QR é que ela não requer a solução direta das equações normais, que podem ser extremamente malcondicionadas. Existem diversos algoritmos para implementá-la, que possuem diferentes estabilidades. Neste EP iremos implementar:
* o Gram-Schmidt clássico (visto em sala)
* o Gram-Schmidt modificado
e iremos compará-lo com um dos melhores algoritmos para QR, conhecido como Reflexões de Householder.

Incluímos também a estimação dos parâmetros resolvendo as equações normais pelo método de Cholesky. No entanto, para o conjunto de dados utilizados, o sistema é tão mal condicionado que os erros numéricos impedem que Cholesky seja usado com sucesso.

In [21]:
NAME = "Matheus Tiago Pimenta de Souza"
COLLABORATORS = "Maíla Ferreira Silva"

## Introdução

Seja a regressão polinomial

$$
y = \beta_0 + \beta_1 x + \beta_2 x^2 + \ldots + \beta_p x^p + \epsilon.
$$

Os estimadores de mínimos quadrados $\beta$ podem ser obtidos pela solução das equações normais

$$
X^\top X \beta = X^\top y,
$$

onde a matriz $X$ é calculada pela função abaixo.

In [22]:
import numpy as np
import scipy.linalg

def RegressaoPolinomial_getX(x,p):
    n = len(x)
    X = np.empty((n,p+1))
    X[:,0] = 1
    X[:,1] = x
    for i in range(2,p+1):
        X[:,i] = X[:,i-1]*x

    return X

In [23]:
RegressaoPolinomial_getX([1.1,1.2,1.7],4)

array([[1.    , 1.1   , 1.21  , 1.331 , 1.4641],
       [1.    , 1.2   , 1.44  , 1.728 , 2.0736],
       [1.    , 1.7   , 2.89  , 4.913 , 8.3521]])

A seguir apresentamos a implementação um gerador de polinômios aleatórios. Mais precisamente, iremos escrever uma função que retorna $p+1$ números aleatórios independentes e com distribuição uniforme entre -5 e 5. Para isto, usamos a função np.random.rand. Tendo em vista que esta função do numpy gera valores em $[0,1)$, iremos transformá-los de maneira a mapeá-los para o intervalo $[-5,5)$.

In [24]:
def geraPolinomioAleatorio(p):
    return -5+10*np.random.rand(p+1)

A seguir mostramos como a função ```geraPolinomioAleatorio``` pode ser utilizada. Fixando a semente do gerador de números aleatórios igual a 1, iremos obter o polinômio de 3o. grau $p(x) = -0.83 + 2.20x -5x^2 -1.98x^3$.

In [25]:
np.random.seed(1) # seta a semente do gerador de numeros aleatorios igual a 1
coef = geraPolinomioAleatorio(3)
print('Coeficientes:',coef)

Coeficientes: [-0.82977995  2.20324493 -4.99885625 -1.97667427]


A seguir apresentamos uma função para gerar uma tabela de pontos $(x,y)$ **com erros de medição em $y$**, a partir da avaliação de um polinômio. Vamos assumir que os coeficientes são dados em ordem crescente de grau.

Nesta tabela, as abcissas são igualmente espaçadas entre $x_1 = 0$ e $x_n=1$.

In [26]:
def geraTabelaAleatoriaY(n, coef):
    x = np.linspace(0,1,n).reshape(n,1)
    y = (np.polyval(coef[::-1],x) + np.random.normal(scale=0.1,size=(n,1)))
    return x,y

A seguir geramos uma tabela usando a função ```geraTabelaAleatoriaY``` (e os coeficientes ```coef```).

In [27]:
x, y = geraTabelaAleatoriaY(11,coef)
print(np.hstack([x,y]))

[[ 0.         -0.88259713]
 [ 0.1        -0.76871756]
 [ 0.2        -0.51835785]
 [ 0.3        -0.90222761]
 [ 0.4        -0.70032496]
 [ 0.5        -1.30107652]
 [ 0.6        -1.70247898]
 [ 0.7        -2.43988438]
 [ 0.8        -3.13229844]
 [ 0.9        -4.54294269]
 [ 1.         -5.63430726]]


## Estudo da estabilidade dos métodos para estimação de quadrados mínimos

Nesta parte, vamos comparar os seguintes métodos para a estimação de quadrados mínimos linear:
* Cholesky via Equações Normais
* QR, método de Gram-Schmidt (clássico)
* QR, método de Gram-Schmidt (modificado)
* QR, método de Reflexões de Householder

Para isto, precisamos definir um problema de regressão onde a solução exata (isto é, os coeficientes $\beta$) é conhecida. O código a seguir cria:
* a matriz $X$ a partir de $m=50$ pontos igualmente espaçados entre 0 e 1 usando o método RegressaoPolinomial_getX,
* o vetor $\beta=[1.0,2.0,\ldots,15.0]$, e
* as respostas correspondentes ao vetor $y = X\beta$.

In [28]:
import numpy as np

def createLeastSquaresProblem(m,p):
    x = np.linspace(0.0,1.0,num=m)
    X = RegressaoPolinomial_getX(x,p-1)
    beta = np.arange(1,p+1)
    y = X.dot(beta)
    return X, beta, y

np.random.seed(1)
X, beta, y = createLeastSquaresProblem(50,15)

Observa-se abaixo que a matriz $X$ (e consequentemente $X^\top X$) é extremamente malcondicionada.

In [29]:
# numero de condicao de X
print('Numero de condicao de X:',np.linalg.cond(X))

Numero de condicao de X: 23271031743.903473


A estimação dos parâmetros $\beta$ usando Cholesky via equações normais já está implementada. Embora a matrix $X^\top X$ seja simétrica definida positiva, o método gera um erro em tempo de execução devido a problemas numéricos.

In [30]:
import scipy.linalg
def leastSquares_Cholesky(X, y):
    (L,lower) = scipy.linalg.cho_factor(X.T@X, lower=True)
    beta = scipy.linalg.cho_solve((L,lower),X.T@y)
    return beta

try:
    beta_cho = leastSquares_Cholesky(X,y)
    print(beta_cho)
except np.linalg.LinAlgError as err:
    print('Erro numérico:', err)

Erro numérico: 13-th leading minor of the array is not positive definite


**Exercício 1:** Complete a implementação do Gram-Schmidt clássico (visto em sala).

In [31]:
def CGS(A):
    m,n = A.shape # numero de colunas
    Q = np.zeros((m,n))
    R = np.zeros((n,n))
    for j in range(n):
        u = None
        # Passo 1: inicializa vetor u com j-ésima coluna de A (~1 linha)
        u = A[:,j]
        # raise NotImplementedError()
        for i in range(0,j):
            # Passo 2: escreve em R[i,j] o tamanho da projecao de aj em qi (~ 1 linha)
            q = Q[:, i]
            R[i, j] = q.dot(u)
            # Passo 3: subtrai de u a componente de aj em qi, cujo tamanho eh R[i,j] (~ 1 linha)
            u = u - R[i, j] * q
            # raise NotImplementedError()
        # Passo 4: escreve em R[j,j] o tamanho da projecao de u em qj (~ 1 linha)
        # Passo 5: escreve na j-ésima coluna de Q o vetor u normalizado (~ 1 linha)
        norm = np.linalg.norm(u)
        Q[:, j] = u / norm
        R[j, j] = norm
        # raise NotImplementedError()
    return Q,R

In [32]:
A = 1.0*np.array([[1,1,0],[1,0,1],[0,1,1]])
print(A)
Q,R = CGS(A)

assert np.allclose(Q,np.array([[ 0.70710678,  0.40824829, -0.57735027],
        [ 0.70710678, -0.40824829,  0.57735027],
        [ 0.        ,  0.81649658,  0.57735027]]))

assert np.allclose(R,np.array([[ 1.41421356,  0.70710678,  0.70710678],
        [ 0.        ,  1.22474487,  0.40824829],
        [ 0.        ,  0.        ,  1.15470054]]))

[[1. 1. 0.]
 [1. 0. 1.]
 [0. 1. 1.]]


O método Gram-Schmidt modificado é, algebricamente, igual ao método Gram-Schmidt clássico. Contudo, devido a diferenças nos erros de arredondamento, a versão modificada é mais estável numericamente.

O método Gram-Schmidt consiste em:
* criar uma cópia $U$ da matriz $A$
* para cada coluna $i=0,\ldots$:
    * definir $r_{i,i}$ como a norma-2 de $u_i$
    * definir $q_i$ como $u_i$ normalizado
    * para cada coluna $j=i+1,\ldots$:
        - definir $r_{i,j}$ como o tamanho da projeção de $u_j$ em $q_i$
        - subtrair de $u_j$ a projeção de $u_j$ em $q_i$
        
Ou seja, no início da iteração $i$, todas as colunas de $U$ a partir de $i$-ésima são ortogonais a $q_0, q_1, \ldots, q_{i-1}$.

**Exercício 2** Complete a implementação do Gram-Schmidt modificado.

In [33]:
def MGS(A):
    m,n = A.shape # numero de colunas
    Q = np.zeros((m,n))
    R = np.zeros((n,n))
    # Passo 1: cria uma cópia $U$ da matriz $A$ (~1 linha)
    U = A.copy()
    # raise NotImplementedError()
    for i in range(n):
        # Passo 2: define $r_{i,i}$ como a norma-2 de $u_i$ (~1 linha, consulte numpy.linalg.norm)
        # Passo 3: define $q_i$ como $u_i$ normalizado (~1 linha)
        R[i, i] = np.linalg.norm(U[:,i])
        Q[:, i] = U[:,i]/R[i, i]
        # raise NotImplementedError()
        for j in range(i+1,n):
            # Passo 4: define $r_{i,j}$ como o tamanho da projeção de $u_j$ em $q_i$ (~1 linha)
            # Passo 5: subtrai de $u_j$ a projeção de $u_j$ em $q_i$ (~1 linha)
            R[i, j] = np.dot(Q[:, i], U[:,j])
            U[:, j] = U[:, j] - R[i, j]*Q[:, i]
            # raise NotImplementedError()
    return Q,R

In [34]:
Q,R = MGS(A)

assert np.allclose(Q,np.array([[0.70710678,  0.40824829, -0.57735027],
       [ 0.70710678, -0.40824829,  0.57735027],
       [ 0.        ,  0.81649658,  0.57735027]]))

assert np.allclose(R,np.array([[1.41421356,  0.70710678,  0.70710678],
       [ 0.        ,  1.22474487,  0.40824829],
       [ 0.        ,  0.        ,  1.15470054]]))

Os métodos a seguir encontram a solução para o problema de quadrados mínimos linear usando CGS, MGS e Reflexões de Householder, respectivamente.

**Exercício 3** Sabendo que CGS, MGS e Reflexões de Householder são métodos de decomposição QR e que, quando $X$ é de posto completo, a solução de

$$
X^\top X \beta = X^\top y
$$

pode ser encontrada resolvendo-se

$$
R\beta = Q^\top y,
$$

complete as três funções abaixo de forma a encontrar as estimativas de quadrados mínimos usando a decomposição QR.

In [35]:
def leastSquares_CGS(X, y):
    Q,R = CGS(X)
    # Passo único: chama método para resolver sistema triangular superior (~ 1 linha, consulte scipy.linalg.solve_triangular)
    beta = scipy.linalg.solve_triangular(R,Q.transpose()@y)
    # raise NotImplementedError()
    return beta

In [36]:
beta_cgs = leastSquares_CGS(X,y)
print(beta_cgs)

[ 1.00001098e+00  1.98954072e+00  3.65577580e+00 -1.18121520e+01
  2.05418911e+02 -1.52999579e+03  7.69401989e+03 -2.62692132e+04
  6.29167907e+04 -1.06494707e+05  1.26933168e+05 -1.04121898e+05
  5.60014061e+04 -1.77426985e+04  2.53287616e+03]


In [37]:
def leastSquares_MGS(X, y):
    Q,R = MGS(X)
    # Passo único: chama método para resolver sistema triangular superior (~ 1 linha, consulte scipy.linalg.solve_triangular)
    beta = scipy.linalg.solve_triangular(R,Q.transpose()@y)
    # raise NotImplementedError()
    return beta

In [38]:
beta_mgs = leastSquares_MGS(X,y)
print(beta_mgs)

[ 1.00001098e+00  1.98954072e+00  3.65577580e+00 -1.18121520e+01
  2.05418911e+02 -1.52999579e+03  7.69401989e+03 -2.62692132e+04
  6.29167907e+04 -1.06494707e+05  1.26933168e+05 -1.04121898e+05
  5.60014061e+04 -1.77426985e+04  2.53287616e+03]


In [39]:
def leastSquares_Householder(X,y):
    Q,R = scipy.linalg.qr(X, mode='economic')
    beta = np.linalg.solve(R,Q.transpose()@y)
    return beta

In [40]:
beta_hh = leastSquares_Householder(X,y)
print(beta_hh)

[ 1.          2.          3.          4.          5.00000001  5.99999996
  7.00000013  7.99999971  9.00000041  9.99999964 11.00000015 12.00000003
 12.99999994 14.00000003 15.        ]
