![CC-BY-SA](https://mirrors.creativecommons.org/presskit/buttons/88x31/svg/by-sa.svg)


This notebook was created by [Bernardo Freitas Paulo da Costa](http://www.im.ufrj.br/bernardofpc),
and is licensed under Creative Commons BY-SA.

Antes de enviar este Teste, verifique que tudo está funcionando como esperado.
Por exemplo, **rode o código inteiro, do zero**.
Para isso, vá no menu, escolha _Kernel_, depois _Restart & Run All_.

Verifique, também, que você respondeu todas as questões:
* as questões de código têm `YOUR CODE HERE` (e você pode apagar o `raise NotImplemented` ao incluir sua resposta)
* as questões discursivas têm "YOUR ANSWER HERE".

---

In [None]:
import numpy as np
import matplotlib.pyplot as plt

from numpy.linalg import norm # Vamos usar muito !

# Mínimos quadrados _vs_ Equações Normais

Vimos duas formas de resolver um problema de regressão:
- encontrando a solução de mínimos quadrados para $Xp = b$;
- resolvendo as equações normais $X^\top X p = X^\top b$.

Neste teste, veremos como isto pode gerar diferenças no cálculo de $p$.

# Questão 1: Comparando soluções

Sejam dados uma matriz $A$, $m \times n$, e um vetor $b$.

Escreva uma função que retorna as duas soluções do problema de regressão,
a primeira usando `np.linalg.solve` e a segunda, `np.linalg.lstsq`.

In [None]:
def duas_sols(A,b):
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
A = np.array([[0,1],[1,1],[2,1],[2,2],[3,2],[4,4]])
b = [1,2,3,4,5,6]

x1, x2 = duas_sols(A,b)
assert np.allclose(x1,x2)

In [None]:
A = np.array([[0,1],[1,1],[2,1],[2,2],[3,2],[4,4]])
b = [0,1,0,1,0,1]

x1, x2 = duas_sols(A,b)
assert np.allclose(x1,x2)

In [None]:
A = np.array([[0,1],[1,1],[2,1],[2,2],[3,2],[4,4]])
b = [1,1,1,0,0,0]

x1, x2 = duas_sols(A,b)

assert norm(x1-x2) < 1e-14

Ao resolver um problema de regressão, a medida "oficial" é o **erro de regressão**.
Assim, poderia muito bem haver duas soluções $x_1$ e $x_2$, diferentes,
mas tais que $\|Ax_1 - b\|$ e $\|Ax_2 - b\|$ fossem iguais.

Complete a sua função para retornar, também, o erro da regressão, para cada uma das soluções.
Retorne duas tuplas, uma com as 2 soluções, a segunda com os 2 erros.

In [None]:
def duas_sols_erros(A,b):
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
A = np.array([[0,1],[1,1],[2,1],[2,2],[3,2],[4,4]])
b = [6,5,4,3,2,1]

(x1, x2), (e1, e2) = duas_sols_erros(A,b)
assert np.allclose(x1,x2)
assert 7 < e1 < 8
assert 7 < e2 < 8

Calcule os erros de regressão para cada um dos casos anteriores,
e também a diferença entre eles.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

O que você observa?

YOUR ANSWER HERE

# Questão 2: Analisando muitos casos

Para entender o comportamento médio, vamos gerar vetores $b$ aleatórios.

Compare, com um histograma, os erros de regressão, para 1000 vetores $b$ aleatórios, e a matriz $A$ acima.

In [None]:
np.random.seed(1)
# YOUR CODE HERE
raise NotImplementedError()

ax = plt.gca()

In [None]:
minx, maxx = ax.get_xlim()

assert -2e-15 < minx < maxx < 2e-15

Algum dos métodos dá consistentemente o menor erro?

YOUR ANSWER HERE

Agora, vamos usar matrizes (bem) maiores.

Escolha uma matriz $A$, $30 \times 4$ com entradas uniformemente escolhidas em $[0,1]$,
e repita o que fizemos acima para 1000 valores aleatórios de $b$.

In [None]:
np.random.seed(2)
A = np.random.rand(30,4)
# YOUR CODE HERE
raise NotImplementedError()

ax = plt.gca()

In [None]:
minx, maxx = ax.get_xlim()

assert -4e-15 < minx < maxx < 4e-15

O comportamento dos erros mudou?

YOUR ANSWER HERE

E agora, faça para matrizes $300 \times 10$.

In [None]:
np.random.seed(1)
A = np.random.rand(300,10)
# YOUR CODE HERE
raise NotImplementedError()

ax = plt.gca()

In [None]:
minx, maxx = ax.get_xlim()

assert -10e-15 < minx < maxx < 10e-15

Esse gráfico confirma a tendência quando a matriz fica maior?

YOUR ANSWER HERE

# Questão 3: Matrizes de Hilbert

A matriz de Hilbert é uma matriz famosa, cujas entradas $H_{i,j}$ são $\frac{1}{i+j-1}$.

Por exemplo, a matriz $3\times 2$ é
$$\begin{bmatrix}
  1 & 1/2 \\
1/2 & 1/3 \\
1/3 & 1/4
\end{bmatrix}$$

Escreva a função `hilb(n,m)` que retorna a matriz de Hilbert $n \times m$:

In [None]:
def hilb(n,m):
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
assert np.all(hilb(3,2) == [[1, 1/2], [1/2, 1/3], [1/3, 1/4]])

In [None]:
H = hilb(40,20)
assert H.shape == (40,20)

In [None]:
H = hilb(30,4)
assert H[10,3] == 1/(10+3+1)

Explique porque o teste acima é feito com $\frac{1}{10+3+1}$ em vez de $\frac{1}{10+3-1}$.

YOUR ANSWER HERE

# Questão 4: Regressão com a matriz de Hilbert

Considere a matriz de Hilbert $30 \times 4$, e calcule a regressão para um vetor $b$ aleatório.
Calcule
- a diferença entre as soluções; e
- a diferença entre os erros de regressão.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

Calcule, também, o erro relativo entre as soluções, de duas formas:
- coordenada a coordenada, $\frac{|x1_i - x2_i|}{|x1_i| + |x2_i|}$,
- global, $\frac{||x1 - x2||}{||x1|| + ||x2||}$.

(Obs: como não há um método que seja "a priori" mais exato do que o outro, normalizamos pela soma dos valores absolutos)

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

Agora, aumente para $300 \times 10$, e calcule
- a diferença entre as soluções,
- os erros relativos entre as soluções,
- a diferença entre os erros de regressão.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

O que aconteceu?

YOUR ANSWER HERE

# Questão 5: Outro sistema

Agora, considere a matriz com entradas inteiras em sequência:
$$ A = \begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6 \\
7 & 8 & 9 \\
10 & 11 & 12 \\
13 & 14 & 15 \\
16 & 17 & 18
\end{bmatrix} $$

Resolva o problema de regressão para o vetor $b = (1,1,1,1,1,1)$, pelos dois métodos, e calcule os erros.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

O que aconteceu?

YOUR ANSWER HERE