\* Notebook adaptado do material do professor Luis Gustavo Nonato

# Mínimos Quadrados

## Aproximação de Funções

Suponha que um conjunto de amostras $(t_i, f(t_i))$, $i=1,\ldots,n$ seja fornecido. Tais amostras podem ser, por exemplo, medidas de temperatura $f(t_i)$ no instante $t_i$. A função $f$ não é conhecida, o que temos são apenas valores da função em alguns pontos específicos.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Definição dos valores de "t_i" arbitrários:
X = np.random.uniform(-1, 1, size=(2, 100))

# Geraçção dos valores de "f(t_i)":
X[1,:] = 1 + 2 * X[0,:] + np.random.uniform(-0.5, 0.5, 100)

# Configuração de parâmetros de plot:
plt.figure(figsize=(8, 7))
plt.plot([-3, 3], [0, 0], color='k')
plt.plot([0, 0], [-2, 3], color='k')

# Plotagem dos pontos:
plt.scatter(X[0,:], X[1,:], color='k')
plt.show()

Se quisessemos fazer uma previsão da temperatura em algum instante de tempo onde a medição não foi realizada, precisariamos conhecer, ou pelo menos aproximar a função $f$ de alguma forma. Analisando o plot, vemos que a temperatura varia de forma proximadamente linear. Portanto, podemos supor que a função temperatura seria linear, ou seja:

$$
f(t) = a_1 + a_2t
$$

A questão é como encontrar os valores de $a_1$ e $a_2$. Buscamos encontrar tais valores de modo a:

$$
\begin{matrix}
a_1 + a_2t_1 \approx f(t_1)\\
a_1 + a_2t_2 \approx f(t_2)\\
\vdots \\
a_1 + a_2t_n \approx f(t_n)\\
\end{matrix}
$$

Podemos escrever na forma matricial como:
$$
\begin{bmatrix}
1 & t_1 \\
1 & t_2 \\
\vdots & \vdots \\
1 & t_n \\
\end{bmatrix}
\begin{bmatrix}
a_1 \\ a_2
\end{bmatrix}\approx
\begin{bmatrix}
f(t_1)\\
f(t_2)\\
\vdots \\
f(t_n)
\end{bmatrix}\rightarrow
\mathbf{A}\mathbf{\alpha}=\mathbf{f}
$$

Podemos interpretar as colunas da matriz como sendo vetores em $\mathbb{R}^n$, assim como o vetor da direita. Logo, o que temos é um espaço de dimensão 2 em $\mathbb{R}^n$ gerado pelas colunas da matriz $A$ e um ponto $\mathbb{R}^n$ dado pelo vetor $f$. Desta forma, podemos encontrar valores $a_1$ e $a_2$ resolvendo a equação nomal associada ao sistema  acima, ou seja,

$$
A^\top A\alpha=A^\top f
$$

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Geração dos valores de "t_i" arbitrários:
X = np.random.uniform(-1, 1, size=(2, 100))

# Geraçção dos valores de "f(t_i)":
X[1,:] = 1 + 2 * X[0,:] + np.random.uniform(-0.5, 0.5, 100)

# Plotagem dos pontos:
plt.figure(figsize=(8,7))
plt.plot([-3,3],[0,0],color='k')
plt.plot([0,0],[-2,3],color='k')
plt.scatter(X[0,:],X[1,:],color='k')

# Construção da matriz A:
A = np.ones((X.shape[1], 2))
A[:,1] = X[0,:]

# Cálculo dos valores dos alphas:
AtA = np.dot(A.T, A)
Atb = np.dot(A.T, X[1,:])
alpha = np.linalg.solve(AtA, Atb)

# Criação de função lâmbda com os alphas encontrados:
p = lambda x: alpha[0] + alpha[1] * x

# Avaliação dos pontos estimados:
x = np.linspace(-1, 1, 100)
y = p(x)

# Plotagem da função aproximada:
plt.plot(x,y,color='blue')
plt.show()

O erro de aproximação, chamado **erro médio quadrático**, é medido por meio da equação:

$$
Erro = \frac{1}{n}\|A\alpha - f\|^2
$$ 

O $\alpha$ obtido pelo método de mínimos quadrados gera o menor erro médio quadrático dentre todos os possíveis vetores $\alpha$.

In [None]:
# Cálculo do erro médio quadrático:
y = p(X[0,:])
erro = np.linalg.norm(y - X[1,:]) ** 2 / X.shape[1]

print('O erro de aproximação é:', erro)

O método acima também pode ser utilizado para aproximar função que não são lineares. Por exemplo, considere o conjunto de pontos armazenados no arquivo `covidcasosacumulados.txt`. Este aquivo contém o número de casos acumulados de Covid-19, com os 499 registros diários (coletados de 26/02/2020 até 06/07/2021) armazenados nas linhas do arquivo.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Inicialização da matriz X:
X = np.zeros((499, 2))

# Definição dos dias:
X[:,0] = np.linspace(1, 499, num=499, endpoint=True)

# Carregamentos casos do arquivo:
X[:,1] = np.loadtxt('covidcasosacumulados.txt')

# Plotagem dos pontos:
plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], label='Casos acumulados de Covid-19 no Brasil', color='k')
plt.xlabel('Dias')
plt.ylabel('Casos Acumulados')
plt.legend()
plt.show()

O comportamento do número de casos não é linear, mas pode ser modelado por uma função quadrática ou cúbica. Vamos supor uma aproximação por um polinômio cúbico da forma $y=a_0+a_1t+a_2t^2+a_3t^3$, assim buscamos:

$$
\begin{matrix}
a_0 + a_1t_1 + a_2t_1^2 + a_3t_1^3  \approx f(t_1)\\
a_0 + a_1t_2 + a_2t_2^2 + a_3t_2^3  \approx f(t_2)\\
\vdots \\
a_0 + a_1t_n + a_2t_n^2 + a_3t_n^3  \approx f(t_n)\\
\end{matrix}
$$

Na forma matricial, as equações acima são escritas como:

$$
\begin{bmatrix}
1 & t_1 & t_1^2 & t_1^3\\
1 & t_2 & t_2^2 & t_2^3\\
\vdots & \vdots \\
1 & t_n & t_n^2 & t_n^3\\
\end{bmatrix}
\begin{bmatrix}
a_0 \\ a_1 \\ a_2 \\ a_3
\end{bmatrix}\approx
\begin{bmatrix}
f(t_1)\\
f(t_2)\\
\vdots \\
f(t_n)
\end{bmatrix}\rightarrow

A\alpha=f
$$

In [None]:
# Definição de função para cálculo dos alphas:
def calcular_alpha(x, y, n):
    A = np.vander(x, n + 1, increasing=True) 
    AtA = np.dot(A.T, A)
    Atb = np.dot(A.T, y)
    alpha = np.linalg.solve(AtA, Atb)
    return alpha

# Cálculo dos alphas:
alpha = calcular_alpha(X[:,0], X[:,1], 3)

# Criação de função lâmbda com os alphas encontrados:
p = lambda x: alpha[0] + alpha[1] * x + alpha[2] * x**2 + alpha[3] * x**3

# Avaliação dos pontos estimados:
x = np.linspace(np.min(X[:,0]), np.max(X[:,0]), 100)
y = p(x)

# Plotagem dos pontos:
plt.figure(figsize=(8,6))
plt.scatter(X[:,0], X[:,1], label='Casos acumulados de Covid-19 no Brasil', color='k', alpha=0.6)
plt.plot(x, y, label='Curva de grau 3 que mais se aproxima os dados', color='red', linewidth=3)
plt.xlabel('Dias')
plt.ylabel('Casos Acumulados')
plt.legend()
plt.show()

In [None]:
# Cálculo do erro médio quadrático:
y = p(X[:,0])
erro = np.linalg.norm(y - X[:,1]) ** 2 / X.shape[0]
print('O erro de aproximação é:', erro)

# Visualização dos pontos que mais se aproximam / distam da curva aproximada:
plt.figure(figsize=(8,6))
plt.scatter(X[:,0],X[:,1], label='Casos acumulados de Covid-19 no Brasil', c=np.abs(y - X[:,1]), cmap='plasma')
plt.plot(X[:,0],y, label='Curva de grau 3 que mais se aproxima os dados', color='red', linewidth=3)
plt.xlabel('Dias')
plt.ylabel('Casos Acumulados')
plt.legend()
plt.show()