In [None]:
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

# Método dos Mínimos Quadrados

Nesta aula estudaremos o Método dos Mínimos Quadrados (MMQ). Este é um método utilizado para ajustar uma curva a um conjunto de pontos observados. A curva a ser ajustada é definida pela combinação linear de um conjunto de funções ponderadas por coeficientes, a tarefa do MMQ é encontrar os coeficientes tal que o Erro Quadrático seja mínimo.

O Erro Quadrático (EQ) é dado pela soma do quadrado das distâncias entre cada ponto e o valor da função avaliada no ponto.

Dado um conjunto de $N$ pontos $(x_i,y_i)$ para $1 \leq i \leq N$, a distância entre cada ponto e o valor de uma função $f(x)$ genérica definida no intervalo $[x_1, x_N]$ é dada por $r_i$:

$$ r_i = y_i - f(x_i) $$

O Erro Quadrático $\epsilon$ é dado pela soma do quadrado das distâncias $r_i$:

$$ \epsilon = \sum^N_{i=1}{r_i^2} = \sum^N_{i=1}{(y_i - f(x_i))^2} $$

Estudaremos o MMQ para o ajuste de dois tipos de funções: ajuste de retas e ajuste da combinação linear de um conjunto de funções genéricas.

Como exemplo, vamos definir de forma aleatória nosso conjunto de pontos $(x_i,y_i)$.

In [None]:
# Definir pontos iniciais
x = np.linspace(0, 10, 100)
y = 10 * np.random.random((100,)) + 0.5 * x

# Visualizar pontos iniciais
plt.plot(x, y, 'bo')
plt.grid(True)

---
## Ajuste de retas

Queremos encontrar a reta que mais se aproxima a um conjunto de pontos observados, utilizando o Método dos Mínimos Quadrados. Definimos a função da reta $f(x)$ como:

$$ f(x) = ax + b $$

Nossa tarefa é encontrar os pontos _a_ e _b_ que minimizam as distâncias entre os pontos $(x_i, y_i)$ e nossa função $f(x)$ avaliada nos pontos $x_i$, para $1 \leq i \leq N$. A distância $r_i$ entre os pontos $(x_i, y_i)$ e $(x_i, f(x_i)$ é dada por:

$$ r_i(a,b) = y_i - f(x_i) $$

$$ r_i(a,b) = y_i - ax_i - b $$

Seguindo o método, vamos encontrar o Erro Quadrático ($\epsilon$), definido como a soma dos quadrados das distâncias $r_i$:

$$ \epsilon(a,b) = \sum^N_{i=1}{r_i(a,b)^2} = \sum^N_{i=1}{(y_i - ax_i - b)^2} $$

Para minimizar o erro $\epsilon$ (encontrar o ponto de mínimo), basta derivar e igualar a zero. Como $\epsilon$ é função dos coeficientes _a_ e _b_, é preciso encontrar as derivadas parciais com relação a cada um destes dois parâmetros.

$$
\begin{cases}
\dfrac{\delta \epsilon}{\delta a} = 0 \\
\dfrac{\delta \epsilon}{\delta b} = 0
\end{cases}
$$

Encontrando as derivadas parciais, temos:

$$
\begin{cases}
\dfrac{\delta \epsilon}{\delta a} = \sum^N_{i=1}{2(y_i - ax_i - b)(-x_i)} = 0 \\
\dfrac{\delta \epsilon}{\delta b} = \sum^N_{i=1}{2(y_i - ax_i - b)(-1)} = 0
\end{cases}
$$

Estas equações formam um sistema linear com duas igualdades e duas variáveis _a_ e _b_. Separando os termos em múltiplos de _a_, múltiplos de _b_ e constantes, temos:

$$
\begin{cases}
a\sum^N_{i=1}{x_i^2} + b\sum^N_{i=1}{x_i} = \sum^N_{i=1}{x_iy_i} \\
a\sum^N_{i=1}{x_i} + bN = \sum^N_{i=1}{y_i}
\end{cases}
$$

Para encontrar os valores de _a_ e _b_, basta resolver o sistema linear acima. Reescrevendo-o em forma matricial com notação simplificada, temos:

$$
\begin{bmatrix}
\sum{x_i^2} & \sum{x_i} \\
\sum{x_i} & N
\end{bmatrix} .
\begin{bmatrix}
a \\
b
\end{bmatrix} = 
\begin{bmatrix}
\sum{x_iy_i} \\
\sum{y_i}
\end{bmatrix}
$$

### Implementação

Vamos implementar a função `line()` que, dados os vetores de pontos $x$ e $y$, retorne os valores dos coeficientes _a_ e _b_ da função $f(x) = ax + b$ definida acima.

In [None]:
def line(x, y):
    """
    Encontrar os valores a e b que melhor aproximam a reta f(x) = ax + b
    aos pontos (x, y) dados, utilizando o Método dos Mínimos Quadrados.

    Args:
        x: pontos no eixo x.
        y: pontos no eixo y.
    
    Returns:
        Retorna os valores de a e b no formato: [a, b].
    """
    
    # Definindo a matriz à esquerda
    left = np.array([[np.sum(x*x), np.sum(x) ],
                     [np.sum(x)  , x.shape[0]]])
    
    # Definindo o vetor à direita
    right = np.array([[np.sum(x*y)],
                      [np.sum(y)  ]])
    
    # Resolvendo o sistema linear para encontrar os valores de a e b
    [a, b] = np.linalg.solve(left, right)
    return [a, b]

Agora utilizamos a função criada para encontrar a reta que melhor se ajusta aos pontos ($x_i,y_i)$ definidos no início da aula.

In [None]:
[a, b] = line(x, y)
f = a * x + b

plt.grid(True)
plt.plot(x, y, 'bo')
plt.plot(x, f, 'k')

## Ajuste de um conjunto de funções genéricas

Consideremos a função genérica abaixo:

$$ f(x) = \sum^M_{j=1}{c_jf_j(x)} $$

Onde $f_j(x)$ é uma função genérica com um parâmetro $c_j$ constante associado a ela. Dados $N$ pontos $(x_i,y_i)$, nossa tarefa é encontrar os valores de todos os parâmetros $c_j$ de forma que o Erro Quadrático seja o menor possível.

A título de exemplo, imaginemos que nossa função $f(x)$ seja uma parábola. As funções $f_j(x)$ serão: $f_1(x) = x^2$, $f_2(x) = x$ e $f_3(x) = 1$.

Para que o sistema tenha solução, o número de funções ($M$) deve ser menor que o número de pontos ($N$).

Utilizando a definição da distância $r_i$, temos:

$$
\begin{gather}
r_i = y_i - f(x_i) \\
r_i(c_1, c_2, \cdots, c_M) = y_i - (c_1f_1(x_i) + c_2f_2(x_i) + \cdots + c_Mf_M(x_i))
\end{gather}
$$

Para todos os pontos, temos as distâncias da forma:

$$
\begin{cases}
r_1(c_1, c_2, \cdots, c_M) = y_1 - (c_1f_1(x_1) + c_2f_2(x_1) + \cdots + c_Mf_M(x_1)) \\
r_2(c_1, c_2, \cdots, c_M) = y_2 - (c_1f_1(x_2) + c_2f_2(x_2) + \cdots + c_Mf_M(x_2)) \\
\vdots \\
r_N(c_1, c_2, \cdots, c_M) = y_N - (c_1f_1(x_N) + c_2f_2(x_N) + \cdots + c_Mf_M(x_N)) \\
\end{cases}
$$

Mudando para a forma matricial, temos:

$$
\begin{bmatrix}
r_1 \\
r_2 \\
\vdots \\
r_N
\end{bmatrix} = 
\begin{bmatrix}
y_1 \\
y_2 \\
\vdots \\
y_N
\end{bmatrix} - 
\begin{bmatrix}
f_1(x_1) & f_2(x_1) & \cdots & f_M(x_1) \\
f_1(x_2) & f_2(x_2) & \cdots & f_M(x_2) \\
\vdots & \vdots & \ddots & \vdots \\
f_1(x_N) & f_2(x_N) & \cdots & f_M(x_N)
\end{bmatrix} . 
\begin{bmatrix}
c_1 \\
c_2 \\
\vdots \\
c_M
\end{bmatrix}
$$

Chamaremos o vetor de distâncias de $R$, o vetor de $y_i$ de $Y$, a matriz de $f_j(x_i)$ de F e o vetor de coeficientes de $C$. Então:

$$ R = Y - F.C $$

O Erro Quadrático $\epsilon$ é dado por:

$$ \epsilon = \sum^N_{i=1}{r_i^2} $$

Utilizando o vetor $R$, podemos reescrever $\epsilon$ da forma:

$$ \epsilon = R^T . R $$

Onde $T$ é o símbolo para a matriz _transposta_.

Sabendo que $R = Y - F.C$, temos:

$$
\epsilon = (Y - F.C)^T.(Y - F.C) \\
\epsilon = Y^TY - C^TF^TY - Y^TFC + C^TF^TFC
$$

Os três termos acima são escalares, já que $\epsilon$ é um escalar. Como o termo $Y^TFC$ é um escalar, então:

$$ Y^TFC = (Y^TFC)^T = C^TF^TY$$

E então:

$$ \epsilon = Y^TY - 2C^TF^TY + C^TF^TFC $$

Para encontrar os coeficientes $C$ que minimizam o Erro Quadrático, é preciso derivar e igualar a zero com relação a cada um dos coeficientes $c_j$.

$$
\dfrac{\delta \epsilon}{\delta C} = -2F^TY + 2F^TFC = 0 \\
F^TFC = F^TY
$$

A equação acima é chamada de equação normal. Para encontrar os coeficientes $C$, basta resolver este sistema linear.

### Implementação

Vamos implementar a função `mmq()` que, dados os vetores $x$ e $y$ dos pontos $(x_i,y_i)$ e o conjunto de funções $f_j(x)$, retorne os valores dos coeficientes $C$.

In [None]:
def mmq(x, y, f):
    """
    Encontrar os valores a e b que melhor aproximam a função genérica f(x):
    f(x) = c0 * f[0](x) + c1 * f[1](x) + ... + c{M-1} * f[M-1](x)
    aos pontos (x, y) dados, utilizando o Método dos Mínimos Quadrados Genérico.

    Args:
        x: pontos no eixo x.
        y: pontos no eixo y.
        f: funções de x genéricas.
    
    Returns:
        Retorna os valores dos coeficientes C no formato: [c0, c1, ..., c{M-1}].
    """
    
    # Definindo a matriz F
    F = np.ones((len(x), len(f)))
    for j in range(len(f)):
        F[:,j] = f[j](x)
    
    # Definindo a matriz à esquerda
    left = np.dot(F.transpose(), F)
    
    # Definindo o vetor à direita
    right = np.dot(F.transpose(), y)
    
    # Resolvendo o sistema linear para encontrar os valores dos coeficientes C
    C = np.linalg.solve(left, right)
    return C

Vamos definir um conjunto de funções $f_j(x)$ que definem uma parábola.

In [None]:
def f0(x):
    return x**2
def f1(x):
    return x
def f2(x):
    return 1

f = [f0, f1, f2]

Agora utilizamos o Método dos Mínimos Quadrados para encontrar os coeficientes $C$ que melhor ajustam a função $f(x)$ criada aos pontos ($x_i,y_i)$ definidos no início da aula.

In [None]:
C = mmq(x, y, f)

fx = np.zeros((len(x)))
for j in range(len(f)):
    fx = fx + C[j] * f[j](x)

plt.grid(True)
plt.plot(x, y, 'bo')
plt.plot(x, fx, 'k')