$ \newcommand{\mbf}{\mathbf} $
$ \newcommand{\abs}[1]{\left\vert#1\right\vert} $
$ \newcommand{\setsepa}{\text{\ \large$:$\ }} $
$ \newcommand{\set}[2]{\big\{#1\,\setsepa\,#2\big\}} $
$ \newcommand{\se}[1]{\,\left\{#1\right\}\,} $
# Introdução ao método dos mínimos quadrados

## $ \S 1 $ Motivação

Suponha que gostaríamos de analisar a relação entre duas variáveis, $ x $ e $ y $, através de um conjunto discreto de dados $ (x_0, y_0), \dots, (x_M, y_M) $. Como exemplo, considere um ensaio clínico de um remédio em que $ x_i $ representa a dosagem diária administrada ao $ i $-ésimo paciente e $ y_i $ a sua pressão arterial.

Idealmente, o objetivo é modelar de forma quantitativa a relação entre as variáveis na forma de uma função $ y = f(x) $ que reflita "em média" a dependência de $ y $ com relação a $ x $. Isto nos permitiria estimar resultados além dos que foram medidos ou perceber um padrão seguido pelos dados.

📝 Em Estatística, a determinação da função $ y = f(x) $ que melhor se ajusta a um conjunto de dados, segundo algum critério, leva o nome de **regressão**. Este termo também se aplica à situação em que há uma variável dependente $ y $ e várias variáveis independentes $ x_j $.

Uma idéia preliminar seria utilizar a interpolação polinomial para ajustar um polinômio de grau $ M $ às medições. Contudo, esta estratégia tem algumas desvantagens:
* Se os dados provêm de experimentos, tipicamente eles contêm "ruídos", por exemplo na forma de erros de medição. Como na interpolação polinomial o ajuste é preciso, ela não suaviza estes ruídos.
* Quanto maior o grau do polinômio interpolador, maior a sua "oscilação". Por este motivo, grosso modo não se deve utilizar polinômios aproximadores de grau $ \ge 6 $, especialmente para extrapolar os dados (i.e., estimar valores *fora* do menor intervalo contendo os $ x_i $).
* Freqüentemente temos bons motivos para postular *a priori* uma relação de um determinado tipo (digamos, linear) entre as variáveis $ x $ e $ y $. Neste caso não faz sentido usar uma função de tipo distinto do esperado.

Por exemplo, se $ x $ representa a força aplicada a uma mola e $ y $ sua
deformação, então a lei de Hooke afirma que $ y = c x $, onde $ c $ é uma
constante. Nesta situação queremos encontrar a função *desta forma* que melhor
reflete os dados para estimar $ c $, ainda que provavelmente para nenhuma
escolha de $ c $ o ajuste seja perfeito.

## $ \S 2 $ Descrição do método dos mínimos quadrados

Qualquer método de regressão é constituído de ao menos duas partes:
* A determinação da classe de funções dentro da qual escolheremos aquela que melhor aproxima os dados.
* A definição de um critério segundo o qual a "melhor" aproximação será escolhida.

### $ 2.1 $ Qual é a classe de funções a ser considerada?

A *forma* da função $ f $ a ser ajustada aos dados deve ser especificada de
antemão, normalmente pela teoria associada ao experimento que gerou os dados.
Por exemplo, pode ser que na situação sob consideração, $ f $ deva ser tomada
dentro da classe de polinômios de grau $ \le 2 $:
$$
f(x) = a_0f_0(x) + a_1f_1(x) + a_2f_2(x) \quad {\text{onde} } \quad f_0(x) = 1,\ f_1(x) = x,\ f_2(x) = x^2.
$$

No caso geral,
$$
f = f(x; a_0,a_1,\dots,a_n)
$$
é uma função de uma variável $ x $, mas que depende de $ n + 1 $ parâmetros reais $ a_0, \dots, a_{n} $. Como no exemplo acima, freqüentemente a dependência de $ f $ nestes parâmetros é **linear**, ou seja:
$$
f(x) = a_0f_0(x) + a_1f_1(x) + \dots + a_nf_n(x) = \sum_{k=0}^n a_kf_k(x)
$$
para funções $ f_k $ predeterminadas, chamadas neste contexto de **funções base**. Quando a dependência de $ f $ nos parâmetros $ a_k $ não é desta forma, dizemos que ela é **não-linear**.

⚠️ Observe que a linearidade aqui se refere ao fato de $ f $ ser combinação linear das funções base, ou seja, dela depender linearmente de $ a_0, \dots, a_n $. Isto *não* significa que $ f $ seja linear como função de $ x $.

📝 Exigiremos neste contexto que o número $ n + 1 $ de parâmetros $ a_k $ seja menor que o número $ M + 1 $ de dados, i.e., que $ n < M $. Nesta situação o sistema de $ M + 1 $ equações 
$$
f(x_i;a_0, a_1, \dots, a_n) = y_i \qquad (i = 0, 1, \dots, M)
$$
nas $ n + 1 $ variáveis $ a_k $ é **sobredeterminado**, significando que o número de condições a serem satisfeitas é maior que o número de variáveis, o que torna improvável que haja uma solução exata para o sistema.


### $ 2.2 $ Qual é o critério de discrepância a ser utilizado?

Suponha como acima que $ y = f(x) $ deva pertencer a uma classe de funções
parametrizadas pelos $ a_k \in \mathbb R $ ($ k = 0, \dots, n $). O que
significa encontrar aquela função que "melhor se adapta" a um conjunto de dados
$ (x_i, y_i) $ ($ i = 0, \dots, M $)? Esta pergunta não pode ser respondida
definitivamente por um teorema matemático ou lei da Física. Conforme ilustrado
na $ \S 3 $, o critério mais adequado varia de acordo com a situação específica.

Contudo, o critério mais comum é o empregado pelo **método dos mínimos quadrados**, que consiste na minimização da função
$$
    \boxed{S(a_0,a_1,\dots,a_n) = \sum_{i=0}^M \big[y_i - f(x_i)\big]^2}
$$
Em outras palavras, busca-se minimizar a soma dos quadrados dos **resíduos** $ r_i =  y_i - f(x_i) $. Portanto os valores ótimos dos parâmetros $ a_k $ devem ser tais que $ \mbf a = (a_0, a_1, \dots, a_n) $ é um ponto crítico de $ S $. Ou seja, eles devem satisfazer o sistema de equações
\begin{equation*}\label{E:system}
    \boxed{\frac{\partial S}{\partial a_k} = 0 \qquad (k = 0, 1, \dots, n)}\tag{1}
\end{equation*}

📝 O sistema \eqref{E:system} de $ n $ equações nas $ n $ variáveis $ a_k $ é linear se e somente se a dependência de $ f $ nos parâmetros $ a_k $ é linear no sentido da seção $ 2.1 $. Nesta situação portanto temos à disposição todos os métodos para resolução de sistemas lineares estudados anteriormente para determinar os valores ótimos dos parâmetros $ a_k $.

## $ \S 3 $ Critérios alternativos para a discrepância de ajustes

Considere o caso mais simples possível, em que a função $ f $ a ser ajustada aos dados é constante:
$$
f(x) = c \in \mathbb R.
$$
Na notação da seção $ 2.1 $, isto corresponde a tomar $ n = 0 $, $ f_0(x) = 1 $ e $ a_0 = c $. Então temos pelo menos quatro alternativas razoáveis para encontrar o valor de $ c $ que melhor se ajusta aos dados $ (x_0,y_0), \dots, (x_M,y_M) $:

* Minimizar a soma dos quadrados dos resíduos $ r_i = y_i - c $:
\begin{equation*}\label{E:S}
    S(c) = \sum_{i=0}^M \big(y_i - c)^2.\tag{2}
\end{equation*}
Este é o critério do método dos mínimos quadrados.
* Minimizar a soma dos valores absolutos dos resíduos:
\begin{equation*}\label{E:T}
\sum_{i=0}^M \abs{y_i - c}.\tag{3}
\end{equation*}
* Escolher $ c $ de modo que $ \max_i\abs{c - y_i} $ seja o menor possível.
* Encontrar o valor de $ c $ que ocorre com maior freqüência dentre os $ y_i $.

Como veremos, estes quatro critérios resultam na escolha de $ c $ como a *média aritmética*, a *mediana*, o *médio-extremo* (mid-range) e a *moda* da lista dos $ y_i $, respectivamente.

📝 A situação descrita acima é atípica porque a função $ f(x) $ na verdade não depende de $ x $; por isto os $ x_i $ são irrelevantes na aplicação de qualquer um dos quatro critérios.

**Teorema 3.1:** *A função $ S $ em \eqref{E:S} é minimizada se e somente se $ c = \bar y $ é a média aritmética dos $ y_i $.*

**Prova:** Derivando \eqref{E:S} com respeito a $ c $, deduzimos que
$$
\frac{\partial S}{\partial c} = 2\sum_{i=0}^M(y_i - c).
$$
Logo, $ c $ é ponto crítico se e somente se 
$$
(M + 1)c = \sum_{i=0}^M y_i\,, \quad \text{ou seja,} \quad c = \bar y = \frac{1}{M+1}\sum_{i=0}^M y_i.
$$
Como 
$$
\lim_{c \to \pm \infty} S(c) = +\infty
$$
e este é o *único* ponto crítico de $ S $, concluímos que ele deve ser o mínimo global de $ S $.

**Teorema 3.2:** *A função em \eqref{E:T} é minimizada quando $ c $ é a mediana dos $ y_i $. Se o número $ M + 1 $ de pontos é ímpar, este é o único ponto de mínimo; se ele é par, então qualquer valor entre os dois do meio na lista ordenada dos $ y_i $ também minimiza a função.*
<div style="text-align: right">$ \blacksquare $ </div>

**Problema 1:** Mostre o teorema 3.2 quando:

(a) O número $ M + 1 $ de pontos $ y_i $ é ímpar. *Dica:* Tome $ c $ como a mediana. Mostre que quando $ c $ aumenta ou diminui, a soma em \eqref{E:T} aumenta.

(b) O número $ M + 1 $ de pontos $ y_i $ é par. *Dica:* Tome $ c $ como qualquer valor entre os dois valores $ y_{j} \le y_{k} $ do meio na lista dos valores ordenada de maneira crescente. Mostre que a soma em \eqref{E:T} não muda conforme $ c $ permanece dentro do intervalo $ [y_j, y_k] $, mas aumenta se $ c $ diminui além de $ y_j $ ou aumenta além de $ y_k $.

**Teorema 3.3:** *A função $ \max_i\abs{c - y_i} $ é minimizada se e somente se $ c $ é o médio-extremo dos $ y_i $:*
$$
c = \frac{\max_i \se{y_i} + \min_i \se{y_i}}{2}.\tag*{$ \blacksquare $}
$$

**Problema 2:** Mostre o teorema 3.3.