$ \newcommand{\mbf}{\mathbf} $
$ \newcommand{\abs}[1]{\left\vert#1\right\vert} $
$ \newcommand{\setsepa}{\text{\ \large$:$\ }} $
$ \newcommand{\set}[2]{\big\{#1\,\setsepa\,#2\big\}} $
$ \newcommand{\se}[1]{\,\left\{#1\right\}\,} $
# Introdução ao método dos mínimos quadrados

## $ \S 1 $ Motivação

Suponha que queiramos analisar a relação entre duas variáveis, $ x $ e $ y $,
através de um conjunto discreto de dados $ (x_1, y_1), \dots, (x_m, y_m) $. Como
exemplo, considere um ensaio clínico de um remédio em que $ x_i $ representa a
dosagem diária administrada ao $ i $-ésimo paciente e $ y_i $ a sua pressão
arterial.

Idealmente, o objetivo é modelar de forma quantitativa a relação entre as
variáveis na forma de uma função $ y = f(x) $ que reflita "em média" a
dependência de $ y $ com relação a $ x $. Isto nos permitiria estimar resultados
além dos que foram medidos ou perceber um padrão seguido pelos dados.

📝 Em Estatística, a determinação da função $ y = f(x) $ que melhor se ajusta a
um conjunto de dados, segundo algum critério, leva o nome de **regressão**. Este
termo também se aplica à situação em que há uma variável dependente $ y $ e
várias variáveis independentes.

Uma idéia preliminar seria tomar $ f $ como o polinômio interpolador destes
dados. Entretanto esta estratégia tem algumas desvantagens:
* Se os dados provêm de experimentos, tipicamente eles contêm "ruídos",
  por exemplo na forma de erros de medição. Como na interpolação polinomial o
  ajuste aos dados é perfeito, ela não suaviza estes ruídos.
* Quanto maior o grau do polinômio interpolador, maior a sua "oscilação".
  Por este motivo, grosso modo não se deve utilizar polinômios aproximadores de
  grau $ \ge 6 $, especialmente para extrapolar os dados (i.e., estimar valores
  *fora* do menor intervalo contendo os $ x_i $).
* Freqüentemente temos bons motivos para postular uma relação de um determinado
  tipo (digamos, linear) entre as variáveis $ x $ e $ y $. Neste caso não faz
  sentido usar uma função de tipo distinto do esperado.
 
Por exemplo, se $ x $ representa a força aplicada a uma mola e $ y $ sua
deformação, então a lei de Hooke afirma que $ y = c x $, onde $ c $ é uma
constante. Nesta situação queremos encontrar a função *desta forma* que melhor
reflete os dados experimentais, ainda que provavelmente para nenhuma escolha de
$ c $ o ajuste seja perfeito.

## $ \S 2 $ Descrição do método dos mínimos quadrados

Qualquer método de regressão é constituído de ao menos duas partes:
* A determinação da classe de funções dentro da qual escolheremos aquela que melhor aproxima os dados.
* A definição de um critério segundo o qual a "melhor" aproximação será escolhida.

### $ 2.1 $ Qual é a classe de funções a ser considerada?

A *forma* da função $ f $ a ser ajustada aos dados deve ser especificada de
antemão, normalmente pela teoria associada ao experimento que gerou os dados.
Por exemplo, pode ser que na situação sob consideração, $ f $ deva ser tomada
dentro da classe de polinômios de grau $ \le 2 $:
$$
f(x) = a_0f_0(x) + a_1f_1(x) + a_2f_2(x) \quad {\text{onde} } \quad f_0(x) = 1,\ f_1(x) = x,\ f_2(x) = x^2.
$$

No caso geral,
$$
f = f(x; a_0,a_1,\dots,a_n)
$$
é uma função de uma variável $ x $, mas que depende de $ n + 1 $ parâmetros reais $ a_0, \dots, a_{n} $. Como no exemplo acima, freqüentemente a dependência de $ f $ nestes parâmetros é **linear**, ou seja:
$$
f(x) = a_0f_0(x) + a_1f_1(x) + \dots + a_nf_n(x) = \sum_{k=0}^n a_kf_k(x)
$$
para funções $ f_k $ predeterminadas, chamadas neste contexto de **funções-base**. Quando a dependência de $ f $ nos parâmetros $ a_k $ não é desta forma, dizemos que ela é **não-linear**.

⚠️ Observe que a linearidade aqui se refere ao fato de $ f $ ser combinação linear das funções-base, ou seja, dela depender linearmente de $ a_0, \dots, a_n $. Contudo, isto não significa que $ f $ seja linear _como função de_ $ x $.

📝 Exigiremos neste contexto que o número $ m $ de dados seja no mínimo igual ao número
$ n + 1 $ de parâmetros $ a_k $, i.e., que $$ n + 1 \le m \,.$$
No caso mais comum, em que o número de dados é muito mais alto que o de parâmetros,
o sistema de $ m $ equações 
$$
f(x_i;a_0, a_1, \dots, a_n) = y_i \qquad (i = 1, 2, \dots, m)
$$
nas $ n + 1 $ variáveis $ a_k $ é **sobredeterminado**, significando que o
número de condições a serem satisfeitas é maior que o número de indeterminadas
envolvidas, o que torna improvável que haja uma solução _exata_ para o sistema.
Assim, precisamos de um método para escolher a melhor solução aproximada, em
algum sentido.

### $ 2.2 $ Qual é o critério de discrepância a ser utilizado?

Suponha como acima que $ y = f(x) $ deva pertencer a uma classe de funções
parametrizadas pelos $ a_k \in \mathbb R $ ($ k = 0, \dots, n $). O que
significa encontrar aquela função que "melhor se adapta" a um conjunto de dados
$ (x_i, y_i) $? Esta pergunta não pode ser respondida definitivamente por um
teorema matemático ou lei da Física. Conforme ilustrado na $ \S 3 $, o critério
mais adequado varia de acordo com a situação específica.

Seja como for, o critério mais comum é o empregado pelo
**método dos mínimos quadrados**, que consiste na minimização da função
$$
    \boxed{S(a_0,a_1,\dots,a_n) = \sum_{i=1}^m \big[y_i - f(x_i)\big]^2}
$$
Em outras palavras, busca-se minimizar a soma dos quadrados dos **resíduos** 
$$
    e_i =  y_i - f(x_i)\,.
$$
Em particular, os valores ótimos dos parâmetros $ a_k $ devem ser tais que
$ \mbf a = (a_0, a_1, \dots, a_n) $ é um ponto crítico de $ S $. Ou seja, eles
devem satisfazer as equações
$$
    \boxed{\frac{\partial S}{\partial a_k}(a_0, a_1, \cdots, a_n) =
    0 \qquad (k = 0, 1, \dots, n)}
$$

📝 Este sistema de $ n + 1 $ equações nas $ n + 1 $ variáveis $ a_k $ é linear
se e somente se a dependência de $ f $ nos parâmetros $ a_k $ é linear no
sentido da seção $ 2.1 $. Nesta situação portanto temos à disposição todos os
métodos para resolução de sistemas lineares estudados anteriormente para
determinar os valores ótimos dos parâmetros.

## $ \S 3 $ Critérios alternativos para a discrepância de ajustes

Considere o caso mais simples possível, em que a função $ f $ a ser ajustada aos dados é constante:
$$
f(x) = c \in \mathbb R.
$$
Na notação da seção $ 2.1 $, isto corresponde a tomar $ n = 0 $, $ f_0(x) = 1 $ e $ a_0 = c $. Então temos pelo menos quatro alternativas razoáveis para encontrar o valor de $ c $ que melhor se ajusta aos dados $ (x_1, y_1), \dots, (x_m,y_m) $:

* Minimizar a soma dos quadrados dos resíduos $ e_i = y_i - c $:
  \begin{equation*}\label{E:S}
      S(c) = \sum_{i=1}^m \big(y_i - c)^2.\tag{2}
  \end{equation*}
  Este é o critério do método dos mínimos quadrados. Provaremos
  abaixo que o único valor que minimiza esta soma é a **média aritmética**
  dos $ y_i $:
  $$
      \text{média aritmética} = \bar y =
      \frac{1}{m} \sum_{i=1}^{m} y_i = \frac{y_1 + y_2 + \cdots + y_m}{m}.
  $$
* Minimizar a soma dos valores absolutos dos resíduos:
  \begin{equation*}\label{E:T}
      \sum_{i=1}^m \abs{y_i - c}.\tag{3}
  \end{equation*}
  Veremos abaixo que uma solução é a **mediana** dos $ y_i $. Para $ m $ ímpar,
  ela é definida como o valor do meio da amostra, e se $ m $ é par, como
  como a média aritmética entre os dois valores do meio.
* Escolher $ c $ de modo que $ \max_i\abs{c - y_i} $ seja o menor possível.
  Neste caso o único minimizante é a **amplitude-média** (*mid-range*), i.e., a
  média aritmética entre o maior e o menor valor na amostra:
  $$
    \text{amplitude-média} = \frac{\max_i \se{y_i} + \min_i \se{y_i}}{2}
  $$
* Encontrar o valor de $ c $ que ocorre com maior freqüência dentre os $ y_i $,
  denominado **moda** dos $ y_i $.

Em muitas situações é desejável destilar uma amostra de números a um único valor
representativo, ou **medida de tendência central**. Os quatro conceitos definidos
acima são as versões mais comuns.

📝 A situação considerada aqui é atípica porque a função $ f(x) $ na verdade não
depende de $ x $; por isto os $ x_i $ são irrelevantes na aplicação de qualquer
um dos quatro critérios.

**Teorema 3.1:** *A função $ S $ em \eqref{E:S} é minimizada se e somente se $ c = \bar y $ é a média aritmética dos $ y_i $.*

**Prova:** Derivando \eqref{E:S} com respeito a $ c $, deduzimos que
$$
\frac{\partial S}{\partial c} = 2\sum_{i=1}^m(y_i - c).
$$
Logo, $ c $ é ponto crítico se e somente se 
$$
mc = \sum_{i=1}^m y_i\,, \quad \text{ou seja,} \quad c = \bar y = \frac{1}{m}\sum_{i=1}^m y_i.
$$
Como 
$$
\lim_{c \to \pm \infty} S(c) = +\infty
$$
e este é o *único* ponto crítico de $ S $, concluímos que ele deve ser o mínimo global de $ S $.

**Teorema 3.2:** *A função em \eqref{E:T} é minimizada quando $ c $ é a mediana dos $ y_i $. Se o número $ m $ de pontos é ímpar, este é o único ponto de mínimo; se ele é par, então qualquer valor entre os dois do meio na lista ordenada dos $ y_i $ também minimiza a função.*
<div style="text-align: right">$ \blacksquare $ </div>

**Problema 1:** Mostre o teorema 3.2 quando:

(a) O número $ m $ de pontos $ y_i $ é ímpar. *Dica:* Tome $ c $ como a mediana. Mostre que quando $ c $ aumenta ou diminui, a soma em \eqref{E:T} aumenta.

(b) O número $ m $ de pontos $ y_i $ é par. *Dica:* Reordene a lista dos $ y_i $
em ordem crescente.  Tome $ c $ como qualquer valor entre os dois valores do
meio, $ y_{\lfloor m / 2 \rfloor} $ e $ y_{\lfloor m / 2 \rfloor + 1} $.
Mostre que a soma em \eqref{E:T} não muda conforme $ c $ se move dentro do
intervalo delimitado por eles, mas aumenta quando $ c $ sai deste intervalo.

**Teorema 3.3:** *A função $ \max_i\abs{c - y_i} $ é minimizada se e somente se
$ c $ é a amplitude média dos $ y_i $:*
$$
    c = \frac{\max_i \se{y_i} + \min_i \se{y_i}}{2}.\tag*{$ \blacksquare $}
$$

**Problema 2:** Mostre o teorema 3.3.

**Exemplo:** Um estudo da Oxfam de $ 2021 $ encontrou que as dez pessoas mais
ricas do mundo detinham um espólio (patrimônio) combinado maior que aquele das $
3.1 $ bilhões de pessoas mais pobres. Entre todos os adultos do mundo, a *média
aritmética* da riqueza global era de $ 87\,489 $ USD; já a *mediana* era menos
de um décimo desta cifra: $ 8\,360 $ USD. Claramente, pela natureza da
distribuição da riqueza mundial, a mediana é muito mais apropriada do que a
média aritmética como uma medida do patrimônio do adulto "médio".

Mais geralmente, a mediana é mais adequada que a média aritmética como medida de
tendência central quando a amostragem é distorcida (alguns valores são
*outliers*, ou seja, muito diferentes da média) ou quando o número de elementos
na amostra é pequeno. A moda é a medida de tendência central mais adequada
quando buscamos o valor ou categoria mais comum.

__Exercício:__ Escreva um procedimento `medidas_tc(ys)` que, dado uma lista ou
tupla `ys` de números, retorna as quatro medidas de tendência central
consideradas acima.

__Exercício:__ Seja 
$$
    A = \big(0, 1, 2, 0, 0, 2, 0, 1, 1, 0,
    0, 2, 1, 0, 0, 3, 0, 2, 0, 1 \big)
$$
uma lista do número de filho(a)s de uma amostra aleatória de $ 20 $ casais da população de uma cidade. Em forma tabular:

| Número de filhos | Freqüência |
|:----------------:|:----------:|
| 0                | 10         |
| 1                | 5          |
| 2                | 4          |
| 3                | 1          |

Calcule à mão as quatro medidas de tendência central desta amostra, depois
verifique sua resposta utilizando o procedimento do exercício anterior.