$ \newcommand{\mbf}{\mathbf} $
$ \newcommand{\abs}[1]{\left\vert#1\right\vert} $
$ \newcommand{\setsepa}{\text{\ \large$:$\ }} $
$ \newcommand{\set}[2]{\big\{#1\,\setsepa\,#2\big\}} $
$ \newcommand{\se}[1]{\,\left\{#1\right\}\,} $
# Introdução ao método dos mínimos quadrados

## $ \S 1 $ Motivação

Suponha que tenhamos um conjunto discreto de dados $ (x_0, y_0), \dots, (x_M, y_M) $ e que gostaríamos de analisar a relação entre as duas coordenadas, $ x $ e $ y $. Como exemplo, considere um ensaio clínico de um remédio em que $ x_i $ representa a dosagem diária administrada e $ y_i $ a pressão arterial do $ i $-ésimo paciente.

Idealmente, gostaríamos de modelar de forma quantitativa a relação entre estas duas variáveis, na forma de uma função $ y = f(x) $ que melhor se ajuste aos dados "em média". Isto nos permitiria prever resultados além dos que foram medidos ou perceber um padrão seguido pelos dados.

Uma idéia preliminar seria utilizar a interpolação polinomial para ajustar um polinômio de grau $ M $ às medições. Algumas dificuldades que podem surgir são:
* Se os dados provêm de experimentos, tipicamente eles contêm "ruídos". Como na interpolação polinomial o ajuste é preciso, ela não suaviza estes ruídos.
* Quando o número de dados é grande, o custo computacional da interpolação também é alto.
* Freqüentemente temos bons motivos para postular *a priori* uma relação de um determinado tipo (digamos, linear) entre as variáveis $ x $ e $ y $. Por exemplo, se $ x $ representa a força aplicada a uma mola e $ y $ sua deformação, então a lei de Hooke afirma que $ y = c x $, onde $ c $ é uma constante. Nesta situação queremos encontrar a função *linear* que melhor reflete os dados para estimar $ c $.

## $ \S 2 $ Idéia do método dos mínimos quadrados

### $ 2.1 $ Qual é a classe de funções a ser considerada?

Na situação que consideraremos, a *forma* da função $ f $ a ser ajustada aos dados é conhecida de antemão, normalmente da teoria associada ao experimento que gerou ou dados. Por exemplo, pode ser que $ f $ deva ser tomada dentro da classe de polinômios de grau $ \le 2 $:
$$
f(x) = a_0f_0(x) + a_1f_1(x) + a_2f_2(x) \quad {\text{onde} } \quad f_0(x) = 1,\ f_1(x) = x,\ f_2(x) = x^2.
$$

Na caso geral,
$$
f = f(x; a_0,a_1,\dots,a_n)
$$
é uma função de uma variável $ x $, mas que depende de $ n + 1 $ parâmetros reais $ a_0, \dots, a_{n+1} $. Como no exemplo acima, freqüentemente a dependência de $ f $ nestes parâmetros é **linear**, ou seja:
$$
f(x) = a_0f_0(x) + a_1f_1(x) + \dots + a_nf_n(x) = \sum_{k=0}^n a_kf_k(x)
$$
para funções $ f_k $ predeterminadas, chamadas neste contexto de **funções base**. Quando a dependência de $ f $ nos parâmetros $ a_k $ *não* é desta forma, dizemos que ela é **não-linear**.

📝 Exigiremos que $ n < M $.

### $ 2.2 $ Qual é o critério de discrepância a ser utilizado?

Suponha como acima que $ f $ deva pertencer a uma classe $ \mathcal{C}(a_0,a_1,\dots,a_n) $ de funções parametrizadas pelos $ a_k \in \mathbb R $ ($ k = 0, \dots, n $). O que significa encontrar a função $ y = f(x) $ dentro desta classe que "melhor se adapta" a um conjunto de dados $ (x_i, y_i) $ ($ i = 0, \dots, M $)? Esta pergunta não pode ser respondida definitivamente por um teorema matemático ou lei da Física. Conforme ilustrado na $ \S 3 $, o critério mais adequado varia de acordo com a situação específica.

O **método dos mínimos quadrados** consiste na minimização da função
$$
    S(a_0,a_1,\dots,a_n) = \sum_{i=0}^n \big[y_i - f(x_i)]^2.
$$
Em outras palavras, busca-se minimizar a soma dos quadrados dos chamados **resíduos** $ r_i =  y_i - f(x_i) $. Portanto os valores ótimos dos parâmetros $ a_k $ devem ser tais que $ \mbf a = (a_0, a_1, \dots, a_n) $ é um ponto crítico de $ S $. Ou seja, eles devem satisfazer o sistema de equações
$$
\frac{\partial S}{\partial a_k} = 0 \qquad (k = 0, 1, \dots, n).
$$

## $ \S 3 $ Medidas comuns de tendência central

Considere uma lista $ A = \big(y_0,y_1, \dots, y_M\big) $ de valores reais, representando uma amostragem de dados de uma determinada coleção. Em muitos casos, é desejável destilar a amostra a um único número que melhor a representa. As quatro **medidas de tendência central** mais comuns são as definidas abaixo. Para ilustrá-las, seja 
$$
A = \big(0, 1, 2, 0, 0, 2, 0, 1, 1, 0,
0, 2, 1, 0, 0, 3, 0, 2, 0, 1 \big)
$$
uma lista do número de filho(a)s de uma amostra aleatória de $ 20 $ casais da população de uma cidade. Em forma tabular:

| Número de filhos | Freqüência |
|:----------------:|:----------:|
| 0                | 10         |
| 1                | 5          |
| 2                | 4          |
| 3                | 1          |


(a) A **média aritmética** dos valores $ y_i $ é dada por
$$
\bar y = \frac{1}{M+1} \sum_{i=0}^{M} y_i = \frac{y_0 + y_1 + \cdots + y_M}{M + 1}.
$$
No exemplo acima,
$$
\text{média aritmética} = \bar y = \frac{0\cdot 10 + 1\cdot 5 + 2\cdot 4 + 3\cdot 1}{20} = \frac{16}{20} = 0.8\,.
$$

(b) A **mediana** dos valores $ y_i $ é definida como o valor do meio da amostra; se o número de pontos na amostra é par, definimos a mediana como a média aritmética entre os dois valores do meio. No exemplo acima, o número de pontos é $ 20 $, logo
$$
\text{mediana} = \frac{0 + 1}{2} = 0.5\,,
$$
ou seja, ela a média aritmética entre os dois valores do meio, depois que a lista é ordenada de maneira crescente.

(c) A **moda** de $ A $ é o conjunto dos $ y_i $ que ocorrem com a freqüência mais alta na amostragem. No exemplo acima,
$$
\text{moda} = 0,
$$
já que este é o valor mais freqüente. Se numa determinada amostragem o número de casais com $ 0 $ fosse igual ao número com $ 1 $ filho (e as outras freqüências fossem menores), a moda seria o conjunto $ \se{0, 1} $. Num histograma, a moda é indicada pela(s) barra(s) mais alta(s).

(d) O **médio-extremo** (*mid-range*) é a média aritmética entre o maior e o menor valor na amostra. No nosso exemplo portanto,
$$
\text{médio-extremo} = \frac{0+3}{2} = 1.5\,.
$$

**Exemplo:**

Um estudo da Oxfam de 2021 encontrou que as dez pessoas mais ricas do mundo detinham um espólio (patrimônio) combinado maior que aquele das $ 3.1 $ bilhões de pessoas mais pobres. Entre todos os adultos do mundo, a *média aritmética* da riqueza global era de $ 87\,489 $ USD; já a *mediana* era menos de um décimo desta cifra: $ 8\,360 $ USD. Claramente, pela natureza da distribuição da riqueza mundial, a mediana é muito mais apropriada do que a média aritmética como uma medida do patrimônio do adulto "médio".

📝 De maneira geral, a mediana é mais adequada que a média aritmética como medida de tendência central quando a amostragem é distorcida (alguns valores são *outliers*, ou seja, muito diferentes da média) ou quando o número de elementos na amostra é pequeno. A moda é a medida de tendência central mais adequada quando buscamos o valor ou categoria mais comum.

In [19]:
def tendencia_central(ys):
    """
    Dado um array ou lista ys, calcula e retorna (nesta ordem):
        * A média aritmética.
        * A mediana.
        * A moda.
        * O médio-extremo.
    """
    # Calculando a média aritmética:
    S = 0
    M = len(ys) - 1    # O número de medições é M + 1.
    for y in ys:
        S += y
    media_aritmetica = S / (M + 1)
    
    # Calculando a mediana:
    ys.sort()
    meio = M // 2
    if M % 2 == 0:
        mediana = (ys[meio] + ys[meio + 1]) / 2
    else:
        mediana = ys[meio]
    
    # Calculando a moda:
    freqs = dict()
    for y in ys:
        freqs[y] = freqs.get(y, 0) + 1
    freq_max = list(freqs.values())[0]
    moda = set()
    for y, freq in freqs.items():
        if freq == freq_max:
            moda.add(y)
        else:
            break
    if len(moda) == 1:
        moda = moda.pop()
    
    # Calculando o médio-extremo:
    medio_extremo = (max(ys) + min(ys)) / 2
    
    # Imprimindo e retornando o resultado:
    print(f"Média aritmetica: {media_aritmetica}")
    print(f"Mediana: {mediana}")
    print(f"Moda: {moda}")
    print(f"Médio-extremo: {medio_extremo}")
    
    return media_aritmetica, mediana, moda, medio_extremo

In [24]:
# Também podemos importar do NumPy e do SciPy:
from numpy import mean, median
from scipy.stats import mode


amostra = [0,1,2,0,0,2,0,1,1,0,0,2,1,0,0,3,0,2,0,1]

tendencia_central(amostra)

print(mean(amostra))
print(median(amostra))
print(mode(amostra))

Média aritmetica: 0.8
Mediana: 0
Moda: 0
Médio-extremo: 1.5
0.8
0.5
ModeResult(mode=array([0]), count=array([10]))
