# Exercício 1

Uma boa parte do trabalho das disciplinas de Física Experimental é o de calcular ajustes de reta para um dado conjunto de dados e uma teoria.
Considere um conjunto de dados $\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ para o qual a teoria diz que a relação entre $x$ e $y$ é dada por:

$$
y = a + bx
$$

Sabendo que as medidas estão sujeitas a várias formas de imprecisão e que a teoria não conta com todas tais contribuições, consideremos o modelo pára os dados

$$
y_i = a + bx_i + \xi_i
$$

onde $\xi_i$ são valores de ruído que assumimos ser Gausiano.

Os valores de $a$ e $b$ que melhor descrevem essa teoria devem ser aqueles que maximizam a verossimilhança de obsevar um certo valor de ruído, ou seja, minimizam $\sum_i\xi_i^2 = \sum_i(y_i - a - bx_i)^2$.

A solução desse problema é dada por:
$$
\hat{a} = \bar{y} - \hat{b}\bar{x}\\
\hat{b} = \frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sum_i(x_i-\bar{x})^2}
$$

onde
$$
\bar{x} = \frac{1}{n}\sum_i x_i\\
\bar{y} = \frac{1}{n}\sum_i y_i
$$
são as médias amostrais de $x$ e $y$

Com seu conhecimento de Python, implemente funções para calcular a os coeficientes de ajuste da reta e aplique-os para o seguinte conjunto de dados:

In [1]:
from numpy.random import randn, seed
seed(42)
a_real, b_real = 1.75, 3.5
amostra = {x: y for (x, y) in zip(range(-10,11), [a_real + b_real*x_i + randn()
                                                  for x_i in range(-10,11)])}
print("""
+--------+--------+
|    x   |    y   |
+--------+--------+
""" + "\n".join([f"| {float(x):6.3} | {y:6.3} |" for (x,y) in amostra.items()]) +\
"""
+--------+--------+""")


+--------+--------+
|    x   |    y   |
+--------+--------+
|  -10.0 |  -32.8 |
|   -9.0 |  -29.9 |
|   -8.0 |  -25.6 |
|   -7.0 |  -21.2 |
|   -6.0 |  -19.5 |
|   -5.0 |  -16.0 |
|   -4.0 |  -10.7 |
|   -3.0 |  -7.98 |
|   -2.0 |  -5.72 |
|   -1.0 |  -1.21 |
|    0.0 |   1.29 |
|    1.0 |   4.78 |
|    2.0 |   8.99 |
|    3.0 |   10.3 |
|    4.0 |   14.0 |
|    5.0 |   18.7 |
|    6.0 |   21.7 |
|    7.0 |   26.6 |
|    8.0 |   28.8 |
|    9.0 |   31.8 |
|   10.0 |   38.2 |
+--------+--------+


No dicionário chamado `amostra`, as chaves são os medidas de $x$ e os valores são as de $y$. 

A linha 

```python
from numpy.random import randn, seed
```

está importando uma função de uma biblioteca para gerar números aleatórios com distribuição normal e uma função para definir o estado inicial do gerador de números (pseudo)aleatórios, para que todos tenham os mesmos dados.

Note que, como os dados são fictícios, sabemos exatamente os valores dos coeficientes linear e angular definidos nas variáveis `a_real` e `b_real`.

Para entender a função `zip`, veja o exemplo a seguir:

In [2]:
tupla1 = (1,2,3,4,5)
tupla2 = (10,20,30,40,50)
zip12 = list(zip(tupla1, tupla2))
unzip1, unzip2 = zip(*zip12)
print(f"""
tupla1 = {tupla1}
tupla2 = {tupla2}
zip12 = {zip12}
unzip1 = {unzip1} == tupla1
unzip2 = {unzip2} == tupla2
""")


tupla1 = (1, 2, 3, 4, 5)
tupla2 = (10, 20, 30, 40, 50)
zip12 = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
unzip1 = (1, 2, 3, 4, 5) == tupla1
unzip2 = (10, 20, 30, 40, 50) == tupla2



Note que, embora a função `zip` seja muito útil, ela não essencial nem para construir esses dados, nem para a solução do problema.
O que vocês precisam saber para resolver esse problema:
  - como acessar as chaves e os valores de um dicionário
  - criar novas listas com valores calculados usando o modelo e as fórmulas para o coeficiente
  - como imprimir os resultados

## Solução

In [3]:
x,y = list(amostra.keys()), list(amostra.values())
x, y

([-10, -9, -8, -7, -6, -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
 [-32.75328584698877,
  -29.888264301171183,
  -25.60231146189931,
  -21.226970143591974,
  -19.484153374723334,
  -15.98413695694918,
  -10.670787184492609,
  -7.9825652708470916,
  -5.719474385934952,
  -1.2074399564140355,
  1.2865823071875377,
  4.7842702464297435,
  8.991962271566035,
  10.336719755342202,
  14.025082167486968,
  18.687712470759028,
  21.737168879665575,
  26.564247332595272,
  28.84197592447879,
  31.83769629866471,
  38.215648768921554])

In [4]:
x_barra = sum(x)/len(x)
y_barra = sum(y)/len(y)
x_barra, y_barra

(0.0, 1.6566513114326167)

In [5]:
numerador = 0
denominador = 0
for i in range(len(x)):
    numerador += (x[i] - x_barra)*(y[i] - y_barra)
    denominador += (x[i] - x_barra)**2
b_chapeu = numerador/denominador
b_chapeu

3.435271311235283

In [6]:
a_chapeu = y_barra - x_barra*b_chapeu
a_chapeu

1.6566513114326167

In [7]:
a_real, a_chapeu

(1.75, 1.6566513114326167)

In [8]:
b_real, b_chapeu

(3.5, 3.435271311235283)

In [9]:
def coeficientes_lineares(dados):
    # dados é um dicionário
    numerador = 0
    denominador = 0
    x_barra, y_barra = sum(dados.keys())/len(dados.keys()), sum(dados.values())/len(dados.values())
    for (xi,yi) in dados.items():
        numerador += (xi - x_barra)*(yi - y_barra)
        denominador += (xi - x_barra)**2
    b_chapeu = numerador/denominador
    a_chapeu = y_barra - x_barra*b_chapeu
    return a_chapeu, b_chapeu

In [11]:
%timeit coeficientes_lineares(amostra)

8.38 µs ± 166 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [37]:
import numpy as np

In [41]:
x = np.array(list(amostra.keys()))
y = np.array(list(amostra.values()))

In [47]:
((x - x.mean())*(y - y.mean())).sum()/(((x - x.mean())*(x - x.mean()))).sum()

3.435271311235283