# Ajuste de Curvas

Em geral, os dados são fornecidos em um conjunto discreto de valores entre um contínuo
de possibilidades. Entretanto, pode ser necessário fazer estimativas em pontos que estão
entre os valores discretos. Neste capitulo, descrevemos técnicas para ajustar curvas a tais
dados, com o objetivo de obter estimativas intermediárias.

Há duas abordagens gerais para o ajuste de curvas, as quais são distinguidas entre
si com base na quantidade de erro associada com os dados. Primeiro, quando os dados
exibirem um grau significativo de erro ou “ruído”, a estratégia será encontrar uma única
curva que represente a tendência geral dos dados. Como cada ponto individual pode
estar incorreto, não será feito nenhum esforço para passar a curva por todos os pontos.
Em vez disso, a curva é escolhida para seguir o padrão dos pontos considerados como
um grupo. Uma abordagem dessa natureza é chamada de **regressão por mínimos quadrados**.

Segundo, quando se souber que os dados são muito precisos, a abordagem básica
é ajustar uma curva ou uma série de curvas que passam diretamente por cada um dos
pontos. Tais dados usualmente se originam de tabelas. Exemplos são os valores da den-
sidade da água ou da capacidade térmica dos gases como função da temperatura. A es-
timativa de valores entre pontos discretos bem conhecidos é chamada **interpolação**. Vamos estudar esse assunto no proximo capitulo.


## Estatisticas Simples

Suponha que, no decorrer de um estudo em engenharia, tenham sido feitas diversas medidas de uma quantidade particular. Por exemplo, as leituras do coeficiente de expansão térmica de um aço estrutural. Tomados como valores de face, os dados fornecem uma quantidade limitada de informação — isto é, os valores variam entre um mínimo a um máximo.

Uma informação muito importante sobre os dados é a sua *media aritmetica* $(\bar y)$ que é definido como a soma dois pontos individualmente dados ($y_i$) dividida pelo numero de pontos ($n$), ou

$$
\bar y = \frac{\sum y_i}{n}
$$

onde a somatoria vai de $i=1$ ate $n$. 

A medida de dispersão mais comum para uma amostra é o *desvio-padrão* $(s_y)$ em
torno da média,

$$
s_y = \sqrt{\frac{S_t}{n-1}}
$$

onde $S_t$ é a soma total dos quadrados dos resíduos entre os pontos dados e a média, ou

$$
S_t = \sum(y_i - \bar y)^2
$$

Portanto, se as medidas individuais estiverem amplamente dispersas em torno da média,
$S_t$ (e, conseqüentemente, $s_y$ ) será grande. Se elas estiverem bem agrupadas, o desviopadrão será pequeno. A dispersão também pode ser representada pelo quadrado do
desvio-padrão, o qual é chamado de variância:

$$
s_y^2 = \frac{\sum(y_i - \bar y)^2}{n-1}
$$

Uma estatística final que tem utilidade na quantificação da dispersão dos dados é o
*coeficiente de variação* (c.v.). Essa estatística é a razão do desvio-padrão pela média.
Como tal, o c.v. fornece uma medida normalizada da dispersão. Ele é, em geral, multipli-
cado por 100, de modo que possa ser expresso como uma porcentagem:

$$
c.v. = \frac{s_y}{\bar y} 100\%
$$
Esse coeficiente é muito parecido com o erro relativo porcentual ($\varepsilon_t$) discutido anteriormente.

Vamos calcular a media e desvio-padrão para os dados abaixo 

In [60]:
import numpy as np

data = [6.395, 6.435, 6.485, 6.495, 6.505, 6.515, 6.555, 6.555,6.565, 
        6.575, 6.595, 6.605, 6.615, 6.625, 6.625, 6.635, 6.655, 6.655, 
        6.665, 6.685, 6.715, 6.715, 6.755, 6.775]

data = np.array(data)

In [94]:
n = len(data)

sums = data.sum()

media = sums/n

print(f"O numero de dados é n = {n} e a sua media é {np.round(media,3)}.")
print(media == data.mean())

O numero de dados é n = 24 e a sua media é 6.6.
True


In [3]:
S_t = sum((data - media)**2)
s_y = np.sqrt(S_t/(n-1))
print(f"O desvio-padrão é {s_y}")

O desvio-padrão é 0.09713280912593676


In [4]:
c_v = (s_y/media) * 100
print(f"o coeficiente de variação é {np.round(c_v, 2)}%")

o coeficiente de variação é 1.47%


## Distribuição Normal

Uma outra característica relacionada com a discussão presente é a distribuição de dados
— isto é, a forma como os dados estão dispersos em torno da média. Um histograma
fornece uma representação visual simples da distribuição.

Se tivéssemos um conjunto muito grande de dados, o histograma em geral poderia
ser aproximado por uma curva lisa. A curva simétrica, em forma de sino, superposta na
figura abaixo é uma de tais formas características — a distribuição normal.

In [19]:
import plotly.express as px
x = np.random.randn(1000)
px.histogram(x, nbins=80)

In [8]:
import plotly.figure_factory as ff


x = np.random.randn(1000)
hist_data = [x]
group_labels = ['distplot'] # name of the dataset

fig = ff.create_distplot(hist_data, group_labels, bin_size=.1)
fig.show()

Com mais dados temos uma curva mais lisa ainda

In [10]:
x = np.random.randn(50000)
hist_data = [x]
group_labels = ['distplot'] # name of the dataset

fig = ff.create_distplot(hist_data, group_labels, bin_size=.1)
fig.show()

Os conceitos de média, desvio-padrão, soma dos quadrados dos resíduos e distribuição normal têm todos grande relevância na prática da engenharia. Um exemplo muito simples é a sua utilização para determinar a *confiança* que pode ser associada a uma medida particular. Se uma quantidade for normalmente distribuída, o intervalo definido por $\bar y − s_y$ a $\bar y + s_y$ irá conter aproximadamente 68% do total das medidas. Analogamente, o intervalo definido por $\bar y − 2s_y$ a $\bar y + 2 s_y$ irá conter aproximadamente 95%.

Observe que, na discussão a seguir, os símbolos $\bar y$ e $s_y$ se referem à média e ao
desvio-padrão da amostra, respectivamente. Os símbolos $\mu$ e $\sigma$ se referem à média e ao
desvio-padrão da população, respectivamente.

Um intervalo estimador dá o intervalo de valores no qual é esperado que o
parâmetro esteja com uma dada probabilidade. Um intervalo bilateral pode ser descrito pela expressão

$$
P\{L \le \mu \le U\} = 1 - \alpha
$$

a qual é lida: “a probabilidade de que a média verdadeira de $y$, $\mu$, caia dentro dos limites
de $L$ a $U$ é $1 − \alpha$”. A quantidade α é chamada de nível de significância.

Se a variância verdadeira da distribuição de $y$, $\sigma^2$ , for conhecida (o que, em geral,
não é o caso), a teoria estatística afirma que a média da amostra $\bar y$ vem de uma distribuição normal com média \mu$$ e variância $\sigma^2 /n$. Na realidade não se conhece $\mu$. Portanto, não se sabe onde a curva normal está exatamente localizada em relação a $\bar y$. Para contornar esse dilema, calcula-se uma nova quantidade, a *estimativa normal padrão*

$$
\bar z = \frac{\bar y - \mu}{\sigma/\sqrt n}
$$

a qual representa a distância normalizada entre $\bar y$ e $\mu$. De acordo com a teoria estatística, essa quantidade deveria ser normalmente distribuída, com média 0 e variância 1.

Esses resultados podem ser reorganizados para fornecer

$$
L \le \mu \le U
$$

com probabilidade $1-\alpha$, onde

$$
L = \bar y - \frac{\sigma}{\sqrt n} z_{\alpha/2} , \;\;\;\;\; U = \bar y + \frac{\sigma}{\sqrt n} z_{\alpha/2}
$$

Agora, embora o precedente forneça uma estimativa para $L$ e para $U$, ela é baseada
no conhecimento da variância verdadeira σ. No nosso caso, conhecemos apenas a variância estimada $s_y$ . Uma alternativa simples seria deduzir uma versão no lugar de $\bar z$
baseada em $s_y$,

$$
t = \frac{\bar y - \mu}{s_y/\sqrt n}
$$

Mesmo quando são tomadas amostras de uma distribuição normal, essa fração não
será normalmente distribuída, particularmente quando n for pequeno. Foi descoberto por
W. S. Gossett que a variável aleatória definida chamada
*distribuição t de Student* ou, simplesmente, *distribuição $t$*. Nesse caso,

$$
L = \bar y - \frac{s_y}{\sqrt n} t_{\alpha/2, n-1} , \;\;\;\;\; U = \bar y + \frac{s_y}{\sqrt n} t_{\alpha/2, n-1}
$$
onde $t_{\alpha/2, n-1}$ é a variável aleatória padrão para a distribuição t para uma probabilidade de $\alpha/2$ e os valres são tabelados. Por exemplo, se $\alpha = 0,05$ e $n = 20$, $t_{\alpha/2, n-1}= 2,086$. Isso significa que um intervalo em torno da média de largura $\pm 2,086$ vez o desvio-padrão delimitará aproximadamente $95\%$ da distribuição.

A distribuição $t$ pode ser considerada como uma modificação da distribuição normal
que leva em conta o fato de se ter uma estimativa imperfeita do desvio-padrão. Quando $n$
for pequeno, ela tende a ser mais achatada do que a normal. Conforme $n$ se torna grande, a distribuição $t$ converge para a normal.

In [61]:
from scipy.stats import t, norm
import plotly.graph_objects as go

O valor de $t_{\alpha/2, n-1}$ para $\alpha = 0,05$ e $n = 20$ pode ser calculado usando a biblioteca `Scipy` 

In [62]:
t.isf(0.05/2, 20)

2.085963447265837

Uma comparação entre a distribuição normal e $t$.

In [65]:
df1 = 1
df2 = 4
df3 = 10
df4 = 50

x = np.linspace(-10, 10, 200)

fig = go.Figure()
fig.add_scatter(x=x, y=t.pdf(x, df1), name=f"df = {df1}")
fig.add_scatter(x=x, y=t.pdf(x, df2), name=f"df = {df2}")
fig.add_scatter(x=x, y=t.pdf(x, df3), name=f"df = {df3}")
fig.add_scatter(x=x, y=t.pdf(x, df4), name=f"df = {df4}")
fig.add_scatter(x=x, y=norm.pdf(x), name="normal dist")
fig.update_layout(title="Comparação de distribuição normal e t")


### **Exemplo:** 
Determine a média e o intervalo de confiança de $95\%$ para os dados ddo exemplo anterior. Faça três estimativas baseadas (a) nas primeiras 8, (b) nas primeiras 16 e (c) em todas as 24 medidas.

**Resolução:**

(a) A média e o desvio-padrão para os primeiros 8 pontos são

In [85]:
data = [6.395, 6.435, 6.485, 6.495, 6.505, 6.515, 6.555, 6.555,6.565, 
        6.575, 6.595, 6.605, 6.615, 6.625, 6.625, 6.635, 6.655, 6.655, 
        6.665, 6.685, 6.715, 6.715, 6.755, 6.775]

data = np.array(data)
n = 8

media = sum(data[:n])/n
print(f"A media dos primeiros {n} dados é {media}")

S_t = sum((data[:n] - media)**2)
s_y = np.sqrt(S_t/(n-1))
print(f"O desvio-padrão para os primeiros {n} dados é {s_y}")

t_dist = t.isf(0.05/2, n-1)
L = media - (s_y/np.sqrt(n)) * t_dist
U = media + (s_y/np.sqrt(n)) * t_dist

print(f"""Então, considerando os primeiros {n} medições, a probabilidade 95% a média 
verdadeira de dados é no intervalo {L} e {U}""")


A media dos primeiros 8 dados é 6.4925
O desvio-padrão para os primeiros 8 dados é 0.05522680508593635
Então, considerando os primeiros 8 medições, a probabilidade 95% a média 
verdadeira de dados é no intervalo 6.446329235524765 e 6.538670764475235


E a (b) e (c):

In [93]:
for n in [16, 24]:
    media = sum(data[:n])/n
    print(f"A media dos primeiros {n} dados é {np.round(media,3)}")

    S_t = sum((data[:n] - media)**2)
    s_y = np.sqrt(S_t/(n-1))
    print(f"O desvio-padrão para os primeiros {n} dados é {np.round(s_y,3)}")

    t_dist = t.isf(0.05/2, n-1)
    L = media - (s_y/np.sqrt(n)) * t_dist
    U = media + (s_y/np.sqrt(n)) * t_dist

    print(f"""Então, considerando os primeiros {n} medições, a probabilidade 95% a média 
    verdadeira de dados é no intervalo {np.round(L,3)} e {np.round(U,3)}""")

    print("----------------")

A media dos primeiros 16 dados é 6.549
O desvio-padrão para os primeiros 16 dados é 0.071
Então, considerando os primeiros 16 medições, a probabilidade 95% a média 
    verdadeira de dados é no intervalo 6.511 e 6.587
----------------
A media dos primeiros 24 dados é 6.6
O desvio-padrão para os primeiros 24 dados é 0.097
Então, considerando os primeiros 24 medições, a probabilidade 95% a média 
    verdadeira de dados é no intervalo 6.559 e 6.641
----------------


## Regressão por Mínimos Quadrados

Quando um erro substancial estiver associado aos dados, a interpolação polinomial é inapropriada e pode produzir resultados insatisfatórios quando usada para prever valores intermediários. Dados experimentais, em geral, são desse tipo.

Uma estratégia mais adequada para tais casos seria determinar uma função (uma curva) aproximadora que ajustasse a forma ou tendência geral dos dados sem necessariamente passar pelos pontos individuais.

Uma forma de fazê-lo é determinar a curva que minimize a discrepância entre os dados e os pontos da curva. Uma técnica para conseguir esse objetivo, chamada **regressão por mínimos quadrados**, será discutida no presente capítulo.

### Regressão Linear

O exemplo mais simples de aproximação por mínimos quadrados é ajustar uma reta a um
conjunto de pares de observação: $(x_1 , y_1 ), (x_2 , y_2 ), ... , (x_n , y_n )$. A expressão matemática
do ajuste por uma reta é

$$
y = a_0 + a_1 x + e
$$

onde $a_0$ e $a_1$ são coeficientes representando a intersecção com o eixo y e a inclinação, respectivamente, e $e$ é o erro ou resíduo entre o modelo e a observação, o qual pode ser
representado, por

$$
e = y - a_0 + a_1 x 
$$

Portanto, o erro ou resíduo é a discrepância entre o valor verdadeiro de $y$ e o valor aproximado, $a_0 + a_1 x$, previsto pela equação linear.

Tem varias estratégias para ajustar uma "melhor" reta pelos dados. A abordagem mais comum é minimizar a soma dos quadrados dos resídos entre o $y$ medido e o $y$ calculado com o modelo linear

$$
S_r = \sum^n_{i=1} e_i^2 = \sum^n_{i=1}(y_{i,\text{medido}} − y_{i,\text{modelo}} )^2 = \sum^n_{i=1}(y_i - a_0 -a_1 x_i)^2
$$

Esse critério tem diversas vantagens, incluindo o fato de que ele fornece uma única reta
para um dado conjunto de dados.

Para determinar os valores de $a_0$ e $a_1$ derivamos da equação de $S_r$ com relação a cada coeficiente:

$$
\frac{\partial S_r}{\partial a_0} = -2 \sum (y_i - a_0 - a_1 x_i) \\
\frac{\partial S_r}{\partial a_1} = -2 \sum [(y_i - a_0 - a_1 x_i)x_i]
$$

Igualando essas expressões a zero podemos resolver elas simulateamente

$$
a_1 = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 -(\sum x_i)^2} \\
a_0 = \bar y - a_1 \bar x
$$
onde $\bar y$ e $\bar x$ são as médias de $y$ e $x$, respectivamente. Usamos a relação $\sum a_0 = n a_0$ para chegar nas equações acima. 

### **Exemplo:** 
Ajuste uma reta aos valores de $x$ e $y$ nos dados abaixo

x = [1, 2, 3, 4, 5, 6, 7]

y = [0.5, 2.5, 2.0, 4.0, 3.5, 6.0, 5.5]

**Resolução:**

In [95]:
x = np.array([1, 2, 3, 4, 5, 6, 7])
y = np.array([0.5, 2.5, 2.0, 4.0, 3.5, 6.0, 5.5])


In [100]:
n = len(x)
xy = sum(x*y)
x_2 = sum(x**2)
x_bar = x.sum()/n
y_bar = y.sum()/n

In [106]:
a1 = (n*xy - x.sum()*y.sum())/(n*x_2 - x.sum()**2)

a0 = y_bar - a1*x_bar

print(f"O valor de a_0 é {a0} e a_1 é {a1}")

O valor de a_0 é 0.07142857142857117 e a_1 é 0.8392857142857143


Então a equação da reta é $y = 0.0714285 + 0.839285 x$. E pode ser construido uma função

In [107]:
f_reta = lambda x: a0 + a1 * x