# Avaliação 1

## 1. Considere o modelo de regressão linear simples com a variável independente x centrada:

$$
y_{i} = \beta_{0} + \beta_{1}(x_{i} − \bar{x}) + \epsilon_{i} \quad , i = 1, . . . , n.
$$

em que $\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i}$ e $\epsilon_{i} \tt N(0, \sigma^{2})$

### a. Qual a interpretação dos parâmetros β0 e β1? Justifique

$\beta_{0}$ é deslocado para o ponto das médias $x_{1} = \bar{x_{1}}, x_{2} = \bar{x_{2}} ... x_{k} = \bar{x_{k}}$. Já $\beta_{1}$ deve ser interpretado levando-se em consideração os valores escalonados das variáveis originais.

### b. Derive os estimadores de mínimos quadrados de β0 e β1. Não é necessário provar que a solução encontrada corresponde a um ponto de mínimo.



### c. Qual a relação matemática entre os estimadores de β0 e β1 encontrados em relação aos correspondentes estimadores do modelo de regressão linear simples usual, definido por $y_{i} = \beta_{0} + \beta_{1}x_{i} + \epsilon_{i}$?



### d. Discuta em que tipos de situação pode ser preferível usar o modelo centrado ao invés do modelo usual.

Usar o modelo centrado ao invés do modelo usual é preferível quando há variáveis explicativas com valores muito altos, que podem distorcer o modelo. Essa diferença de valores pode ocorrer, por exemplo, devido a unidades de medida.

## 2. A figura seguinte representa os resultados de $n = 100$ realizações de uma reação química. O objetivo é ajustar um modelo de regressão capaz de explicar a velocidade da reação ($y$) em função da quantidade utilizada de certo reagente ($x$).


### a) O modelo especificado configura um modelo de regressão linear? Justifique.

Sim, pois é possível escrever o modelo usando operadores como $Y = \beta_{0} + \beta_{1}x + \epsilon_{i}$ com $\epsilon_{i} \tt N(0, \sigma^{2})$

### b )Apresente a expressão do modelo ajustado. Qual a estimativa da velocidade média de reação para quantidade de reagente igual a 1.5? Considere a saída do modelo seguinte

```{r}
ajuste <- lm(y ~ I(1/x))
```


|         | Estimate | Std Error | t-Statistics | p-value|
|---|---|---|---|---|
|Intecept | 10.061   | 0.055     | 182.059      | < 0.001|
|I(1/x )  | -2.088   | 0.066     | -31.503      | < 0.001|

In [6]:
from IPython.display import display, HTML, Latex

beta_0 = 10.061
beta_1 = -2.088
x = 1.5

y_estimado = beta_0 + beta_1/x

display(Latex(r'\hat{y} = ' + str(y_estimado)))

<IPython.core.display.Latex object>

### c) Complete o quadro de análise de variância e forneça uma estimativa para $\sigma^{2}$

| Fonte de variação | Graus de liberdade | Soma de Quadrados | Quadrado Médio | F |
|---|---|---|---|---|
| Regressão| | 74.868 | | |
| Residual | |        | | |
| Total    | | 82.412 | | |

In [7]:
import pandas as pd
import scipy.stats as stats

n = 100
qm_regressao = 74.868
qm_residual = 82.412

# graus de liberdade
gl_regressao = 1
gl_residual = n - 2
gl_total = n - 1

# soma de quadrados
sq_regressao = qm_regressao * 1
sq_residual = qm_residual * (n - 2)
sq_total = sq_regressao + sq_residual

# estatística F
estatistica_f = qm_regressao/qm_residual

variancia = sq_total / (n - 1)

anova = pd.DataFrame({
    'Fonte de Variação': ['Regressão', 'Residual', 'Total'],
    'GL': [gl_regressao, gl_residual, gl_total],
    'SQ': [sq_regressao, sq_residual, sq_total],
    'QM': [qm_regressao, qm_residual, ''],
    'F': [estatistica_f, '', '']
})

display(HTML(anova.to_html(index=False)))


Unnamed: 0,Fonte de Variação,GL,SQ,QM,F
0,Regressão,1,74.868,74.868,0.90846
1,Residual,98,8076.376,82.412,
2,Total,99,8151.244,,


<IPython.core.display.Latex object>

In [11]:
display(Latex(r'\hat_{\sigma^{2}} = ' + str(variancia)))

<IPython.core.display.Latex object>

### d) Descreve as hipóteses nula e alternativa da ANOVA e conclua o teste. Interprete o resultado no contexto do exercício.

$$
H0: \beta_{1} = 0 \\
H1: \beta_{1} \ne 0
$$

In [8]:
p_valor = 1 - stats.f.cdf(estatistica_f, gl_regressao, gl_residual)
display(Latex(r'\text{p-valor} = ' + f'{p_valor:.3f}'))

<IPython.core.display.Latex object>

p-Valor encontrado é menor que o nível de significancia usual (5%), portanto, há forte evidência contra a hipótese nula, assim, rejeita-se $H0$ e aceita-se $H1$.

### e) Calcule e interprete o valor do coeficiente de determinação (R2).

R² é o percentual da variabilidade da resposta do modelo:

In [9]:
r_quadrado = sq_regressao / sq_total

display(Latex(r'R^{2} = ' + f'{r_quadrado:.4f}'))

<IPython.core.display.Latex object>

## 3. A qualidade do vinho Pinot Noir é supostamente relacionada às seguintes propriedades sensoriais: clareza, aroma, consistência, sabor e textura. Trinta e oito marcas de vinho Pinot Noir foram avaliadas. As seis primeiras linhas da base de dados resultante são apresentadas na sequência.


## 4. Crie uma situação em que um modelo de regressão linear múltipla seja adequado. Explique qual é a variável resposta e as covariáveis (use duas covariáveis).

### a) Descreva e explique quais suposições você deve fazer para que o modelo de regressão linear múltipla seja adequado. E discuta como elas se aplicam no contexto que você criou.

Modelo para cálculo de peso em Kg ($y$) em função de altura em metros ($x_{1}$) e quantas Kcal são ingeridas por dia ($x_{2}$).

É esperado que tanto a altura quanto o total de Kcal tenham relação direta com o peso

### b) Escreva a equação do modelo e interprete os coeficientes de regressão no contexto do problema que você criou.

$$
\beta_{0} = 20 \text{: Valor base para o peso, mas não útil na realidade (altura e Kcal = 0)} \\
\beta_{1} = 20 \text{: Parâmetro multiplicador para a altura)} \\
\beta_{2} = 0,002 \text{: Parâmetro multiplicador para a quantidade de calorias} \\
$$

In [21]:
beta_0 = 20
beta_1 = 30
beta_2 = 0.002

### c)  Simule um conjunto de dados de tamanho 100. Lembre-se para isto você deve especificar os coeficientes de regressão e o valor das covariáveis.

In [32]:
n = 100

# simulando valores de altura e calorias consumidas
x1 = stats.norm.rvs(1.7, .3, size= n)
x2 = stats.norm.rvs(2000, 500, size= n)

#simulando variação dos estimadores dos betas 1 e 2
beta_1_simulados = stats.norm.rvs(beta_1, beta_1/10, size= n)
beta_2_simulados = stats.norm.rvs(beta_2, beta_2/10, size= n)

y = beta_0 + beta_1_simulados * x1 + beta_2_simulados * x2

dados = pd.DataFrame({'x1': x1,'x2': x2,'y': y})

dados



Unnamed: 0,x1,x2,y
0,1.430930,1718.812848,68.630132
1,1.617543,1772.953419,71.120976
2,1.637624,2339.465229,70.570856
3,1.497036,1152.315339,62.967402
4,1.269466,1743.392937,55.673016
...,...,...,...
95,1.669231,1798.192886,69.298462
96,1.530129,1457.719274,69.280081
97,2.071805,1832.758768,92.137092
98,1.493699,1709.443810,71.881878


### d. Estime os parâmetros do modelo, seus erros padrões e faça teste de hipóteses adequados. Explique quais são os testes e dê a sua conclusão com 95% de confiança. Você pode usar as funções residentes do R para estas tarefas.

In [34]:
import numpy as np
import statsmodels.api as sm

Y = dados.y

BETA_0 = np.ones(n)
X = np.vstack((BETA_0, dados[['x1', 'x2']].values.T)).T

fit = sm.OLS(Y, X).fit()
fit.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.742
Model:,OLS,Adj. R-squared:,0.736
Method:,Least Squares,F-statistic:,139.3
Date:,"Fri, 05 Nov 2021",Prob (F-statistic):,3.03e-29
Time:,21:06:02,Log-Likelihood:,-301.17
No. Observations:,100,AIC:,608.3
Df Residuals:,97,BIC:,616.2
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,24.3829,3.476,7.015,0.000,17.484,31.282
x1,29.2292,1.766,16.551,0.000,25.724,32.734
x2,-0.0001,0.001,-0.108,0.915,-0.002,0.002

0,1,2,3
Omnibus:,3.665,Durbin-Watson:,1.909
Prob(Omnibus):,0.16,Jarque-Bera (JB):,2.988
Skew:,0.37,Prob(JB):,0.225
Kurtosis:,3.413,Cond. No.,15100.0
