# Curso: Bioestat√≠stica ‚Äî Experimento de Regress√£o Linear
## Autores: Sandro da Silva Camargo e Fernando Cardoso

**Problema**:Avalie a rela√ß√£o entre nƒ±ÃÅveis de proteƒ±ÃÅna na ra√ß√£o X (%) e as produ√ß√µes m√©dias de leite Y (kg) em um grupo de vacas tratadas com diferentes n√≠veis de ra√ß√£o.


A base de dados est√° dispon√≠vel [aqui](https://github.com/Sandrocamargo/biostatistics/blob/master/datasets/rl-leite.txt).

Abra este c√≥digo no seu google colab [clicando aqui](https://colab.research.google.com/github/Sandrocamargo/biostatistics/blob/master/python/bioe_06_Regressao_Linear_Leite.ipynb).

In [None]:
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt

# Carga dos dados e inspe√ß√£o dos dados

In [None]:
dados = pd.read_csv("https://raw.githubusercontent.com/Sandrocamargo/biostatistics/refs/heads/master/datasets/rl-leite.txt", sep="\t", decimal=",", header=0)
dados.info()
dados.head()

# Adapta√ß√£o de um modelo de regress√£o linear

In [None]:
# --- Fit linear model ---
modelo = smf.ols("y ~ prot", data=dados).fit()

# --- Summary (t-tests, coefficients, R¬≤) ---
print("\nResumo do modelo:")
print(modelo.summary())

**üìà Qualidade do ajuste**

|Indicador	| Valor	| Interpreta√ß√£o |
|:--|:--|:--|
|R¬≤ |= 0.978	| O modelo explica 97,8% da varia√ß√£o observada na vari√°vel resposta (y). Isso indica um excelente ajuste.	|
|R¬≤ ajustado |= 0.975	|Ajusta o R¬≤ pelo n√∫mero de vari√°veis e observa√ß√µes. Como h√° apenas uma vari√°vel explicativa, o valor √© praticamente igual ‚Äî mostrando consist√™ncia.	|
|F(1,8) |= 354.1; p < 0.001	| O teste F indica que o modelo como um todo √© altamente significativo ‚Äî ou seja, a prote√≠na na ra√ß√£o tem efeito estatisticamente significativo sobre a produ√ß√£o.	|

**üìä Coeficientes**
|Termo	| Coeficiente	| Interpreta√ß√£o	| p-valor|
|:--|:--|:--|:--|
|Intercepto | = 8.2376	| Quando a prote√≠na √© 0%, a produ√ß√£o esperada √© de aproximadamente 8,24 unidades (por exemplo, kg de leite).	| p < 0.001	|
|prot |= 0.3170	| Para cada aumento de 1% na prote√≠na da ra√ß√£o, a produ√ß√£o aumenta em 0,317 unidades. O coeficiente √© altamente significativo | (p < 0.001).|

‚úÖ Isso mostra uma rela√ß√£o linear positiva e forte entre o teor de prote√≠na e a produ√ß√£o.

**‚öôÔ∏è Diagn√≥stico dos res√≠duos**
|Teste	| Resultado	| Interpreta√ß√£o |
|:--|:--|:--|
|Omnibus |= 0.851; Prob = 0.654	| N√£o h√° evid√™ncia de desvio da normalidade dos res√≠duos.	|
|Jarque-Bera |= 0.218; Prob = 0.897	| Tamb√©m indica normalidade dos res√≠duos.
Durbin-Watson |= 1.741	|Sem autocorrela√ß√£o significativa nos res√≠duos (valor pr√≥ximo de 2).	|
|Cond. No. | = 68.7	| N√£o h√° problema de multicolinearidade (esperado em regress√£o simples).	|

**üß© Conclus√£o**

O modelo ajustado √© estatisticamente muito significativo e bem comportado, indicando que:

A produ√ß√£o aumenta linearmente com o aumento da prote√≠na na ra√ß√£o.

O modelo explica quase toda a varia√ß√£o observada (R¬≤ ‚âà 0,98).

Os res√≠duos s√£o normais e independentes.


**üëâ Equa√ß√£o ajustada:**

$\hat{y} = 8,2376 + 0,3170 √ó prot $

# An√°lise de vari√¢ncia

In [None]:
# --- ANOVA table ---
anova_table = sm.stats.anova_lm(modelo, typ=2)
print("\nANOVA do modelo:")
print(anova_table)

**üîç O que cada linha significa**
1. Linha ‚Äúprot‚Äù

*  Representa a varia√ß√£o explicada pelo modelo, ou seja, quanto da varia√ß√£o em y √© explicada pela vari√°vel prot (teor de prote√≠na).

*  Soma dos quadrados (33.155): √© a parcela de varia√ß√£o explicada pela regress√£o.

*  F = 354.14: √© o teste F global da regress√£o, que compara a vari√¢ncia explicada pelo modelo com a vari√¢ncia residual.

* p-valor = 6.57 √ó 10‚Åª‚Å∏: extremamente pequeno (menor que 0.001).

* **Conclus√£o**: o efeito da prote√≠na na ra√ß√£o sobre a produ√ß√£o √© altamente significativo.

2. Linha ‚ÄúResidual‚Äù

*  Representa a varia√ß√£o n√£o explicada pelo modelo, o ‚Äúerro‚Äù ou ru√≠do nos dados.
*  Soma dos quadrados (0.749): pequena, o que refor√ßa que o modelo explica quase toda a varia√ß√£o.

**üìà Interpreta√ß√£o geral**

O valor de F = 354.14 e o p < 0.0001 indicam que o modelo √© estatisticamente significativo.

Em outras palavras:

Existe evid√™ncia muito forte de que o teor de prote√≠na (prot) influencia significativamente a produ√ß√£o (y).

**üí° Resumo**

O teste ANOVA mostra que:

A varia√ß√£o na produ√ß√£o √© explicada quase totalmente pela varia√ß√£o na prote√≠na da ra√ß√£o, com signific√¢ncia estat√≠stica alt√≠ssima (p < 0.001).

# An√°lise gr√°fica

In [None]:
# --- Scatterplot with regression line ---
plt.figure(figsize=(8, 6))
plt.scatter(dados["prot"], dados["y"], color="blue", label="Observa√ß√µes")

# Regression line
x_vals = pd.Series(sorted(dados["prot"]))
#y_vals = modelo.params[0] + modelo.params[1] * x_vals
y_vals = modelo.params.iloc[0] + modelo.params.iloc[1] * x_vals
plt.plot(x_vals, y_vals, color="red", label="Ajuste linear")

# Axis limits similar to R version
plt.xlim(dados["prot"].min() * 0.95, dados["prot"].max() * 1.05)
plt.ylim(dados["y"].min() * 0.95, dados["y"].max() * 1.05)

# Labels
plt.xlabel("Prote√≠na na Ra√ß√£o (%)")
plt.ylabel("Produ√ß√£o de Leite (kg)")

# Equation and R¬≤ in legend
#eq_text = f"y = {modelo.params[0]:.4f} + {modelo.params[1]:.4f}x\nR¬≤ = {modelo.rsquared_adj:.4f}"
eq_text = f"y = {modelo.params.iloc[0]:.4f} + {modelo.params.iloc[1]:.4f}x\nR¬≤ = {modelo.rsquared_adj:.4f}"
plt.legend([eq_text], loc="upper left")

# --- Save or show ---
plt.savefig("rl_leite_regressao.png", dpi=300, bbox_inches="tight")
plt.show()