# Curso: Bioestatística — Experimento de Regressão Linear
## Autores: Sandro da Silva Camargo e Fernando Cardoso

**Problema**:Avalie a relação entre nı́veis de proteı́na na ração X (%) e as produções médias de leite Y (kg) em um grupo de vacas tratadas com diferentes níveis de ração.


A base de dados está disponível [aqui](https://github.com/Sandrocamargo/biostatistics/blob/master/datasets/rl-leite.txt).

Abra este código no seu google colab [clicando aqui](https://colab.research.google.com/github/Sandrocamargo/biostatistics/blob/master/python/bioe_06_Regressao_Linear_Leite.ipynb).

In [None]:
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt

# Carga dos dados e inspeção dos dados

In [None]:
dados = pd.read_csv("https://raw.githubusercontent.com/Sandrocamargo/biostatistics/refs/heads/master/datasets/rl-leite.txt", sep="\t", decimal=",", header=0)
dados.info()
dados.head()

# Adaptação de um modelo de regressão linear

In [None]:
# --- Fit linear model ---
modelo = smf.ols("y ~ prot", data=dados).fit()

# --- Summary (t-tests, coefficients, R²) ---
print("\nResumo do modelo:")
print(modelo.summary())

**📈 Qualidade do ajuste**

|Indicador	| Valor	| Interpretação |
|:--|:--|:--|
|R² |= 0.978	| O modelo explica 97,8% da variação observada na variável resposta (y). Isso indica um excelente ajuste.	|
|R² ajustado |= 0.975	|Ajusta o R² pelo número de variáveis e observações. Como há apenas uma variável explicativa, o valor é praticamente igual — mostrando consistência.	|
|F(1,8) |= 354.1; p < 0.001	| O teste F indica que o modelo como um todo é altamente significativo — ou seja, a proteína na ração tem efeito estatisticamente significativo sobre a produção.	|

**📊 Coeficientes**
|Termo	| Coeficiente	| Interpretação	| p-valor|
|:--|:--|:--|:--|
|Intercepto | = 8.2376	| Quando a proteína é 0%, a produção esperada é de aproximadamente 8,24 unidades (por exemplo, kg de leite).	| p < 0.001	|
|prot |= 0.3170	| Para cada aumento de 1% na proteína da ração, a produção aumenta em 0,317 unidades. O coeficiente é altamente significativo | (p < 0.001).|

✅ Isso mostra uma relação linear positiva e forte entre o teor de proteína e a produção.

**⚙️ Diagnóstico dos resíduos**
|Teste	| Resultado	| Interpretação |
|:--|:--|:--|
|Omnibus |= 0.851; Prob = 0.654	| Não há evidência de desvio da normalidade dos resíduos.	|
|Jarque-Bera |= 0.218; Prob = 0.897	| Também indica normalidade dos resíduos.
Durbin-Watson |= 1.741	|Sem autocorrelação significativa nos resíduos (valor próximo de 2).	|
|Cond. No. | = 68.7	| Não há problema de multicolinearidade (esperado em regressão simples).	|

**🧩 Conclusão**

O modelo ajustado é estatisticamente muito significativo e bem comportado, indicando que:

A produção aumenta linearmente com o aumento da proteína na ração.

O modelo explica quase toda a variação observada (R² ≈ 0,98).

Os resíduos são normais e independentes.


**👉 Equação ajustada:**

$\hat{y} = 8,2376 + 0,3170 × prot $

# Análise de variância

In [None]:
# --- ANOVA table ---
anova_table = sm.stats.anova_lm(modelo, typ=2)
print("\nANOVA do modelo:")
print(anova_table)

**🔍 O que cada linha significa**
1. Linha “prot”

*  Representa a variação explicada pelo modelo, ou seja, quanto da variação em y é explicada pela variável prot (teor de proteína).

*  Soma dos quadrados (33.155): é a parcela de variação explicada pela regressão.

*  F = 354.14: é o teste F global da regressão, que compara a variância explicada pelo modelo com a variância residual.

* p-valor = 6.57 × 10⁻⁸: extremamente pequeno (menor que 0.001).

* **Conclusão**: o efeito da proteína na ração sobre a produção é altamente significativo.

2. Linha “Residual”

*  Representa a variação não explicada pelo modelo, o “erro” ou ruído nos dados.
*  Soma dos quadrados (0.749): pequena, o que reforça que o modelo explica quase toda a variação.

**📈 Interpretação geral**

O valor de F = 354.14 e o p < 0.0001 indicam que o modelo é estatisticamente significativo.

Em outras palavras:

Existe evidência muito forte de que o teor de proteína (prot) influencia significativamente a produção (y).

**💡 Resumo**

O teste ANOVA mostra que:

A variação na produção é explicada quase totalmente pela variação na proteína da ração, com significância estatística altíssima (p < 0.001).

# Análise gráfica

In [None]:
# --- Scatterplot with regression line ---
plt.figure(figsize=(8, 6))
plt.scatter(dados["prot"], dados["y"], color="blue", label="Observações")

# Regression line
x_vals = pd.Series(sorted(dados["prot"]))
#y_vals = modelo.params[0] + modelo.params[1] * x_vals
y_vals = modelo.params.iloc[0] + modelo.params.iloc[1] * x_vals
plt.plot(x_vals, y_vals, color="red", label="Ajuste linear")

# Axis limits similar to R version
plt.xlim(dados["prot"].min() * 0.95, dados["prot"].max() * 1.05)
plt.ylim(dados["y"].min() * 0.95, dados["y"].max() * 1.05)

# Labels
plt.xlabel("Proteína na Ração (%)")
plt.ylabel("Produção de Leite (kg)")

# Equation and R² in legend
#eq_text = f"y = {modelo.params[0]:.4f} + {modelo.params[1]:.4f}x\nR² = {modelo.rsquared_adj:.4f}"
eq_text = f"y = {modelo.params.iloc[0]:.4f} + {modelo.params.iloc[1]:.4f}x\nR² = {modelo.rsquared_adj:.4f}"
plt.legend([eq_text], loc="upper left")

# --- Save or show ---
plt.savefig("rl_leite_regressao.png", dpi=300, bbox_inches="tight")
plt.show()