# Curso: Bioestat√≠stica ‚Äî Experimento de Regress√£o Linear
## Autores: Sandro da Silva Camargo e Fernando Cardoso

**Problema**:Um experimento foi realizado para testar o efeito
da aduba√ß√£o nitrogenada (0, 100, 200 e 300 kg/ha de Adubo
Nitrogenado) na produ√ß√£o de milho (kg/parcela).


A base de dados est√° dispon√≠vel [aqui](https://github.com/Sandrocamargo/biostatistics/blob/master/datasets/rl-milho.txt).

Abra este c√≥digo no seu google colab [clicando aqui](https://colab.research.google.com/github/Sandrocamargo/biostatistics/blob/master/python/bioe_06_Regressao_Linear_Milho.ipynb).

In [None]:
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt

# Carga e inspe√ß√£o dos dados

In [None]:
# === 1. Leitura dos dados ===
dados = pd.read_csv("https://raw.githubusercontent.com/Sandrocamargo/biostatistics/refs/heads/master/datasets/rl-milho.txt", sep=r"\s+", header=0)
dados.info()
dados.head()

# Adapta√ß√£o de um modelo de regress√£o linear

In [None]:
dados["trat"] = dados["dose"].astype("category")

modelo = smf.ols("prod ~ dose", data=dados).fit()
print("=== Modelo de regress√£o simples ===")
print(modelo.summary())

**üìä Resumo do modelo**

Equa√ß√£o estimada:
$\hat{prod} = 49.975 + 0.0572 √ó dose$
	‚Äã
1. Coeficientes e signific√¢ncia
|Par√¢metro	|Estimativa	|Erro padr√£o	|t|p-valor|Interpreta√ß√£o|
|:--|:--|:--|:--|:--|:--
|Intercepto |49.975	| 2.282	|21.90|	< 0.001	|Quando a dose √© 0, a produ√ß√£o m√©dia esperada √© cerca de 49.98 unidades.|
|Dose |	0.0572	| 0.012	|4.69|	< 0.001	|A cada aumento de 1 unidade na dose, a produ√ß√£o aumenta em m√©dia 0.0572 unidades, de forma estatisticamente significativa.|

**O p-valor < 0.001 indica que a vari√°vel dose tem efeito altamente significativo sobre a produ√ß√£o (prod).**

2. Qualidade do ajuste
|Indicador|Valor|Interpreta√ß√£o|
|:--|:--|:--|
|R¬≤ |= 0.612	|O modelo explica 61,2% da varia√ß√£o total da produ√ß√£o.	|
|R¬≤ ajustado |= 0.584	|Considerando o n√∫mero de observa√ß√µes, o modelo ainda explica 58,4% da varia√ß√£o ‚Äî um ajuste moderado a bom.	|
|F(1,14) |= 22.04; p = 0.000345|	O modelo como um todo √© estatisticamente significativo, ou seja, h√° rela√ß√£o linear entre dose e produ√ß√£o.	|

**üí° Em termos pr√°ticos: mais da metade da varia√ß√£o na produ√ß√£o √© explicada apenas pela dose de adubo.**

3. Diagn√≥stico dos res√≠duos
|Estat√≠stica|Valor|Interpreta√ß√£o|
|:--|:--|:--|
|Durbin-Watson |= 2.62	|Indica aus√™ncia de autocorrela√ß√£o nos res√≠duos (valor pr√≥ximo de 2 √© ideal).	|
|Omnibus |= 2.27, JB = 0.58, p = 0.75	|Os res√≠duos seguem distribui√ß√£o normal, o que valida os testes t e F.	|
|Cond. No. |= 313|	N√£o h√° sinais relevantes de multicolinearidade, pois √© um modelo simples.

**üß© Conclus√£o geral**
* O modelo √© estatisticamente significativo (p < 0.001).
* A vari√°vel dose exerce um efeito positivo e relevante sobre a produ√ß√£o.
* O ajuste √© razoavelmente bom (R¬≤ ‚âà 0.61).
* Os res√≠duos atendem aos pressupostos de normalidade e independ√™ncia.

**üß† Interpreta√ß√£o**

* √Ä medida que a dose de adubo aumenta, a produ√ß√£o tamb√©m aumenta de forma significativa.

* O modelo explica cerca de 60% da varia√ß√£o na produ√ß√£o, e os testes estat√≠sticos indicam que a rela√ß√£o √© consistente e confi√°vel.

# An√°lise de vari√¢ncia

In [None]:
print("\n=== ANOVA usual ===")
anova_geral = sm.stats.anova_lm(modelo, typ=2)
print(anova_geral)

1. Teste F global

Hip√≥teses:

*  H‚ÇÄ: o coeficiente da vari√°vel dose √© igual a zero (sem efeito sobre prod);

*  H‚ÇÅ: o coeficiente da vari√°vel dose √© diferente de zero.
*  F = 22.04 e p = 0.000345 ‚üπ rejeita-se H‚ÇÄ.

**Portanto, h√° evid√™ncia altamente significativa (p < 0.001) de que a dose influencia a produ√ß√£o.**

2. Import√¢ncia da SQ

Soma dos quadrados de regress√£o (SQTrat ou SQDose) = 655.51
‚Üí representa a varia√ß√£o explicada pela rela√ß√£o entre dose e prod.

Soma dos quadrados do res√≠duo (SQRes) = 416.43
‚Üí √© a varia√ß√£o n√£o explicada (erro).

**üí° O fato de a SQDose ser maior que a SQRes indica que a maior parte da varia√ß√£o total da produ√ß√£o √© explicada pela dose.**

3. R¬≤ impl√≠cito

Podemos obter o R¬≤ diretamente da ANOVA:

$ùëÖ^2 = \frac{SQ_{Regressao}}{SQ_{Total}} = \frac{655.51}{655.51+416.43} = 0.6119$‚Äã

* O mesmo valor encontrado no modelo de regress√£o: R¬≤ = 0.612.

**‚úÖ Conclus√£o**
*  O modelo √© estatisticamente significativo (F = 22.04; p < 0.001).
*  A vari√°vel dose explica cerca de 61% da varia√ß√£o na produ√ß√£o.

**Assim, h√° uma rela√ß√£o linear forte e positiva entre a dose de adubo e a produ√ß√£o.**

In [None]:
# === 3. Decomposi√ß√£o da SQTratamento ===
# SQTratamento = SQRegress√£o + SQFalta de Ajuste
desd_modelo = smf.ols("prod ~ dose + trat", data=dados).fit()
anova_desd = sm.stats.anova_lm(desd_modelo, typ=2)
print("\n=== ANOVA com decomposi√ß√£o (dose + trat) ===")
print(anova_desd)

# Coeficiente de determina√ß√£o (r¬≤)
SQReg = anova_desd.loc["dose", "sum_sq"]
SQTrat = SQReg + anova_desd.loc["trat", "sum_sq"]
r2 = SQReg / SQTrat
print(f"\nCoeficiente de Determina√ß√£o (r¬≤) = {r2:.3f}")

Este resultado representa uma ANOVA com decomposi√ß√£o, usada quando h√° repeti√ß√£o para cada dose de adubo. Ela separa o efeito total de ‚Äútratamentos‚Äù (as doses) em duas partes:
*  varia√ß√£o explicada pela regress√£o (dose), e
*  varia√ß√£o de falta de ajuste (trat ‚Äì dose).


üîπ 1. Interpreta√ß√£o geral

*  O modelo testa se a produ√ß√£o de milho varia com a dose de adubo e se essa varia√ß√£o √© adequadamente explicada por um modelo linear.
*  O efeito de trat (todas as doses) √© significativo (p = 0.007): h√° diferen√ßas entre as m√©dias das doses.
*  O efeito de dose (parte linear) tamb√©m √© altamente significativo (p = 0.0016): h√° rela√ß√£o linear clara entre dose e produ√ß√£o.

üîπ 2. Decomposi√ß√£o da varia√ß√£o

*  A soma de quadrados total dos tratamentos foi desdobrada assim:

$SQ_{Trat} = SQ_{Regressao} + SQ_{Falta de Ajuste}$

onde:

* $SQ_{Trat}$ = 666.69

* $SQ_{Regress√£o (dose)}$ = 551.12 ‚Üí parte explicada pela rela√ß√£o linear

* $SQ_{Falta de ajuste}$ = 666.69 ‚àí 551.12 = 115.57

‚û°Ô∏è A falta de ajuste (diferen√ßa entre o modelo linear e as m√©dias observadas) n√£o √© significativa, indicando que o modelo linear √© adequado para descrever a rela√ß√£o entre dose e produ√ß√£o.

üîπ 3. Coeficiente de determina√ß√£o (r¬≤ = 0.453)

*  O r¬≤ mostra que aproximadamente 45,3% da varia√ß√£o total da produ√ß√£o √© explicada pela regress√£o linear com a dose.
*  Embora significativo, isso indica que h√° variabilidade residual consider√°vel, possivelmente devido a outros fatores experimentais n√£o inclu√≠dos no modelo.

‚úÖ Conclus√£o

* H√° diferen√ßas significativas entre as doses (p = 0.007).
* O efeito linear da dose √© altamente significativo (p = 0.0016).
* O modelo linear explica cerca de 45% da varia√ß√£o da produ√ß√£o, sendo estatisticamente adequado (sem falta de ajuste relevante).

Assim, pode-se concluir que aumentos na dose de adubo est√£o associados a aumentos proporcionais na produ√ß√£o, dentro da faixa estudada.

# An√°lise gr√°fica

In [None]:
# === 4. Ajuste final e gr√°fico ===
modelo_ajustado = modelo  # mesmo modelo linear simples

b0, b1 = modelo_ajustado.params
print(f"\nModelo ajustado: y = {b0:.5f} + {b1:.5f}x")

# Gera√ß√£o do gr√°fico
plt.figure(figsize=(8, 6))
plt.scatter(dados["dose"], dados["prod"], color="blue", label="Observa√ß√µes")

# linha de regress√£o
x_vals = pd.Series(sorted(dados["dose"]))
y_vals = b0 + b1 * x_vals
plt.plot(x_vals, y_vals, color="red", label="Ajuste linear")

plt.xlabel("Dose adubo nitrogenado (kg/ha)")
plt.ylabel("Produ√ß√£o de milho (kg/parcela)")
plt.title(f"R¬≤ ajustado = {modelo_ajustado.rsquared_adj:.4f}")
plt.legend(title=f"y = {b0:.5f} + {b1:.5f}x", loc="upper left")
plt.grid(True)
plt.tight_layout()
plt.show()