# Curso: Bioestat√≠stica ‚Äî Experimento Fatorial DIC (Delineamento Inteiramente Casualizado)
## Autores: Sandro da Silva Camargo e Fernando Cardoso

**Problema**: Um pesquisador pretende avaliar o efeito da irriga√ß√£o e da calagem sobre a produ√ß√£o de uma determinada cultura (vari√°vel resposta
Y, expressa em kg de plantas por hectare). A hip√≥tese √© que tanto a irriga√ß√£o quanto a calagem, isoladamente ou em conjunto, podem influenciar o rendimento da cultura.

Fatores estudados:
* Irriga√ß√£o (I)
- I‚ÇÄ: sem irriga√ß√£o

- I‚ÇÅ: com irriga√ß√£o
* Calagem (C)
- C‚ÇÄ: sem calagem

- C‚ÇÅ: com calagem

Estrutura experimental:
Para estudar simultaneamente os efeitos desses dois fatores e sua poss√≠vel intera√ß√£o, o pesquisador planejou um experimento fatorial 2√ó2, resultando em quatro combina√ß√µes de tratamentos:

|Tratamento|Irriga√ß√£o|Calagem|
|:--|:--:|:--:|
|I‚ÇÄC‚ÇÄ	|Sem irriga√ß√£o	|Sem calagem|
|I‚ÇÄC‚ÇÅ	|Sem irriga√ß√£o	|Com calagem|
|I‚ÇÅC‚ÇÄ	|Com irriga√ß√£o	|Sem calagem|
|I‚ÇÅC‚ÇÅ	|Com irriga√ß√£o	|Com calagem|

Cada tratamento ser√° aplicado a um n√∫mero igual de unidades experimentais (por exemplo, parcelas), permitindo comparar as m√©dias de produ√ß√£o entre os grupos.

Objetivo:
*  Verificar os efeitos principais da irriga√ß√£o e da calagem sobre a produ√ß√£o;
*  Verificar a intera√ß√£o entre os fatores, isto √©, se o efeito de um fator depende da presen√ßa do outro.

A base de dados est√° dispon√≠vel [aqui](https://raw.githubusercontent.com/Sandrocamargo/biostatistics/refs/heads/master/datasets/fatorial-dic-dados.txt).

Abra este c√≥digo no seu google colab [clicando aqui](https://colab.research.google.com/github/Sandrocamargo/biostatistics/blob/master/python/bioe_05_fatorial_dic.ipynb).

In [None]:
# %% Importa√ß√£o de pacotes
!pip install pingouin
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from scipy import stats
import pingouin as pg

In [None]:
# %% Carregar dados
dados = pd.read_table("https://raw.githubusercontent.com/Sandrocamargo/biostatistics/refs/heads/master/datasets/fatorial-dic-dados.txt")

# Converter colunas em fatores (categorias)
dados["TR"] = dados["TR"].astype("category")   # Tratamento
dados["IR"] = dados["IR"].astype("category")   # Irriga√ß√£o
dados["CAL"] = dados["CAL"].astype("category") # Calagem

# O grupo de controle √© o primeiro desta lista
dados["IR"] = pd.Categorical(
    dados["IR"],
    categories=["Sem", "Com"],
    ordered=True
)
dados["CAL"] = pd.Categorical(
    dados["CAL"],
    categories=["Sem", "Com"],
    ordered=True
)
dados.info()


In [None]:
# %% Boxplots para verificar outliers
plt.figure()
dados.boxplot(column="Y", by="IR")
plt.title("Boxplot por Irriga√ß√£o")
plt.suptitle("")
plt.xlabel("Irriga√ß√£o")
plt.ylabel("Y")
plt.show()

plt.figure()
dados.boxplot(column="Y", by="CAL")
plt.title("Boxplot por Calagem")
plt.suptitle("")
plt.xlabel("Calagem")
plt.ylabel("Y")
plt.show()

In [None]:
# %% Modelo fatorial com intera√ß√£o
modelo = smf.ols("Y ~ C(IR) * C(CAL)", data=dados).fit()
print(modelo.summary())
print("\n=== ANOVA - Modelo fatorial ===")
print(anova_lm(modelo, typ=2))

# üéØ Objetivo do modelo

Avaliar os efeitos principais de irriga√ß√£o (IR) e calagem (CAL), e o efeito de intera√ß√£o IR√óCAL sobre a produ√ß√£o m√©dia (Y).

# üìà Qualidade do ajuste

*  R¬≤ = 0.951 ‚Üí O modelo explica 95,1% da varia√ß√£o total da produ√ß√£o.

*  R¬≤ ajustado = 0.932 ‚Üí Mesmo considerando o n√∫mero de preditores, o ajuste continua muito bom.

*  F(3,8) = 51.56; p < 0.001 ‚Üí O modelo global √© altamente significativo, ou seja, pelo menos um dos fatores (ou sua intera√ß√£o) afeta Y.

# ‚öôÔ∏è Coeficientes estimados
|Termo|	Interpreta√ß√£o|	Coef.|	p-valor|	Signific√¢ncia|
|:--|:--|:--|:--|:--|
|Intercepto |	M√©dia do tratamento controle (sem irriga√ß√£o e sem calagem).	| 28.0	| $<$0.001	| ‚úÖ significativo|
|C(IR)[T.Com] |	A irriga√ß√£o, isoladamente, aumenta em m√©dia 10 unidades a produ√ß√£o.	| 10.0 | 0.010	|‚úÖ significativo	|
|C(CAL)[T.Com] |A calagem, isoladamente, aumenta em m√©dia 4 unidades, mas o efeito n√£o √© significativo.	| 4.0 |0.219	|‚ùå n√£o significativo	|
|Intera√ß√£o (IR√óCAL) |Quando ambas s√£o aplicadas, h√° um ganho adicional de 20 unidades (efeito conjunto), al√©m dos efeitos individuais.|20.0	|0.002	|‚úÖ altamente significativo|

# Interpreta√ß√£o dos resultados

Efeito principal da Irriga√ß√£o (IR):

*  F = 88.89, p < 0.001 ‚Üí altamente significativo.

**Conclus√£o**: a irriga√ß√£o tem efeito significativo sobre Y, ou seja, a m√©dia de Y difere entre os n√≠veis de irriga√ß√£o.

Efeito principal da Calagem (CAL):

*  F = 43.56, p < 0.001 ‚Üí tamb√©m altamente significativo.

**Conclus√£o**: a calagem tem efeito significativo sobre Y, a m√©dia de Y difere entre os n√≠veis de calagem.

Intera√ß√£o IR √ó CAL:

*  F = 22.22, p = 0.0015 ‚Üí significativa.

**Conclus√£o**: o efeito de irriga√ß√£o depende do n√≠vel de calagem, e vice-versa.

Isso indica que n√£o podemos interpretar apenas os efeitos principais isoladamente; √© necess√°rio analisar os desdobramentos da intera√ß√£o.

Res√≠duo:

*  Soma de quadrados = 108, df = 8

**Conclus√£o**: Representa a varia√ß√£o n√£o explicada pelos fatores e intera√ß√£o, ou seja, o erro experimental.

#üìå S√≠ntese

*  Todos os fatores (IR, CAL) e a intera√ß√£o entre eles s√£o estatisticamente significativos.

O pr√≥ximo passo seria analisar os efeitos simples, ou seja:
*  Comparar n√≠veis de IR dentro de cada n√≠vel de CAL
*  Comparar n√≠veis de CAL dentro de cada n√≠vel de IR

Isso ajuda a entender como cada fator age dependendo do outro.

In [None]:
# %% Gr√°fico de intera√ß√£o
fig, ax = plt.subplots()
pd.DataFrame(dados).pivot_table(index="IR", columns="CAL", values="Y", observed=False).plot(ax=ax, marker="o")
plt.title("Intera√ß√£o: Irriga√ß√£o x Calagem")
plt.ylabel("Kg de planta por parcela")
plt.show()

In [None]:
# %% Res√≠duos e diagn√≥sticos
residuos = modelo.resid
print("\nShapiro-Wilk Test (normalidade):", stats.shapiro(residuos))
plt.hist(residuos, bins=8)
plt.title("Histograma dos res√≠duos")
plt.xlabel("Res√≠duo")
plt.ylabel("Frequ√™ncia")
plt.show()

# Homocedasticidade (Levene)
print("\nLevene Test (homogeneidade):")
print(stats.levene(*[group["Y"].values for name, group in dados.groupby("TR")]))

# Independ√™ncia dos erros (Durbin-Watson)
dw = sm.stats.durbin_watson(residuos)
print(f"\nDurbin-Watson = {dw:.3f}")

In [None]:
# %% Teste de Tukey (tratamentos)
tukey = pairwise_tukeyhsd(dados["Y"], dados["TR"])
print("\n=== Tukey HSD - Tratamentos ===")
print(tukey.summary())

# Gr√°fico do Tukey
means = dados.groupby("TR", observed=False)["Y"].mean()
plt.bar(means.index, means.values, color="skyblue")
plt.title("Tukey HSD - M√©dias por Tratamento")
plt.xlabel("Tratamento")
plt.ylabel("M√©dia de Y")
plt.show()

# %% Testes de Tukey para os fatores principais
print("\n=== Tukey HSD - Irriga√ß√£o ===")
tukey_ir = pairwise_tukeyhsd(dados["Y"], dados["IR"])
print(tukey_ir.summary())

print("\n=== Tukey HSD - Calagem ===")
tukey_cal = pairwise_tukeyhsd(dados["Y"], dados["CAL"])
print(tukey_cal.summary())

# %% An√°lise dos efeitos simples (desdobramento da intera√ß√£o)
# Estudar IR dentro de cada n√≠vel de CAL (I/C)
print("\n=== Desdobramento: Irriga√ß√£o dentro de cada n√≠vel de Calagem ===")
for cal in dados["CAL"].cat.categories:
    sub = dados[dados["CAL"] == cal]
    modelo_sub = smf.ols("Y ~ C(IR)", data=sub).fit()
    print(f"\nCalagem = {cal}")
    print(anova_lm(modelo_sub, typ=2))

# Estudar CAL dentro de cada n√≠vel de IR (C/I)
print("\n=== Desdobramento: Calagem dentro de cada n√≠vel de Irriga√ß√£o ===")
for ir in dados["IR"].cat.categories:
    sub = dados[dados["IR"] == ir]
    modelo_sub = smf.ols("Y ~ C(CAL)", data=sub).fit()
    print(f"\nIrriga√ß√£o = {ir}")
    print(anova_lm(modelo_sub, typ=2))
