# Curso: Bioestat√≠stica ‚Äî DIC (Delineamento Inteiramente Casualizado)
### Autores: Sandro da Silva Camargo e Fernando Cardoso

Problema: Com o objetivo de verificar se a tiroxina (horm√¥nio) ajuda a produzir maior pelo em chinchila, amostrados na linha dorsal, utilizou-se tr√™s grupos amostrais:
*  A: Controle, com ra√ß√£o usual;
*  B: Ra√ß√£o com tiroxina em nƒ±ÃÅvel X;
*  C: Ra√ß√£o com tiroxina em nƒ±ÃÅvel 2X;

Dispunha-se de 30 machos nascidos na mesma semana e que
ficam em gaiolas individuais. Assim:
*  Foram sorteados, ao acaso, 10 animais para cada grupo
(tratamento);
*  Ap√≥s seis meses, foram medidos os pelos em cm na linha
dorsal, onde a UE √© cada animal.

A base de dados est√° dispon√≠vel [aqui](https://raw.githubusercontent.com/Sandrocamargo/biostatistics/refs/heads/master/datasets/dic-dados.txt).


Abra este c√≥digo no seu google colab clicando [aqui](http://colab.research.google.com/github/Sandrocamargo/biostatistics/blob/master/python/bioe_03_dic.ipynb).

In [None]:
# Carregando bibliotecas
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from scipy import stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd, MultiComparison
from statsmodels.stats.stattools import durbin_watson
from statsmodels.stats.multitest import multipletests

## Leitura e Prepara√ß√£o dos dados

Esta fase envolve:


*   Carregar a base de dados para uma vari√°vel
*   Definir os nomes das colunas, se necess√°rio
*   Definir as colunas tratamento e repeti√ß√£o como categ√≥ricas
*   A base de dados deve ter 3 colunas: Tratamento, Repeti√ß√£o e Y (Vari√°vel Resposta)



In [None]:
!mkdir images
data = pd.read_csv("https://raw.githubusercontent.com/Sandrocamargo/biostatistics/refs/heads/master/datasets/dic-dados.txt", sep="\t", decimal=",", header=0)

# Renomear colunas 1 e 2 para Treatment e Repeat
data = data.rename(columns={data.columns[0]: "Treatment", data.columns[1]: "Repeat"})

# Recodificar tratamentos
map_trt = {"A": "CTRL", "B": "T1X", "C": "T2X"}
data["Treatment"] = data["Treatment"].replace(map_trt)

# Garantir tipos categ√≥ricos
data["Repeat"] = data["Repeat"].astype("category")
data["Treatment"] = data["Treatment"].astype("category")

# Mostra estrutura dos dados carregados
print(data.info())

In [None]:
# =========================
# ANOVA (one-way)
# =========================

model = smf.ols("Y ~ C(Treatment)", data=data).fit()
print(model.summary())
anova_table = anova_lm(model, typ=2)
print("\nANOVA (Type II):\n", anova_table)

Interpreta√ß√£o:
1. Qualidade geral do modelo
*   $R^2$ = 0,759, ou seja, 75,9% da varia√ß√£o da vari√°vel dependente (Y) √© explicada pelos tratamentos.
*   $R^2$ ajustado = 0,739, ou seja, mesmo considerando o n√∫mero de preditores, o modelo mant√©m boa qualidade de ajuste.
*   F-statistic = 37,78, p < 0,0001, ou seja, o modelo como um todo √© estatisticamente significativo, ou seja, pelo menos um dos grupos de tratamento tem m√©dia significativamente diferente dos demais.

2. ANOVA
*   A soma de quadrados para o fator C(Treatment) √© muito maior que a dos res√≠duos, mostrando forte efeito dos tratamentos.
*   p < 0,0001, ou seja, rejeitamos $H_0$ de igualdade das m√©dias ‚Üí h√° diferen√ßa significativa entre os grupos de tratamento.


3. Coeficientes
*   O Intercept representa a m√©dia do grupo de refer√™ncia (CTRL): ‚âà 2,48.
*   O grupo T1X tem m√©dia 0,96 unidades maior que o grupo de refer√™ncia (diferen√ßa estatisticamente significativa).
*   O grupo T2X tem m√©dia 1,35 unidades maior que o grupo de refer√™ncia (tamb√©m altamente significativo).
*   Ambos os intervalos de confian√ßa n√£o incluem zero ‚Üí refor√ßa que os efeitos s√£o positivos e reais.

**Podemos concluir que os dois tratamentos testados aumentaram significativamente a vari√°vel resposta em rela√ß√£o ao controle, sendo T2X o mais eficaz.**

Se o objetivo for reportar para um artigo, voc√™ pode escrever algo como:
*"A ANOVA indicou efeito significativo do fator Tratamento sobre Y (F(2,24)=37,78, p$<$0,0001). Comparado ao grupo controle, T1X apresentou aumento m√©dio de 0,96 (IC 95%: 0,62-1,30; p$<$0,001) e T2X aumento m√©dio de 1,35 (IC 95%: 1,02-1,69; p$<$0,001), indicando maior efeito de T2X."*

In [None]:
# =========================
# Totais por tratamento
# =========================

gb = data.groupby("Treatment", observed=False)["Y"]
Length = gb.size()
Mean = gb.mean()
Sum = gb.sum()

# Soma dos quadrados "crus" por tratamento (equivalente a rMR::sumsq)
Sum_Squares = gb.apply(lambda x: np.sum(np.square(x)))
totais = pd.DataFrame({"Length": Length, "Sum": Sum, "Sum_Squares": Sum_Squares, "Mean": Mean})
print("\nTotais por tratamento:\n", totais)

Interpreta√ß√£o Estat√≠stica:
*   Grupo Controle (CTRL) tem m√©dia 2,48 - serve como refer√™ncia.
*   T1X tem m√©dia 3,44, cerca de +0,96 maior que CTRL.
*   T2X tem m√©dia 3,83, cerca de +1,35 maior que CTRL.

Esses valores s√£o coerentes com o resultado anterior da regress√£o/ANOVA, que mostrou diferen√ßas significativas para ambos os tratamentos em rela√ß√£o ao grupo controle.

An√°lise de Tend√™ncia
*   Existe uma tend√™ncia crescente de CTRL ‚Üí T1X ‚Üí T2X, sugerindo que os tratamentos t√™m efeito positivo incremental.
*   O ganho de T2X sobre T1X √© de aproximadamente 0,39 (3,83 - 3,44). Para confirmar se essa diferen√ßa √© estatisticamente significativa, seria necess√°rio um p√≥s-teste de compara√ß√µes m√∫ltiplas (ex.: Tukey HSD).

Conclus√£o
*   CTRL apresenta o menor valor m√©dio, como esperado.
*   T1X e T2X aumentam significativamente o valor de Y.
*   H√° evid√™ncia de que T2X √© mais eficaz que T1X, mas √© preciso teste estat√≠stico para confirmar se a diferen√ßa entre os dois √© estatisticamente relevante.

In [None]:
# =========================
# t-tests dois a dois (Welch)
# =========================

def ttest_2grupos(df, g1, g2):
    y1 = df.loc[df["Treatment"] == g1, "Y"].values
    y2 = df.loc[df["Treatment"] == g2, "Y"].values
    res = stats.ttest_ind(y1, y2, equal_var=False)
    return {
        "Compara√ß√£o": f"{g1} vs {g2}",
        "t": res.statistic,
        "p-valor": res.pvalue,
        "n1": len(y1),
        "n2": len(y2),
        "M√©dia 1": y1.mean(),
        "M√©dia 2": y2.mean(),
        "Signific√¢ncia": "‚úÖ p<0.05" if res.pvalue < 0.05 else "‚ùå ns"
    }

resultados = [ttest_2grupos(data, g1, g2) for g1, g2 in [("CTRL","T1X"), ("CTRL","T2X"), ("T1X","T2X")]]
df_resultados = pd.DataFrame(resultados)

print("\nüìä Testes t de Welch - Compara√ß√µes Par a Par")
print(df_resultados.to_string(index=False, float_format="%.4f"))

An√°lise cr√≠tica:
*   As duas compara√ß√µes com CTRL s√£o altamente significativas (p < 0.001), confirmando que ambos os tratamentos aumentaram de forma clara a vari√°vel resposta em rela√ß√£o ao controle.
*   T2X apresenta um efeito maior que T1X (t mais negativo, diferen√ßa m√©dia maior), mas a compara√ß√£o direta entre eles n√£o atinge signific√¢ncia a 5%, embora esteja perto do limiar (p ‚âà 0.07).
*   Isso pode indicar que:
*   - O efeito de T2X realmente √© maior que o de T1X, mas √© preciso mais poder estat√≠stico (amostra maior) para confirmar.
*   - Ou que a diferen√ßa entre os tratamentos √© pequena e n√£o clinicamente relevante.

Conclus√£o: Os resultados sugerem:
*   Efeito positivo significativo dos tratamentos T1X e T2X em rela√ß√£o ao controle.
*   Poss√≠vel diferen√ßa entre T1X e T2X, mas n√£o estatisticamente confirmada com o tamanho de amostra atual (8 e 9 observa√ß√µes, respectivamente).

Pr√≥ximo passo: Se a diferen√ßa entre T1X e T2X for de interesse, considere:
*   Aumentar o tamanho da amostra para ganhar poder estat√≠stico.
*   Calcular intervalos de confian√ßa das m√©dias para melhor visualizar a sobreposi√ß√£o.

In [None]:
# =========================
# Tukey HSD
# =========================
mc = MultiComparison(data["Y"], data["Treatment"])
tukey = mc.tukeyhsd(alpha=0.05)
print("\nTukey HSD:\n", tukey.summary())

# Gr√°fico do Tukey (simultaneous CIs)
fig = tukey.plot_simultaneous()
plt.title("Tukey HSD - Intervalos simult√¢neos (95%)")
plt.xlabel("Diferen√ßa de m√©dias")
plt.savefig("images/dic-tukey.png", dpi=150, bbox_inches="tight")
plt.show()

# Boxplot Y ~ Treatment
ax = data.boxplot(column="Y", by="Treatment")
plt.title("Chinchilla Fur Length x Treatment")
plt.suptitle("")
plt.xlabel("Treatments")
plt.ylabel("Chinchilla Fur Length (cm)")
plt.savefig("images/dic-tratamentos.png", dpi=150, bbox_inches="tight")
plt.show()

In [None]:
# =========================
# Pressupostos da ANOVA
# =========================
resid = model.resid

# Shapiro-Wilk para normalidade dos res√≠duos
shapiro_stat, shapiro_p = stats.shapiro(resid)
print(f"\nShapiro-Wilk: W={shapiro_stat:.4f}, p-value={shapiro_p:.4g}")

# Histograma dos res√≠duos
plt.hist(resid, bins="auto")
plt.title("Errors Histogram")
plt.xlabel("Errors")
plt.savefig("images/dic-errorshistogram.png", dpi=150, bbox_inches="tight")
plt.show()

# Bartlett (homogeneidade de vari√¢ncias)
groups = [data.loc[data["Treatment"] == g, "Y"].values for g in data["Treatment"].cat.categories]
bart_stat, bart_p = stats.bartlett(*groups)
print(f"\nBartlett: K^2={bart_stat:.4f}, p-value={bart_p:.4g}")

# Boxplot dos res√≠duos por tratamento
res_df = pd.DataFrame({"Residuals": resid, "Treatment": data["Treatment"].values})
ax = res_df.boxplot(column="Residuals", by="Treatment")
plt.title("Homogeneity of Errors")
plt.suptitle("")
plt.xlabel("Treatments"); plt.ylabel("Errors")
plt.savefig("images/dic-homogeneityErrors.png", dpi=150, bbox_inches="tight")
plt.show()

# Levene (m√©dia e mediana como centros)
lev_mean = stats.levene(*groups, center="mean")
lev_median = stats.levene(*groups, center="median")
print(f"\nLevene (center=mean): stat={lev_mean.statistic:.4f}, p={lev_mean.pvalue:.4g}")
print(f"Levene (center=median): stat={lev_median.statistic:.4f}, p={lev_median.pvalue:.4g}")

# Independ√™ncia (Durbin-Watson)
dw = durbin_watson(resid)
print(f"\nDurbin-Watson dos res√≠duos: {dw:.4f}")

# Dispers√£o dos res√≠duos em ordem amostral
plt.plot(resid, "o")
plt.axhline(0, linestyle="--")
plt.title("Errors Independence")
plt.xlabel("Samples"); plt.ylabel("Residuals")
plt.savefig("images/dic-errorsindependence.png", dpi=150, bbox_inches="tight")
plt.show()

# QQ-plot (ajuste do modelo)
sm.qqplot(resid, line="45")
plt.title("Q-Q Plot dos res√≠duos")
plt.savefig("images/dic-qqplot.png", dpi=150, bbox_inches="tight")
plt.show()

In [None]:
# =========================
# Contrastes lineares (F-test)
# Equivalente aos contrastes do gmodels:
#   1) " CTRL vs (T1X + T2X) " = [2, -1, -1]
#   2) " T1X vs T2X "         = [0,  1, -1]
# Usamos um modelo sem intercepto para que os coeficientes = m√©dias por tratamento.
# =========================
model_means = smf.ols("Y ~ 0 + C(Treatment)", data=data).fit()
print("\nModelo de m√©dias (sem intercepto):\n", model_means.summary())

L = np.array([
    [ 2, -1, -1],  # CTRL vs (T1X + T2X)
    [ 0,  1, -1],  # T1X vs T2X
], dtype=float)

# As colunas de L devem seguir a ordem das categorias em model_means.params
# Obter a ordem correta dos coeficientes:
coef_names = list(model_means.params.index)  # ex.: ['C(Treatment)[CTRL]','C(Treatment)[T1X]','C(Treatment)[T2X]']
# Mapear para ordem CTRL, T1X, T2X
order = []
for label in ["CTRL", "T1X", "T2X"]:
    name = [c for c in coef_names if c.endswith(f"[{label}]")][0]
    order.append(coef_names.index(name))
P = np.eye(len(coef_names))[:, order]  # permuta√ß√£o para alinhar colunas

L_aligned = L @ P.T

# F-test conjunto (duas hip√≥teses ao mesmo tempo)
f_res = model_means.f_test(L_aligned)
print("\nContrastes (F-test conjunto):")
print(f_res)

# Testes individuais (t/F por contraste)
labels = [" CTRL vs (T1X + T2X) ", " T1X vs T2X "]
for i, lab in enumerate(labels):
    print(f"\nContraste: {lab}")
    print(model_means.t_test(L_aligned[i, :]))

In [None]:
# =========================
# Modelo de regress√£o linear com fator (igual ao lm do R)
# =========================
model_lm = smf.ols("Y ~ C(Treatment)", data=data).fit()
print("\nANOVA do modelo lm:\n", anova_lm(model_lm, typ=2))
print("\nResumo do modelo lm:\n", model_lm.summary())

In [None]:
# =========================
# Compara√ß√µes m√∫ltiplas adicionais
# - Bonferroni (equivalente a LSD.test com p.adjust='bonferroni')
# - Dunnett (CTRL vs outros): n√£o h√° fun√ß√£o nativa pronta no statsmodels; abaixo
#   fazemos testes CTRL vs cada grupo com ajuste de p (Holm), que √© mais potente que Bonferroni.
# =========================
# Pairwise t-tests com ajuste Bonferroni
pairs = [("CTRL","T1X"), ("CTRL","T2X"), ("T1X","T2X")]
pvals = []
tvals = []
for g1, g2 in pairs:
    y1 = data.loc[data["Treatment"] == g1, "Y"].values
    y2 = data.loc[data["Treatment"] == g2, "Y"].values
    t_stat, p_raw = stats.ttest_ind(y1, y2, equal_var=False)
    tvals.append(t_stat); pvals.append(p_raw)

rej, p_adj, _, _ = multipletests(pvals, alpha=0.05, method="bonferroni")
bonf_results = pd.DataFrame({
    "pair": [f"{a} vs {b}" for a,b in pairs],
    "t": tvals,
    "p_raw": pvals,
    "p_bonferroni": p_adj,
    "reject_H0_0.05": rej
})
print("\nPairwise t-tests com ajuste Bonferroni:\n", bonf_results)

# "Dunnett-like": CTRL vs demais com ajuste Holm (mais potente que Bonferroni).
ctrl = "CTRL"
compares = [g for g in data["Treatment"].cat.categories if g != ctrl]
pvals_d = []
tvals_d = []
labels_d = []
for g in compares:
    y1 = data.loc[data["Treatment"] == ctrl, "Y"].values
    y2 = data.loc[data["Treatment"] == g, "Y"].values
    t_stat, p_raw = stats.ttest_ind(y1, y2, equal_var=False)
    pvals_d.append(p_raw); tvals_d.append(t_stat); labels_d.append(f"{ctrl} vs {g}")

rej_holm, p_holm, _, _ = multipletests(pvals_d, alpha=0.05, method="holm")
dunnett_like = pd.DataFrame({
    "compara√ß√£o": labels_d,
    "t": tvals_d,
    "p_raw": pvals_d,
    "p_Holm": p_holm,
    "reject_H0_0.05": rej_holm
})
print("\nCompara√ß√µes 'Dunnett-like' (CTRL vs outros; ajuste Holm):\n", dunnett_like)

In [None]:
# =========================
# Agrupamento por letras (similar ao bar.group do agricolae a partir de Tukey)
# =========================
def cld_from_tukey(tukey_res):
    """
    Gera agrupamento por letras (Compact Letter Display) a partir do resultado do Tukey.
    Estrat√©gia gulosa simples: garante que grupos que N√ÉO diferem compartilhem alguma letra.
    """
    groups = sorted(set(tukey_res.groupsunique))
    # matriz de diferen√ßas significativas
    sig = { (min(a,b), max(a,b)): rej for a,b,meandiff,p,low,high,rej in tukey_res._results_table.data[1:] }

    letters = {g: "" for g in groups}
    current_letter = "A"
    remaining = set(groups)

    while remaining:
        g = sorted(remaining)[0]
        # todos que n√£o diferem de g ainda n√£o rotulados para esta letra
        same = [g]
        for h in sorted(remaining - {g}):
            key = (min(g,h), max(g,h))
            if not sig.get(key, False):  # False => n√£o rejeita H0 => sem diferen√ßa
                # checar se h √© diferente de algum j√° em 'same'
                ok = True
                for s in same:
                    k2 = (min(h,s), max(h,s))
                    if sig.get(k2, False):  # diferen√ßa significativa entre h e s
                        ok = False; break
                if ok:
                    same.append(h)
        # atribuir letra atual a todos em 'same'
        for s in same:
            letters[s] += current_letter
        remaining -= set(same)
        # pr√≥xima letra
        current_letter = chr(ord(current_letter) + 1)

    return pd.DataFrame({"Treatment": list(letters.keys()), "Group": list(letters.values())}).sort_values("Treatment")

cld = cld_from_tukey(tukey)
print("\nAgrupamento por letras (Tukey):\n", cld)

# (Opcional) Barras com letras
means = gb.mean().reset_index()
merged = means.merge(cld, on="Treatment")
plt.bar(merged["Treatment"], merged["Y"])
for i, (x, y, lab) in enumerate(zip(merged["Treatment"], merged["Y"], merged["Group"])):
    plt.text(i, y * 1.01, lab, ha="center", va="bottom")
plt.ylim(0, merged["Y"].max()*1.1)
plt.title("Tukey Test ‚Äî Agrupamento por letras")
plt.xlabel("Treatments"); plt.ylabel("Mean of Y")
plt.savefig("images/dic-tukeytestgroups.png", dpi=150, bbox_inches="tight")
plt.show()

# =========================
# Observa√ß√µes sobre testes n√£o implementados
# =========================
# - Duncan, SNK, Scheff√© e Scott-Knott n√£o est√£o implementados em statsmodels.
#   Em Python, a pr√°tica usual √© usar Tukey HSD (como acima) e/ou ajustar p-values
#   em testes pareados (Bonferroni, Holm, BH). Implementa√ß√µes fi√©is a Duncan/SNK/
#   Scheff√©/Scott-Knott exigem rotinas espec√≠ficas (n√£o padronizadas) ou pacotes R.
