# Curso: Bioestat√≠stica ‚Äî Delineamento hier√°rquico
## Autores: Sandro da Silva Camargo e Fernando Cardoso

**Problema**:
* Foi projetado um estudo de comportamento animal para verificar os potenciais efeitos depressores (Y) de 2 produtos farmac√™uticos (Tratamentos);
* 30 ratos foram utilizados no grupo de estudo, com 10 ratos atribuƒ±ÃÅdos ao acaso a cada produto (T1 e T2) e 10 para o grupo de controle (C), que recebeu placebo.
* A resposta foi medida 2 vezes (n=2) em cada animal.

A base de dados est√° dispon√≠vel [aqui](https://github.com/Sandrocamargo/biostatistics/blob/master/datasets/hierarquico-ratos.txt).

Abra este c√≥digo no seu google colab [clicando aqui](https://colab.research.google.com/github/Sandrocamargo/biostatistics/blob/master/python/bioe_08_Delineamento_Hierarquico.ipynb).

# Delineamento completamente casualizado com subamostragem


# Carga de bibliotecas

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import matplotlib.pyplot as plt
import seaborn as sns

# Carga e inspe√ß√£o de dados

In [None]:
dados = pd.read_csv("https://raw.githubusercontent.com/Sandrocamargo/biostatistics/refs/heads/master/datasets/hierarquico-ratos.txt")

# Convers√£o para categorias
dados["tratamento"] = dados["tratamento"].astype("category")
dados["rato"] = dados["rato"].astype("category")
dados["rato_trt"] = dados["rato.trt"].astype("category")

dados.info()
dados.describe()

# Ajuste do modelo ANOVA

In [None]:
# --- 3. ANOVA simples ---
modelo_aov = smf.ols("y ~ C(tratamento)", data=dados).fit()
print(modelo_aov.summary())
anova_table = sm.stats.anova_lm(modelo_aov, typ=2)
print("\n=== ANOVA ===")
print(anova_table)

** üìä Interpreta√ß√£o da regress√£o**
|Par√¢metro	|Coef.	|Interpreta√ß√£o|
|:--|:--|:--|
|Intercept |= 47.20	|Representa a m√©dia do grupo controle.	|
|C(tratamento)[T.T1]| = -11.55	|A m√©dia do grupo T1 √© 11,55 unidades menor que a do controle, diferen√ßa altamente significativa (p < 0.001).	|
|C(tratamento)[T.T2]| = -10.00	|A m√©dia do grupo T2 √© 10 unidades menor que a do controle, tamb√©m altamente significativa (p < 0.001).	|

‚û°Ô∏è Assim, as m√©dias estimadas s√£o aproximadamente:

* Controle: 47.20
* T1: 35.65
* T2: 37.20

**üß† Signific√¢ncia e ajuste do modelo**
|Indicador	|Valor	|Interpreta√ß√£o|
|:--|:--|:--|
|R¬≤ |= 0.453	|O modelo explica cerca de 45,3% da varia√ß√£o total em y.	|
|F(2,57) |= 23.59, p < 0.0001	|O fator tratamento √© globalmente significativo ‚Äî ou seja, pelo menos um dos tratamentos difere do outro.	|
|Durbin-Watson |= 2.64	|Sem autocorrela√ß√£o relevante entre res√≠duos (valor pr√≥ximo de 2 √© ideal).	|
|Omnibus e Jarque-Bera |(p > 0.3)	|Indicam normalidade dos res√≠duos, o que valida o modelo ANOVA.	|

**üî¨ ANOVA**
|Fonte de varia√ß√£o	|SQ	|gl	|F	|p|
|:--|:--|:--|:--|:--|
|Tratamento	|1572,03	|2	|23.59|	3.4e‚àí08|
|Res√≠duo	|1898,95	|57	|‚Äî|	‚Äî|

‚û°Ô∏è O valor de p < 0.001 confirma que h√° diferen√ßas significativas entre os grupos.

A propor√ß√£o $\frac{SQ_{Tratamentos}}{SQ_{Total}} = \frac{1572}{1572+1899} = 45\%$, coincide com o R¬≤, refor√ßando a coer√™ncia do modelo.

**üìà Conclus√£o**

* O tratamento tem efeito estatisticamente significativo sobre a vari√°vel resposta.
* T1 e T2 apresentam valores menores que o controle, e ambos diferem de forma significativa.
* T1 e T2 parecem ter efeitos semelhantes entre si, dado que suas estimativas s√£o pr√≥ximas (‚àí11,55 vs ‚àí10,00).

‚û°Ô∏è Seria interessante confirmar com um teste de compara√ß√µes m√∫ltiplas (Tukey) se T1 e T2 diferem entre si.

# Gr√°ficos explorat√≥rios

In [None]:
sns.boxplot(x="tratamento", y="y", data=dados)
plt.title("Boxplot dos tratamentos")
plt.show()

In [None]:
plt.scatter(dados["y"], modelo_aov.fittedvalues,
            c=dados["tratamento"].cat.codes, cmap="viridis", s=70)
plt.xlabel("Valores observados")
plt.ylabel("Valores preditos")
corr = np.corrcoef(dados["y"], modelo_aov.fittedvalues)[0, 1]
plt.title(f"ANOVA ajustada\nCorrela√ß√£o = {corr:.4f}")
plt.plot([dados["y"].min(), dados["y"].max()],
         [dados["y"].min(), dados["y"].max()], "r--")
plt.show()

# Teste de Tukey

In [None]:
tukey = pairwise_tukeyhsd(endog=dados["y"], groups=dados["tratamento"], alpha=0.05)
print("\n=== Teste de Tukey ===")
print(tukey)

**üß© L√≥gica do teste**

O Tukey HSD (_Honest Significant Difference_) compara todas as m√©dias par a par, controlando o erro tipo I global (FWER = 0.05).

Cada linha da tabela mostra:
* group1 / group2 ‚Üí pares comparados
* meandiff ‚Üí diferen√ßa entre as m√©dias (group2 ‚àí group1)
* p-adj ‚Üí valor de p ajustado
* lower / upper ‚Üí limites do intervalo de confian√ßa da diferen√ßa
* reject ‚Üí se a hip√≥tese nula (igualdade entre m√©dias) foi rejeitada (True = diferen√ßa significativa)

**üìä Interpreta√ß√£o dos resultados**
|Compara√ß√£o	|Diferen√ßa m√©dia	|p-ajustado	|IC95%	|Diferen√ßa significativa?	|Interpreta√ß√£o|
|:--|:--|:--|:--|:--|:--|
|C vs T1	|‚àí11.55	|0.000	|[‚àí15.94, ‚àí7.16]|	‚úÖ Sim	|O grupo T1 tem m√©dia significativamente menor que o controle.|
|C vs T2|	‚àí10.00	|0.000	|[‚àí14.39, ‚àí5.61]|	‚úÖ Sim	|O grupo T2 tamb√©m tem m√©dia significativamente menor que o controle.|
|T1 vs T2|	+1.55	|0.674	|[‚àí2.84, +5.94]|	‚ùå N√£o	|T1 e T2 n√£o diferem significativamente entre si.|

**üß† Conclus√£o geral**
* H√° diferen√ßa estatisticamente significativa entre o grupo controle e ambos os tratamentos (T1 e T2).
* Os tratamentos T1 e T2 produzem respostas menores que o controle, com redu√ß√£o m√©dia de cerca de 10 a 12 unidades.
* N√£o h√° diferen√ßa significativa entre T1 e T2, o que sugere que os dois t√™m efeitos equivalentes sobre a vari√°vel resposta.

**üìà Resumo interpretativo**

$C (controle) > T1 ‚âà T2$

* Em termos pr√°ticos, isso indica que os dois tratamentos reduzem a resposta de forma semelhante e ambos diferem claramente do controle, mas n√£o entre si.

# Modelo Misto (efeito aleat√≥rio: rato_trt)

In [None]:
md = smf.mixedlm("y ~ C(tratamento)", data=dados, groups=dados["rato_trt"])
mfit = md.fit(reml=True)
print("\n=== Modelo Misto (LME) ===")
print(mfit.summary())

**üìä Resultados fixos (efeitos m√©dios dos tratamentos)**

| Par√¢metro | Estimativa | Erro Padr√£o | z | p-valor | IC95% | Interpreta√ß√£o |
|------------|-------------|--------------|----|---------|----------------|--|
| Intercept | 47.20 | 1.82 | 25.94 | $<$0.001 | [43.63, 50.77] | M√©dia estimada do grupo Controle (C). |
| T1 | ‚àí11.55 | 2.57 | ‚àí4.49 | $<$0.001 | [‚àí16.59, ‚àí6.51] | O tratamento T1 reduz a m√©dia em cerca de 11,6 unidades em rela√ß√£o ao controle. Diferen√ßa altamente significativa. |
| T2 | ‚àí10.00 | 2.57 | ‚àí3.89 | $<$0.001 | [‚àí15.04, ‚àí4.96] | O tratamento T2 reduz a m√©dia em cerca de 10 unidades em rela√ß√£o ao controle. Diferen√ßa altamente significativa. |

**‚úÖ Conclus√£o**
* Ambos os tratamentos (T1 e T2) apresentam efeito negativo significativo comparado ao controle.
* As magnitudes das redu√ß√µes s√£o pr√≥ximas ‚Äî refor√ßando que T1 ‚âà T2 < Controle.

**üß© Resultados aleat√≥rios**
|Componente	|Vari√¢ncia	|Interpreta√ß√£o|
|:--|:--|:--|
|Group |Var = 31.241		|H√° variabilidade consider√°vel entre grupos (por exemplo, entre ratos dentro de cada tratamento). Isso justifica o uso do modelo misto. O modelo simples (ANOVA tradicional) ignoraria essa depend√™ncia.|

* O fato de a vari√¢ncia de grupo ser diferente de zero mostra que as subamostras dentro do mesmo grupo s√£o correlacionadas, e o modelo misto captura essa correla√ß√£o adequadamente.

**üß† Interpreta√ß√£o geral**
* O modelo convergiu bem (indicando ajuste est√°vel).
* H√° diferen√ßas significativas entre o controle e ambos os tratamentos.
* A variabilidade entre grupos √© importante e foi devidamente considerada (Group Var ‚âà 31).
* N√£o h√° indica√ß√£o de problemas de ajuste (converg√™ncia ou erro de estima√ß√£o).

**üìà Resumo final**

$Controle¬†(C)>T1¬†‚âà¬†T2$

**Conclus√£o pr√°tica:**
* Mesmo ap√≥s considerar a varia√ß√£o entre grupos (ratos, plantas etc.), ambos os tratamentos reduziram significativamente a resposta m√©dia em rela√ß√£o ao controle, e n√£o h√° diferen√ßa relevante entre T1 e T2.

# Diagn√≥stico e ajuste do modelo misto

In [None]:
plt.scatter(dados["y"], mfit.fittedvalues,
            c=dados["tratamento"].cat.codes, cmap="plasma", s=70)
plt.xlabel("Valores observados")
plt.ylabel("Valores preditos (LME)")
corr2 = np.corrcoef(dados["y"], mfit.fittedvalues)[0, 1]
plt.title(f"Modelo misto ajustado\nCorrela√ß√£o = {corr2:.4f}")
plt.plot([dados["y"].min(), dados["y"].max()],
         [dados["y"].min(), dados["y"].max()], "r--")
plt.show()

# Histograma dos res√≠duos
plt.hist(mfit.resid, bins=10, edgecolor='black')
plt.title("Distribui√ß√£o dos res√≠duos (modelo misto)")
plt.show()

# M√©dias ajustadas (LS-means aproximadas)
Predi√ß√£o ao valor m√©dio dos efeitos aleat√≥rios

In [None]:
means = (dados.groupby("tratamento", observed=False)["y"]
         .agg(["mean", "std", "count"])
         .rename(columns={"mean": "lsmean"}))
print("\n=== M√©dias ajustadas (aproximadas) ===")
print(means)

**üìä O que s√£o LS-means**

As LS-means (Least Squares Means) representam as m√©dias estimadas para cada tratamento, corrigidas pelos efeitos do modelo (por exemplo, considerando o efeito aleat√≥rio de grupos e eventuais covari√°veis).
Elas s√£o prefer√≠veis √†s m√©dias simples quando h√° estrutura hier√°rquica ou desequil√≠brio nos dados.

**üìà Interpreta√ß√£o dos valores**
|Tratamento	|M√©dia ajustada (LS-mean)|	Desvio-padr√£o	|n|
|:--|:--|:--|:--|
|C (Controle)	|47.20	|5.01	|20|
|T1	|35.65	|6.38	|20|
|T2	|37.20	|5.85	|20|

Significado pr√°tico:
* O grupo Controle (C) apresenta a maior resposta m√©dia ajustada (‚âà47,2).
* O grupo T1 apresenta a menor m√©dia (‚âà35,6).
* O grupo T2 √© intermedi√°rio, com m√©dia ‚âà37,2, pr√≥xima de T1.

**üß† Compara√ß√µes qualitativas**

Com base nesses valores:
* A diferen√ßa C ‚àí T1 ‚âà 11,6 e C ‚àí T2 ‚âà 10,0 confirma os resultados anteriores da ANOVA e do modelo misto. Ambos os tratamentos reduzem significativamente a resposta m√©dia em rela√ß√£o ao controle.
* A diferen√ßa T1 ‚àí T2 ‚âà ‚àí1,55 √© pequena, o que explica por que n√£o foi significativa no teste de Tukey.

**üí° Conclus√£o geral**
* O Controle (C) mant√©m a resposta mais alta e significativamente diferente dos demais.
* Os tratamentos T1 e T2 t√™m efeitos semelhantes entre si, ambos reduzindo a resposta.
* As m√©dias ajustadas refor√ßam a robustez do resultado obtido no modelo misto, mesmo controlando varia√ß√£o entre grupos, o padr√£o C > T1 ‚âà T2 se mant√©m.

# Contrastes manuais

In [None]:
trat1_mean = means.loc["T1", "lsmean"]
trat2_mean = means.loc["T2", "lsmean"]
ctrl_mean = means.loc["C", "lsmean"]
diff = trat1_mean - ctrl_mean
print(f"\nContraste T1 vs C = {diff:.3f}")
diff = trat2_mean - ctrl_mean
print(f"\nContraste T2 vs C = {diff:.3f}")
diff = trat1_mean - trat2_mean
print(f"\nContraste T1 vs T2 = {diff:.3f}")

**üìä Resultados dos contrastes**

|Compara√ß√£o	|Diferen√ßa (Contraste)|	Interpreta√ß√£o|
|:--|:--|:--|
|T1 ‚Äì C |= -11.55	|O grupo T1 tem m√©dia 11,55 unidades menor que o grupo Controle (C).	|
|T2 ‚Äì C |= -10.00	|O grupo T2 tem m√©dia 10,00 unidades menor que o grupo Controle (C).	|
|T1 ‚Äì T2 |= -1.55	|O grupo T1 tem m√©dia 1,55 unidade menor que o grupo T2 ‚Äî uma diferen√ßa pequena e provavelmente n√£o significativa.	|

**üß† Interpreta√ß√£o conceitual**

* Tanto T1 quanto T2 apresentaram redu√ß√µes significativas em rela√ß√£o ao controle (efeito negativo substancial).
* As magnitudes das redu√ß√µes s√£o semelhantes (‚àí11,55 e ‚àí10,00), sugerindo que ambos os tratamentos s√£o eficazes em produzir o efeito observado (por exemplo, redu√ß√£o de uma vari√°vel fisiol√≥gica, de um marcador, etc.).
* A diferen√ßa entre T1 e T2 √© pequena e pr√≥xima de zero, indicando que os dois tratamentos t√™m efeitos compar√°veis.

**‚úÖ Conclus√£o pr√°tica**

* H√° diferen√ßa significativa entre o controle e os tratamentos, confirmando o efeito do fator ‚Äútratamento‚Äù.
* N√£o h√° diferen√ßa relevante entre T1 e T2, o que sugere que qualquer um dos dois tratamentos produz resultado semelhante.

# Exemplo de ANOVA com fatores adicionais

In [None]:
modelo2 = smf.ols("y ~ C(rato) + C(tratamento) + C(rato_trt)", data=dados).fit()
anova2 = sm.stats.anova_lm(modelo2, typ=2)
print("\n=== ANOVA com fatores adicionais ===")
print(anova2)

**üìä Interpreta√ß√£o dos efeitos**
|Fonte de varia√ß√£o	|SQ |gl	|F	|p-valor	|Interpreta√ß√£o|
|:--|:--|:--|:--|:--|:--|
|C(rato)	|514.09	|9	|15.37	|5.6√ó10‚Åª‚Åπ	|Diferen√ßas significativas entre ratos, indicando que o desempenho dos animais varia consideravelmente.|
|C(tratamento)	|427.92	|2	|57.57	|5.4√ó10‚Åª¬π¬π	|Diferen√ßas altamente significativas entre tratamentos, ou seja, os medicamentos influenciam a resposta.|
|C(rato_trt)	|18631.20	|29	|172.86	|2.1√ó10‚Åª¬≤‚Å∂	|Grande varia√ß√£o entre subamostras dentro de tratamento, possivelmente refletindo heterogeneidade interna (varia√ß√£o entre medi√ß√µes dentro de cada rato).|
|Residual	|111.50	|30	|‚Äî	|‚Äî	|Varia√ß√£o residual m√≠nima ap√≥s considerar os efeitos acima.|

**üß† Interpreta√ß√£o geral**

* O fator tratamento apresenta efeito altamente significativo, confirmando que h√° diferen√ßas reais entre os grupos experimentais.
* O fator rato tamb√©m √© significativo, indicando efeito aleat√≥rio importante (animais diferem em sua resposta basal).
* A varia√ß√£o dentro de cada rato_trt √© muito grande, o que justifica a necessidade de um modelo hier√°rquico (ou misto) para modelar essa estrutura corretamente.

**üí¨ Conclus√£o pr√°tica**

O delineamento e a an√°lise mostram que:
* H√° diferen√ßas significativas entre os tratamentos aplicados.
* H√° tamb√©m heterogeneidade entre os indiv√≠duos (ratos), o que precisa ser controlado.
* A subamostragem dentro de tratamento (rato_trt) contribui com grande parte da variabilidade total, refor√ßando que o modelo simples (ANOVA tradicional) subestima o erro experimental ‚Äî e que o modelo misto (LME) √© a abordagem estat√≠stica correta.