# Curso: Bioestat√≠stica ‚Äî An√°lise de Covari√¢ncia
## Autores: Sandro da Silva Camargo e Fernando Cardoso

**Problema**: Testar a resposta de √≥rg√£os de animais √† adi√ß√£o de horm√¥nios.
O abate por anestesia e usando a decapita√ß√£o podem provocar respostas diferentes;
Experimento feito em 2 grupos de ratos (mesma idade e sexo): 10 animais mortos por anestesia e 10 decapitados. Os cora√ß√µes foram colocados no soro e a for√ßa de contra√ß√£o medida (Y);
* Y: For√ßa de contra√ß√£o
* $X_1$: Tratamento (Anestesia ou Decapita√ß√£o)
* $X_2$: Co-fator (Peso)

A base de dados est√° dispon√≠vel [aqui](https://github.com/Sandrocamargo/biostatistics/blob/master/datasets/ancova-ratos.txt).

Abra este c√≥digo no seu google colab [clicando aqui](https://colab.research.google.com/github/Sandrocamargo/biostatistics/blob/master/python/bioe_07_Ancova.ipynb).

* A ANCOVA (_Analysis of Covariance_) combina princ√≠pios da ANOVA (An√°lise de Vari√¢ncia) e da Regress√£o Linear.
* Ela permite comparar as m√©dias de um ou mais grupos (como na ANOVA), ajustando os resultados pelo efeito de uma ou mais covari√°veis, isto √©, vari√°veis cont√≠nuas que possam influenciar a vari√°vel dependente.
* Em outras palavras, a ANCOVA "remove" o efeito de uma covari√°vel para que a compara√ß√£o entre grupos seja mais justa e precisa.

# Carga de pacotes

In [None]:
!pip install pingouin
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
import pingouin as pg

# Carga e inspe√ß√£o dos dados

In [None]:
dados = pd.read_csv("https://raw.githubusercontent.com/Sandrocamargo/biostatistics/refs/heads/master/datasets/ancova-ratos.txt", sep=" ", decimal=",")
dados['Trt'] = dados['Trt'].astype('category')
dados.info()
dados.head()

# An√°lise explorat√≥ria

In [None]:
# Correla√ß√£o entre y e Peso
corr = dados['y'].corr(dados['Peso'])
print(f"Correla√ß√£o entre y e Peso: {corr:.4f}")

modelo = smf.ols("y ~ Peso", data=dados).fit()
sns.scatterplot(x='Peso', y='y', data=dados)
plt.title(f"Correla√ß√£o: {corr:.4f}")
sns.lineplot(x=dados['Peso'], y=modelo.fittedvalues, color='red')
plt.xlabel("Peso (kg)")
plt.ylabel("For√ßa de Contra√ß√£o (Y)")
plt.show()

print(modelo.summary())

**üìò Qualidade geral do modelo**
|Indicador	|Valor	|Interpreta√ß√£o|
|:--|:--|:--|
|R-squared |= 0.796	|O modelo explica 79,6% da varia√ß√£o da vari√°vel dependente y. Isso √© um valor alto, indicando um bom ajuste.	|
|Adj. R-squared |= 0.785	|Corrige o R¬≤ pelo n√∫mero de par√¢metros ‚Äî ainda muito bom, refor√ßando que o modelo √© consistente.	|
|F-statistic |= 70.30 (p < 0.001)	|Testa a hip√≥tese de que o modelo (com a vari√°vel Peso) explica significativamente a varia√ß√£o em y. O valor de p < 0.001 indica que o modelo √© altamente significativo.	|

**‚öôÔ∏è Coeficientes do modelo**
|Termo	|Coef.	|Interpreta√ß√£o|
|:--|:--|:--|
|Intercept |= 1.8359	|Quando o Peso = 0, o valor esperado de y √© 1.8359. (Interpretar apenas se fizer sentido no contexto. Se ‚ÄúPeso = 0‚Äù n√£o √© poss√≠vel, o intercepto √© apenas o ponto onde a reta intercepta o eixo y.)	|
|Peso |= 2.0466	|Cada unidade adicional em Peso est√° associada a um aumento m√©dio de 2.05 unidades em y, mantendo tudo o mais constante. O efeito √© altamente significativo (p < 0.001).	|

**Intervalo de confian√ßa (95%):**
* Peso: [1.534, 2.559] ‚Üí o verdadeiro valor do coeficiente tem 95% de probabilidade de estar nesse intervalo.
* O intervalo n√£o inclui zero, refor√ßando que o efeito de Peso √© real e estatisticamente significativo.

**üß™ Diagn√≥sticos do modelo**
|Estat√≠stica	|Valor	|Interpreta√ß√£o|
|:--|:--|:--|
|Omnibus |= 0.874, Prob = 0.646|	N√£o h√° evid√™ncia de que os res√≠duos violem a normalidade.	|
|Jarque-Bera |= 0.088, Prob = 0.957	|Confirma a normalidade dos res√≠duos.	|
|Durbin-Watson |= 2.079|	Indica aus√™ncia de autocorrela√ß√£o entre res√≠duos (valores pr√≥ximos de 2 s√£o ideais).	|
|Cond. No. |= 17.4	|Valor baixo ‚Üí n√£o h√° multicolinearidade preocupante (em modelos com uma vari√°vel, isso j√° era esperado).	|

**üßæ S√≠ntese interpretativa**

* ‚úÖ O modelo √© estatisticamente significativo e explica cerca de 80% da variabilidade da vari√°vel dependente y.
* ‚úÖ A vari√°vel Peso tem forte influ√™ncia positiva e significativa sobre y.
* ‚úÖ Os res√≠duos atendem aos principais pressupostos (normalidade, independ√™ncia, homocedasticidade presumida).

**üìä Resumo interpretativo**

O modelo de regress√£o linear indicou que o peso tem efeito significativo sobre y (Œ≤ = 2.05; p < 0.001), explicando aproximadamente 80% da varia√ß√£o observada. O diagn√≥stico de res√≠duos n√£o revelou viola√ß√µes dos pressupostos de normalidade ou independ√™ncia (Durbin-Watson = 2.08; p(JB) = 0.957).

In [None]:
# Boxplots
sns.boxplot(x='Trt', y='y', data=dados)
plt.title("Boxplot da For√ßa de Contra√ß√£o (Y) por Tratamento")
plt.show()

sns.boxplot(x='Trt', y='Peso', data=dados)
plt.title("Boxplot do Peso por Tratamento")
plt.show()

# Estat√≠sticas descritivas
print("\nResumo de Y por grupo:")
print(dados.groupby('Trt', observed=False)['y'].describe())
print("\nResumo de Peso por grupo:")
print(dados.groupby('Trt', observed=False)['Peso'].describe())

**üìä Vari√°vel Y**
|Grupo	|n	|M√©dia Desvio padr√£o	|Interpreta√ß√£o|
|:--|:--|:--|:--|
|Anestesiado	|10	|4,67 ¬± 0,33|	Resultados mais altos, pouca variabilidade.	|
|Decapitado	|10	|4,28 ¬± 0,29|	Resultados menores, tamb√©m com baixa variabilidade.	|

* ‚û°Ô∏è Diferen√ßa de m√©dias ‚âà 0,39 unidades, com o grupo Anestesiado apresentando valores maiores de Y.
* ‚û°Ô∏è As distribui√ß√µes parecem relativamente homog√™neas (desvios padr√£o pr√≥ximos).

**Interpreta√ß√£o:**
O grupo Anestesiado apresentou valores significativamente maiores em m√©dia, o que pode indicar efeito do tratamento (a confirmar com teste estat√≠stico, como ANOVA ou t-test).

**‚öñÔ∏è Vari√°vel Peso (covari√°vel)**
|Grupo	|n	|M√©dia	Desvio padr√£o|	Interpreta√ß√£o|
|:--|:--|:--|:--|
|Anestesiado	|10	|1,410 ¬± 0,12	|Peso m√©dio mais alto.	|
|Decapitado	|10	|1,169 ¬± 0,075	|Peso m√©dio menor e menos vari√°vel.	|

* ‚û°Ô∏è Diferen√ßa de m√©dias ‚âà 0,24 unidades. O grupo Anestesiado tem indiv√≠duos visivelmente mais pesados.

**Interpreta√ß√£o:**
* Se o peso influencia Y, essa diferen√ßa entre grupos pode confundir a compara√ß√£o direta entre m√©dias de Y.
* Nessa situa√ß√£o, o ideal √© ajustar Y pelo peso (por exemplo, realizando uma an√°lise de covari√¢ncia (ANCOVA)) para avaliar se o efeito do tratamento (Trt) sobre Y permanece significativo ap√≥s controlar o efeito do peso.

**üßæ S√≠ntese interpretativa**

* H√° diferen√ßa m√©dia entre tratamentos tanto em Y quanto em Peso.
* O grupo Anestesiado apresenta valores maiores em ambas as vari√°veis.
* Para determinar se a diferen√ßa em Y √© devida ao tratamento ou ao peso, deve-se aplicar uma ANCOVA (Y ~ Trt + Peso).

# An√°lise de covari√¢ncia

In [None]:
ancova = pg.ancova(data=dados, dv='y', covar='Peso', between='Trt')
print("\n=== Resultado da ANCOVA ===")
print(ancova)

**Tratamento (Trt)**
* F = 6.46 e p = 0.021 ‚Üí o efeito do tratamento √© estatisticamente significativo (p < 0.05).
* Isso significa que, mesmo ap√≥s controlar o efeito do peso, ainda h√° diferen√ßa significativa entre os grupos de tratamento quanto √† vari√°vel dependente (ex: for√ßa de contra√ß√£o).
* O eta quadrado parcial (Œ∑¬≤p = 0.275) indica um efeito de tamanho moderado: aproximadamente 27,5% da varia√ß√£o ajustada pode ser atribu√≠da ao tratamento.

**Covari√°vel (Peso)**
* F = 62.75 e p < 0.000001 ‚Üí o peso tem forte efeito sobre a vari√°vel dependente.
* O eta quadrado parcial (Œ∑¬≤p = 0.787) indica um efeito muito grande: cerca de 78,7% da varia√ß√£o ajustada est√° associada √† covari√°vel.

**Res√≠duos**
* Representam a varia√ß√£o n√£o explicada pelo modelo.
* Essa soma de quadrados (SS = 0.366) √© relativamente pequena, o que refor√ßa que o modelo explica bem os dados.

**üìà Conclus√£o geral**
* O peso tem forte influ√™ncia sobre a vari√°vel resposta.
* Mesmo controlando o peso, o tratamento ainda exerce um efeito significativo.
* O modelo como um todo explica grande parte da variabilidade dos dados.

# Ajuste de m√©dias

In [None]:
# Calcula m√©dias ajustadas via modelo linear
modelo_ancova = smf.ols('y ~ Peso + Trt', data=dados).fit()
print("\n=== Modelo ANCOVA ===")
print(modelo_ancova.summary())

# M√©dias ajustadas por tratamento
em_means = dados.copy()
em_means['ajustado'] = modelo_ancova.fittedvalues
print("\nM√©dias ajustadas por tratamento:")
print(em_means.groupby('Trt', observed=False)['ajustado'].mean())

**Qual o objetivo da an√°lise?**
* A ANCOVA busca verificar se h√° diferen√ßa entre os grupos de tratamento na vari√°vel y, controlando o efeito do peso.
* Em outras palavras: queremos saber se o tratamento afeta y independentemente do peso dos animais.

**üìä Qualidade geral do modelo**
* R¬≤ = 0.852 ‚Üí o modelo explica 85,2% da varia√ß√£o total em y, o que √© excelente.
* R¬≤ ajustado = 0.835 ‚Üí mesmo considerando o n√∫mero de preditores, o modelo mant√©m boa capacidade explicativa.
* F(2,17) = 49.03, p = 8.72√ó10‚Åª‚Å∏ ‚Üí o modelo global √© altamente significativo, ou seja, peso e tratamento, em conjunto, explicam de forma robusta a varia√ß√£o em y.

**‚öôÔ∏è Interpreta√ß√£o dos coeficientes**
|Termo	|Coef.	|Interpreta√ß√£o|
|:--|:--|:--|
|Intercepto |= 0.8124	|Valor esperado de y para o grupo Anestesiado, quando Peso = 0 (interpreta√ß√£o matem√°tica, n√£o biol√≥gica).	|
|Trt[T.Decapitado] = 0.2693, |p = 0.021	|O grupo Decapitado apresenta, em m√©dia, +0.27 unidades maiores de y do que o grupo Anestesiado, ajustando o efeito do peso. Como p < 0.05, essa diferen√ßa √© estatisticamente significativa.	|
|Peso = 2.7359, |p < 0.001	|A cada aumento de 1 unidade de peso, h√° um acr√©scimo m√©dio de 2.74 unidades em y, mantendo o tratamento constante. O efeito do peso √© forte e altamente significativo.	|

**‚öñÔ∏è M√©dias ajustadas (ANCOVA)**
* As m√©dias ajustadas representam os valores de y esperados para cada grupo de tratamento, corrigidos pelo efeito do peso.

|Tratamento	|M√©dia ajustada de y|
|:--|:--|
|Anestesiado	|4.67|
|Decapitado	|4.28|

* ‚û°Ô∏è Embora o coeficiente positivo de ‚ÄúDecapitado‚Äù sugira maior valor inicial, ap√≥s o ajuste pela covari√°vel (peso), o grupo Anestesiado apresenta m√©dia ligeiramente maior (4.67 vs 4.28).

* Isso indica que parte da diferen√ßa bruta entre grupos era explicada pelo peso  e, ap√≥s o controle, a diferen√ßa se reduz.

**üìà Pressupostos**
* Durbin-Watson = 2.19 ‚Üí aus√™ncia de autocorrela√ß√£o dos res√≠duos (bom sinal).
* Teste de normalidade (Omnibus, JB): p > 0.05 ‚Üí res√≠duos aproximadamente normais.
* Cond. No. = 31.5 ‚Üí sem problemas s√©rios de multicolinearidade.

**üß© Conclus√£o**
* O peso exerce forte influ√™ncia sobre y.
* O tratamento ainda tem efeito significativo mesmo ap√≥s controlar o peso (p = 0.021).
* O modelo ajustado explica muito bem os dados.
* As m√©dias ajustadas indicam pequenas diferen√ßas entre os grupos, o que refor√ßa a utilidade da ANCOVA: separar o efeito do tratamento do efeito da covari√°vel.

# Teste de pressupostos

In [None]:
# Normalidade dos res√≠duos
residuos = modelo_ancova.resid
print("\nShapiro-Wilk para res√≠duos:")
print(stats.shapiro(residuos))

sns.histplot(residuos, kde=True)
plt.title("Histograma dos Res√≠duos")
plt.xlabel("Res√≠duos")
plt.show()

# Homogeneidade de vari√¢ncias
print("\nBartlett test:")
print(stats.bartlett(*[dados.loc[dados.Trt == g, 'y'] for g in dados.Trt.unique()]))

print("\nLevene test:")
print(stats.levene(*[dados.loc[dados.Trt == g, 'y'] for g in dados.Trt.unique()]))

sns.boxplot(x='Trt', y=residuos, data=dados)
plt.title("Homogeneidade de vari√¢ncias dos res√≠duos por tratamento")
plt.show()

# Intera√ß√£o (homogeneidade dos coeficientes angulares)

In [None]:
modelo_interacao = smf.ols('y ~ Trt * Peso', data=dados).fit()
anova_interacao = sm.stats.anova_lm(modelo_interacao, typ=3)
print("\n=== Teste de intera√ß√£o Tratamento*Peso ===")
print(anova_interacao)

**Estrutura geral**

O modelo testou o efeito do Tratamento (Trt), da covari√°vel Peso e da intera√ß√£o entre ambos (Trt:Peso) sobre a vari√°vel dependente y.
O objetivo √© verificar:
* se o tratamento tem efeito sobre y,
* se o peso influencia y,
* e se o efeito do tratamento depende do peso (intera√ß√£o).

**Interpreta√ß√£o dos resultados**
|Fonte|	F	|p (PR(>F))	|Interpreta√ß√£o|
|:--|:--|:--|:--|
|Intercept	|3.14	|0.095	|O intercepto n√£o √© estatisticamente diferente de zero (sem relev√¢ncia pr√°tica isolada).|
|Trt	|0.19	|0.665	|O tratamento n√£o tem efeito significativo sobre y ap√≥s controlar pelo peso.|
|Peso	|38.86	|< 0.001	|O peso tem forte efeito significativo sobre y. √Ä medida que o peso aumenta, y tamb√©m tende a aumentar.|
|Trt:Peso|	0.52	|0.480	|A intera√ß√£o n√£o √© significativa. O efeito do peso sobre y √© semelhante entre os tratamentos.|
|Residual	|‚Äî	|‚Äî	|Variabilidade n√£o explicada pelo modelo.|

**Conclus√£o pr√°tica**
* O peso √© a principal vari√°vel associada a y (efeito forte e significativo).
* O tratamento, por si s√≥, n√£o altera significativamente o valor de y.
* A rela√ß√£o entre peso e y √© paralela entre os grupos (sem intera√ß√£o significativa).
* Portanto, um modelo sem intera√ß√£o (modelo aditivo) √© mais parcimonioso e apropriado.

# Regress√µes separadas por grupo

In [None]:
plt.figure()
cores = sns.color_palette("Set2", n_colors=len(dados.Trt.cat.categories))
for i, trt in enumerate(dados.Trt.cat.categories):
    subset = dados[dados.Trt == trt]
    sns.scatterplot(x='Peso', y='y', data=subset, color=cores[i], label=trt)
    modelo = smf.ols('y ~ Peso', data=subset).fit()
    plt.plot(subset['Peso'], modelo.fittedvalues, color=cores[i])
plt.legend()
plt.title("Regress√µes lineares por tratamento")
plt.xlabel("Peso (kg)")
plt.ylabel("For√ßa de Contra√ß√£o (Y)")
plt.show()