teoria actividad 3 semana 7

In [None]:
#ANOVA de Una V√≠a y su Interpretaci√≥n

"""
Asunciones del ANOVA
Independencia: Observaciones independientes entre grupos.
Normalidad: Distribuciones aproximadamente normales en cada grupo.
Homocedasticidad: Varianzas iguales entre grupos (prueba de Levene).
"""

In [2]:
from scipy import stats
import statsmodels.api as sm
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import numpy as np

# Placeholder for 'grupos'. Replace this with your actual data.
# 'grupos' should be a dictionary where keys are group names and values are arrays/lists of data.
grupos = {
    'Grupo A': np.random.normal(loc=10, scale=2, size=30),
    'Grupo B': np.random.normal(loc=12, scale=2, size=30),
    'Grupo C': np.random.normal(loc=10, scale=2, size=30)
}

# Verificar normalidad (Shapiro-Wilk por grupo)
for grupo, datos in grupos.items():
    stat, p = stats.shapiro(datos)
    print(f"Grupo {grupo} - Normal: {'S√≠' if p > 0.05 else 'No'} (p={p:.3f})")

# Verificar homocedasticidad (Levene)
stat, p = stats.levene(*grupos.values())
print(f"Homocedasticidad: {'S√≠' if p > 0.05 else 'No'} (p={p:.3f})")

Grupo Grupo A - Normal: S√≠ (p=0.991)
Grupo Grupo B - Normal: S√≠ (p=0.694)
Grupo Grupo C - Normal: S√≠ (p=0.847)
Homocedasticidad: S√≠ (p=0.636)


In [3]:
# ANOVA de una v√≠a
f_stat, p_value = stats.f_oneway(*grupos.values())

print(f"Estad√≠stico F: {f_stat:.3f}")
print(f"Valor p: {p_value:.4f}")
print(f"Significativo: {'S√≠' if p_value < 0.05 else 'No'}")

Estad√≠stico F: 7.151
Valor p: 0.0013
Significativo: S√≠


In [5]:
import statsmodels.formula.api as smf
import pandas as pd

# Preparar datos en formato long
df_long = pd.DataFrame({
    'valor': np.concatenate(list(grupos.values())),
    'grupo': np.repeat(list(grupos.keys()), [len(v) for v in grupos.values()])
})

# Modelo ANOVA
modelo = smf.ols('valor ~ C(grupo)', data=df_long).fit()
anova_table = sm.stats.anova_lm(modelo, typ=2)

print(anova_table)

              sum_sq    df         F    PR(>F)
C(grupo)   48.577825   2.0  7.151238  0.001332
Residual  295.492250  87.0       NaN       NaN


In [6]:
# Pruebas Post-hoc y Correcci√≥n de Bonferroni
# Prueba de Tukey
tukey = pairwise_tukeyhsd(df_long['valor'], df_long['grupo'], alpha=0.05)
print(tukey)

# Resultado t√≠pico:
# Multiple Comparison of Means - Tukey HSD, FWER=0.05
# ====================================================
# group1 group2 meandiff p-adj   lower   upper  reject
# ----------------------------------------------------
#   A      B     5.234   0.012  1.456   9.012   True
#   A      C     2.123   0.245 -1.234   5.480  False
#   B      C    -3.111   0.034 -6.234  -0.988   True

 Multiple Comparison of Means - Tukey HSD, FWER=0.05  
 group1  group2 meandiff p-adj   lower   upper  reject
------------------------------------------------------
Grupo A Grupo B   1.5195 0.0055  0.3848  2.6541   True
Grupo A Grupo C  -0.0753 0.9863   -1.21  1.0593  False
Grupo B Grupo C  -1.5948 0.0034 -2.7294 -0.4601   True
------------------------------------------------------


In [7]:
from statsmodels.sandbox.stats.multicomp import multipletests

# Aplicar correcci√≥n Bonferroni
p_values = [0.03, 0.04, 0.02]  # p-values de comparaciones individuales
reject, p_adjusted, _, _ = multipletests(p_values, alpha=0.05, method='bonferroni')

print("Correcci√≥n Bonferroni:")
for i, (p_orig, p_adj, rej) in enumerate(zip(p_values, p_adjusted, reject)):
    print(f"Comparaci√≥n {i+1}: p={p_orig:.3f} ‚Üí p-ajustado={p_adj:.3f} (Rechazar: {rej})")

Correcci√≥n Bonferroni:
Comparaci√≥n 1: p=0.030 ‚Üí p-ajustado=0.090 (Rechazar: False)
Comparaci√≥n 2: p=0.040 ‚Üí p-ajustado=0.120 (Rechazar: False)
Comparaci√≥n 3: p=0.020 ‚Üí p-ajustado=0.060 (Rechazar: False)


In [None]:
#Analisis
"""
Objetivo del an√°lisis

Determinar si existen diferencias significativas entre las medias de tres grupos:
Grupo A
Grupo B
Grupo C
üëâ Cuando hay m√°s de dos grupos, no se usan t-tests m√∫ltiples, sino ANOVA.



1-Verificaci√≥n de supuestos del ANOVA: Antes de aplicar ANOVA, se deben cumplir ciertos supuestos.

1.1 Normalidad (Shapiro-Wilk)
stats.shapiro(datos)

Hip√≥tesis:

H‚ÇÄ: los datos siguen una distribuci√≥n normal

H‚ÇÅ: los datos no son normales

Resultados:

Grupo A p=0.991
Grupo B p=0.694
Grupo C p=0.847


üëâ Todos los p-values > 0.05
‚úÖ No se rechaza la normalidad




1.2 Homocedasticidad (Levene)
stats.levene(*grupos.values())

Hip√≥tesis:

H‚ÇÄ: las varianzas de los grupos son iguales

H‚ÇÅ: al menos una varianza es distinta

Resultado:

p = 0.636 > 0.05


‚úÖ Se cumple el supuesto de igualdad de varianzas


2-ANOVA de una v√≠a
stats.f_oneway(*grupos.values())

üîπ Hip√≥tesis

H‚ÇÄ: Œº_A = Œº_B = Œº_C

H‚ÇÅ: al menos una media es distinta

üîπ Resultado
F = 7.151
p = 0.0013


üìå Como p < 0.05:
‚û°Ô∏è Se rechaza H‚ÇÄ

üëâ Existe evidencia de diferencias entre los grupos, pero ANOVA no dice entre cu√°les.




3-ANOVA con statsmodels (confirmaci√≥n)
sm.stats.anova_lm(modelo, typ=2)

Fuente	  F	        p
Grupo	  7.151    	0.001332

üëâ Confirma exactamente el resultado del ANOVA de SciPy.

4-Pruebas post-hoc: Tukey HSD
üîπ ¬øPor qu√© post-hoc?: Porque ANOVA solo responde: ¬øhay diferencias?

No responde:¬øentre qu√© grupos?

üîπ Tukey HSD
pairwise_tukeyhsd(...)


Controla el error familiar (FWER) autom√°ticamente.

üîπ Interpretaci√≥n
Comparaci√≥n   	p-ajustada    ¬øDiferencia?
A vs B          	0.0055	      ‚úÖ S√≠
A vs C	          0.9863	      ‚ùå No
B vs C	          0.0034      	‚úÖ S√≠

üìå Grupo B es distinto de A y C
üìå A y C no difieren


5-Correcci√≥n de Bonferroni (concepto)
multipletests(..., method='bonferroni')

üîπ ¬øQu√© problema corrige?

Cuando haces muchas pruebas, aumenta la probabilidad de:

cometer al menos un error tipo I (falso positivo)
üîπ C√≥mo funciona Bonferroni
Œ±_ajustado = Œ± / n√∫mero de pruebas


Con Œ± = 0.05 y 3 comparaciones:

Œ±_ajustado = 0.0167   (0.05/3)

üîπ Resultado
p original	p ajustado	¬øRechaza?
0.03          	0.09	     ‚ùå
0.04          	0.12	     ‚ùå
0.02	          0.06	     ‚ùå

Ninguna comparaci√≥n es significativa tras Bonferroni


6-Tukey vs Bonferroni (clave para entender)

M√©todo	                 Caracter√≠stica

Tukey	                  Dise√±ado espec√≠ficamente para comparar todas las medias
Bonferroni	            Muy conservador
Bonferroni	            Aumenta errores tipo II
Tukey	                  Mejor balance para ANOVA

üëâ Por eso Tukey es preferido tras ANOVA.


7-Conclusi√≥n global

Los supuestos del ANOVA se cumplen

El ANOVA indica diferencias significativas

Tukey muestra que:

Grupo B es diferente

Grupos A y C son similares

Bonferroni ilustra c√≥mo las correcciones afectan la significancia

üß† Resumen mental para estudiar

Forma correcta de decirlo

ANOVA indica si existen diferencias globales entre los grupos.
Las pruebas post-hoc (como Tukey HSD) identifican entre qu√© grupos est√°n esas diferencias.
Las correcciones por comparaciones m√∫ltiples (como Bonferroni) controlan el riesgo de falsos positivos (error tipo I).

üß† Versi√≥n a√∫n m√°s corta (tipo memoria)
ANOVA detecta diferencias, Tukey dice d√≥nde est√°n y Bonferroni evita falsos positivos.

"""
