In [2]:
# Importamos el m√≥dulo de estad√≠stica de SciPy
# stats contiene pruebas estad√≠sticas (t-test, Mann-Whitney, etc.)
from scipy import stats

# Importamos NumPy para trabajar con arreglos y generar datos
import numpy as np


# =========================
# 1Ô∏è‚É£ CREACI√ìN DE LOS DATOS
# =========================

# Generamos el grupo A:
# - Distribuci√≥n normal
# - Media = 100
# - Desviaci√≥n est√°ndar = 15
# - Tama√±o de muestra = 50
grupo_a = np.random.normal(100, 15, 50)

# Generamos el grupo B:
# - Media diferente (110)
# - Desviaci√≥n est√°ndar diferente (20)
# - Tama√±o de muestra distinto (45)
# Esto simula dos grupos reales con comportamientos distintos
grupo_b = np.random.normal(110, 20, 45)


# =========================
# 2Ô∏è‚É£ PRUEBA MANN-WHITNEY U
# =========================

# Aplicamos la prueba Mann-Whitney U
# Se usa cuando:
# - No asumimos normalidad
# - Queremos comparar dos grupos independientes
# alternative='two-sided' indica que buscamos cualquier diferencia
# (grupo A ‚â† grupo B)
u_stat, p_value = stats.mannwhitneyu(grupo_a, grupo_b, alternative='two-sided')


# =========================
# 3Ô∏è‚É£ MOSTRAR RESULTADOS
# =========================

# Mostramos el estad√≠stico U
# U es el valor calculado a partir de los rangos de los datos
print(f"Estad√≠stico U: {u_stat:.1f}")

# Mostramos el valor p
# El valor p indica si la diferencia observada es estad√≠sticamente significativa
print(f"Valor p: {p_value:.4f}")

# Calculamos y mostramos la mediana del grupo A
# La mediana es la medida central m√°s importante en pruebas no param√©tricas
print(f"Mediana grupo A: {np.median(grupo_a):.2f}")

# Calculamos y mostramos la mediana del grupo B
print(f"Mediana grupo B: {np.median(grupo_b):.2f}")


Estad√≠stico U: 694.0
Valor p: 0.0013
Mediana grupo A: 100.84
Mediana grupo B: 113.17


In [3]:
# =========================
# 1Ô∏è‚É£ CREACI√ìN DE LOS DATOS
# =========================

# Grupo 1:
# - Distribuci√≥n normal
# - Media = 100
# - Desviaci√≥n est√°ndar = 15
# - Tama√±o de muestra = 40
grupo_1 = np.random.normal(100, 15, 40)

# Grupo 2:
# - Distribuci√≥n exponencial (no normal, sesgada a la derecha)
# - Se suma 80 para que los valores est√©n en un rango similar a los otros grupos
# - Tama√±o de muestra = 35
# Este grupo rompe el supuesto de normalidad
grupo_2 = np.random.exponential(20, 35) + 80

# Grupo 3:
# - Distribuci√≥n normal
# - Media = 105
# - Desviaci√≥n est√°ndar = 25 (mayor dispersi√≥n)
# - Tama√±o de muestra = 38
grupo_3 = np.random.normal(105, 25, 38)


# =========================
# 2Ô∏è‚É£ PRUEBA KRUSKAL-WALLIS
# =========================

# Aplicamos la prueba Kruskal-Wallis
# Se usa cuando:
# - Queremos comparar 3 o m√°s grupos independientes
# - No se cumple el supuesto de normalidad
#
# Hip√≥tesis:
# H‚ÇÄ: todos los grupos provienen de la misma distribuci√≥n
# H‚ÇÅ: al menos un grupo es diferente
h_stat, p_value = stats.kruskal(grupo_1, grupo_2, grupo_3)


# =========================
# 3Ô∏è‚É£ MOSTRAR RESULTADOS
# =========================

# Estad√≠stico H:
# Mide qu√© tan diferentes son los rangos entre los grupos
print(f"Estad√≠stico H: {h_stat:.3f}")

# Valor p:
# Indica si las diferencias observadas son estad√≠sticamente significativas
print(f"Valor p: {p_value:.4f}")

# Mostramos las medianas de cada grupo
# La mediana es la medida central relevante en pruebas no param√©tricas
print(
    f"Medianas: "
    f"G1={np.median(grupo_1):.2f}, "
    f"G2={np.median(grupo_2):.2f}, "
    f"G3={np.median(grupo_3):.2f}"
)


Estad√≠stico H: 0.898
Valor p: 0.6383
Medianas: G1=98.79, G2=96.84, G3=100.13


In [10]:
# =========================
# 1Ô∏è‚É£ GENERACI√ìN DE LOS DATOS
# =========================

# Generamos valores de x distribuidos de forma uniforme
# entre 0 y 10 (todos los valores tienen la misma probabilidad)
x = np.random.uniform(0, 10, 100)

# Generamos y a partir de x usando una relaci√≥n LOGAR√çTMICA
# - log(x + 1): relaci√≥n no lineal
# - ruido normal: simula datos reales con error
#
# Importante:
# Aunque no es lineal, la relaci√≥n es MON√ìTONA
# (cuando x aumenta, y tambi√©n aumenta)
y = np.log(x + 1) + np.random.normal(0, 0.2, 100)


# =========================
# 2Ô∏è‚É£ CORRELACI√ìN DE PEARSON
# =========================

# Pearson mide la FUERZA de una RELACI√ìN LINEAL
# Supone:
# - Relaci√≥n lineal
# - Datos aproximadamente normales
pearson_r, _ = stats.pearsonr(x, y)


# =========================
# 3Ô∏è‚É£ CORRELACI√ìN DE SPEARMAN
# =========================

# Spearman mide la FUERZA de una RELACI√ìN MON√ìTONA
# No exige:
# - Linealidad
# - Normalidad
#
# Funciona usando los RANGOS de los datos
spearman_rho, _ = stats.spearmanr(x, y)


# =========================
# 4Ô∏è‚É£ MOSTRAR RESULTADOS
# =========================

print(f"Correlaci√≥n Pearson: {pearson_r:.3f}")
print(f"Correlaci√≥n Spearman: {spearman_rho:.3f}")


Correlaci√≥n Pearson: 0.913
Correlaci√≥n Spearman: 0.922


In [11]:
def bootstrap_confidence_interval(data, statistic_func, n_bootstrap=1000, confidence=0.95):
    """
    Calcula un intervalo de confianza usando BOOTSTRAP
    data           : datos originales
    statistic_func : estad√≠stico a calcular (media, mediana, etc.)
    n_bootstrap    : n√∫mero de remuestreos
    confidence     : nivel de confianza (ej: 0.95)
    """

    # Lista donde guardaremos el estad√≠stico calculado en cada remuestreo
    bootstrap_stats = []

    # =========================
    # 1Ô∏è‚É£ REMUESTREO BOOTSTRAP
    # =========================
    for _ in range(n_bootstrap):

        # Tomamos una muestra del mismo tama√±o que data
        # CON reemplazo (bootstrap)
        sample = np.random.choice(data, size=len(data), replace=True)

        # Calculamos el estad√≠stico de inter√©s sobre la muestra
        stat = statistic_func(sample)

        # Guardamos el resultado
        bootstrap_stats.append(stat)

    # =========================
    # 2Ô∏è‚É£ INTERVALO DE CONFIANZA
    # =========================

    # alpha es el nivel de significancia (1 - confianza)
    alpha = 1 - confidence

    # Percentil inferior del intervalo
    lower = np.percentile(bootstrap_stats, (alpha / 2) * 100)

    # Percentil superior del intervalo
    upper = np.percentile(bootstrap_stats, (1 - alpha / 2) * 100)

    # Retornamos:
    # - promedio del estad√≠stico bootstrap
    # - l√≠mite inferior
    # - l√≠mite superior
    return np.mean(bootstrap_stats), lower, upper


# =========================
# 3Ô∏è‚É£ EJEMPLO DE USO
# =========================

# Generamos datos con distribuci√≥n exponencial (no normal)
# Esto justifica el uso de bootstrap
data = np.random.exponential(2, 100)

# Calculamos un intervalo de confianza bootstrap para la MEDIANA
media_bootstrap, ci_lower, ci_upper = bootstrap_confidence_interval(
    data,              # datos
    np.median,         # estad√≠stico de inter√©s
    n_bootstrap=1000,  # n√∫mero de remuestreos
    confidence=0.95    # 95% de confianza
)

# Mediana observada en los datos reales
print(f"Mediana observada: {np.median(data):.3f}")

# Intervalo de confianza bootstrap
print(f"IC Bootstrap 95%: ({ci_lower:.3f}, {ci_upper:.3f})")


Mediana observada: 1.808
IC Bootstrap 95%: (1.552, 2.203)


In [12]:
def permutation_test(group1, group2, n_permutations=1000):
    """
    Prueba de permutaci√≥n para comparar DOS GRUPOS
    usando la diferencia de medias como estad√≠stico
    """

    # =========================
    # 1Ô∏è‚É£ ESTAD√çSTICO OBSERVADO
    # =========================

    # Calculamos la diferencia REAL de medias entre los dos grupos
    # Este es el valor que queremos evaluar
    observed_diff = np.mean(group1) - np.mean(group2)


    # =========================
    # 2Ô∏è‚É£ COMBINAR LOS DATOS
    # =========================

    # Unimos ambos grupos en un solo arreglo
    # Bajo H‚ÇÄ: ambos grupos provienen de la misma poblaci√≥n
    combined = np.concatenate([group1, group2])

    # Guardamos los tama√±os originales de cada grupo
    n1, n2 = len(group1), len(group2)


    # =========================
    # 3Ô∏è‚É£ DISTRIBUCI√ìN NULA
    # =========================

    # Aqu√≠ guardaremos las diferencias de medias
    # que se obtienen al permutar los datos
    null_diffs = []

    for _ in range(n_permutations):

        # Mezclamos aleatoriamente los datos combinados
        # Esto simula el escenario donde no hay diferencia real
        np.random.shuffle(combined)

        # Separamos los datos respetando los tama√±os originales
        perm_group1 = combined[:n1]
        perm_group2 = combined[n1:]

        # Calculamos la diferencia de medias para esta permutaci√≥n
        null_diffs.append(np.mean(perm_group1) - np.mean(perm_group2))


    # =========================
    # 4Ô∏è‚É£ C√ÅLCULO DEL VALOR p
    # =========================

    # El valor p es la proporci√≥n de diferencias permutadas
    # tan extremas o m√°s extremas que la diferencia observada
    p_value = np.mean(np.abs(null_diffs) >= np.abs(observed_diff))


    # Retornamos la diferencia observada y el valor p
    return observed_diff, p_value


# =========================
# 5Ô∏è‚É£ EJEMPLO DE USO
# =========================

# Creamos dos grupos con distribuci√≥n no normal
# Esto justifica el uso de una prueba de permutaci√≥n
group_a = np.random.exponential(1, 50)
group_b = np.random.exponential(1.3, 45)

# Ejecutamos la prueba de permutaci√≥n
diff_observed, p_perm = permutation_test(
    group_a,
    group_b,
    n_permutations=1000
)

# Mostramos resultados
print(f"Diferencia observada: {diff_observed:.3f}")
print(f"Valor p (permutaci√≥n): {p_perm:.4f}")


Diferencia observada: -0.079
Valor p (permutaci√≥n): 0.7450


In [None]:
"""
üìå ¬øDe qu√© trata todo este c√≥digo?

Es estad√≠stica inferencial no param√©trica y m√©todos de remuestreo, usados cuando no se cumplen supuestos cl√°sicos (normalidad, varianzas iguales, linealidad).

üîπ Mann‚ÄìWhitney U

Para qu√©: comparar 2 grupos independientes

Alternativa a: t de Student

Compara: medianas (rangos)

p < 0.05 ‚Üí grupos distintos

üîπ Kruskal‚ÄìWallis

Para qu√©: comparar 3 o m√°s grupos

Alternativa a: ANOVA

p < 0.05 ‚Üí al menos un grupo distinto

üîπ Pearson vs Spearman

Pearson: relaci√≥n lineal

Spearman: relaci√≥n mon√≥tona (orden)

Spearman es m√°s robusta si no hay linealidad

üîπ Bootstrap

Para qu√©: intervalos de confianza sin asumir distribuci√≥n

C√≥mo: remuestreo con reemplazo

√ötil para medianas, percentiles

üîπ Prueba de permutaci√≥n

Para qu√©: comparar grupos sin supuestos

Idea: si no hay diferencia, mezclar no cambia el resultado

p < 0.05 ‚Üí diferencia real

üß† Idea central de la materia

üëâ Inferir conclusiones con datos reales cuando no cumplen condiciones ideales

üß© Regla r√°pida

Datos normales ‚Üí pruebas param√©tricas

Datos no normales / peque√±os ‚Üí no param√©tricas

"""