# Pruebas Estadísticas en Machine Learning

En este notebook exploraremos diferentes pruebas estadísticas, cuándo utilizarlas, sus supuestos y ejemplos prácticos.

---

## Tabla Comparativa de Pruebas Estadísticas

| **Prueba**           | **Cuándo Usarla**                                                                                     | **Supuestos**                                                                                                                                                                      | **Datos de Entrada**                        | **Resultado Principal**        |
|-----------------------|-----------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------|--------------------------------|
| **t-test**           | Comparar las medias de dos grupos independientes o dependientes.                                    | - Los datos deben seguir una distribución normal.<br>- Varianzas iguales (para el t-test estándar).<br>- Escala continua o de intervalos.                                           | Continuos o normalmente distribuidos       | Valor-p y diferencia de medias |
| **Levene's Test**    | Comparar las varianzas de dos o más grupos (para validar igualdad de varianzas antes de un t-test). | - No requiere normalidad.<br>- Independencia entre grupos.                                                                                                                         | Continuos o categóricos (2+ grupos)        | Valor-p para igualdad de varianza |
| **Mann-Whitney U**   | Comparar dos grupos cuando los datos no son normales o hay valores atípicos.                        | - Los datos no necesitan ser normales.<br>- Escala ordinal o continua.<br>- Independencia entre los grupos.                                                                        | Ordinal o continuo                          | Valor-p para diferencia de distribución |
| **ANOVA**            | Comparar las medias de más de dos grupos.                                                          | - Los datos deben ser normales.<br>- Igualdad de varianzas entre grupos.<br>- Independencia entre grupos.                                                                           | Continuos en múltiples grupos               | Valor F y valor-p              |
| **Kruskal-Wallis**   | Comparar más de dos grupos cuando los datos no son normales.                                       | - No requiere normalidad.<br>- Escala ordinal o continua.<br>- Independencia entre los grupos.                                                                                     | Ordinal o continuo                          | Valor H y valor-p               |
| **Chi-Square Test**  | Comparar proporciones o frecuencias observadas en tablas de contingencia.                          | - Los datos deben ser categóricos.<br>- Se espera un número mínimo de observaciones en cada celda (>= 5 por celda preferentemente).                                                | Categóricos                                | Valor chi-cuadrado y valor-p    |
| **Wilcoxon Signed-Rank** | Comparar dos muestras relacionadas cuando no se cumplen los supuestos del t-test pareado.            | - Los datos no necesitan ser normales.<br>- Escala ordinal o continua.<br>- Comparación de pares relacionados.                                                                     | Ordinal o continuo (pares)                 | Valor-p para diferencia de distribución |
| **Shapiro-Wilk**     | Evaluar la normalidad de los datos.                                                                | - Datos independientes.<br>- Escala continua.                                                                                                                                     | Continuos                                  | Valor W y valor-p               |
| **Kolmogorov-Smirnov** | Comparar distribuciones de dos muestras (prueba de igualdad de distribuciones).                    | - Los datos deben ser independientes.<br>- Escala ordinal o continua.                                                                                                              | Continuos o ordinales                       | Valor D y valor-p               |
| **Pearson Correlation** | Evaluar correlación lineal entre dos variables.                                                   | - Relación lineal entre variables.<br>- Escala continua.<br>- Sin valores atípicos extremos.                                                                                       | Continuos                                  | Coeficiente \( r \) y valor-p   |
| **Spearman Correlation** | Evaluar correlación monotónica entre dos variables (cuando no es lineal).                        | - No requiere normalidad.<br>- Escala ordinal o continua.<br>- Relación monotónica (puede ser no lineal).                                                                           | Ordinal o continuo                          | Coeficiente \( \rho \) y valor-p |

---

## Guía Rápida para Elegir la Prueba

1. **Comparar medias (2 grupos):**
   - **Normalidad:** Usa un **t-test**.
   - **No normalidad o valores atípicos:** Usa un **Mann-Whitney U**.
2. **Comparar medias (más de 2 grupos):**
   - **Normalidad:** Usa **ANOVA**.
   - **No normalidad:** Usa **Kruskal-Wallis**.
3. **Igualdad de varianzas:**
   - Usa **Levene's Test**.
4. **Comparar proporciones/frecuencias:**
   - Usa **Chi-Square Test**.
5. **Normalidad de datos:**
   - Usa **Shapiro-Wilk** o **Kolmogorov-Smirnov**.
6. **Correlación entre variables:**
   - **Lineal:** Usa **Pearson**.
   - **No lineal o monotónica:** Usa **Spearman**.

---

## Ejemplo Práctico: Prueba de Significancia para un A/B Test

### Paso 1: Importar las librerías necesarias

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

### Paso 2: Crear datos simulados

In [2]:
# Datos simulados
group_A = np.random.normal(loc=50, scale=10, size=100)
group_B = np.random.normal(loc=55, scale=10, size=100)

### Paso 3: Verificar normalidad

In [3]:
# Shapiro-Wilk Test para normalidad
print("Normalidad Grupo A:", stats.shapiro(group_A))
print("Normalidad Grupo B:", stats.shapiro(group_B))

Normalidad Grupo A: ShapiroResult(statistic=0.988371055654319, pvalue=0.5359563581079994)
Normalidad Grupo B: ShapiroResult(statistic=0.983414490852257, pvalue=0.2427943904833999)


### Paso 4: Probar igualdad de varianzas

In [4]:
# Levene's Test para igualdad de varianzas
print("Igualdad de varianzas:", stats.levene(group_A, group_B))

Igualdad de varianzas: LeveneResult(statistic=1.2783180465403452, pvalue=0.2595796680699125)


### Paso 5: Realizar un t-test

In [5]:
# t-test para comparar medias
t_stat, p_value = stats.ttest_ind(group_A, group_B)
print("t-test:", t_stat, p_value)

t-test: -1.7262474461875028 0.08586277263917742
