# Validación de Supuestos: Test de Levene y Mann-Whitney U

En Machine Learning, antes de confiar en una característica, debemos saber si los grupos que comparamos son estadísticamente "parecidos" en su dispersión o en su posición.

---

### 1. Test de Levene (Homocedasticidad)

El test de Levene se utiliza para verificar si diferentes grupos tienen la misma **varianza** (es decir, si la dispersión de los datos es constante). A esta igualdad de varianzas se le llama **Homocedasticidad**.

* **Hipótesis Nula ($H_0$):** Las varianzas son iguales en todos los grupos.
* **Hipótesis Alternativa ($H_1$):** Al menos un grupo tiene una varianza distinta (**Heterocedasticidad**).

**¿Por qué es vital en Machine Learning?**
Si vas a usar modelos lineales (como Regresión Lineal o Logistic Regression), estos asumen que el error es constante. Si el Test de Levene da un **p-valor < 0.05**, significa que tus grupos son muy distintos en su dispersión, y podrías necesitar modelos más robustos o transformar la variable.



---

### 2. Prueba de Mann-Whitney U (La alternativa no paramétrica)

¿Recuerdas el Test de Shapiro-Wilk? Si tus datos **NO** son normales, no puedes usar una prueba de T-Student para comparar promedios. En su lugar, usas **Mann-Whitney U**.

Esta prueba no compara medias, sino que compara los **rangos** (la posición de los datos). Determina si es más probable que un valor extraído al azar de un grupo sea mayor que uno del otro grupo.

* **Uso principal:** Comparar si hay una diferencia significativa entre dos grupos (ej. ¿Ganan más los del Depto. A que los del Depto. B?) cuando los datos están sesgados o tienen outliers.

---

# La d de Cohen: Midiendo el Tamaño del Efecto

Si la prueba de Mann-Whitney o la T de Student te dicen que "hay una diferencia", la **d de Cohen** te dice qué tan **grande** o importante es esa diferencia en términos prácticos.

### 1. ¿Qué es exactamente?
La d de Cohen mide la distancia entre las medias de dos grupos en unidades de **desviación estándar**. 

A diferencia del p-valor (que solo te dice si la diferencia es fruto del azar o no), la d de Cohen es una medida estandarizada que permite comparar resultados entre distintos estudios o diferentes variables.

**La fórmula básica es:**
$$d = \frac{\bar{x}_1 - \bar{x}_2}{s_{pooled}}$$

Donde:
* $\bar{x}_1, \bar{x}_2$: Son las medias de los grupos.
* $s_{pooled}$: Es la desviación estándar combinada (un promedio de la dispersión de ambos).

---

### 2. Interpretación (Escala de Cohen)
Jacob Cohen estableció una guía para entender qué tan fuerte es el efecto detectado:

| Valor de d | Tamaño del Efecto | Interpretación Didáctica |
| :--- | :--- | :--- |
| **0.2** | Pequeño | La diferencia existe, pero las distribuciones se solapan muchísimo. |
| **0.5** | Mediano | La diferencia es visible a simple vista en un gráfico. |
| **0.8** | Grande | Las distribuciones están claramente separadas. |
| **> 1.2** | Muy Grande | Los grupos son drásticamente diferentes. |



---

### 3. ¿Por qué es importante en Machine Learning?

En ML, no solo buscamos variables que tengan un "p-valor < 0.05". Buscamos variables que tengan un **impacto real**.

* **Feature Selection (Selección de Características):** Si tienes 100 variables que "influyen" según el p-valor, pero solo puedes usar 10 por eficiencia, elegirás aquellas con la **d de Cohen más alta**. Estas son las que realmente moverán la aguja en tus predicciones.
* **Priorización de Negocio:** Imagina que un modelo detecta que un cambio en la interfaz aumenta las ventas. Si la d de Cohen es 0.1, el esfuerzo de desarrollo quizá no valga la pena, aunque sea "estadísticamente significativo".
* **Validación de Modelos:** Si comparas dos modelos (A y B), la d de Cohen te ayuda a cuantificar cuánto mejor es uno frente al otro más allá de una simple resta de porcentajes.

---