# Test de Shapiro-Wilk: La Prueba de Normalidad

El test de Shapiro-Wilk es una prueba estadística que se utiliza para contrastar si un conjunto de datos proviene de una **distribución normal**. Es considerada la prueba más potente y confiable, especialmente para muestras pequeñas y medianas (hasta 5,000 datos).

### 1. El Planteamiento de Hipótesis
Como todo test estadístico, Shapiro-Wilk trabaja con dos hipótesis:

* **Hipótesis Nula ($H_0$):** Los datos siguen una distribución normal.
* **Hipótesis Alternativa ($H_1$):** Los datos **NO** siguen una distribución normal.

### 2. ¿Cómo se interpreta? (El P-valor)
Aquí es donde muchos se confunden, ¡pero es muy simple! Solo debes mirar el **p-value**:

* **Si p-valor > 0.05:** No tenemos evidencia suficiente para rechazar $H_0$. Por lo tanto, **asumimos que nuestros datos son Normales**.
* **Si p-valor < 0.05:** Rechazamos $H_0$. Esto significa que nuestros datos tienen un sesgo o una curtosis que los aleja de la normalidad (**No son Normales**).



---

### 3. ¿Por qué se usa en Machine Learning?

Muchos algoritmos y técnicas de ML son "especialistas" en datos normales. Usamos Shapiro-Wilk para decidir qué camino tomar en nuestro flujo de trabajo:

#### A. Selección de Algoritmos
* Si tus variables son normales, algoritmos como la **Regresión Lineal**, **Regresión Logística** o el **Análisis de Discriminante Lineal (LDA)** suelen funcionar con su máxima eficiencia.
* Si NO son normales, quizás prefieras algoritmos no paramétricos o basados en árboles (**Random Forest, Gradient Boosting**).

#### B. Elección de Pruebas Estadísticas
* **Datos Normales:** Puedes usar el Test de T-Student o ANOVA.
* **Datos No Normales:** Debes usar pruebas como Mann-Whitney o Kruskal-Wallis.

#### C. Preprocesamiento (Escalado)
* Si los datos pasan el test de Shapiro-Wilk, el **StandardScaler** (Z-score) es ideal.
* Si los datos fallan el test, un **MinMaxScaler** o un **RobustScaler** suele ser más adecuado para no distorsionar la distribución.

---

### 4. Limitaciones Importantes
Aunque es el mejor test, tiene un "truco":
1.  **Sensibilidad al tamaño:** En datasets muy grandes (ej. 1 millón de filas), casi cualquier desviación mínima hará que el test diga que "No es normal" ($p < 0.05$). En esos casos, es mejor complementar con gráficos como el **Q-Q Plot**.
2.  **Muestreo:** Si tienes muchísimos datos, se recomienda tomar una muestra aleatoria de 500 o 1,000 registros para aplicar Shapiro-Wilk.



### Ejemplo rápido en interpretación:
> "Hice el test a mi columna 'Edad'. El p-valor salió 0.0002. Como es menor a 0.05, mi columna 'Edad' no es normal y debería considerar una transformación logarítmica o usar un modelo robusto."