# La prueba no paramétrica de _Wilcoxon-Mann-Whitney_
Para el proyecto del quinto día utilizamos la prueba _t_ o _t_ de _Student_. Ésta es una prueba paramétrica que se utiliza para comparar las medias entre grupos y determinar si son signifiactivamente diferentes. Ahora veremos la prueba _U_ de _Wilcoxon-Mann-Whitney_, que es no paramétrica. No usa medias ni asume distribuciones normales: compara rangos y posiciones relativas, por lo que es más robusta frente a datos que tienen valores atípicos o distribuciones sesgadas.

Vamos a simular un escenario en el que un sitio web implementó un nuevo algoritmo para medir el tiempo de carga de páginas. Queremos comparar si hubo mejora antes y después del cambio. Los tiempos de carga están en segundos y no siguen una distribución normal debido a interrupciones, picos o errores, etc. Son valores atípicos ante los que la _t_ de _Student_ no sería una prueba robusta.

## Datos simulados
Después de obtener nuestros conjuntos de datos de _Kaggle_, hemos vuelto a simular nuestro datos con ayuda de `numpy`. También importaremos `stats` para poder hacer nuestra prueba estadística.

In [1]:
import numpy as np
from scipy import stats as st

np.random.seed(42)

# Carga promedio  de 5 seg, con algunos picos altos (valores atípicos).
loading_old = np.concatenate([
    np.random.normal(5, 1, 480),   # Mayoría con distribución normal.
    np.random.normal(20, 5, 20)    # 20 valores atípicos altos.
])

# Ligera mejora, promedio  de4.8 seg, mismos picos atípicos.
loading_new = np.concatenate([
    np.random.normal(4.8, 1, 480), 
    np.random.normal(18, 6, 20)
])

## Evaluación con Mann-Whitney U
Como valor de _alpha_ vamos a establecer `0.05`, que es lo mismo que 5%. Éste es un valor estándar en pruebas de este tipo, donde estamos midiendo la diferencia en la velocidad de un sitio _web_. Como sabes, en pruebas que requieran de mayor precisión, como pruebas médicas, _alpha_ debería ser menor.

In [2]:
alpha = 0.05
results = st.mannwhitneyu(loading_old, loading_new, alternative='two-sided')

print(f'p-value: {results.pvalue:.4f}')
if results.pvalue < alpha:
    print("Hipótesis nula rechazada: las distribuciones son significativamente diferentes.")
else:
    print("No podemos rechazar la hipótesis nula: no hay evidencia suficiente de diferencia.")


p-value: 0.0084
Hipótesis nula rechazada: las distribuciones son significativamente diferentes.


## Análisis
- Aunque hay valores extremos, la prueba no paramétrica analiza la posición relativa (rango) de los tiempos. Es decir, los valores extremos no lograr confundir a esta prueba.

- Si el _p-value_ es menor que 0.05, podemos decir con confianza que la mejora de la carga es real y no por azar ni por los valores atípicos. En este caso, ése fue el resultado.

## Conclusión

Este método es aplicable cuando nuestros datos no tienen una distribución normal. Es útil ante valores atípicos o distribuciones desconocidas. En lugar de confiar en medias que pueden ser engañosas, analizamos rangos y ordenamientos.

Así, la prueba _U_ de _Wilcoxon-Mann-Whitney_ nos otorga una herramienta sólida para validar cambios reales sin importar esos valores extremos disruptivos que podrían 'confundir' a una prueba paramétrica.

Lo que debemos tener claro después de este proyecto es que la prueba _t_ es una prueba paramétrica y es más potente cuando se cumplen sus supuestos (distribuciones normales y desviaciones similares); mientras que la prueba _Wilcoxon-Mann-Whitney_ es una prueba no paramétrica más flexible y segura cuando nuestros datos no cumplen esos requisitos o tienen valores extremos que pueden distorsionar las medias. ¿Interesante, no?