@author: Octavio Gutiérrez de Código Máquina

URL del canal: https://www.youtube.com/CodigoMaquina

URL del video: https://youtu.be/GJRkLs0UqEc

# Shapiro-Wilk & Kolmogorov-Smirnov
## Pruebas de Normalidad
### Ejemplo de Distribución Normal
#### 10 mil alturas de personas

In [None]:
import numpy as np
from scipy import stats
import warnings

warnings.filterwarnings("ignore")

# semilla para reproducibilidad
np.random.seed(5)

# altura promedio
mu = 170
# desviación estándar
sigma = 8
# generación de 10 mil alturas aleatorias
n = 10000
alturas = np.random.normal(mu, sigma, n)

### Ejemplo de Distribución Exponencial
#### 10 mil tiempos entre llamadas

In [None]:
# Generación de 10 mil tiempos entre llamadas
n = 10000
# Tiempo promedio entre llamadas de clientes
beta = 5
tiempos = np.random.exponential(scale=beta, size=n)

 # Prueba Shapiro-Wilk

In [None]:
# Hipótesis Nula (H0): La muestra proviene de una población
# distribuida normalmente (Mishra et al., 2019)
# Hipótesis Alternativa (H1): La muestra NO proviene de una población
# distribuida normalmente (Mishra et al., 2019)
# Para muestras provenientes de una distribución normal,
# el valor del estadístico de prueba W se aproxima a 1
print("La muestra ALTURAS 'pasa' (valor p >= 0.05) la prueba de normalidad",
      stats.shapiro(alturas))
print("La muestra TIEMPOS 'no pasa' (valor p < 0.05) la prueba de normalidad",
      stats.shapiro(tiempos))

La muestra ALTURAS 'pasa' (valor p >= 0.05) la prueba de normalidad ShapiroResult(statistic=0.9997878670692444, pvalue=0.4417445957660675)
La muestra TIEMPOS 'no pasa' (valor p < 0.05) la prueba de normalidad ShapiroResult(statistic=0.808997631072998, pvalue=0.0)


# Prueba Kolmogorov-Smirnov

In [None]:
# Hipótesis Nula (H0): La muestra proviene de una población
# distribuida normalmente (Mishra et al., 2019)
# Hipótesis Alternativa (H1): La muestra NO proviene de una población
# distribuida normalmente (Mishra et al., 2019)
# Se estandarizan las alturas
print("La muestra ALTURAS 'pasa' (valor p >= 0.05) la prueba de normalidad",
      stats.kstest((alturas-alturas.mean())/alturas.std(), stats.norm.cdf))
# Se estandarizan los tiempos
print("La muestra TIEMPOS 'no pasa' (valor p < 0.05) la prueba de normalidad",
       stats.kstest((tiempos-tiempos.mean())/tiempos.std(), stats.norm.cdf))

La muestra ALTURAS 'pasa' (valor p >= 0.05) la prueba de normalidad KstestResult(statistic=0.007290021030465166, pvalue=0.659771609272426, statistic_location=0.1875620754622093, statistic_sign=-1)
La muestra TIEMPOS 'no pasa' (valor p < 0.05) la prueba de normalidad KstestResult(statistic=0.1601927910942244, pvalue=1.1899944234883226e-224, statistic_location=-0.993665832662915, statistic_sign=-1)


<BR><BR><BR>
# Shapiro-Wilk **VERSUS** Kolmogorov-Smirnov
## ¿Cuál debo utilizar?


* **Shapiro-Wilk es la más poderosa para todos los tamaños de muestras**  *(Razali & Wah, 2011)*

* **Kolmogorov-Smirnov es la menos poderosa** *(Razali & Wah, 2011)*

* **Kolmogorov-Smirnov [..] lleva a errores sistemáticos y drásticos** *(Steinskog et al., 2007)*

* **Shapiro-Wilk es más apropiada para muestras pequeñas (n < 50), aunque también se utiliza en muestras de mayor tamaño, mientras que Kolmogorov-Smirnov se utiliza para n >= 50** *(Mishra et al. 2019)*.

<BR><BR><BR><BR>

# Referencias

* Mishra, P., Pandey, C. M., Singh, U., Gupta, A., Sahu, C., & Keshri, A. (2019). Descriptive statistics and normality tests for statistical data. Annals of cardiac anaesthesia, 22(1), 67.

* Razali, N. M., & Wah, Y. B. (2011). Power comparisons of shapiro-wilk, kolmogorov-smirnov, lilliefors and anderson-darling tests. Journal of statistical modeling and analytics, 2(1), 21-33.

* Steinskog, D. J., Tjøstheim, D. B., & Kvamstø, N. G. (2007). A cautionary note on the use of the Kolmogorov–Smirnov test for normality. Monthly Weather Review, 135(3), 1151-1157.