# Pruebas de normalidad

Antes de aplicar muchos de los métodos estadísticos (como la prueba t de Student o el ANOVA) es importante verificar si los datos siguien una distribución normal. La literatura especializada registra decenas de pruebas para evaluar la normalidad de los datos. Revisaremos los casos de la la prueba Shapiro-Wilk y la prueba Kolmogorov-Smirnov (con la corrección de Lilliefors). 

En las primeras dos pruebas (y otras más incluidas en este curso), vamos a crear funciones que realicen lo siguiente:
1. *Preparar los datos*: Validar y procesar datos para la prueba.
2. *Realizar la prueba estadística*: Obtener los estadísticos de prueva y valores p.
3. *Mostrar los resultados e interpretación*: Para facilitar la descripción de los resultados de la prueba.
4. *Guardar una conclusión general o el p-valor*: Para facilitar decisiones específicas en flujos automatizados.

In [None]:
import pandas as pd
import numpy as np

#df = pd.read_excel('../datas/enigh2020.xlsx')
df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/data/enigh2020.xlsx')

In [None]:
# Para propósitos de ejemplo obtenemos una muestra de tamaño mediano
data = df['edad_jefe'].head(100)

## Prueba Shapiro-Wilk
La prueba Shapiro-Wilk (1965) evalúa si los datos provienen de una distribución normal. Esta prueba compara valores observados con valores esperados bajo una distribución normal teórica mediante una combinación lineal de los datos ordenados. Originalmente fue diseñada para muestras pequeñas (n < 50) y luego se extendió hasta n = 2000.  No obstante, no es recomendable para muestras mayores debido a que puede ser muy sensible a pequeñas desviaciones de la normalidad que podrían no ser relevantes. 

Las hipótesis son:
- Hipótesis nula (H0): Los datos provienen de una distribución normal
- Hipótesis alternativa (H1): Los datos no provienen de una distribución normal.

La prueba genera un estadístico W que toma valores de 0 a 1, donde 1 indica una normalidad perfecta.

In [None]:
from scipy import stats

def shapiro_wilk_test(data, alpha=0.05):
    """ Aplica una prueba Shapiro-Wilk para evaluar la normalidad de los datos"""
    statistic, p_value = stats.shapiro(data)
    conclusion = "no rechaza" if p_value > alpha else "rechaza"
    print(f'La prueba Shapiro-Wilk {conclusion} la normalidad de los datos (W = {statistic:.4f}, p = {p_value:.4f})')
    return p_value > alpha

In [None]:
resultado = shapiro_wilk_test(data)

## Prueba Kolmogorov-Smirnov-Lilliefors
La prueba de los matemáticos rusos Kolmogorov-Smirnov compara la función de distribución empírica (EDF) con la función de distribución acumulada (CDF) de una distribución específica (como la normal). En la biblioteca *scipy.stats* el módulo `kstest()` realiza esta prueba. Las hipótesis son:
- Hipótesis nula (H0): Los datos provienen de una distribución específica
- Hipótesis alternativa (H1): Los datos no provienen de una distribución específica

Sin embargo, cuando los parámetros de la distribución se estiman a partir de los datos (en lugar de ser conocidos de antemano), la prueba de Kolmogorov-Smirnov clásica no es estrictamente válida. En este caso, es preferible utilizar la corrección de Lilliefors (1967), que adapta la prueba de KS para este escenario. Para realizar la prueba de Lilliefors se puede utilizar `lilliefors()` de la biblioteca statsmodels. Esta prueba arroja un estadístico D que mide la mayor diferencia absoluta entre la distribución teórica con la observada.

In [None]:
from statsmodels.stats.diagnostic import lilliefors as sm_lilliefors

def lilliefors_test(data, alpha=0.05):
    """ Aplica una prueba Kolmogorov-Smirnov-Lilliefors para evaluar la normalidad de los datos"""  
    statistic, p_value = sm_lilliefors(data)
    conclusion = "no rechaza" if p_value > alpha else "rechaza"
    print(f'La prueba de Lilliefors {conclusion} la normalidad de los datos (D = {statistic:.4f}, p = {p_value:.4f})')
    return p_value > alpha

In [None]:
lilliefors_test(data)

## Prueba Jarque-Bera
La prueba Jarque-Bera (1980) evalúa cuanto se desvían el sesgo y la curtosis observados de los valores esperados bajo una distribución normal. Esta prueba fue desarrollada por el mexicano Carlos M. Jarque junto con Anil K. Bera.
Las hipótesis son:
- Hipótesis nula (H0): Los datos tienen una distribución normal.
- Hipótesis alternativa (H1): Los datos no tienen una distribución normal.

El estadístico Jarque-Bera (JB) sigue aproximadamente una distribución chi-cuadrada con dos grados de libertad asumiendo que la hipótesis nula es verdadera. Este estadístico se incluye en el reporte de resultados de la regresión lineal de la biblioteca de statsmodels.

## Referencias
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html


https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html