# Pruebas de normalidad

En las pruebas estadísticas incluidas en este curso, vamos a crear funciones que realicen lo siguiente:
1. *Preparar los datos*: Validar y procesar datos para la prueba.
2. *Realizar la prueba estadística*: Obtener los estadísticos de prueva y valores p.
3. *Mostrar los resultados e interpretación*: Para facilitar la descripción de los resultados de la prueba.
4. *Guardar una conclusión general o el p-valor*: Para facilitar decisiones específicas en flujos automatizados.


Existen varias pruebas para evaluar la normalidad de los datos. Exploraremos la prueba Shapiro-Wilk y la Kolmogorov-Smirnov

In [None]:
import pandas as pd
import numpy as np

#df = pd.read_excel('../datasets/enigh2020.xlsx')
df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/datasets/enigh2020.xlsx')

In [None]:
# Para propósitos de ejemplo obtenemos una muestra de tamaño mediano
data = df['edad_jefe'].head(100)

## Prueba Shapiro-Wilk
La prueba Shapiro-Wilk es una de las más utilizadas especialmente para muestras pequeñas o medianas. No es recomendable para muestras muy grandes (n > 2000) debido a que en esos casos puede ser muy sensible a pequeñas desviaciones de la normalidad.
- Hipótesis nula (H0): Los datos provienen de una distribución normal  
- Hipótesis alternativa (H1): Los datos no provienen de una distribución normal.  

In [None]:
from scipy import stats

def shapiro_wilk_test(data, alpha=0.05):
    """ Aplica una prueba Shapiro-Wilk para evaluar la normalidad de los datos"""
    statistic, p_value = stats.shapiro(data)
    conclusion = "no rechaza" if p_value > alpha else "rechaza"
    print(f'La prueba Shapiro-Wilk {conclusion} la normalidad de los datos (W = {statistic:.4f}, p = {p_value:.4f})')
    return p_value > alpha

In [None]:
resultado = shapiro_wilk_test(data)

## Prueba Kolmogorov-Smirnov-Lilliefors
La prueba de Kolmogorov-Smirnov (con la corrección de Lilliefors) es apropiada para muestras medianas a grandes y es generalizable a otro tipo de distribuciones.
- Hipótesis nula (H0): Los datos provienen de una distribución específica
- Hipótesis alternativa (H1): Los datos no provienen de una distribución específica


En la biblioteca *scipy.stats* el módulo `kstest()` realiza la prueba clásica (que asume parámetros conocidos), si deseas utilizar la corrección de Lilliefors (que utiliza parámetros estimados a partir de la muestra) utiliza `lilliefors()`

In [None]:
from statsmodels.stats.diagnostic import lilliefors as sm_lilliefors

def lilliefors_test(data, alpha=0.05):
    """ Aplica una prueba Kolmogorov-Smirnov-Lilliefors para evaluar la normalidad de los datos"""  
    statistic, p_value = sm_lilliefors(data)
    conclusion = "no rechaza" if p_value > alpha else "rechaza"
    print(f'La prueba de Lilliefors {conclusion} la normalidad de los datos (D = {statistic:.4f}, p = {p_value:.4f})')
    return p_value > alpha

In [None]:
lilliefors_test(data)

## Referencias
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html


https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html