# Pruebas de normalidad

Existen varias pruebas para evaluar la normalidad de los datos. Exploraremos la prueba Shapiro-Wilk y la Kolmogorov-Smirnov

In [None]:
import pandas as pd
import numpy as np
from scipy import stats

df = pd.read_excel('../datasets/enigh2020.xlsx')
#df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/datasets/enigh2020.xlsx')

In [None]:
# Para propósitos de ejemplo obtenemos una muestra de tamaño mediano
data = df['edad_jefe'].head(100)

## Prueba Shapiro-Wilk

La prueba Shapiro-Wilk es una de las más utilizadas especialmente para **muestras pequeñas o medianas**. No es recomendable para muestras grandes debido a que en esos casos puede ser muy sensible a pequeñas desviaciones de la normalidad.
- Hipótesis nula (H0): Los datos provienen de una distribución normal  
- Hipótesis alternativa (H1): Los datos no provienen de una distribución normal.  

In [None]:
def shapiro_wilk_test(data, alpha=0.05):
    """ Aplica una prueba Shapiro-Wilk para evaluar la normalidad de los datos"""
    statistic, p_value = stats.shapiro(data)
    conclusion = "no rechaza" if p_value > alpha else "rechaza"
    print(f'La prueba Shapiro-Wilk {conclusion} la normalidad de los datos (W = {statistic:.4f}, p = {p_value:.4f})')
    return p_value > alpha

In [None]:
shapiro_wilk_test(data)

## Prueba Kolmogorov-Smirnov
La prueba de Kolmogorov-Smirnov es apropiada para **muestras grandes** y es generalizable a otro tipo de distribuciones.
- Hipótesis nula (H0): Los datos provienen de una distribución específica
- Hipótesis alternativa (H1): Los datos no provienen de una distribución específica

In [None]:
def kolmogorov_smirnov_test(data, alpha=0.05):
    """ Aplica una prueba Kolmogorov-Smirnov para evaluar la normalidad de los datos"""
    mu = data.mean()
    sigma = data.std()
    statistic, p_value = stats.kstest(data, 'norm', args=(mu, sigma))
    conclusion = "no rechaza" if p_value > alpha else "rechaza"
    print(f'La prueba Kolmogorov-Smirnov {conclusion} la normalidad de los datos (D = {statistic:.4f}, p = {p_value:.4f})')
    return p_value > alpha

In [None]:
kolmogorov_smirnov_test(data)

## Referencias
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html


https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html