# Sesión 04: Pruebas de normalidad

Existen varias pruebas para evaluar la normalidad de los datos. Exploraremos la prueba Shapiro-Wilk y la Kolmogorov-Smirnov

In [None]:
import pandas as pd

#df = pd.read_excel('data/b02_enigh2020.xlsx')
df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/s04_estadistica_descriptiva/data/b02_enigh2020.xlsx')

## Prueba Shapiro Wilk

La prueba Shapiro-Wilk es una de las más utilizadas especialmente para muestras pequeñas o medianas  
- Hipótesis nula (H0): Los datos provienen de una distribución normal  
- Hipótesis alternativa (H1): Los datos no provienen de una distribución normal.  

In [None]:
# Para propósitos de ejemplo obtenemos una muestra de tamaño mediano
data = df['edad_jefe'].head(100)

In [None]:
import numpy as np
from scipy import stats

stat, p_value = stats.shapiro(data)
print("Estadístico de prueba:", stat)
print("Valor p:", p_value)

In [None]:
# Interpretar los resultados
alpha = 0.05
if p_value < alpha:
    print("Se rechaza la hipótesis nula de normalidad en los datos")
else:
    print("No se puede rechazar la hipótesis nula de normalidad en los datos")

## Prueba Kolmogorov-Smirnov
La prueba de Kolmogorov-Smirnov es apropiada para muestras grandes y es generalizable a otro tipo de distribuciones.
- Hipótesis nula (H0): Los datos provienen de una distribución específica
- Hipótesis alternativa (H1): Los datos no provienen de una distribución específica

In [None]:
import numpy as np
from scipy import stats

data = df['edad_jefe'].head(100)

media = data.mean()
desviacion_estandar = data.std()
datos_normalizados = (data - media) / desviacion_estandar

stat, p_value = stats.kstest(datos_normalizados, 'norm')
print("Estadístico de prueba:", stat)
print("Valor p:", p_value)

## Referencias
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html


https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html