# Normality tests

En este ejercicio evaluamos la normalidad de las variables químicas usando pruebas estadísticas:

- **Shapiro–Wilk test**: recomendado para tamaños de muestra pequeños/medianos (n < 5000).  
- **Kolmogorov–Smirnov test**: puede usarse en muestras grandes, comparando la distribución empírica con una distribución de referencia (ej. normal estándar).  


In [1]:
def import_csv(file):
    import pandas as pd
    return pd.read_csv(file)

# Ruta
path = "../data/Terminos_lagoon_TA_DIC_2023_RawData.csv"
CO2Data = import_csv(path)

print(CO2Data.head())


   sample      date     estuary   area station layer_depth season  \
0  CDL01S  5/3/2020  Candelaria  River   CDL01     Surface    Dry   
1  CDL01F  5/3/2020  Candelaria  River   CDL01      Bottom    Dry   
2  CDL02S  5/3/2020  Candelaria  River   CDL02     Surface    Dry   
3  CDL02F  5/3/2020  Candelaria  River   CDL02      Bottom    Dry   
4  CDL03S  5/3/2020  Candelaria  River   CDL03     Surface    Dry   

   chlorophy_microg_l  cond_microsiemens_cm  depth_m  ...  do_mg_l  sal_psu  \
0                0.36                7015.4    0.464  ...     7.12     3.56   
1                4.19               29886.1    7.792  ...     4.90    16.97   
2                0.92               16691.1    0.453  ...     6.99     8.94   
3                2.23               24847.4    1.261  ...     6.52    13.87   
4                0.58               46341.6    0.465  ...     6.24    28.06   

   sp_cond_microsiemens_cm  turbidity_fnu  temp_c  latitude  longitude  \
0                   6547.7          

## Shapiro–Wilk test

Regla:  
- Si p > 0.05 → no se rechaza H₀, los datos **son compatibles con normalidad**.  
- Si p ≤ 0.05 → se rechaza H₀, los datos **no son normales**.  


In [2]:
from scipy.stats import shapiro

ta = CO2Data['ta_micromol_kg'].dropna()  # quitamos NaNs para evitar errores

stat, p = shapiro(ta)
print(f"Shapiro–Wilk para TA: estadístico={stat:.5f}, p-valor={p:.5f}")

if p > 0.05:
    print("✔ La distribución es normal (no se rechaza H₀)")
else:
    print("✘ La distribución NO es normal (se rechaza H₀)")


Shapiro–Wilk para TA: estadístico=0.87971, p-valor=0.00000
✘ La distribución NO es normal (se rechaza H₀)


## Ejercicio

**Pregunta**:  
¿Cuándo es apropiado usar el **Kolmogorov–Smirnov test** en lugar del Shapiro–Wilk?  

- Shapiro–Wilk es más potente para detectar desviaciones de normalidad, pero puede ser inadecuado en muestras muy grandes (>5000).  
- En muestras grandes, el **Kolmogorov–Smirnov** (KS) puede ser preferido, comparando la muestra con una distribución normal teórica.  

Ahora probamos normalidad en las variables **DIC** y **Salinidad**.


In [3]:
from scipy.stats import kstest, norm

# Selección de datos (quitamos NaN)
dic = CO2Data['dic_micromol_kg'].dropna()
sal = CO2Data['sal_psu'].dropna()

# Normalizamos datos (KS requiere comparar con N(0,1))
dic_std = (dic - dic.mean()) / dic.std(ddof=0)
sal_std = (sal - sal.mean()) / sal.std(ddof=0)

# Kolmogorov–Smirnov test
ks_dic = kstest(dic_std, 'norm')
ks_sal = kstest(sal_std, 'norm')

print(f"KS test para DIC: estadístico={ks_dic.statistic:.5f}, p-valor={ks_dic.pvalue:.5f}")
print("→ Normal" if ks_dic.pvalue > 0.05 else "→ No normal")

print(f"\nKS test para Salinidad: estadístico={ks_sal.statistic:.5f}, p-valor={ks_sal.pvalue:.5f}")
print("→ Normal" if ks_sal.pvalue > 0.05 else "→ No normal")


KS test para DIC: estadístico=0.18253, p-valor=0.00146
→ No normal

KS test para Salinidad: estadístico=0.15157, p-valor=0.01366
→ No normal
