# EDA descriptivo de variables clave por país

**Objetivo:** Realizo un análisis descriptivo de variables clínicas clave (SLEDAI, C3, C4, anti-dsDNA, CRP, Vitamina D y TyG) por país (México, Brasil, España). Para cada variable estimo:
- número válidos y % nulos,
- rango (mín, máx), media, mediana y desviación estándar.
- número de outliers por método IQR.

Al final genero una **tabla resumen por país** y un **texto de conclusión** breve para la Metodología.


In [1]:
import os
import re
import numpy as np
import pandas as pd

pd.set_option("display.max_rows", 200)
pd.set_option("display.max_columns", 50)
pd.set_option("display.float_format", lambda x: f"{x:.3f}")


## Carga de datos integrados

Trabajo directamente con el archivo procesado `dataset_ready.xlsx`  
(ruta: `TFM MÁSTER BIOINFORMÁTICA/outputs/dataset_ready.xlsx`).

Este fichero ya contiene la información integrada y depurada, por lo que no necesito unir varias hojas.


In [4]:
import pandas as pd

PATH_XLS = "outputs/dataset_ready.xlsx"
df = pd.read_excel(PATH_XLS)
print("Dimensiones:", df.shape)
df.head()



Dimensiones: (290, 58)


Unnamed: 0,Race,Gender,Age (years),Marital status,Education level,Smoking habits,Time of disease (years),HCQ use (mg/day),SLICC,SLEDAI,Weight (kg),Height (m),BMI (kg/m2),Waist Circ (cm),Systolic Blood Pressure (mm/Hg),Diastolic Blood Pressure (mm/Hg),Glucose (mg/dL),Total cholesterol (mg/dL),LDL (mg/dL),HDL (mg/dL),Triglycerides (mg/dL),C-reactive protein,Albumin (g/dL),GOT_AST (U/L),GPT_ALT (U/L),...,Monocytes,Platelets,Hemoglobin,Hematocrit,VCM,CHCM,RDW,VSG (mm),C3 complement,C4 complement,Anti-dsDNA,TyG,Energy intake (kcal/day),Carbohydrate intake (g/day),Carbohydrate intake (%TEI),Protein intake (g/day),Protein intake (%TEI),Lipid intake (g/day),Lipid (%TEI),METs-min/week,IPAQ,FACIT Fatigue Scale,PCS12 (HRQoL),MCS12 (HRQoL),Country
0,Mexican-Mestizo,Female,29,married,Incomplete academic degree,No,4.0,,0.0,4.0,95.9,1.61,36.9,111.1,143.0,66,75.0,175.0,73.8,40.0,306.0,8.51,4.0,,,...,8.22,261.0,13.14,39.9,39.9,89.1,,,118.0,23.0,P,,1356.15,217.185,,87.005,,64.62,,,Sedentar,,,,Mexico
1,Mexican-Mestizo,Female,24,married,Incomplete academic degree,No,4.0,,0.0,0.0,41.6,1.54,30.175,65.5,102.0,63,79.0,112.0,59.35,23.82,106.68,15.92,3.44,,,...,3.67,344.5,13.14,28.49,28.49,90.69,,,106.0,17.525,P,,1356.15,217.185,,87.005,,64.62,,,Sedentar,,,,Mexico
2,Mexican-Mestizo,Female,66,widow,Incomplete academic degree,No,16.0,,4.0,0.0,67.9,1.49,30.175,93.7,137.0,77,124.98,198.99,126.34,51.13,119.04,3.59,3.87,,,...,6.16,231.8,13.28,42.61,42.61,98.75,,,143.5,16.59,N,,1356.15,217.185,,41.39,,64.62,,,Sedentar,,,,Mexico
3,Mexican-Mestizo,Female,29,single,Incomplete academic degree,yes,1.0,,1.0,4.0,72.7,1.64,27.0,93.5,122.0,78,86.93,113.45,54.07,38.43,137.16,3.02,4.0,,,...,8.22,232.0,13.14,39.715,39.715,89.59,,,106.0,17.525,P,,1356.15,217.185,,87.005,,64.62,,,Activo,,,,Mexico
4,Mexican-Mestizo,Female,40,single,Incomplete academic degree,No,13.0,,1.0,0.0,60.1,1.62,30.175,79.8,114.0,77,97.0,157.0,78.57,66.67,66.0,3.19,3.72,,,...,8.22,210.0,13.14,47.6,47.6,91.2,,,106.0,17.525,N,,1356.15,217.185,,87.005,,52.7,,,Sedentar,,,,Mexico


## Inspección de columnas



In [7]:
cols = df.columns.tolist()
print("Número de columnas:", len(cols))
for i, c in enumerate(cols, start=1):
    print(f"{i:2d}. {c}")


Número de columnas: 58
 1. Race
 2. Gender
 3. Age (years)
 4. Marital status
 5. Education level
 6. Smoking habits
 7. Time of disease (years)
 8. HCQ use (mg/day)
 9. SLICC
10. SLEDAI
11. Weight (kg)
12. Height (m)
13. BMI (kg/m2)
14. Waist Circ (cm)
15. Systolic Blood Pressure (mm/Hg)
16. Diastolic Blood Pressure (mm/Hg)
17. Glucose (mg/dL)
18. Total cholesterol (mg/dL)
19. LDL (mg/dL)
20. HDL (mg/dL)
21. Triglycerides (mg/dL)
22. C-reactive protein
23. Albumin (g/dL)
24. GOT_AST (U/L)
25. GPT_ALT (U/L)
26. Urea (mg/dL)
27. Creatinine (mg/dL)
28. Folic acid (ng/mL)
29. Vitamin B12 (ng/ml)
30. Vitamin D (ng/mL)
31. Leukocytes
32. Neutrophils
33. Lymphocytes
34. Monocytes
35. Platelets
36. Hemoglobin
37. Hematocrit
38. VCM
39. CHCM
40. RDW
41. VSG (mm)
42. C3 complement
43. C4 complement
44. Anti-dsDNA
45. TyG
46. Energy intake (kcal/day)
47. Carbohydrate intake (g/day)
48. Carbohydrate intake (%TEI)
49. Protein intake (g/day)
50. Protein intake (%TEI)
51. Lipid intake (g/day)
52. Li

## Selección y jerarquía de variables (alineado con recomendaciones de tutora)

Defino la jerarquía de variables que usaré a partir de la literatura y de las recomendaciones de mi tutora:

- **Variable dependiente principal**
  - **SLEDAI**: índice clínico validado y ampliamente utilizado para actividad de enfermedad en lupus.

- **Variables dependientes secundarias / complementarias (actividad inmunológica e inflamatoria)**
  - **C3 complement**, **C4 complement**, **Anti-dsDNA**, **C-reactive protein**.

- **Variables explicativas / covariables (nutrición y metabolismo)**
  - **Vitamin D (ng/mL)**, **TyG**.

> Nota: Aunque FACIT Fatigue es relevante para calidad de vida, **no la incluiré** como dependiente en.de la tutora.

En el EDA descriptivo reportaré, por **país** (Brazil, Spain, Mexico), para cada variable:  
*n válidos, % nulos, mínimo, máximo, media, mediana, desviación estándar y outliers (IQR)*.  
Este bloque también me permitirá valorar si **SLEDAI** es viable como dependiente principal en términos de cobertura.


In [8]:
# Defino los grupos de variables según la jerarquía acordada
var_dep_principal = ["SLEDAI"]

var_dep_secundarias = [
    "C3 complement",
    "C4 complement",
    "Anti-dsDNA",
    "C-reactive protein",
]

var_explicativas = [
    "Vitamin D (ng/mL)",
    "TyG",
]

# Para el EDA por país necesito también 'Country'
vars_clave = var_dep_principal + var_dep_secundarias + var_explicativas + ["Country"]

# Verificación de presencia en el dataframe
presentes = [v for v in vars_clave if v in df.columns]
faltantes = [v for v in vars_clave if v not in df.columns]

print("Variables encontradas:", presentes)
print("Variables faltantes:", faltantes)

# Subconjunto de trabajo (solo si todo lo esencial está presente)
df_clave = df[presentes].copy()
df_clave.head()


Variables encontradas: ['SLEDAI', 'C3 complement', 'C4 complement', 'Anti-dsDNA', 'C-reactive protein', 'Vitamin D (ng/mL)', 'TyG', 'Country']
Variables faltantes: []


Unnamed: 0,SLEDAI,C3 complement,C4 complement,Anti-dsDNA,C-reactive protein,Vitamin D (ng/mL),TyG,Country
0,4.0,118.0,23.0,P,8.51,26.91,,Mexico
1,0.0,106.0,17.525,P,15.92,14.16,,Mexico
2,0.0,143.5,16.59,N,3.59,27.27,,Mexico
3,4.0,106.0,17.525,P,3.02,33.27,,Mexico
4,0.0,106.0,17.525,N,3.19,25.13,,Mexico


## Estadísticos descriptivos por país

Calculo, para cada variable y cada país (Brazil, Spain, Mexico):

- `n_total`
- `n_válidos` y `% nulos`
- Para variables numéricas: mínimo, máximo, media, mediana, desviación estándar
- Número de outliers detectados con criterio IQR (1.5×IQR)

**Nota**: La variable *Anti-dsDNA* es categórica (positivo/negativo).  
En este caso reporto únicamente los conteos y porcentajes por categoría en lugar de estadísticos numéricos.


In [9]:
import numpy as np
import pandas as pd

def summarize_numeric(series: pd.Series):
    """Calcula resumen descriptivo con outliers por IQR."""
    s = pd.to_numeric(series, errors="coerce").dropna()
    if s.empty:
        return dict(n_valid=0, min=np.nan, max=np.nan, mean=np.nan,
                    median=np.nan, std=np.nan, n_out=0)
    q1, q3 = s.quantile(0.25), s.quantile(0.75)
    iqr = q3 - q1
    lower, upper = q1 - 1.5*iqr, q3 + 1.5*iqr
    n_out = ((s < lower) | (s > upper)).sum()
    return dict(
        n_valid=int(s.shape[0]),
        min=float(s.min()),
        max=float(s.max()),
        mean=float(s.mean()),
        median=float(s.median()),
        std=float(s.std(ddof=1)),
        n_out=int(n_out),
    )

countries = ["Brazil", "Spain", "Mexico"]
rows = []

for country in countries:
    dfc = df_clave[df_clave["Country"] == country]
    n_total = int(dfc.shape[0])

    for var in var_dep_principal + var_dep_secundarias + var_explicativas:
        if var == "Anti-dsDNA":
            # Tratamiento especial: variable categórica
            counts = dfc[var].value_counts(dropna=False).to_dict()
            n_valid = sum(counts.values()) - (counts.get(np.nan, 0))
            pct_null = (100 * (1 - n_valid/n_total)) if n_total > 0 else np.nan
            rows.append({
                "Country": country,
                "Variable": var,
                "n_total": n_total,
                "n_valid": n_valid,
                "% null": round(pct_null, 2),
                "Counts": counts
            })
        else:
            stats = summarize_numeric(dfc[var])
            n_valid = stats["n_valid"]
            pct_null = (100 * (1 - n_valid/n_total)) if n_total > 0 else np.nan
            rows.append({
                "Country": country,
                "Variable": var,
                "n_total": n_total,
                "n_valid": n_valid,
                "% null": round(pct_null, 2),
                "min": stats["min"],
                "max": stats["max"],
                "mean": stats["mean"],
                "median": stats["median"],
                "std": stats["std"],
                "outliers_IQR": stats["n_out"]
            })

summary_df = pd.DataFrame(rows)
summary_df


Unnamed: 0,Country,Variable,n_total,n_valid,% null,min,max,mean,median,std,outliers_IQR,Counts
0,Brazil,SLEDAI,143,143,0.0,0.0,8.0,0.839,0.0,1.685,17.0,
1,Brazil,C3 complement,143,143,0.0,45.0,189.0,105.441,106.0,26.122,2.0,
2,Brazil,C4 complement,143,143,0.0,2.0,43.6,20.207,18.95,7.686,0.0,
3,Brazil,Anti-dsDNA,143,143,0.0,,,,,,,"{'N': 113, 'P': 30}"
4,Brazil,C-reactive protein,143,143,0.0,0.3,54.4,5.359,2.3,9.047,13.0,
5,Brazil,Vitamin D (ng/mL),143,143,0.0,11.5,58.8,32.101,31.0,9.257,0.0,
6,Brazil,TyG,143,143,0.0,7.222,11.459,8.351,8.246,0.606,4.0,
7,Spain,SLEDAI,77,0,100.0,,,,,,0.0,
8,Spain,C3 complement,77,77,0.0,20.8,142.0,96.81,99.0,23.485,2.0,
9,Spain,C4 complement,77,77,0.0,3.2,75.0,19.445,17.3,10.575,2.0,


## Exportación de tabla resumen

Guardo la tabla `summary_df` con todas las métricas en CSV y Excel.  
Esto permite documentar el análisis y reutilizar los resultados en el TFM o en futuras revisiones.


In [10]:
out_csv  = "outputs/eda_variables_clave_por_pais.csv"
out_xlsx = "outputs/eda_variables_clave_por_pais.xlsx"

summary_df.to_csv(out_csv, index=False)
summary_df.to_excel(out_xlsx, index=False)

print("Archivos guardados en:", out_csv, "y", out_xlsx)


Archivos guardados en: outputs/eda_variables_clave_por_pais.csv y outputs/eda_variables_clave_por_pais.xlsx


## Conclusión (borrador para Metodología)

El análisis descriptivo por país mostró diferencias claras en la cobertura de las variables clínicas.  
La variable **SLEDAI** se encuentra completa en las cohortes de Brazil (n=143) y Mexico (n=70), pero ausente en Spain (n=77).  
Por tanto, es viable considerarla como **variable dependiente principal** para el estudio, con la limitación de que el análisis se centrará en los pacientes de Brazil y Mexico.

Los biomarcadores inmunológicos y de inflamación presentan buena cobertura global:  
- **C3 y C4 complement**: disponibles en los tres países con rangos fisiológicamente plausibles.  
- **Anti-dsDNA**: registrado como categórico (P/N) en Brazil y Mexico, mientras que en Spain se expresa como valores cuantitativos, lo que requerirá armonización.  
- **CRP**: disponible en todas las cohortes, con presencia de outliers esperables en procesos inflamatorios.

Entre las covariables nutricionales y metabólicas:  
- **Vitamin D** muestra buena cobertura en todos los países, aunque con valores notablemente más elevados en Spain.  
- **TyG** presenta buena cobertura en Brazil y Spain, pero ausencia total de datos en Mexico.

En conjunto, estos resultados apoyan el uso de **SLEDAI** como variable dependiente principal y de **C3, C4, Anti-dsDNA y CRP** como complementarias.  
Las covariables **Vitamin D** y **TyG** aportan información adicional sobre nutrición y metabolismo, aunque la falta de datos de TyG en Mexico debe tenerse en cuenta en los análisis posteriores.
