# 1) Cargar dataset maestroxco (70).


**Qué haremos y por qué**  
- Cargar el dataset unificado exportado (`dataset_master_v3.*`) desde `outputs/`.
- Preferimos **CSV** (evita formatos Excel).
- Verificamos: fichero usado, `shape`, nº de columnas y distribución de `Country`.

**Resultado esperado**  
- DataFrame `df` con ~290 filas y 76 columnas.
- `Country` con 3 niveles: Brazil (143), Spain (77), Mexico (70)

In [1]:
from pathlib import Path
import pandas as pd

# Mostrar todas las columnas cuando hagamos .head()
pd.set_option("display.max_columns", None)
pd.set_option("display.width", 160)

# 1) Rutas previstas
out_dir = Path("outputs")
csv_path  = out_dir / "dataset_master_v3.csv"
xlsx_path = out_dir / "dataset_master_v3.xlsx"

print("¿Existe CSV?:", csv_path.exists(), "→", csv_path.resolve())
print("¿Existe XLSX?:", xlsx_path.exists(), "→", xlsx_path.resolve())

# 2) Carga priorizando CSV
if csv_path.exists():
    df = pd.read_csv(csv_path)
    fuente = "CSV"
elif xlsx_path.exists():
    df = pd.read_excel(xlsx_path, sheet_name="master")
    fuente = "Excel"
else:
    raise FileNotFoundError("No encuentro ni dataset_master_v3.csv ni dataset_master_v3.xlsx en 'outputs/'.")

# 3) Verificaciones básicas
print("\nFuente utilizada:", fuente)
print("Shape:", df.shape)
print("Número de columnas:", len(df.columns))

if "Country" in df.columns:
    print("\nFrecuencias 'Country':")
    print(df["Country"].value_counts(dropna=False))
else:
    print("\n⚠️ La columna 'Country' no está en el DataFrame.")

# Vista rápida de las 3 primeras filas (todas las columnas visibles)
display(df.head(3))


¿Existe CSV?: True → C:\Users\manue\TFM MÁSTER BIOINFORMÁTICA\outputs\dataset_master_v3.csv
¿Existe XLSX?: True → C:\Users\manue\TFM MÁSTER BIOINFORMÁTICA\outputs\dataset_master_v3.xlsx

Fuente utilizada: CSV
Shape: (290, 76)
Número de columnas: 76

Frecuencias 'Country':
Country
Brazil    143
Spain      77
Mexico     70
Name: count, dtype: int64


Unnamed: 0,Folio,Grupo,Center,Race,Gender,Age (years),Marital status,Education level,Smoking habits,Time of disease (years),HCQ use (mg/day),HCQ use (mg/kg/day),Corticoide use (mg/day),Metrotexato use (mg/day),SLICC,SLEDAI,Weight (kg),Height (m),BMI (kg/m2),Waist Circ (cm),Fat mass (kg),Fat mass (%),Fat free mass (kg),Fat free mass (%),Bone mass (kg),Total body water (%),Systolic Blood Pressure (mm/Hg),Diastolic Blood Pressure (mm/Hg),Glucose (mg/dL),Total cholesterol (mg/dL),LDL (mg/dL),HDL (mg/dL),n-HDL (mg/dL),VLDL (mg/dL),Triglycerides (mg/dL),C-reactive protein,Albumin (g/dL),Uric acid (mg/dL),Insuline (U/ml),GOT_AST (U/L),GPT_ALT (U/L),Urea (mg/dL),Creatinine (mg/dL),Folic acid (ng/mL),Vitamin B12 (ng/ml),Vitamin D (ng/mL),Leukocytes,Neutrophils,Lymphocytes,Monocytes,Platelets,Hemoglobin,Hematocrit,VCM,CHCM,RDW,VSG (mm),C3 complement,C4 complement,Anti-dsDNA,TyG,Energy intake (kcal/day),Carbohydrate intake (g/day),Carbohydrate intake (%TEI),Protein intake (g/day),Protein intake (%TEI),Lipid intake (g/day),Lipid (%TEI),METs-min/week,IPAQ,FACIT Fatigue Scale,PCS12 (HRQoL),MCS12 (HRQoL),Country,Patient,RGHC
0,1.0,Paciente,Mexico,Mexican-Mestizo,Female,29,married,Incomplete academic degree,No,4.0,,,,,0.0,4.0,95.9,1.61,36.9,111.1,,46.9,,,,39.0,143.0,66.0,75.0,175.0,73.8,40.0,,,306.0,8.51,,7.96,,,,35.3,,8444.0,,3265.0,11.63,73.7,,,261.0,45880.0,39.9,39.9,89.1,,,118.0,23.0,P,,1158353.0,169554.0,5855003.0,5109967.0,1764563,3478867.0,2702959.0,,Sedentar,,,,Mexico,,
1,2.0,Paciente,Mexico,Mexican-Mestizo,Female,24,married,Incomplete academic degree,No,4.0,,,,,0.0,0.0,41.6,1.54,,65.5,,,,,2.0,63.2,102.0,63.0,79.0,112.0,59.35,23.82,,,106.68,15.92,3.44,5.54,,,,27.0,0.61,5775.0,,14.16,4.36,79.75,14.23,3.67,344.5,45725.0,28.49,28.49,90.69,,,,,P,,2260957.0,3014973.0,5333977.0,9760267.0,172675,7802666.0,3105941.0,,Sedentar,,,,Mexico,,
2,3.0,Paciente,Mexico,Mexican-Mestizo,Female,66,widow,Incomplete academic degree,No,16.0,,,,,4.0,0.0,67.9,1.49,,93.7,,39.8,,,,41.4,137.0,77.0,124.98,198.99,126.34,51.13,,,119.04,3.59,3.87,,,,,48.0,0.97,6659.0,,27.27,6.69,43.78,46.45,6.16,231.8,13.28,42.61,42.61,98.75,31.17,,143.5,16.59,N,,1043054.0,1290997.0,4950835.0,41.39,1587262,3475033.0,2998435.0,,Sedentar,,,,Mexico,,


# 2) Diagnóstico de valores nulos


**Qué haremos y por qué**  
- Contar cuántos nulos (`NaN`) tiene cada columna.  
- Calcular el porcentaje respecto al total (290 filas).  
- Ordenar de mayor a menor para ver primero las variables más problemáticas.  

**Resultado esperado**  
Una tabla con:  
- `columna`  
- `nulos` (conteo)  
- `%_nulos`  

Así podremos clasificar:  
- Variables con >50% nulos (candidatas a descartar).  
- Variables con 10–50% nulos (posible imputación).  
- Variables con <10% nulos (menos preocupante).


In [2]:
# Calcular nulos absolutos y relativos
null_counts = df.isna().sum()
null_perc = (null_counts / len(df)) * 100

# Crear tabla resumen
null_summary = pd.DataFrame({
    "nulos": null_counts,
    "%_nulos": null_perc.round(2)
}).sort_values("%_nulos", ascending=False)

# Mostrar las 15 columnas con más nulos
display(null_summary.head(15))

print("\nNúmero de columnas con >50% nulos:", (null_summary["%_nulos"] > 50).sum())
print("Número de columnas con 10–50% nulos:", ((null_summary["%_nulos"] > 10) & (null_summary["%_nulos"] <= 50)).sum())
print("Número de columnas con <10% nulos:", (null_summary["%_nulos"] <= 10).sum())


Unnamed: 0,nulos,%_nulos
Metrotexato use (mg/day),281,96.9
Fat mass (kg),238,82.07
Fat free mass (%),238,82.07
Corticoide use (mg/day),226,77.93
Folio,220,75.86
Grupo,220,75.86
MCS12 (HRQoL),213,73.45
PCS12 (HRQoL),213,73.45
METs-min/week,213,73.45
Bone mass (kg),202,69.66



Número de columnas con >50% nulos: 19
Número de columnas con 10–50% nulos: 27
Número de columnas con <10% nulos: 30


# 3) Variables con más de 50% de nulos


**Por qué:**  
Estas variables están prácticamente vacías en el dataset maestro.  
- Normalmente, si >50% de los datos faltan, **se recomienda eliminarlas** del análisis, salvo que sean críticas.  
- Si alguna de ellas es clínicamente importante (ej. SLEDAI, Albumin, etc.), podríamos replantearlo.

**Qué haremos:**  
Listar las 19 variables con >50% de nulos, mostrando su % exacto.  


In [4]:
# Filtrar solo variables con >50% nulos
high_nulls = null_summary[null_summary["%_nulos"] > 50]

print("Columnas con >50% nulos (total:", len(high_nulls), ")")
display(high_nulls)


Columnas con >50% nulos (total: 19 )


Unnamed: 0,nulos,%_nulos
Metrotexato use (mg/day),281,96.9
Fat mass (kg),238,82.07
Fat free mass (%),238,82.07
Corticoide use (mg/day),226,77.93
Folio,220,75.86
Grupo,220,75.86
MCS12 (HRQoL),213,73.45
PCS12 (HRQoL),213,73.45
METs-min/week,213,73.45
Bone mass (kg),202,69.66


# 4) Selección de variables a descartar


In [3]:
# Filtrar solo variables con >50% nulos
high_nulls = null_summary[null_summary["%_nulos"] > 50]

print("Columnas con >50% nulos (total:", len(high_nulls), ")")
display(high_nulls)


Columnas con >50% nulos (total: 19 )


Unnamed: 0,nulos,%_nulos
Metrotexato use (mg/day),281,96.9
Fat mass (kg),238,82.07
Fat free mass (%),238,82.07
Corticoide use (mg/day),226,77.93
Folio,220,75.86
Grupo,220,75.86
MCS12 (HRQoL),213,73.45
PCS12 (HRQoL),213,73.45
METs-min/week,213,73.45
Bone mass (kg),202,69.66


**Criterios aplicados (justificación metodológica):**

1. **Alta proporción de nulos (>50%)**  
   Variables con más de la mitad de los valores faltantes se consideran poco fiables para un análisis robusto.  
   - Ejemplo: `Metrotexato use (mg/day)`, `Corticoide use (mg/day)`.

2. **Duplicidad o derivación**  
   Variables que aportan información redundante respecto a otras ya presentes, o que son derivadas matemáticas.  
   - Ejemplo: `n-HDL (mg/dL)` es derivado de `Total cholesterol – HDL`.

3. **Identificadores administrativos**  
   Variables como `Folio`, `Grupo`, `Patient`, `RGHC`, `Center` no aportan información clínica ni nutricional.  
   Para análisis comparativos usaremos únicamente la variable `Country`.

**Decisión:**  
- Generamos una lista de columnas a eliminar (`cols_to_drop`).  
- Creamos un dataset reducido (`df_reduced`) donde se eliminan esas variables.  
- Mantenemos en el dataset aquellas con relevancia clínica aunque tengan muchos nulos (ej. `SLICC`, `PCS12/MCS12`, `METs-min/week`).


In [6]:
# Columnas a descartar según criterios definidos
cols_to_drop = [
    # Identificadores
    "Folio", "Grupo", "Patient", "RGHC", "Center",
    
    # Fármacos con demasiados nulos
    "Metrotexato use (mg/day)", "Corticoide use (mg/day)", "HCQ use (mg/kg/day)",
    
    # Composición corporal redundante y con >50% nulos
    "Fat mass (kg)", "Fat mass (%)", "Fat free mass (kg)", "Fat free mass (%)",
    "Bone mass (kg)", "Total body water (%)",
    
    # Lípidos derivados
    "VLDL (mg/dL)", "n-HDL (mg/dL)",
    
    # Otros con demasiados nulos y poco relevantes para el objetivo principal
    "Insuline (U/ml)"
]

# Creamos dataset reducido
df_reduced = df.drop(columns=cols_to_drop)

print("Shape original:", df.shape)
print("Shape reducido:", df_reduced.shape)
print("\nColumnas eliminadas:", len(cols_to_drop))
print(cols_to_drop)


Shape original: (290, 76)
Shape reducido: (290, 59)

Columnas eliminadas: 17
['Folio', 'Grupo', 'Patient', 'RGHC', 'Center', 'Metrotexato use (mg/day)', 'Corticoide use (mg/day)', 'HCQ use (mg/kg/day)', 'Fat mass (kg)', 'Fat mass (%)', 'Fat free mass (kg)', 'Fat free mass (%)', 'Bone mass (kg)', 'Total body water (%)', 'VLDL (mg/dL)', 'n-HDL (mg/dL)', 'Insuline (U/ml)']




**Qué haremos:**  
- Recalcular el número y porcentaje de nulos en el dataset reducido (`df_reduced`).  
- Clasificar las columnas en tres grupos:  
  - >50% nulos (muy problemáticas, a considerar caso a caso).  
  - 10–50% nulos (candidatas a imputar).  
  - <10% nulos (mínimo problema).  

**Objetivo:** comprobar si la eliminación de variables redundantes y poco relevantes ha mejorado la calidad general de los datos.


In [7]:
# Recalcular nulos en dataset reducido
null_counts_red = df_reduced.isna().sum()
null_perc_red = (null_counts_red / len(df_reduced)) * 100

null_summary_red = pd.DataFrame({
    "nulos": null_counts_red,
    "%_nulos": null_perc_red.round(2)
}).sort_values("%_nulos", ascending=False)

# Mostrar las 15 columnas con más nulos
display(null_summary_red.head(15))

print("\nNúmero de columnas con >50% nulos:", (null_summary_red["%_nulos"] > 50).sum())
print("Número de columnas con 10–50% nulos:", ((null_summary_red["%_nulos"] > 10) & (null_summary_red["%_nulos"] <= 50)).sum())
print("Número de columnas con <10% nulos:", (null_summary_red["%_nulos"] <= 10).sum())


Unnamed: 0,nulos,%_nulos
MCS12 (HRQoL),213,73.45
PCS12 (HRQoL),213,73.45
METs-min/week,213,73.45
Uric acid (mg/dL),159,54.83
SLICC,156,53.79
VSG (mm),156,53.79
HCQ use (mg/day),143,49.31
Vitamin B12 (ng/ml),133,45.86
FACIT Fatigue Scale,121,41.72
IPAQ,100,34.48



Número de columnas con >50% nulos: 6
Número de columnas con 10–50% nulos: 24
Número de columnas con <10% nulos: 29


# 5) Dataset definitivo para análisis (df_final)o (CSV + Excel).

**Decisión metodológica (documentable en el TFM)**  
Aplicamos tres criterios para dejar un dataset compacto y clínicamente relevante:

1) **>50% nulos + baja relevancia para el objetivo** → descartar.  
   - En este punto solo se descarta **Uric acid (mg/dL)**: 54.83% nulos, utilidad secundaria en lupus para nuestro objetivo (dieta antiinflamatoria y calidad de vida).


2) **Variables con alta relevancia clínica** → mantener aunque tengan muchos nulos (análisis exploratorio / por subconjuntos).  
   - **PCS12 (HRQoL)**, **MCS12 (HRQoL)**, **METs-min/week**, **SLICC**, **VSG (mm)**.


3) **Evitar redundancias** (ya aplicado en pasos previos) para no duplicar información.

**Resultado esperado**  
- Crear `df_final` a partir de `df_reduced`, eliminando solo `Uric acid (mg/dL)`.  
- Recalcular el panorama de nulos para documentar el estado final del dataset que usaremos en el resto del EDA.  
- Dejar listo para exportar en el siguiente paso (CSV + Excel).

In [10]:
# 1) Columnas a eliminar en esta decisión final
final_drop = ["Uric acid (mg/dL)"]

# 2) Crear dataset definitivo para el EDA
df_final = df_reduced.drop(columns=final_drop, errors="ignore")

# 3) Comprobaciones
print("Shape df_reduced:", df_reduced.shape)
print("Shape df_final  :", df_final.shape)

# 4) Panorama de nulos en df_final
null_counts_fin = df_final.isna().sum()
null_perc_fin = (null_counts_fin / len(df_final)) * 100
null_summary_fin = (
    null_perc_fin.round(2)
    .sort_values(ascending=False)
    .rename("%_nulos")
    .to_frame()
)
display(null_summary_fin.head(15))

print("\nTotales por categoría de nulos (df_final):")
n_gt50 = (null_summary_fin["%_nulos"] > 50).sum()
n_10_50 = ((null_summary_fin["%_nulos"] > 10) & (null_summary_fin["%_nulos"] <= 50)).sum()
n_le10 = (null_summary_fin["%_nulos"] <= 10).sum()
print(f">50% nulos: {n_gt50} | 10–50% nulos: {n_10_50} | ≤10% nulos: {n_le10}")

# 5) Vista rápida de columnas clave (para tranquilidad)
cols_check = ["PCS12 (HRQoL)", "MCS12 (HRQoL)", "METs-min/week", "SLICC", "VSG (mm)", "SLEDAI", "Energy intake (kcal/day)", "BMI (kg/m2)", "Country"]
present = [c for c in cols_check if c in df_final.columns]
print("\nColumnas clave presentes:", present)
display(df_final.head(3))


Shape df_reduced: (290, 59)
Shape df_final  : (290, 58)


Unnamed: 0,%_nulos
MCS12 (HRQoL),73.45
PCS12 (HRQoL),73.45
METs-min/week,73.45
VSG (mm),53.79
SLICC,53.79
HCQ use (mg/day),49.31
Vitamin B12 (ng/ml),45.86
FACIT Fatigue Scale,41.72
IPAQ,34.48
Lipid (%TEI),29.66



Totales por categoría de nulos (df_final):
>50% nulos: 5 | 10–50% nulos: 24 | ≤10% nulos: 29

Columnas clave presentes: ['PCS12 (HRQoL)', 'MCS12 (HRQoL)', 'METs-min/week', 'SLICC', 'VSG (mm)', 'SLEDAI', 'Energy intake (kcal/day)', 'BMI (kg/m2)', 'Country']


Unnamed: 0,Race,Gender,Age (years),Marital status,Education level,Smoking habits,Time of disease (years),HCQ use (mg/day),SLICC,SLEDAI,Weight (kg),Height (m),BMI (kg/m2),Waist Circ (cm),Systolic Blood Pressure (mm/Hg),Diastolic Blood Pressure (mm/Hg),Glucose (mg/dL),Total cholesterol (mg/dL),LDL (mg/dL),HDL (mg/dL),Triglycerides (mg/dL),C-reactive protein,Albumin (g/dL),GOT_AST (U/L),GPT_ALT (U/L),Urea (mg/dL),Creatinine (mg/dL),Folic acid (ng/mL),Vitamin B12 (ng/ml),Vitamin D (ng/mL),Leukocytes,Neutrophils,Lymphocytes,Monocytes,Platelets,Hemoglobin,Hematocrit,VCM,CHCM,RDW,VSG (mm),C3 complement,C4 complement,Anti-dsDNA,TyG,Energy intake (kcal/day),Carbohydrate intake (g/day),Carbohydrate intake (%TEI),Protein intake (g/day),Protein intake (%TEI),Lipid intake (g/day),Lipid (%TEI),METs-min/week,IPAQ,FACIT Fatigue Scale,PCS12 (HRQoL),MCS12 (HRQoL),Country
0,Mexican-Mestizo,Female,29,married,Incomplete academic degree,No,4.0,,0.0,4.0,95.9,1.61,36.9,111.1,143.0,66.0,75.0,175.0,73.8,40.0,306.0,8.51,,,,35.3,,8444.0,,3265.0,11.63,73.7,,,261.0,45880.0,39.9,39.9,89.1,,,118.0,23.0,P,,1158353.0,169554.0,5855003.0,5109967.0,1764563,3478867.0,2702959.0,,Sedentar,,,,Mexico
1,Mexican-Mestizo,Female,24,married,Incomplete academic degree,No,4.0,,0.0,0.0,41.6,1.54,,65.5,102.0,63.0,79.0,112.0,59.35,23.82,106.68,15.92,3.44,,,27.0,0.61,5775.0,,14.16,4.36,79.75,14.23,3.67,344.5,45725.0,28.49,28.49,90.69,,,,,P,,2260957.0,3014973.0,5333977.0,9760267.0,172675,7802666.0,3105941.0,,Sedentar,,,,Mexico
2,Mexican-Mestizo,Female,66,widow,Incomplete academic degree,No,16.0,,4.0,0.0,67.9,1.49,,93.7,137.0,77.0,124.98,198.99,126.34,51.13,119.04,3.59,3.87,,,48.0,0.97,6659.0,,27.27,6.69,43.78,46.45,6.16,231.8,13.28,42.61,42.61,98.75,31.17,,143.5,16.59,N,,1043054.0,1290997.0,4950835.0,41.39,1587262,3475033.0,2998435.0,,Sedentar,,,,Mexico


# 6) Exportar dataset definitivo



**Por qué lo hacemos ahora**  
- Necesitamos un archivo limpio, estable y documentado para el resto del EDA y la modelización.  
- Usaremos **CSV** como formato “canon” (sin riesgos de fechas/números mal interpretados).  
- También guardaremos una copia en **Excel** para revisión manual o compartir con la tutora.

**Resultado esperado**  
- `outputs/dataset_final.csv`  
- `outputs/dataset_final.xlsx` (hoja `master`)  
- Ambos con 290 filas y ~58 columnas, incluyendo variables clave como SLEDAI, PCS12/MCS12, METs-min/week, dieta, etc.


In [11]:
from pathlib import Path

# Directorio de salida
out_dir = Path("outputs")
out_dir.mkdir(exist_ok=True)

# Rutas de exportación
csv_final = out_dir / "dataset_final.csv"
xlsx_final = out_dir / "dataset_final.xlsx"

# Exportar CSV (canon)
df_final.to_csv(csv_final, index=False)

# Exportar Excel (copia para revisión)
with pd.ExcelWriter(xlsx_final, engine="openpyxl") as writer:
    df_final.to_excel(writer, sheet_name="master", index=False)

print("Exportado CSV:", csv_final.resolve())
print("Exportado Excel:", xlsx_final.resolve())

# Verificación rápida al reabrir CSV
df_check = pd.read_csv(csv_final)
print("\nShape al reabrir CSV:", df_check.shape)
print("Columnas coinciden con df_final:", list(df_check.columns) == list(df_final.columns))


Exportado CSV: C:\Users\manue\TFM MÁSTER BIOINFORMÁTICA\outputs\dataset_final.csv
Exportado Excel: C:\Users\manue\TFM MÁSTER BIOINFORMÁTICA\outputs\dataset_final.xlsx

Shape al reabrir CSV: (290, 58)
Columnas coinciden con df_final: True


# Conclusión

Se llevó a cabo un proceso de depuración y selección de variables con el fin de garantizar la calidad del dataset maestro. A partir de las tres hojas originales (México, Brasil, España), se realizó una armonización de nombres, creación de un diccionario de equivalencias y unificación en un único archivo de 290 pacientes y 76 variables. Posteriormente se eliminaron 17 variables con más de un 50% de valores nulos, redundantes o de carácter meramente administrativo, obteniéndose un dataset reducido de 59 variables. Finalmente, se descartó la variable “Uric acid (mg/dL)” por presentar un 55% de datos faltantes y escasa relevancia para los objetivos del trabajo. De este modo se definió el dataset definitivo de 58 variables, que conserva las medidas clínicas, bioquímicas, antropométricas, de ingesta dietética y calidad de vida más relevantes para el estudio del lupus y la dieta antiinflamatoria. Variables como PCS12, MCS12 y METs-min/week se mantuvieron pese a su alto porcentaje de datos ausentes, dada su importancia clínica, y se emplearán en análisis exploratorios y en subconjuntos de la cohorte.
