# **Conexión con Google Drive**

Para comenzar nuestro flujo de trabajo en Google Colab, es necesario establecer una conexión con nuestro sistema de almacenamiento en la nube (Google Drive). Esto nos permitirá leer datasets, guardar modelos y persistir resultados más allá de la sesión actual.

**Montar la unidad (Mounting the Drive)**
El siguiente código importa la librería necesaria y ejecuta el comando de montaje. Al ejecutar esta celda, se solicitará una autorización para acceder a los archivos de tu Drive.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

# Monta Google Drive en el directorio /content/drive
drive.mount('/content/drive')

Mounted at /content/drive
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


**Detalles del código:**

from google.colab import drive: Importa el módulo específico de Colab para gestionar el almacenamiento.

drive.mount('/content/drive'): Este método "ancla" tu Google Drive personal a la ruta local de la máquina virtual de Colab. Una vez ejecutado, podrás ver tus archivos navegando a la carpeta /content/drive/MyDrive.

Nota: Es fundamental ejecutar esto al inicio si tus datos no son temporales. Si la sesión se reinicia, deberás volver a ejecutar esta celda.

# **Importación de Librerías y Dependencias**

Para llevar a cabo el análisis, es necesario cargar un conjunto de herramientas estándar en ciencia de datos. Estas librerías nos permitirán desde la manipulación matemática y estructurada de los datos hasta la visualización y gestión de archivos.

Carga de módulos
Ejecutamos la importación de los siguientes paquetes:

**Manipulación de Datos y Matemáticas:**

pandas (pd): La herramienta principal para trabajar con datos tabulares (DataFrames) y series temporales.

numpy (np): Fundamental para cálculos numéricos eficientes y manejo de arrays multidimensionales.

datetime: Proporciona clases para manipular fechas y horas, esencial para análisis temporales.

**Visualización de Datos:**

matplotlib.pyplot (plt): La librería base de graficación en Python, usada para crear figuras y ejes.

seaborn (sns): Construida sobre Matplotlib, ofrece una interfaz de alto nivel para crear gráficos estadísticos atractivos y complejos con menos código.

**Sistema de Archivos y Texto:**

glob y os: Librerías para interactuar con el sistema operativo. Nos permiten navegar directorios, construir rutas de archivos y buscar ficheros que cumplan patrones específicos (ej. encontrar todos los .csv en una carpeta).

re: Módulo de expresiones regulares (Regular Expressions), crucial para la limpieza avanzada de texto y búsqueda de patrones en cadenas de caracteres.

In [2]:
import pandas as pd
from datetime import datetime
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import glob
import os
import re

# **Carga e Inspección del Dataset**

Una vez importadas las librerías y montada la unidad de almacenamiento, procedemos a cargar los datos fuente para el análisis. En este caso, trabajaremos con un archivo Excel (.xlsx) ubicado en una ruta específica del proyecto ReMePARK.

**Lectura del archivo Excel**
El siguiente bloque define la ruta absoluta del archivo dentro de Google Drive, lo carga en memoria como un objeto DataFrame de Pandas y muestra una vista previa inicial.

**Definición de file_path:**

Se almacena la ubicación del archivo en una variable. Esto es una buena práctica que facilita cambiar el archivo de entrada sin tener que modificar la función de lectura.

La ruta comienza con /content/drive/MyDrive/, que es el punto de montaje estándar que definimos anteriormente.

**pd.read_excel(file_path):**

Utilizamos la función de Pandas diseñada específicamente para leer libros de Excel.

El resultado se asigna a la variable df (abreviatura estándar para DataFrame), que servirá como nuestra estructura de datos principal durante todo el análisis.

**df.head():**

Este método imprime las primeras 5 filas del DataFrame (incluyendo los encabezados).

Objetivo: Nos permite realizar una "auditoría rápida" para confirmar que:

El archivo se leyó correctamente.

Los nombres de las columnas se interpretaron bien.

Los datos tienen el formato esperado (números, texto, fechas).

In [4]:
# Definir ruta
file_path = '/content/drive/MyDrive/LCEN/08_Bases de Datos y Herramientas/08.2_ReMePARK/08.2.6_Unified ReMePARK 2024/Remepark_EQ5.xlsx'

# Cargar archivo Excel
df = pd.read_excel(file_path)

# Ver las primeras filas
df.head()

Unnamed: 0,Consecutivo,anio.eval,fecha.eval,accum.visits,visit.numb,reg.innn,EQ5D.1,EQ5D.2,EQ5D.3,EQ5D.4,EQ5D.5,EQ.VAS,Concatenado,Utility,NMS.TOTAL
0,1,2019,2019-07-01 00:00:00,1,1,248001,2.0,3.0,3.0,1.0,1.0,60.0,23311.0,0.8069,87.957
1,2,2014,2014-07-12 00:00:00,11,1,213993,,,,,,,,,162.661
2,3,2015,2015-02-07 00:00:00,11,2,213993,,,,,,,,,47.357
3,4,2016,2016-09-02 00:00:00,11,3,213993,,,,,,,,,18.125
4,5,2016,2016-12-08 00:00:00,11,4,213993,1.0,1.0,2.0,1.0,3.0,70.0,11213.0,0.8623,32.741


# **Exportación y Conversión de Datos (CSV)**

Una vez que los datos han sido cargados (y potencialmente procesados), es una práctica estándar guardar una copia en formato CSV (Comma Separated Values). A diferencia del formato Excel (.xlsx), el CSV es texto plano, lo que lo hace más ligero, rápido de leer para máquinas y universalmente compatible con otras herramientas de análisis.

**Guardado del DataFrame**
El siguiente código define la ruta de salida y escribe el contenido del DataFrame en el disco.

In [5]:
# Guardar como CSV/content/drive/MyDrive/LCEN/08_Bases de Datos y Herramientas/08.1_ReMePARK/08.1.6_Unified ReMePARK 202
csv_path = '/content/drive/MyDrive/LCEN/08_Bases de Datos y Herramientas/08.2_ReMePARK/08.2.6_Unified ReMePARK 2024//Remepark_eq5.csv'
df.to_csv(csv_path, index=False)


**Cambio de formato:** Observamos que la ruta csv_path ahora termina en .csv. Esto indica que estamos transformando la estructura del archivo original.

df.to_csv(): Es el método inverso a read_csv. Toma la tabla en memoria y la escribe en un archivo de texto separado por comas.

**El parámetro index=False:**

Por defecto, Pandas intenta guardar el índice numérico del DataFrame (0, 1, 2...) como la primera columna del archivo.

Al establecer index=False, le indicamos a Pandas que ignore los números de fila. Esto es fundamental para mantener el archivo limpio; de lo contrario, si volviéramos a cargar este CSV en el futuro, se crearía una columna extra innecesaria (ej. Unnamed: 0).

# **Verificación y Recarga de Datos (CSV)**
Tras haber convertido el archivo original de Excel a CSV, procedemos a cargar este nuevo archivo. Este paso confirma que la exportación se realizó correctamente y establece el CSV como nuestra fuente de datos principal para las siguientes etapas del análisis, aprovechando su mayor eficiencia de lectura.

**Lectura del archivo CSV**
Utilizamos la función read_csv de Pandas para leer el archivo que acabamos de generar en la ruta csv_path.

In [6]:
# Cargar el archivo CSV recién creado en un DataFrame
df = pd.read_csv(csv_path)

**Propósito de este paso:**

**Validación de integridad:** Asegura que los datos no se corrompieron durante la conversión de .xlsx a .csv.

**Eficiencia:** Si el notebook se reinicia o si compartimos el código, leer desde un CSV es generalmente más rápido y consume menos memoria que procesar un archivo Excel complejo con múltiples hojas o formatos.

**Estandarización:** A partir de este punto, la variable df contiene los datos provenientes del formato estándar de texto plano, eliminando cualquier dependencia de formatos propietarios de Excel.

# **Limpieza y Validación de Dimensiones EQ-5D-5L**

Para garantizar la calidad del análisis, debemos asegurarnos de que las cinco dimensiones del instrumento EQ-5D-5L contengan datos válidos. Este bloque de código realiza una limpieza estricta: convierte los datos a números, elimina valores vacíos y filtra respuestas que caigan fuera del rango permitido por la escala (1 a 5).

**Procesamiento de datos**
El siguiente script define las columnas de interés y aplica un filtro secuencial para depurar el DataFrame:

In [7]:
# 1. Definir la lista de columnas correspondientes a las dimensiones del EQ-5D-5L
eq5d_cols = ["EQ5D.1", "EQ5D.2", "EQ5D.3", "EQ5D.4", "EQ5D.5"]

# 2. Conversión a numérico (Coerción de errores)
# Convierte todo a números. Si hay texto o errores, los convierte en NaN (Not a Number)
df[eq5d_cols] = df[eq5d_cols].apply(pd.to_numeric, errors='coerce')

# 3. Eliminar registros incompletos
# Se descartan las filas que tengan algún NaN en estas 5 columnas específicas
df_clean = df.dropna(subset=eq5d_cols)

# 4. Validación lógica de rango (1-5)
# Verifica que cada valor esté entre 1 (sin problemas) y 5 (incapacidad extrema)
# .all(axis=1) asegura que las 5 columnas cumplan la condición simultáneamente
filtro_rango = df_clean[eq5d_cols].apply(lambda x: x.between(1, 5)).all(axis=1)
df_clean = df_clean[filtro_rango]

# 5. Verificación de resultados
print(f"Filas válidas conservadas: {len(df_clean)}")
print(df_clean[eq5d_cols].head())


Filas válidas conservadas: 2496
   EQ5D.1  EQ5D.2  EQ5D.3  EQ5D.4  EQ5D.5
0     2.0     3.0     3.0     1.0     1.0
4     1.0     1.0     2.0     1.0     3.0
5     1.0     1.0     2.0     2.0     3.0
6     5.0     1.0     1.0     1.0     2.0
7     3.0     1.0     2.0     3.0     3.0


**Desglose de la lógica aplicada:**

**Estandarización de Tipos (pd.to_numeric):**

Es común que las bases de datos contengan errores de tipeo o espacios en blanco que Pandas interpreta como texto.

El argumento errors='coerce' es vital: fuerza la conversión y transforma cualquier valor no numérico (ej. "error", "?", " ") en un valor nulo (NaN), lo que facilita su posterior eliminación.

**Manejo de Nulos (dropna):**

Eliminamos cualquier paciente que no haya respondido a alguna de las 5 preguntas. Para calcular el índice de salud EQ-5D, se requieren las 5 dimensiones completas.

**Filtro de Rango (Lógica de Negocio):**

El instrumento EQ-5D-5L utiliza una escala Likert del 1 al 5.

x.between(1, 5): Genera una máscara booleana (Verdadero/Falso) comprobando si el valor es válido.

.all(axis=1): Esta función evalúa la fila horizontalmente. Solo si todas las 5 columnas son válidas (True), se conserva la fila. Si un paciente tiene un "6" o un "0" en alguna columna, es descartado por inconsistencia.

# **Validación Estricta y Auditoría del Flujo de Datos**

Este bloque perfecciona la limpieza de datos implementando un sistema de "conteo en cascada". Además de filtrar errores, calculamos y mostramos cuántos registros se eliminan en cada etapa (por valores nulos o por rangos inválidos). Esto es fundamental para reportar el diagrama de flujo de la población del estudio (Flowchart).

**Ejecución del filtrado con métricas**
El siguiente script aplica las reglas de validación para las dimensiones EQ-5D y genera un reporte en consola de la reducción de la muestra.

In [8]:
# 1. Definición de variables
eq5d_cols = ["EQ5D.1", "EQ5D.2", "EQ5D.3", "EQ5D.4", "EQ5D.5"]

# 2. Conversión robusta a numérico
df[eq5d_cols] = df[eq5d_cols].apply(pd.to_numeric, errors='coerce')

# 3. Registro del estado inicial
total_inicial = len(df)

# 4. Eliminación de valores faltantes (NaN)
df_no_nan = df.dropna(subset=eq5d_cols)
total_sin_nan = len(df_no_nan)

# 5. Validación lógica del rango (Escala 1 a 5)
# Se conservan solo las filas donde TODAS las columnas tienen valores entre 1 y 5
filtro_rango = df_no_nan[eq5d_cols].apply(lambda x: x.between(1, 5)).all(axis=1)
df_validado = df_no_nan[filtro_rango]
total_final = len(df_validado)

# 6. Reporte de depuración (Audit Log)
print("Resumen de validación EQ-5D-5L:")
print(f"- Total de filas originales:      {total_inicial}")
print(f"- Filas sin valores faltantes:    {total_sin_nan} (eliminadas: {total_inicial - total_sin_nan})")
print(f"- Filas dentro del rango 1–5:     {total_final} (eliminadas: {total_sin_nan - total_final})")
print(f"- Total de filas finales válidas: {total_final}")

Resumen de validación EQ-5D-5L:
- Total de filas originales:      4801
- Filas sin valores faltantes:    2496 (eliminadas: 2305)
- Filas dentro del rango 1–5:     2496 (eliminadas: 0)
- Total de filas finales válidas: 2496


**Puntos clave del proceso:**
Coerción de Tipos: pd.to_numeric(..., errors='coerce') asegura que cualquier entrada no numérica se transforme en NaN antes de filtrar, evitando errores de ejecución.

**Filtrado en Etapas:**

df_no_nan: Primero resolvemos la integridad técnica (que existan datos).

df_validado: Luego resolvemos la integridad lógica (que los datos tengan sentido en la escala 1-5).

**Cálculo de Deltas:** Las restas (ej. total_inicial - total_sin_nan) nos dan el número exacto de filas descartadas por cada criterio. Esto permite detectar si tenemos un problema sistemático de calidad de datos (ej. si se borran demasiadas filas por rango, podría indicar un error en la recolección de datos).

# **Definición de Parámetros: Value Set Mexicano (EQ-5D-5L)**

Para transformar los perfiles de salud (las respuestas del 1 al 5) en un índice de utilidad único (Utility Index), es necesario aplicar un algoritmo de ponderación específico para la población de interés.

En este estudio, utilizamos el Value Set Mexicano oficial, derivado mediante la técnica de Composite Time Trade-Off (cTTO) y Discrete Choice Experiments (DCE).

**Referencia Bibliográfica**
Los coeficientes utilizados provienen de la siguiente publicación:

Gutierrez-Delgado C, Galindo-Suárez RM, et al. EQ-5D-5L Health-State Values for the Mexican Population. Appl Health Econ Health Policy. 2021 Nov;19(6):905-914. doi: 10.1007/s40258-021-00658-0.

**Diccionario de Coeficientes**
El modelo es aditivo negativo: se parte de un estado de salud perfecta (1.0) y se restan disutilidades según la gravedad de la respuesta en cada dimensión (Niveles 2, 3, 4 o 5). El Nivel 1 no tiene decremento.

A continuación, definimos el diccionario de mapeo en Python:

Gutierrez-Delgado C, Galindo-Suárez RM, Cruz-Santiago C, Shah K, Papadimitropoulos M, Feng Y, Zamora B, Devlin N. EQ-5D-5L Health-State Values for the Mexican Population. Appl Health Econ Health Policy. 2021 Nov;19(6):905-914. doi: 10.1007/s40258-021-00658-0. Epub 2021 Jun 26. PMID: 34173957; PMCID: PMC8545780.

In [9]:
# Coeficientes del Value Set Mexicano (Gutierrez-Delgado et al., 2021)
mexico_value_set = {
    "intercept": 1.0,  # Salud perfecta inicial

    # 1. Movilidad (MO)
    "MO2": -0.0160, "MO3": -0.0473, "MO4": -0.1786, "MO5": -0.2697,

    # 2. Cuidado Personal (SC - Self Care)
    "SC2": -0.0476, "SC3": -0.0819, "SC4": -0.1697, "SC5": -0.2589,

    # 3. Actividades Cotidianas (UA - Usual Activities)
    "UA2": -0.0553, "UA3": -0.0952, "UA4": -0.1798, "UA5": -0.2758,

    # 4. Dolor/Malestar (PD - Pain/Discomfort)
    "PD2": -0.0531, "PD3": -0.0808, "PD4": -0.2283, "PD5": -0.4579,

    # 5. Ansiedad/Depresión (AD - Anxiety/Depression)
    "AD2": -0.0551, "AD3": -0.0824, "AD4": -0.1611, "AD5": -0.3337
}

# **Cálculo del Índice de Utilidad (EQ-5D-5L Index Value)**

Este es el paso central del análisis. Convertimos las respuestas categóricas (niveles 1-5) en un único valor numérico continuo que representa la calidad de vida relacionada con la salud (CVRS).

Para ello, implementamos una función que recorre cada fila, identifica el nivel de gravedad reportado en cada dimensión y "resta" la disutilidad correspondiente según el Value Set mexicano definido anteriormente.

**Implementación del Algoritmo**
A continuación, definimos la función calculate_eq5d5l_utility y la aplicamos a todo el DataFrame.

In [10]:
# 1. Definición del Value Set (Diccionario de coeficientes)
mexico_value_set = {
    "intercept": 1.0,
    # Movilidad (MO)
    "MO2": -0.0160, "MO3": -0.0473, "MO4": -0.1786, "MO5": -0.2697,
    # Cuidado Personal (SC)
    "SC2": -0.0476, "SC3": -0.0819, "SC4": -0.1697, "SC5": -0.2589,
    # Actividades Usuales (UA)
    "UA2": -0.0553, "UA3": -0.0952, "UA4": -0.1798, "UA5": -0.2758,
    # Dolor/Malestar (PD)
    "PD2": -0.0531, "PD3": -0.0808, "PD4": -0.2283, "PD5": -0.4579,
    # Ansiedad/Depresión (AD)
    "AD2": -0.0551, "AD3": -0.0824, "AD4": -0.1611, "AD5": -0.3337
}

# 2. Definición de la función de cálculo
def calculate_eq5d5l_utility(row):
    """
    Calcula el índice de utilidad para una fila dada basándose en el Value Set mexicano.
    Formula: 1 - sum(disutilidades)
    """
    # Partimos de salud perfecta (1.0)
    utility = mexico_value_set["intercept"]

    # Mapeo de columnas del DF a prefijos del diccionario
    dimensiones = {
        "MO": row["EQ5D.1"],
        "SC": row["EQ5D.2"],
        "UA": row["EQ5D.3"],
        "PD": row["EQ5D.4"],
        "AD": row["EQ5D.5"]
    }

    # Iteramos sobre cada dimensión
    for dim, level in dimensiones.items():
        # Solo restamos valor si el nivel es > 1 (Nivel 1 no tiene penalización)
        if level > 1:
            # Construimos la clave, ej: "MO" + "3" -> "MO3"
            key = f"{dim}{int(level)}"
            # Buscamos el valor en el diccionario y lo sumamos (el valor ya es negativo)
            utility += mexico_value_set.get(key, 0)

    return utility

# 3. Aplicación de la función al DataFrame
# axis=1 indica que la función se aplica fila por fila
df_validado["EQ5D_Utility"] = df_validado.apply(calculate_eq5d5l_utility, axis=1)

# 4. Verificación de resultados
print("Muestra de utilidades calculadas:")
print(df_validado[eq5d_cols + ["EQ5D_Utility"]].tail())

# 5. Exportación del Dataset Final
# Guardamos los datos limpios y calculados para análisis estadístico posterior
df_validado.to_csv("remepark_eq5_utilidades_limpio.csv", index=False)

Muestra de utilidades calculadas:
      EQ5D.1  EQ5D.2  EQ5D.3  EQ5D.4  EQ5D.5  EQ5D_Utility
4796     1.0     1.0     1.0     1.0     1.0        1.0000
4797     1.0     1.0     1.0     1.0     1.0        1.0000
4798     2.0     2.0     2.0     3.0     1.0        0.8003
4799     1.0     1.0     1.0     1.0     1.0        1.0000
4800     1.0     1.0     2.0     1.0     2.0        0.8896


# **Organización Final y Exportación del Dataset**

Para facilitar la lectura y el análisis posterior en otras plataformas, es una buena práctica colocar la variable de resultado principal (EQ5D_Utility) como la última columna del conjunto de datos. A continuación, reestructuramos el DataFrame y guardamos la versión definitiva en Google Drive.

**Reordenamiento de Columnas**
El siguiente código crea una nueva lista de encabezados donde la utilidad se mueve explícitamente al final, reorganiza el DataFrame y exporta el archivo maestro.

In [12]:
# 1. Separar todas las columnas excepto la variable de resultado ('EQ5D_Utility')
# Usamos una "list comprehension" para filtrar la lista de columnas actual
columnas_ordenadas = [col for col in df_validado.columns if col != "EQ5D_Utility"]

# 2. Agregar 'EQ5D_Utility' al final de la lista
columnas_ordenadas.append("EQ5D_Utility")

# 3. Reorganizar el DataFrame aplicando el nuevo orden
df_final = df_validado[columnas_ordenadas]

# 4. Guardar el archivo final en Google Drive
# Este será el archivo "Master" para análisis estadísticos futuros
output_path = "/content/drive/MyDrive/LCEN/08_Bases de Datos y Herramientas/08.2_ReMePARK/08.2.6_Unified ReMePARK 2024/remepark_eq5_utilidades_final.csv"
df_final.to_csv(output_path, index=False)

print("✅ Archivo guardado con la columna 'EQ5D_Utility' al final.")

✅ Archivo guardado con la columna 'EQ5D_Utility' al final.
