# Preprocesamiento

In [1]:
import os
import pandas as pd
#import matplotlib.pyplot as plt
#import seaborn as sns
#import dask.dataframe as dd

## Preprocesar datos hosp

Primero, los archivos .csv comprimidos en la carpeta hosp son descomprimidos y asignados a 4 subconjuntos.

In [None]:
# CARGAR DATOS EN SUBCONJUNTOS
# Ruta principal donde están las carpetas con los CSV
ruta_principal = r"/home/raulmartinez/medicalReports/mimic-iv-3.1"

# Función para leer archivos y dividirlo en cuatro subconjuntos
def cargar_y_dividir_datos(ruta_modulo):
    archivos = [archivo for archivo in os.listdir(ruta_modulo) if archivo.endswith(".gz")]
    total_archivos = len(archivos)
    tam_subconjunto = total_archivos // 4

    # División del conjunto hosp en 4 subconjuntos
    for i, archivo in enumerate(archivos):
        ruta_gz = os.path.join(ruta_modulo, archivo)
        nombre_tabla = archivo.replace(".csv.gz", "")  # Nombre de la tabla sin la extensión

        if i < tam_subconjunto:
            parte = "subconjunto1"
        elif i < 2*tam_subconjunto:
            parte = "subconjunto2"
        elif i < 3*tam_subconjunto:
            parte = "subconjunto3"
        else:
            parte = "subconjunto4"
        
        print(f"Procesando: {nombre_tabla} ({parte})")
        
        # Leer el archivo comprimido
        df = pd.read_csv(ruta_gz, compression="gzip", low_memory=False)
        # Guardar en un .csv nuevo
        df.to_csv(f"datasets/{parte}_{nombre_tabla}.csv", index=False)
        print(f"Guardado: {parte}_{nombre_tabla}.csv ({df.shape[0]} filas)")

# Cargar datos de hosp
ruta_hosp = os.path.join(ruta_principal, "hosp")
print ("Cargando datos de hosp...")
cargar_y_dividir_datos(ruta_hosp)

Cargando datos de hosp...
Procesando: poe (subconjunto1)
Guardado: subconjunto1_poe.csv (52212109 filas)
Procesando: d_icd_procedures (subconjunto1)
Guardado: subconjunto1_d_icd_procedures.csv (86423 filas)
Procesando: poe_detail (subconjunto1)
Guardado: subconjunto1_poe_detail.csv (8504982 filas)
Procesando: prescriptions (subconjunto1)
Guardado: subconjunto1_prescriptions.csv (20292611 filas)
Procesando: omr (subconjunto1)
Guardado: subconjunto1_omr.csv (7753027 filas)
Procesando: services (subconjunto2)
Guardado: subconjunto2_services.csv (593071 filas)
Procesando: pharmacy (subconjunto2)
Guardado: subconjunto2_pharmacy.csv (17847567 filas)
Procesando: d_icd_diagnoses (subconjunto2)
Guardado: subconjunto2_d_icd_diagnoses.csv (112107 filas)
Procesando: diagnoses_icd (subconjunto2)
Guardado: subconjunto2_diagnoses_icd.csv (6364488 filas)
Procesando: emar_detail (subconjunto2)
Guardado: subconjunto2_emar_detail.csv (87371064 filas)
Procesando: labevents (subconjunto3)
Guardado: subconj

Se procesan los 4 subconjuntos: todos los archivos pertenecientes a cada subconjunto son concatenados.

In [None]:
# Concatenacion subconjunto 1
ruta_carpeta = "datasets"
df_hosp = []

for archivo in os.listdir(ruta_carpeta):
    if archivo.startswith("subconjunto1"):
        ruta_csv = os.path.join(ruta_carpeta, archivo)
        df = pd.read_csv(ruta_csv, low_memory=False)
        if 'subject_id' in df.columns:
            print(f"Cargando: {archivo}")
            df_hosp.append(df)
        else:
            print(f"Advertencia: {archivo} no tiene 'subject_id'.")

if df_hosp:
    hosp_dataset = pd.concat(df_hosp, ignore_index=True)
    hosp_dataset.to_csv("datasets/hosp_dataset_sub1.csv", index=False)
    print("Dataset hosp unificado guardado exitosamente.")
else:
    print("No se encontraron archivos válidos para unificar.")



Cargando: subconjunto1_prescriptionscsv
Cargando: subconjunto1_poe_detailcsv
Cargando: subconjunto1_poecsv
Advertencia: subconjunto1_d_icd_procedurescsv no tiene 'subject_id'.
Cargando: subconjunto1_omrcsv
Dataset hosp unificado guardado exitosamente.


In [None]:
# Numero de filas y columnas del subconjunto 1
hosp_dataset.shape

(88762729, 34)

In [None]:
# Concatenacion subconjunto 2
ruta_carpeta = "datasets"
df_hosp = []

for archivo in os.listdir(ruta_carpeta):
    if archivo.startswith("subconjunto2"):
        ruta_csv = os.path.join(ruta_carpeta, archivo)
        df = pd.read_csv(ruta_csv, low_memory=False)
        if 'subject_id' in df.columns:
            print(f"Cargando: {archivo}")
            df_hosp.append(df)
        else:
            print(f"Advertencia: {archivo} no tiene 'subject_id'.")

if df_hosp:
    hosp_dataset = pd.concat(df_hosp, ignore_index=True)
    hosp_dataset.to_csv("datasets/hosp_dataset_sub2.csv", index=False)
    print("Dataset hosp unificado guardado exitosamente.")
else:
    print("No se encontraron archivos válidos para unificar.")



Advertencia: subconjunto2_d_icd_diagnosescsv no tiene 'subject_id'.
Cargando: subconjunto2_pharmacycsv
Cargando: subconjunto2_diagnoses_icdcsv
Cargando: subconjunto2_servicescsv
Cargando: subconjunto2_emar_detailcsv
Dataset hosp unificado guardado exitosamente.


In [None]:
# Numero de filas y columnas del subconjunto 2
hosp_dataset.shape

(112176190, 63)

In [None]:
# Concatenacion subconjunto 3
ruta_carpeta = "datasets"
df_hosp = []

for archivo in os.listdir(ruta_carpeta):
    if archivo.startswith("subconjunto3"):
        ruta_csv = os.path.join(ruta_carpeta, archivo)
        df = pd.read_csv(ruta_csv, low_memory=False)
        if 'subject_id' in df.columns:
            print(f"Cargando: {archivo}")
            df_hosp.append(df)
        else:
            print(f"Advertencia: {archivo} no tiene 'subject_id'.")

if df_hosp:
    hosp_dataset = pd.concat(df_hosp, ignore_index=True)
    hosp_dataset.to_csv("datasets/hosp_dataset_sub3.csv", index=False)
    print("Dataset hosp unificado guardado exitosamente.")
else:
    print("No se encontraron archivos válidos para unificar.")



Cargando: subconjunto3_drgcodescsv
Cargando: subconjunto3_labeventscsv
Advertencia: subconjunto3_d_labitemscsv no tiene 'subject_id'.
Cargando: subconjunto3_emarcsv
Cargando: subconjunto3_microbiologyeventscsv
Dataset hosp unificado guardado exitosamente.


In [None]:
# Numero de filas y columnas del subconjunto 3
hosp_dataset.shape

(205933437, 48)

In [None]:
# Concatenacion subconjunto 4
ruta_carpeta = "datasets"
df_hosp = []

for archivo in os.listdir(ruta_carpeta):
    if archivo.startswith("subconjunto4"):
        ruta_csv = os.path.join(ruta_carpeta, archivo)
        df = pd.read_csv(ruta_csv, low_memory=False)
        if 'subject_id' in df.columns:
            print(f"Cargando: {archivo}")
            df_hosp.append(df)
        else:
            print(f"Advertencia: {archivo} no tiene 'subject_id'.")

if df_hosp:
    hosp_dataset = pd.concat(df_hosp, ignore_index=True)
    hosp_dataset.to_csv("datasets/hosp_dataset_sub4.csv", index=False)
    print("Dataset hosp unificado guardado exitosamente.")
else:
    print("No se encontraron archivos válidos para unificar.")



Cargando: subconjunto4_hcpcseventscsv
Advertencia: subconjunto4_providercsv no tiene 'subject_id'.
Cargando: subconjunto4_admissionscsv
Cargando: subconjunto4_patientscsv
Cargando: subconjunto4_transferscsv
Advertencia: subconjunto4_d_hcpcscsv no tiene 'subject_id'.
Cargando: subconjunto4_procedures_icdcsv
Dataset hosp unificado guardado exitosamente.


In [None]:
# Numero de filas y columnas del subconjunto 4
hosp_dataset.shape

(4369965, 32)

## Preprocesar datos icu

Ahora, los archivos .csv comprimidos en la carpeta icu son descomprimidos y asignados a 4 subconjuntos, aunque más tarde esta asignación no será utilizada.

In [None]:
# Ruta principal donde están las carpetas con los CSV
ruta_principal = r"/home/raulmartinez/medicalReports/mimic-iv-3.1"

# Función para leer archivos y dividirlo en 4 subconjuntos
def cargar_y_dividir_datos(ruta_modulo):
    archivos = [archivo for archivo in os.listdir(ruta_modulo) if archivo.endswith(".gz")]
    total_archivos = len(archivos)
    tam_subconjunto = total_archivos // 4

    for i, archivo in enumerate(archivos):
        ruta_gz = os.path.join(ruta_modulo, archivo)
        nombre_tabla = archivo.replace(".csv.gz", "")  # Nombre de la tabla sin la extensión

        if i < tam_subconjunto:
            parte = "subconjunto1"
        elif i < 2*tam_subconjunto:
            parte = "subconjunto2"
        elif i < 3*tam_subconjunto:
            parte = "subconjunto3"
        else:
            parte = "subconjunto4"
        
        print(f"Procesando: {nombre_tabla} ({parte})")

        # Leer chartevents en chunks (3GB en total)
        if archivo.startswith("chartevents"):
            # Leer en chunks y guardar en subconjuntos por problemas de RAM
            for j, chunk in enumerate(pd.read_csv(ruta_gz, compression="gzip", chunksize=20000000, low_memory=False)):
                chunk.to_csv(f"datasets/icu/{parte}_{nombre_tabla}_part{j}.csv", index=False)
                print(f"Guardado: {parte}_{nombre_tabla}_part{j}.csv ({chunk.shape[0]} filas)")
        
        df = pd.read_csv(ruta_gz, compression="gzip", low_memory=False)
        df.to_csv(f"datasets/icu/{parte}_{nombre_tabla}.csv", index=False)
        print(f"Guardado: {parte}_{nombre_tabla}.csv ({df.shape[0]} filas)")

# Cargar datos de icu
ruta_icu = os.path.join(ruta_principal, "icu")
print ("Cargando datos de icu...")
cargar_y_dividir_datos(ruta_icu)

Cargando datos de icu...
Procesando: procedureevents (subconjunto1)
Guardado: subconjunto1_procedureevents.csv (808706 filas)
Procesando: ingredientevents (subconjunto1)
Guardado: subconjunto1_ingredientevents.csv (14253480 filas)
Procesando: d_items (subconjunto2)
Guardado: subconjunto2_d_items.csv (4095 filas)
Procesando: icustays (subconjunto2)
Guardado: subconjunto2_icustays.csv (94458 filas)
Procesando: datetimeevents (subconjunto3)
Guardado: subconjunto3_datetimeevents.csv (9979761 filas)
Procesando: chartevents (subconjunto3)
Guardado: subconjunto3_chartevents_part0.csv (20000000 filas)
Guardado: subconjunto3_chartevents_part1.csv (20000000 filas)
Guardado: subconjunto3_chartevents_part2.csv (20000000 filas)
Guardado: subconjunto3_chartevents_part3.csv (20000000 filas)
Guardado: subconjunto3_chartevents_part4.csv (20000000 filas)
Guardado: subconjunto3_chartevents_part5.csv (20000000 filas)
Guardado: subconjunto3_chartevents_part6.csv (20000000 filas)
Guardado: subconjunto3_char

: 

Hasta aqui descomprimidos subconjunto1, 2 y 3. La siguiente celda preprocesa solo el subconjunto4, que por problemas de RAM se subdivide en más archivos que posteriormente seran concatenados.

In [6]:
# CARGAR DATOS EN SUBCONJUNTOS
# Ruta principal donde están las carpetas con los CSV
ruta_principal = r"/home/raulmartinez/medicalReports/mimic-iv-3.1"

# Función para leer archivos y dividirlo en dos subconjuntos
def cargar_y_dividir_datos(ruta_modulo):
    archivos = [archivo for archivo in os.listdir(ruta_modulo) if archivo.endswith(".gz")]
    total_archivos = len(archivos)
    tam_subconjunto = total_archivos // 4

    for i, archivo in enumerate(archivos):
        ruta_gz = os.path.join(ruta_modulo, archivo)
        nombre_tabla = archivo.replace(".csv.gz", "")  # Nombre de la tabla sin la extensión

        if i < tam_subconjunto:
            parte = "subconjunto1"
        elif i < 2*tam_subconjunto:
            parte = "subconjunto2"
        elif i < 3*tam_subconjunto:
            parte = "subconjunto3"
        else:
            parte = "subconjunto4"
        
        print(f"Procesando: {nombre_tabla} ({parte})")

        if parte == "subconjunto4":
            df = pd.read_csv(ruta_gz, compression="gzip", low_memory=False)
            df.to_csv(f"datasets/icu/{parte}_{nombre_tabla}.csv", index=False)
            print(f"Guardado: {parte}_{nombre_tabla}.csv ({df.shape[0]} filas)")

# Cargar datos de hosp
ruta_icu = os.path.join(ruta_principal, "icu")
print ("Cargando datos de icu...")
cargar_y_dividir_datos(ruta_icu)

Cargando datos de icu...
Procesando: procedureevents (subconjunto1)
Procesando: ingredientevents (subconjunto1)
Procesando: d_items (subconjunto2)
Procesando: icustays (subconjunto2)
Procesando: datetimeevents (subconjunto3)
Procesando: chartevents (subconjunto3)
Procesando: inputevents (subconjunto4)
Guardado: subconjunto4_inputevents.csv (10953713 filas)
Procesando: caregiver (subconjunto4)
Guardado: subconjunto4_caregiver.csv (17984 filas)
Procesando: outputevents (subconjunto4)
Guardado: subconjunto4_outputevents.csv (5359395 filas)


Para concatenar los 4 subconjuntos de la carpeta icu, se crea la función que guarda las matrices de los nombres de los archivos de cada subconjunto. Esta si es la asignación de los subconjuntos que sí se va a utilizar.

In [None]:
# Nuevos subconjuntos de icu
# Ruta principal donde están las carpetas con los CSV
ruta_datasets = r"/home/raulmartinez/medicalReports/datasets/icu"

matriz_nombres_archivo_sub1 = []
matriz_nombres_archivo_sub2 = []
matriz_nombres_archivo_sub3 = []
matriz_nombres_archivo_sub4 = []

# Función para guardar las matrices de los nombres de los archivos de los 4 subconjuntos  de icu
def calcular_nuevo_subconjunto(ruta_modulo):
    archivos = [archivo for archivo in os.listdir(ruta_modulo) if archivo.endswith(".csv")]
    total_archivos = len(archivos)
    tam_subconjunto = total_archivos // 4

    for i, archivo in enumerate(archivos):
        ruta_gz = os.path.join(ruta_modulo, archivo)

        if i < tam_subconjunto:
            matriz_nombres_archivo_sub1.append(ruta_gz)
        elif i < 2*tam_subconjunto:
            matriz_nombres_archivo_sub2.append(ruta_gz)
        elif i < 3*tam_subconjunto:
            matriz_nombres_archivo_sub3.append(ruta_gz)
        else:
            matriz_nombres_archivo_sub4.append(ruta_gz)

# Cargar datos de icu
calcular_nuevo_subconjunto(ruta_datasets)

Procedemos a unificar los 4 subconjuntos de icu.

In [17]:
# Unificando subconjunto 1 de icu
df_icu = []

for archivo in matriz_nombres_archivo_sub1:
    df = pd.read_csv(archivo, low_memory=False)
    if 'subject_id' in df.columns:
        print(f"Cargando: {archivo}")
        df_icu.append(df)
    else:
        print(f"Advertencia: {archivo} no tiene 'subject_id'.")

if df_icu:
    icu_dataset = pd.concat(df_icu, ignore_index=True)
    icu_dataset.to_csv("datasets/icu_dataset_sub1.csv", index=False)
    print("Dataset icu unificado guardado exitosamente.")
else:
    print("No se encontraron archivos válidos para unificar.")



Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part21.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part3.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto4_outputevents.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part8.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part4.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part5.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part15.csv
Dataset icu unificado guardado exitosamente.


In [18]:
# Unificando subconjunto 2 de icu
df_icu = []

for archivo in matriz_nombres_archivo_sub2:
    df = pd.read_csv(archivo, low_memory=False)
    if 'subject_id' in df.columns:
        print(f"Cargando: {archivo}")
        df_icu.append(df)
    else:
        print(f"Advertencia: {archivo} no tiene 'subject_id'.")

if df_icu:
    icu_dataset = pd.concat(df_icu, ignore_index=True)
    icu_dataset.to_csv("datasets/icu_dataset_sub2.csv", index=False)
    print("Dataset icu unificado guardado exitosamente.")
else:
    print("No se encontraron archivos válidos para unificar.")



Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part13.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto1_procedureevents.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto4_inputevents.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part20.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part16.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part19.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part18.csv
Dataset icu unificado guardado exitosamente.


In [None]:
# Numero de filas y columnas del subconjunto 2 de icu
icu_dataset.shape

(111762419, 33)

In [20]:
# Unificando subconjunto 3 de icu
df_icu = []

for archivo in matriz_nombres_archivo_sub3:
    df = pd.read_csv(archivo, low_memory=False)
    if 'subject_id' in df.columns:
        print(f"Cargando: {archivo}")
        df_icu.append(df)
    else:
        print(f"Advertencia: {archivo} no tiene 'subject_id'.")

if df_icu:
    icu_dataset = pd.concat(df_icu, ignore_index=True)
    icu_dataset.to_csv("datasets/icu_dataset_sub3.csv", index=False)
    print("Dataset icu unificado guardado exitosamente.")
else:
    print("No se encontraron archivos válidos para unificar.")



Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto1_ingredientevents.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part1.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part17.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part10.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto2_icustays.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part6.csv
Advertencia: /home/raulmartinez/medicalReports/datasets/icu/subconjunto4_caregiver.csv no tiene 'subject_id'.
Dataset icu unificado guardado exitosamente.


In [None]:
# Numero de filas y columnas del subconjunto 3 de icu
icu_dataset.shape

(94347938, 27)

In [22]:
# Unificando subconjunto 4 de icu
df_icu = []

for archivo in matriz_nombres_archivo_sub4:
    df = pd.read_csv(archivo, low_memory=False)
    if 'subject_id' in df.columns:
        print(f"Cargando: {archivo}")
        df_icu.append(df)
    else:
        print(f"Advertencia: {archivo} no tiene 'subject_id'.")

if df_icu:
    icu_dataset = pd.concat(df_icu, ignore_index=True)
    icu_dataset.to_csv("datasets/icu_dataset_sub4.csv", index=False)
    print("Dataset icu unificado guardado exitosamente.")
else:
    print("No se encontraron archivos válidos para unificar.")



Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part7.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part2.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part0.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part14.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part12.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part11.csv
Advertencia: /home/raulmartinez/medicalReports/datasets/icu/subconjunto2_d_items.csv no tiene 'subject_id'.
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_datetimeevents.csv
Cargando: /home/raulmartinez/medicalReports/datasets/icu/subconjunto3_chartevents_part9.csv
Dataset icu unificado guardado exitosamente.


In [None]:
# Numero de filas y columnas del subconjunto 4 de icu
icu_dataset.shape

(149979761, 11)

## Unir datasets hosp e icu con notes 

El dataset de las notas (notes) ha sido preprocesado en el archivo ``preprocessing_notes.ipynb`` . Ahí se ha ejecutado un código para guardar un fichero de texto que contiene todos los valores subject_id que contiene ese dataset. En esta parte lo que se hace es eliminar las filas de los subconjuntos de hosp e icu que contienen valores subject_id que no están presentes en el dataset notes.

In [2]:
# Ruta principal donde están las carpetas con los CSV
ruta_principal = r"/home/raulmartinez/medicalReports/datasets"

# Función para leer archivos y filtarlos para conservar solo los subject_id presentes en el texto
def cargar_datos_subject_id(ruta_subconjunto, ruta_archivo_subject_id):
    # Cargar csv
    df = pd.read_csv(ruta_subconjunto, low_memory=False)
    print(f"Leido: {ruta_subconjunto} ({df.shape[0]} filas)")

    # Leer los subject_id desde el archivo de texto
    with open(ruta_archivo_subject_id, "r") as f:
        subject_ids = set(line.strip() for line in f)

    # Filtrar el DataFrame para conservar solo los subject_id que están en el archivo de texto
    df_filtrado = df[df['subject_id'].astype(str).isin(subject_ids)]

    # Guardar el nuevo conjunto de datos
    carpeta, archivo = os.path.split(ruta_subconjunto)
    df_filtrado.to_csv(f"datasets/union_hosp_icu_notes/{archivo}", index=False)
    print(f"Guardado: datasets/union_hosp_icu_notes/{archivo}.csv ({df_filtrado.shape[0]} filas)")
    

    # Mostrar los primeros resultados
    print(df_filtrado.head())

Por problemas de espacio se crea la función siguiente, que es igual que la anterior, solo que lee el subconjunto en varios chunks.

In [None]:
# Función para leer archivos y filtarlos para conservar solo los subject_id presentes en el texto
def cargar_datos_subject_id_chunks(ruta_subconjunto, ruta_archivo_subject_id):

    # Leer los subject_id desde el archivo de texto
    with open(ruta_archivo_subject_id, "r") as f:
        subject_ids = set(line.strip() for line in f)
    
    # Obtener el número total de filas para dividir en 8 chunks
    total_rows = sum(1 for _ in open(ruta_subconjunto)) - 1  # Restar 1 por la cabecera
    chunk_size = total_rows // 8  # Dividir en 8 partes

    print(f"Procesando: {ruta_subconjunto} ({total_rows} filas)")
    
    carpeta, archivo = os.path.split(ruta_subconjunto)

    # Leer el CSV en 8 chunks y filtrar cada uno
    primer_chunk = True
    for chunk in pd.read_csv(ruta_subconjunto, chunksize=chunk_size, low_memory=False):
        chunk_filtrado = chunk[chunk['subject_id'].astype(str).isin(subject_ids)]
        
        # Guardar el nuevo conjunto de datos
        chunk_filtrado.to_csv(f"datasets/union_hosp_icu_notes/{archivo}",mode='w' if primer_chunk else 'a', index=False, header=primer_chunk)
        primer_chunk = False

    
    new_total_rows = sum(1 for _ in open(f"datasets/union_hosp_icu_notes/{archivo}")) - 1
    print(f"Guardado: datasets/union_hosp_icu_notes/{archivo} ({new_total_rows} filas)")

In [None]:
# Cargar datos del subconjunto 1 de hosp
ruta_csv = os.path.join(ruta_principal, "hosp/hosp_dataset_sub1.csv")
print ("Cargando datos...")
cargar_datos_subject_id(ruta_csv, "/home/raulmartinez/medicalReports/datasets/notes/subject_ids.txt")

Cargando datos...
Leido: /home/raulmartinez/medicalReports/datasets/hosp/hosp_dataset_sub1.csv (88762729 filas)
Guardado: datasets/union_hosp_icu_notes/hosp_dataset_sub1.csv.csv (74990340 filas)
   subject_id     hadm_id  pharmacy_id       poe_id  poe_seq  \
0    10000032  22595853.0   12775705.0  10000032-55     55.0   
1    10000032  22595853.0   18415984.0  10000032-42     42.0   
2    10000032  22595853.0   23637373.0  10000032-35     35.0   
3    10000032  22595853.0   26862314.0  10000032-41     41.0   
4    10000032  22595853.0   30740602.0  10000032-27     27.0   

  order_provider_id            starttime             stoptime drug_type  \
0            P85UQ1  2180-05-08 08:00:00  2180-05-07 22:00:00      MAIN   
1            P23SJA  2180-05-07 02:00:00  2180-05-07 22:00:00      MAIN   
2            P23SJA  2180-05-07 01:00:00  2180-05-07 09:00:00      MAIN   
3            P23SJA  2180-05-07 01:00:00  2180-05-07 01:00:00      MAIN   
4            P23SJA  2180-05-07 00:00:00  218

In [None]:
# Cargar datos del subconjunto 2 de hosp
ruta_csv = os.path.join(ruta_principal, "hosp/hosp_dataset_sub2.csv")
print ("Cargando datos...")
cargar_datos_subject_id_chunks(ruta_csv, "/home/raulmartinez/medicalReports/datasets/notes/subject_ids.txt")

Cargando datos...
Procesando: /home/raulmartinez/medicalReports/datasets/hosp/hosp_dataset_sub2.csv (112176190 filas)
Guardado: datasets/union_hosp_icu_notes/hosp_dataset_sub2.csv.csv (112176190 filas)


In [None]:
# Total filas nuevo subconjunto 2
new_total_rows = sum(1 for _ in open(f"datasets/union_hosp_icu_notes/hosp_dataset_sub2.csv")) - 1
print(f"Guardado: datasets/union_hosp_icu_notes/hosp_dataset_sub2.csv ({new_total_rows} filas)")

Guardado: datasets/union_hosp_icu_notes/hosp_dataset_sub2.csv (89822760 filas)


In [None]:
# Cargar datos del subconjunto 3 de hosp
ruta_csv = os.path.join(ruta_principal, "hosp/hosp_dataset_sub3.csv")
print ("Cargando datos...")
cargar_datos_subject_id_chunks(ruta_csv, "/home/raulmartinez/medicalReports/datasets/notes/subject_ids.txt")

Cargando datos...
Procesando: /home/raulmartinez/medicalReports/datasets/hosp/hosp_dataset_sub3.csv (205933437 filas)
Guardado: datasets/union_hosp_icu_notes/hosp_dataset_sub3.csv (171703463 filas)


In [None]:
# Cargar datos del subconjunto 4 de hosp
ruta_csv = os.path.join(ruta_principal, "hosp/hosp_dataset_sub4.csv")
print ("Cargando datos...")
cargar_datos_subject_id(ruta_csv, "/home/raulmartinez/medicalReports/datasets/notes/subject_ids.txt")

Cargando datos...
Leido: /home/raulmartinez/medicalReports/datasets/hosp/hosp_dataset_sub4.csv (4369965 filas)
Guardado: datasets/union_hosp_icu_notes/hosp_dataset_sub4.csv.csv (3634667 filas)
   subject_id     hadm_id   chartdate hcpcs_cd  seq_num  \
0    10000068  25022803.0  2160-03-04    99218      1.0   
1    10000084  29888819.0  2160-12-28    G0378      1.0   
2    10000108  27250926.0  2163-09-27    99219      1.0   
3    10000117  22927623.0  2181-11-15    43239      1.0   
4    10000117  22927623.0  2181-11-15    G0378      2.0   

               short_description admittime dischtime deathtime admission_type  \
0  Hospital observation services       NaN       NaN       NaN            NaN   
1    Hospital observation per hr       NaN       NaN       NaN            NaN   
2  Hospital observation services       NaN       NaN       NaN            NaN   
3               Digestive system       NaN       NaN       NaN            NaN   
4    Hospital observation per hr       NaN     

In [None]:
# Cargar datos del subconjunto 1 de icu
ruta_csv = os.path.join(ruta_principal, "icu/icu_dataset_sub1.csv")
print ("Cargando datos...")
cargar_datos_subject_id(ruta_csv, "/home/raulmartinez/medicalReports/datasets/notes/subject_ids.txt")

Cargando datos...
Leido: /home/raulmartinez/medicalReports/datasets/icu/icu_dataset_sub1.csv (118356886 filas)
Guardado: datasets/union_hosp_icu_notes/icu_dataset_sub1.csv.csv (94840246 filas)
   subject_id   hadm_id   stay_id  caregiver_id            charttime  \
0    19706392  27319499  33625056        8065.0  2140-09-25 11:00:00   
1    19706392  27319499  33625056        8065.0  2140-09-25 11:00:00   
2    19706392  27319499  33625056        8065.0  2140-09-25 11:00:00   
3    19706392  27319499  33625056        8065.0  2140-09-25 11:00:00   
4    19706392  27319499  33625056        8065.0  2140-09-25 11:00:00   

0  2140-09-25 11:14:00  220180    86      86.0      mmHg      0.0  
1  2140-09-25 11:14:00  220181    93      93.0      mmHg      0.0  
2  2140-09-25 11:14:00  220210    24      24.0  insp/min      0.0  
3  2140-09-25 11:14:00  220277    99      99.0         %      0.0  
4  2140-09-25 11:15:00  224650   NaN       NaN       NaN      0.0  


In [None]:
# Cargar datos del subconjunto 2 de icu
ruta_csv = os.path.join(ruta_principal, "icu/icu_dataset_sub2.csv")
print ("Cargando datos...")
cargar_datos_subject_id_chunks(ruta_csv, "/home/raulmartinez/medicalReports/datasets/notes/subject_ids.txt")

Cargando datos...
Procesando: /home/raulmartinez/medicalReports/datasets/icu/icu_dataset_sub2.csv (111762419 filas)
Guardado: datasets/union_hosp_icu_notes/icu_dataset_sub2.csv (89948910 filas)


In [None]:
# Cargar datos del subconjunto 3 de icu
ruta_csv = os.path.join(ruta_principal, "icu/icu_dataset_sub3.csv")
print ("Cargando datos...")
cargar_datos_subject_id_chunks(ruta_csv, "/home/raulmartinez/medicalReports/datasets/notes/subject_ids.txt")

Cargando datos...
Procesando: /home/raulmartinez/medicalReports/datasets/icu/icu_dataset_sub3.csv (94347938 filas)
Guardado: datasets/union_hosp_icu_notes/icu_dataset_sub3.csv (77276054 filas)


In [None]:
# Cargar datos del subconjunto 4 de icu
ruta_csv = os.path.join(ruta_principal, "icu/icu_dataset_sub4.csv")
print ("Cargando datos...")
cargar_datos_subject_id_chunks(ruta_csv, "/home/raulmartinez/medicalReports/datasets/notes/subject_ids.txt")

Cargando datos...
Procesando: /home/raulmartinez/medicalReports/datasets/icu/icu_dataset_sub4.csv (149979761 filas)
Guardado: datasets/union_hosp_icu_notes/icu_dataset_sub4.csv (124732175 filas)
