# ISIS 4822 - Proyecto | Cáncer de mana

## Procesamiento de datos

----

## Carga

Se carga cada archivo csv por separado, juntando el listado de csvs en una carpeta. Estos archivos se usarán como dataframes independientes durante el procesamiento.

#### Rutas de archivos de entrada y salida

In [429]:
from pathlib import Path

# Ruta de la carpeta donde se encuentran los archivos .csv
csv_folder = Path("./data")

# Ruta de la carpeta donde se guardará el archivo xlsx final
datasetfolder = Path("./generated_dataset")

# Nombre del archivo xlsx final
filename = "example.xlsx"


### Lista de archivos .csv

In [430]:


pacientes_filename = "pacientes.csv"
procesos_filename = "procesos.csv"
fase_definiciones_filename = "definicion_fases.csv"
fases_filename = "fases.csv"
eventos_filename = "eventos.csv"
variable_definiciones_filename = "variable_definiciones.csv"
temas_interes_filename = "temas_interes.csv"
variable_valores_filename = "variable_valores.csv"
variables_temas_interes_filename = "variables_temas_interes.csv"
codigo_valor_filename = "codigo_valor.csv"

pacientes = csv_folder.joinpath(pacientes_filename)
procesos = csv_folder.joinpath(procesos_filename)
fase_definiciones = csv_folder.joinpath(fase_definiciones_filename)
fases = csv_folder.joinpath(fases_filename)
eventos = csv_folder.joinpath(eventos_filename)
variable_definiciones = csv_folder.joinpath(variable_definiciones_filename)
temas_interes = csv_folder.joinpath(temas_interes_filename)
variable_valores = csv_folder.joinpath(variable_valores_filename)
variables_temas_interes = csv_folder.joinpath(variables_temas_interes_filename)
codigo_valor = csv_folder.joinpath(codigo_valor_filename)

file_list = [pacientes, procesos, fase_definiciones, fases, eventos, variable_definiciones,
             temas_interes, variable_valores, variables_temas_interes, codigo_valor]


### Cargar Dataframes

cargar un dataframe por archivo csv, y guardarlos en un diccionario donde la llave es el nombre del archivo.

In [431]:
import pandas as pd

dataframes_list = {}

# append datasets into the list
for file in file_list:
    dataframes_list[file.name.split(".")[0]] = pd.read_csv(file)


### Procesamiento y transformación

#### Definiciones de variables

Se procesa el dataframe que define las diferentes variables del dataset

- Visualizar las definiciones de variables y sus atributos

In [432]:
defs = dataframes_list["variable_definiciones"]
defs.sort_values(by=['id'], inplace=False)

Unnamed: 0,id,nombre,tipo,descripcion,impacto,derivada,origen
0,1,Sexo,CATEGORICA,Sexo del paciente,False,False,sexo del paciente (v8)
1,2,Número de gestaciones,CONTINUA,Numero de gestaciones de la paciente,True,False,numero_gestaciones
2,3,Número de partos,CONTINUA,Numero de partos vaginales de la paciente,True,False,numero_partos_vaginales
3,4,Número de cesáreas,CONTINUA,Numero de cesareas de la paciente,True,False,numero_cesareas
4,5,holding,CATEGORICA,Paciente pertence a convenios uniandes,True,False,holding
5,6,Compañía,CATEGORICA,Paciente pertenece a Colsanitas o medisanitas,True,False,Colsanitas ó Medisanitas (v11)
6,7,Pertenencia étnica,CATEGORICA,Pertenencia etnica del paciente,True,False,Pertenencia étnica (v12)
7,8,Grupo poblacional,CATEGORICA,Grupo poblacional del paciente,True,False,Grupo poblacional (v13)
8,9,Ciudad de residencia,CATEGORICA,Ciudad de residencia del paciente en el año de...,True,False,ciudad de residencia (v14)
9,10,Regional,CATEGORICA,regional del paciente en el año de corte,True,False,region de residencia (v14.1)


- Seleccionar las variables que **no** se usarán en las visualizaciones, y eliminarlas del dataframe
    
    _Esta decisión se tomó de forma manual, revisando las definiciones de cada variable y su descripción. Luego, la decisión fue aprobadas por el cliente por medio de un email._

In [433]:
removal_ids=[2,3,4,5,6,10,13,19,21,22,23,24,26,30,31,32,33,34]
dataframes_list["variable_definiciones"] = defs[~defs.id.isin(removal_ids)]
vals = dataframes_list["variable_valores"]
dataframes_list["variable_valores"] = dataframes_list["variable_valores"][~vals.id_definicion.isin(removal_ids)]
dataframes_list["variable_definiciones"].sort_values(by=['id'], inplace=False)


Unnamed: 0,id,nombre,tipo,descripcion,impacto,derivada,origen
0,1,Sexo,CATEGORICA,Sexo del paciente,False,False,sexo del paciente (v8)
6,7,Pertenencia étnica,CATEGORICA,Pertenencia etnica del paciente,True,False,Pertenencia étnica (v12)
7,8,Grupo poblacional,CATEGORICA,Grupo poblacional del paciente,True,False,Grupo poblacional (v13)
8,9,Ciudad de residencia,CATEGORICA,Ciudad de residencia del paciente en el año de...,True,False,ciudad de residencia (v14)
10,11,Fecha de reporte,CATEGORICA,Año de reporte,True,False,año del reporte (v134)
11,12,Edad,CONTINUA,Resta entre el año de corte y la fecha de naci...,True,True,fecha de nacimiento (v7)
13,14,Oportunidad de intervención,CONTINUA,Duración de la etapa,True,True,duracion en dias de la etapa
14,15,Indicador de oportunidad,CATEGORICA,Indicador definido sobre la duración en días d...,True,True,indicador creado a partir de la duración en di...
15,16,meta sobre oportunidad de intervención por etapa,CONTINUA,Meta en días de duración de la etapa,True,True,duracion en dias de la etapa
16,17,Estadificación al momento del diagnóstico,CATEGORICA,Estadificacion del paciente al iniciar su proceso,True,False,estadificacion de la paciente (v29)


#### Pacientes

- Elegir una muestra aleatoria de 800 pacientes

    _Esto se realizó como parte del proceso de anonimización de datos solicitado por el cliente, cuyo propósito fue usar los datos disponibles sin depender de las exigencias de la entidad de salud_

In [434]:
# random sample of 800 patients
dataframes_list["pacientes"] = dataframes_list["pacientes"].sample(n=800, random_state=2)

dataframes_list["procesos"] = dataframes_list["procesos"][dataframes_list["procesos"]["id_paciente_ano"].isin(dataframes_list["pacientes"]["id_paciente_ano"])]

dataframes_list["procesos"].head(3)

Unnamed: 0,id_paciente_ano
1,f1b3385b14
2,48ccb08e52
3,ee3a22490b


- Enlazar el dataframe de pacientes con el de procesos

In [435]:
dataframes_list['pacientes'].set_index('id_paciente_ano').join(dataframes_list['procesos'].set_index('id_paciente_ano'))
dataframes_list['pacientes'].head(3)

Unnamed: 0,id_paciente_ano
456,be24f13457
989,463a8f6d8e
810,e017ede6df


- Reemplazar identificadores de pacientes por otros aleatorios

    _Esto se realizó como parte del proceso de anonimización de datos solicitado por el cliente, cuyo propósito fue usar los datos disponibles sin depender de las exigencias de la entidad de salud_

In [436]:
import random
from string import hexdigits

def randomize_patient(id):
    return ''.join(random.choice(hexdigits).lower() for _ in range(len(id)))


dataframes_list["pacientes"]["id_paciente_ano"] = dataframes_list["pacientes"]["id_paciente_ano"].apply(randomize_patient)
dataframes_list["procesos"].head(3)

Unnamed: 0,id_paciente_ano
1,f1b3385b14
2,48ccb08e52
3,ee3a22490b


#### Valores de variables

- Reemplazar valores codificados por sus valores reales

In [437]:
dfmap = dataframes_list["codigo_valor"]
dfvars = dataframes_list["variable_valores"]

var_ids = dfmap["variable"].unique()

def replace_values(row):
    id_var = row["id_definicion"]
    coded_value = row["valor"]
    if id_var in var_ids:
        try:
            coded_value_int = int(coded_value)
            coded_value = coded_value_int
        except ValueError:
            coded_value_int = None
        result = dfmap[(dfmap.variable ==
                    id_var) & (dfmap.codigo == coded_value)]
        if result.empty:
            return coded_value
        else:
            return dfmap[(dfmap.variable ==
                            id_var) & (dfmap.codigo == coded_value)]['valor'].values[0]
    else:
        return coded_value


pd.options.mode.chained_assignment = None
dataframes_list["variable_valores"]["valor"] = dfvars.apply(replace_values, axis=1)

dataframes_list["variable_valores"].head(3)

Unnamed: 0,valor,fecha,id_fase,id_definicion,id,orden_variable
0,F,2017-12-31,1,1,1,
6,Ninguna de las anteriores,2017-12-31,1,7,7,
7,Adulto mayor,2017-12-31,1,8,8,


- Correr fechas y edades una cantidad aleatoria de tiempo, manteniendo el orden relativo

    _Esto se realizó como parte del proceso de anonimización de datos solicitado por el cliente, cuyo propósito fue usar los datos disponibles sin depender de las exigencias de la entidad de salud_

In [438]:
import random
from datetime import datetime
from math import isnan
df_vals = dataframes_list["variable_valores"]
# for date based fields

# 11 = fecha de reporte, unidad; fecha AAAA-MM-DD
# field fecha, unidad: fecha AAAA-MM-DD
randomyearamount = random.randint(3, 9)
randommonthamount = random.randint(1, 12)
randomdayamount = random.randint(1, 28)

def addDates(row):
    datevalue = row["valor"] # string type
    if isinstance(datevalue,float) and isnan(datevalue):
        return datevalue
    date = datetime.strptime(datevalue, "%Y-%m-%d")
    date = date - pd.DateOffset(years=randomyearamount, months=randommonthamount, days=randomdayamount)
    return date.strftime("%Y-%m-%d")


def addDateFechaField(row):
    datevalue = row["fecha"] # string type
    if isinstance(datevalue,float) and isnan(datevalue):
        return datevalue
    date = datetime.strptime(datevalue, "%Y-%m-%d")
    date = date - pd.DateOffset(years=randomyearamount,
                                months=randommonthamount, days=randomdayamount)
    return date.strftime("%Y-%m-%d")

# for days based fields
# 14 = Oportunidad de intervencion, unidad: int (días)
# 16 = meta sobre oportunidad de intervención por etapa, unidad: int (días)
# 17 = progresión, unidad: int (días)
randomdayaddamount = random.randint(1, 100)

randomyearaddamount = random.randint(3, 9)

def addIntsOverride(value,amount):
    try:
        value = int(value)
        value+=amount
    except ValueError:
        pass
    except TypeError:
        pass
    return value

def addWrapperDays(row):
    return addIntsOverride(row["valor"], randomdayaddamount)

def addWrapperYears(row):
    return addIntsOverride(row["valor"], randomyearaddamount)

# for year based fields
# 12 = edad, unidad: int (años)
# this weird thing based on the age
# 13 = agrupacion edades, unidad: String -> 1. Menor a 50,2. Entre 50 y 70, 3. Mayor a 70
max_age = int(df_vals[df_vals.id_definicion == 12]["valor"].max())
randombound1 = random.randint(1, max_age)
randombound2 = random.randint(1, max_age)
randomlowerbound, randomupperbound = min(randombound1, randombound2), max(randombound1, randombound2)

lowboundstring = "1. Menor a 50"
midboundstring = "2. Entre 50 y 70"
highboundstring = "3. Mayor a 70"
newlowboundstring = "1. Menor a " + str(randomlowerbound)
newmidboundstring = "2. Entre " + str(randomlowerbound) + " y " + str(randomupperbound)
newhighboundstring = "3. Mayor a " + str(randomupperbound)
ranges = [lowboundstring, midboundstring, highboundstring]
newranges = [newlowboundstring, newmidboundstring, newhighboundstring]

def ageGroup(row):
    ageString:str = row["valor"]
    oldAgeIndex = ranges.index(ageString)
    newAge = newranges[oldAgeIndex]
    return newAge

df_vals["fecha"] = df_vals.apply(addDateFechaField, axis=1)


def applydateshuffle_varvalue(row):
    id_var = row["id_definicion"]
    if id_var == 11:
        return addDates(row)
    elif id_var in [14,16,17]:
        return addWrapperDays(row)
    elif id_var == 12:
        return addWrapperYears(row)
    elif id_var == 13:
        return ageGroup(row)
    else:
        return row["valor"]

df_vals["valor"] = df_vals.apply(applydateshuffle_varvalue, axis=1)

dataframes_list["variable_valores"].head(3)


Unnamed: 0,valor,fecha,id_fase,id_definicion,id,orden_variable
0,F,2012-12-29,1,1,1,
6,Ninguna de las anteriores,2012-12-29,1,7,7,
7,Adulto mayor,2012-12-29,1,8,8,


- Enlazar dataframe de valores de variables con fases de procesos

In [439]:
datacomplete = dataframes_list['variable_valores'].set_index('id_fase').join(dataframes_list['fases'].set_index('id'))

datacomplete.head(3)

Unnamed: 0,valor,fecha,id_definicion,id,orden_variable,id_proceso,ordinal,primera,name,ultima
1,F,2012-12-29,1,1,,6a594ba304,0,True,Caracterización del Paciente,False
1,Ninguna de las anteriores,2012-12-29,7,7,,6a594ba304,0,True,Caracterización del Paciente,False
1,Adulto mayor,2012-12-29,8,8,,6a594ba304,0,True,Caracterización del Paciente,False


- remover columna de identificador

In [440]:
datacomplete.pop('id')
datacomplete.head(3)

Unnamed: 0,valor,fecha,id_definicion,orden_variable,id_proceso,ordinal,primera,name,ultima
1,F,2012-12-29,1,,6a594ba304,0,True,Caracterización del Paciente,False
1,Ninguna de las anteriores,2012-12-29,7,,6a594ba304,0,True,Caracterización del Paciente,False
1,Adulto mayor,2012-12-29,8,,6a594ba304,0,True,Caracterización del Paciente,False


- Enlazar dataframe de definiciones de variables con valores de variables

In [441]:
datacomplete = datacomplete.set_index('id_definicion').join(dataframes_list['variable_definiciones'].set_index('id'))

datacomplete.head(3)

Unnamed: 0,valor,fecha,orden_variable,id_proceso,ordinal,primera,name,ultima,nombre,tipo,descripcion,impacto,derivada,origen
1,F,2012-12-29,,6a594ba304,0,True,Caracterización del Paciente,False,Sexo,CATEGORICA,Sexo del paciente,False,False,sexo del paciente (v8)
1,F,2012-12-29,,f1b3385b14,0,True,Caracterización del Paciente,False,Sexo,CATEGORICA,Sexo del paciente,False,False,sexo del paciente (v8)
1,F,2012-12-29,,48ccb08e52,0,True,Caracterización del Paciente,False,Sexo,CATEGORICA,Sexo del paciente,False,False,sexo del paciente (v8)


- Reordenar columnas

In [442]:
column_titles = ["id_proceso","descripcion","nombre","valor","fecha","orden_variable","name","ordinal", "primera", "ultima", "impacto", "derivada" ]
datacomplete=datacomplete.reindex(columns=column_titles)

datacomplete.head(3)

Unnamed: 0,id_proceso,descripcion,nombre,valor,fecha,orden_variable,name,ordinal,primera,ultima,impacto,derivada
1,6a594ba304,Sexo del paciente,Sexo,F,2012-12-29,,Caracterización del Paciente,0,True,False,False,False
1,f1b3385b14,Sexo del paciente,Sexo,F,2012-12-29,,Caracterización del Paciente,0,True,False,False,False
1,48ccb08e52,Sexo del paciente,Sexo,F,2012-12-29,,Caracterización del Paciente,0,True,False,False,False


- Renombrar columnas y remover indicador de variable derivada

In [443]:
datacomplete=datacomplete.rename(columns={"orden_variable": "orden_relativo", "name": "fase", "ordinal":"numero_fase", "primera": "primera_fase_de_atencion", "ultima":"ultima_fase_de_atencion", "impacto":"prioridad", "derivada": "pending_deletion"})
datacomplete.pop('pending_deletion')
datacomplete.head(3)

Unnamed: 0,id_proceso,descripcion,nombre,valor,fecha,orden_relativo,fase,numero_fase,primera_fase_de_atencion,ultima_fase_de_atencion,prioridad
1,6a594ba304,Sexo del paciente,Sexo,F,2012-12-29,,Caracterización del Paciente,0,True,False,False
1,f1b3385b14,Sexo del paciente,Sexo,F,2012-12-29,,Caracterización del Paciente,0,True,False,False
1,48ccb08e52,Sexo del paciente,Sexo,F,2012-12-29,,Caracterización del Paciente,0,True,False,False


- Agrupar datasets por nombre de variable

  _Esto se realizó para facilitar el proceso de visualización porque las herramientas de visualización se simplifican al mantener un dataset por tipo de variable. No se pueden juntar las variables en múltiples atributos con un paciente por item debido a que el proceso de cálculo de variables no es homogéneo en el tiempo habrían demasiados campos vacíos_

In [444]:
datasets = [[groupname,dataframe] for groupname, dataframe in datacomplete.groupby('nombre', as_index=False)]

for index,current_dataset in enumerate(datasets):
    newColumnName = current_dataset[1]['nombre'].iloc[0]
    datasets[index][1] = current_dataset[1].rename(columns={"valor": newColumnName})
    datasets[index][1].pop("nombre")
    datasets[index][1].pop("descripcion")

- Guardar datasets en algun directorio como archivos CSV y remover caracteres especiales de los nombres de archivos/variables

In [445]:
import unicodedata as ud

def normalize_string(s):
    return ud.normalize('NFKD', s).encode('ascii', 'ignore').decode('utf-8').lower().replace(" ", "_")

def get_path():
    if not datasetfolder.exists():
        datasetfolder.mkdir()
    return datasetfolder


path = get_path()


- Opción 1: Escribir los datasets en el directorio de datos

  _Esta opción se contempló, pero no fue usada porque la cantidad de variables, y en consecuencia, de archivos generados, es demasiado grande como para enlazar manualmente (~15)_

In [446]:
# Opción comentada no usada
# for dataframetuple in datasets:
#     varname = dataframetuple[0]
#     varname = normalize_string(varname)
#     datacomplete = path.joinpath(f"variable_{varname}.csv")
#     dataframetuple[1].to_csv(datacomplete, index=False)

- Opción 2: Escribir los datasets en un único archivo XLSX

  _Esta opción fue la usada ya que Tableau y PowerBI enlazan directamente usando el id\_proceso_

In [447]:

fullPath = path.joinpath(filename)
writer = pd.ExcelWriter(fullPath, engine='xlsxwriter')

# Write each dataframe to a different worksheet.
for dataframetuple in datasets:
    varname = dataframetuple[0]
    varname = normalize_string(varname)
    if len(varname) > 30:
        varname = varname[:30]
    dataframetuple[1].to_excel(writer, sheet_name=varname, index=False)
dataframes_list["procesos"].rename(columns={"id_paciente_ano":"id_proceso"}).to_excel(writer, sheet_name="procesos", index=False)
# Close the Pandas Excel writer and output the Excel file.
writer.close()
