# Este cuaderno genera muestras de entrenamiento y validación para modelos de ML

In [1]:
## Liberías necesarias 
import os
import re
import socket 
import warnings
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

## Configuración de rutas
print('Directorio actual: '+ os.getcwd())

created_path = './../created_data/'
temp_path = './../created_data/'

C:\Users\juanm\Dropbox\JP_files\UR\Vías clinicas diabetes\Codigo\ml_models\r_y_r\ml_models_github_repo\created_data\ml_databases




Directorio actual: C:\Users\juanm\Dropbox\Vías clinicas diabetes


### Funciones

#### Eliminación de NA's

In [2]:
def miss_val_del(data_mat,
                 na_drop, 
                 tgt_label_var_name = None):
    if na_drop == "all": # En caso de querer quitar todos 
        data_mat = data_mat.dropna(axis = 0)
        
    elif na_drop == "label": # En caso de querer quitar solo los del label 
        data_mat = data_mat.loc[~data_mat.loc[:, tgt_label_var_name].isnull(), :]
        
    return data_mat

#### Resumen grupos de medicamentos

In [3]:
def meds_groups_summary(data_mat, vars_to_keep):
    meds_groups = ['analgesicos',
                   'antiacidos',
                   'anticoagulantes',
                   'antihipertensivos', 
                   'antidepresivos', 
                   'hipoglicemiantes',
                   'hipolipemiantes',
                   'medicion',
                   'terapia proteccion']
    
    meds_to_keep = list()
    for i in np.arange(0, len(meds_groups)):
        if data_mat.filter(like = meds_groups[i]).shape[1] == 0:
            pass
        elif data_mat.filter(like = meds_groups[i]).shape[1] == 1:
            meds_to_keep.append(meds_groups[i])
        elif data_mat.filter(like = meds_groups[i]).shape[1] > 1:
            data_mat.loc[:, meds_groups[i]] = np.where(data_mat.filter(like = meds_groups[i]).sum(axis = 1 )>0, 1, 0)
            meds_to_keep.append(meds_groups[i])

    data_mat = data_mat.loc[:, vars_to_keep+meds_to_keep]

    return data_mat, meds_to_keep

#### Eliminación de variables poco representativas

In [4]:
def vars_drop(data_mat,
              vars_to_ignore,
              hemog_drop, 
              tolerance):
    vars_to_check = set(data_mat.columns).difference(set(vars_to_ignore))
    var_freq = data_mat.loc[:, vars_to_check].mean().to_frame().reset_index()
    vars_to_drop = var_freq[var_freq[0]<tolerance].loc[:, 'index'].values
    data_mat = data_mat.drop(vars_to_drop, axis = 1)
    if hemog_drop == True: 
        data_mat = data_mat.drop(['HbA1c'], axis = 1)
    return data_mat

#### Normalización de variables

In [5]:
def vars_normalize(data_mat, 
                   vars_to_normalize, 
                   tgt_cat, 
                   tgt_year):
    ## DataFrame vacío para llenar con la información de medias y desv. est. 
    stats_df = pd.DataFrame()
    if vars_to_normalize != None: 
        try: 
            for col in vars_to_normalize:
                mean = data_mat[col].mean()
                sd = data_mat[col].std()
                data_mat.loc[:, col] = (data_mat[col] - mean) /sd
                stats_df.loc[col, ['mean', 'sd', 'cat_levels', 'years']] = [mean, sd, tgt_cat, tgt_year]
        except:
            print("Error: Issues normalizing the variables.")
    return data_mat, stats_df.reset_index()

#### Selección de variables tipo tag

In [6]:
def tag_var_selector(data_mat, tag_type):
    data_mat = pd.concat([data_mat.drop(data_mat.filter(like ='tag').columns,
                                        axis = 1),
                          data_mat.filter(like  = 'tag_'+tag_type)],
                         axis = 1)
    return data_mat

#### De tgt_label a comorbilidades y metas

In [7]:
## Función para convertir las etiquetas a binarias
def labels_transform(data_mat):
    
    ## Modificando la columna de etiquetas para generar dos nuevas columnas
    data_mat.loc[:, 'comorbilidades'] = np.where(data_mat.loc[:, 'tgt_label']>2, 1, 0)
    data_mat.loc[(data_mat['tgt_label'] == 2) | (data_mat['tgt_label'] == 4), 'fuera_metas'] = 1
    data_mat.loc[:, 'fuera_metas'].fillna(0, inplace = True)
    warnings.filterwarnings('ignore')
    data_mat.loc[:, 'fuera_metas'] = data_mat.loc[:, 'fuera_metas'].astype(int)

    return data_mat

#### Partición en training y validation

In [8]:
## Función para particionar y exportar los datos
def db_partitioning(data_mat,
                    base_label,
                    train_proportion):
    
    ## Seleccionando el label de referencia 
    tgt_data = data_mat[data_mat['base_label'] == base_label]

    ## Particionando la base entre entrenamiento y validación 
    train, test = train_test_split(tgt_data, 
                                   train_size = train_proportion,
                                   random_state = base_label, 
                                   stratify = tgt_data['tgt_label']) ## Stratify the sample 
    
    return train, test

### Pre-procesamiento

#### Parámetros estáticos

In [9]:
## Cargando una base ejemplo para recuperar columnas 
example_db = pd.read_csv(created_path+'ml_databases\\4_cat\\db_transitions_1_years.csv')

# Parámetros estáticos
baseline_state_var = "base_label"
label_var_name = 'tgt_label'
vars_to_norm = ['edad', 'peso', 'talla', 'imc', 'microalbuminuria', 'Colesterol_total',
                'Colesterol_HDL', 'Colesterol_LDL', 'TFG', #'frec_respiratoria', 'frec_cardiaca', 
                'ta_sistolica', 'ta_diastolica', 'super_corporal', 'per_abdominal', 'creatinina']

comorb_vars = ['infarto',
               'insuficiencia_cardiaca_congestiva',
               'enf_vasc_periferica', 'enf_cerebrov',
               'retinopatia',
               'arritmia', 
               'enf_pulmonar', 'ERC_high']+['ERC{}'.format(x) for x in range(1, 6)]

remision_vars = ['oftalmologia', 'nutricion', 'trabajo_social', 'psicologia']

adh_vars = list(example_db.filter(like = 'adhiere').columns)
tag_vars = list(example_db.filter(like = 'tag').columns)

vars_to_keep = ['KeyAnonimo', 
                'year', 
                baseline_state_var,
                label_var_name, 
                'femenino', 
                #'creatinina', 
                #'creatinina_1',
                #'creatinina_2',
                #'creatinina_cat',
                'creatinina_missing']+vars_to_norm+comorb_vars+remision_vars+adh_vars+tag_vars

vars_to_ignore = ['KeyAnonimo', 
                  'year',
                  'base_label', 
                  'ERC_high', 
                  'adhiere_colesterol', 
                  'tobaco_tag_max', 
                  'hipolipemiantes']

  example_db = pd.read_csv(created_path+'ml_databases\\4_cat\\db_transitions_1_years.csv')


#### Ejecución

In [13]:
## Lista vacía para llenar con df's de estadísticas pre-normalización
all_stats_dfs = []

## Iterando entre los años
tgt_cat = 4
for tgt_year in [1, 2]:

    ## Cargando la base de datos
    warnings.filterwarnings("ignore")
    ml_data = pd.read_csv(created_path+"ml_databases\\{}_cat\\db_transitions_{}_years.csv".format(tgt_cat, tgt_year))

    ## Resumiendo los grupos de medicamentos
    ml_data, kept_meds = meds_groups_summary(data_mat = ml_data,
                                             vars_to_keep = vars_to_keep)

    ## Eliminando variables poco representativas
    ml_data = vars_drop(data_mat = ml_data, 
                        vars_to_ignore = vars_to_ignore,
                        hemog_drop = False, 
                        tolerance = 0.1)

    ## Eliminando variables con muchos missing values o innecesarias
    ml_data.drop([#'creatinina',
                  'microalbuminuria',
                  'Colesterol_total', 
                  'Colesterol_HDL', 
                  'per_abdominal', 
                  'adhiere_hta', 
                  'antihipertensivos calcioantagonistas', 
                  'medicion'], 
                 axis = 1, 
                 inplace = True)

    ## Normaliando las variables 
    vars_to_norm = list(set(ml_data.columns).intersection(set(vars_to_norm)))
    ml_data, stats_df = vars_normalize(data_mat = ml_data, 
                                           vars_to_normalize = vars_to_norm, 
                                           tgt_cat = tgt_cat,
                                           tgt_year = tgt_year)
        
    all_stats_dfs.append(stats_df)
    
    ## Seleccionando la suma de tags 
    ml_data = tag_var_selector(data_mat = ml_data,
                               tag_type = 'max')

    ## Generando versiones short de la base de datos 
    ml_data_short = ml_data.dropna()

    ## Recodificando comorbilidades y metas
    ml_data_short = labels_transform(data_mat = ml_data_short)

    ## Reorganizando los valores de creatinina
    ml_data_short = pd.concat([ml_data_short.drop(ml_data_short.filter(like = 'creatinina').columns, 
                                                  axis = 1),
                               ml_data_short.loc[:, ['creatinina', 'creatinina_missing']]],
                              axis = 1)

    ## Guardando cada horizonte temporal
    ml_data_short.to_csv(created_path+"ml_databases/{}_cat/masters/master_db_{}_years.csv".format(tgt_cat, tgt_year), index = False)
    
all_stats_df = pd.concat(all_stats_dfs, 
                        axis = 0).loc[:, ['cat_levels',
                                          'years', 
                                          'index', 
                                          'mean', 
                                          'sd']].rename({'index' : 'variable'}, 
                                                        axis = 1)
all_stats_df.to_csv(created_path+'ml_vars_normalization_stats.csv', index = False)   


## Procesamiento individual de cada estadio base

In [11]:
## Listado de variables categóricas y numéricas
categorical_vars = ['femenino', 'ERC_high', 'ERC1', 'ERC2', 'adhiere_guia', 'no_adhiere', 'adhiere_colesterol', 'analgesicos',
                   'antiacidos', 'antihipertensivos', 'hipoglicemiantes', 'hipolipemiantes', 'nutrition_tag_max', 
                   'exercise_tag_max', 'alcohol_tag_max', 'tobaco_tag_max', 'creatinina_missing']

numerical_vars = set(ml_data_short.columns).difference(set(categorical_vars+['KeyAnonimo', 'year', 'base_label', 'comorbilidades', 'fuera_metas', 'tgt_label']))
numerical_vars = list(numerical_vars)

In [12]:
tgt_cat = 4

## Iterando entre los horizontes temporales de predicción
for tgt_year in [1, 2]:

    ## Cargando el master 
    master = pd.read_csv(created_path+"ml_databases/{}_cat/masters/master_db_{}_years.csv".format(tgt_cat, tgt_year))

    ## Iterando entre las etiquetas base
    for base_label in [1, 2, 3, 4]:
        sub_master = master[master['base_label'] == base_label]

        ## Elminando columnas no representativas entre las variables categóricas
        for var in categorical_vars:
            if len(sub_master.value_counts(var)) == 1:
                sub_master.drop(var, axis = 1, inplace = True)

        ## Partición entre training y validation
        train, vali = db_partitioning(data_mat = sub_master,
                                      base_label = base_label,
                                      train_proportion = 0.7)

        ## Guardando los archivos
        train.to_csv(created_path+"ml_databases/{}_cat/train/train_db_{}_years_base_{}.csv".format(tgt_cat, tgt_year, base_label), index = False)
        vali.to_csv(created_path+"ml_databases/{}_cat/vali/vali_db_{}_years_base_{}.csv".format(tgt_cat, tgt_year, base_label), index = False)