# TRAIN-TEST SPLITS

Para mantener un mismo train-test split, lo haremos en este código una vez para todos los experimentos.

## 1) Split para datos de voltaje

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

# importamos los datos
df_import = pd.read_csv('df_datos.csv', index_col='Unnamed: 0')

# definimos las variables predictivas (X) y la categoría (y)
df_X = df_import.drop(columns = ['categoria','patient_id'])
ps_y = df_import['categoria'] # ps = pandas series

# label encoder (codificar categorías)
label_encoder = LabelEncoder()
ps_y_encoded = label_encoder.fit_transform(ps_y)

# vamos a dividir los datos para el grupo de entrenamiento y el de prueba.
# esta vez usaremos stratify, que garantiza proporciones similares de cada outcome en cada grupo.
X_train, X_test, y_train, y_test = train_test_split(df_X,
                                                    ps_y_encoded,
                                                    train_size=2000,
                                                    stratify=ps_y_encoded) # estratificamos por medio de y

# vamos a imprimir los resultados del splitting
train_size = X_train.shape[0]
test_size = X_test.shape[0]
porcentaje_train = train_size/(train_size+test_size)
porcentaje_test = test_size/(train_size+test_size)
print()
print(f'\033[1m tenemos {train_size:d} eventos para el training ({porcentaje_train:.2%}). \033[0m') # f-strings y negritas
print()
print(f'\033[1m tenemos {test_size:d} eventos para el testing ({porcentaje_test:.2%}). \033[0m') # f-strings y negritas
print()

In [None]:
import random

# guardamos con una llave que se debe transformar en True
# guardamos además con un aleatorio para evitar accidentes

key = False
secure_number = random.randint(0,1000)

# guardamos
if key:
    X_train.to_csv('splits/X_train_voltaje'+str(secure_number)+'.csv')
    pd.DataFrame(y_train).to_csv('splits/y_train_voltaje'+str(secure_number)+'.csv')
    X_test.to_csv('splits/X_test_voltaje'+str(secure_number)+'.csv')
    pd.DataFrame(y_test).to_csv('splits/y_test_voltaje'+str(secure_number)+'.csv')
    print('datos guardados con el numero '+str(secure_number))

## 2) Split para datos de tiempo

Vamos a igualar el split de datos de voltaje en el split de datos de tiempo.

In [None]:
import pandas as pd

# usamos el secure number de nuestra preferencia

secure_number = 908

# copiamos los id's del split test de datos de tiempo
df_ids = pd.read_csv('splits/X_test_voltaje'+str(secure_number)+'.csv')
ids = df_ids['id_ecg']

# importamos los datos de tiempo
df_import = pd.read_csv('df_datos_tiempos.csv', index_col='Unnamed: 0')

# los que estén en idx, son los del split test
df_test = df_import[df_import['id_ecg'].isin(ids)]

# el resto son los del train split
df_train = df_import[~df_import['id_ecg'].isin(ids)]

# imprimimos los resultados
train_size = df_train.shape[0]
test_size = df_test.shape[0]
porcentaje_train = train_size/(train_size+test_size)
porcentaje_test = test_size/(train_size+test_size)
print()
print(f'\033[1m tenemos {train_size:d} eventos para el training ({porcentaje_train:.2%}). \033[0m') # f-strings y negritas
print()
print(f'\033[1m tenemos {test_size:d} eventos para el testing ({porcentaje_test:.2%}). \033[0m') # f-strings y negritas
print()

In [None]:
import random

# guardamos con una llave que se debe transformar en True
# guardamos además con un aleatorio para evitar accidentes

key = True
secure_number = random.randint(0,1000)

# guardamos
if key:
    df_train.to_csv('splits/df_train_tiempo'+str(secure_number)+'.csv')
    df_test.to_csv('splits/df_test_tiempo'+str(secure_number)+'.csv')
    print('datos guardados con el numero '+str(secure_number))