## Splitting the data into `train`, `test` & `devset`

<img src="lifecycle.png" alt="architecture info" width=600>

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split

Creamos datos de "juguete"

<img src="https://img-b.udemycdn.com/redactor/raw/q_and_a_edit/2023-06-25_19-13-53-632d851a0d6feb00a56a312585e264da.png
" alt="architecture info" width=600>

In [2]:
#creamos un dataset falso de "juguete"
fake_data = np.tile(np.array([1,2,3,4]),(10,1)) +np.tile(10*np.arange(1,11), (4,1)).T
#usando np.tile() especificamos un nº de repeticiones concretas (2do argumento) de una matriz dada
#y combinamos dos matrices generando un "dataset" de 10 observaciones x 4 features

fake_labels = np.arange(10)>4 #de un vector del 0 al 10, validamos si son mayores que 4, y asignamos True

In [3]:
fake_data

array([[ 11,  12,  13,  14],
       [ 21,  22,  23,  24],
       [ 31,  32,  33,  34],
       [ 41,  42,  43,  44],
       [ 51,  52,  53,  54],
       [ 61,  62,  63,  64],
       [ 71,  72,  73,  74],
       [ 81,  82,  83,  84],
       [ 91,  92,  93,  94],
       [101, 102, 103, 104]])

El objetivo será dividir este set de "juguete" en un 80% para training, un 10% para devset y el 10% restante para test

### Implementando la división usando `train_test_split`

In [10]:
#especificamos los tamaños (ratios) de las particiones
#el orden es train, devset, test
partitions = [0.8, 0.1, 0.1]

#dividimos los datos (al no poder hacerlo directamente usando train_test_split()),
#usaremos esta técnica de doble partición

X_train, X_temp, y_train, y_temp = train_test_split(fake_data, #dividiremos un 80% para training y el restante voolverá a ser segmentado
                                                                   fake_labels,
                                                                   
                                                                   train_size=partitions[0])

#ahora, dividamos sobre "X_temp" e "y_temp" para obtener devset y test set
temp_split = partitions[1] / np.sum(partitions[1:]) #en este caso, la mitad del set "temp" resultante
#obtenemos la razón o "ratio" que vamos a usar para dividirlo

#con train_size nos referimos a la proporción o tamaño del primer dataset (devset)
X_devset, X_test, y_devset, y_test = train_test_split(X_temp, y_temp,
                                                     train_size=temp_split) 

In [12]:
print('Training data size: ' + str(X_train.shape))
print('Devset data size: '   + str(X_devset.shape))
print('Test data size: '     + str(X_test.shape))
print(' ')

# print out the train/test data
print('Training data: ')
print(X_train)
print(' ')

print('Devset data: ')
print(X_devset)
print(' ')

print('Test data: ')
print(X_test)

Training data size: (8, 4)
Devset data size: (1, 4)
Test data size: (1, 4)
 
Training data: 
[[ 41  42  43  44]
 [101 102 103 104]
 [ 21  22  23  24]
 [ 91  92  93  94]
 [ 71  72  73  74]
 [ 51  52  53  54]
 [ 61  62  63  64]
 [ 81  82  83  84]]
 
Devset data: 
[[11 12 13 14]]
 
Test data: 
[[31 32 33 34]]


## División de forma manual

In [32]:
partitions = np.array([.8,.1,.1])

print('Partition proportions:')
print(partitions)
print(' ')

# convertimos las proporciones a números, multiplicando cada proporción por la cantidad de etiquetas en los datos
partition_bounds = np.cumsum(partitions*len(fake_labels)).astype(int)
#aplicamos la suma acumulada para sumar los previos números al actual
#al multiplicar cada ratio por el tamaño de los datos, obtenemos la cantidad (índice) superior que posee esa proporción
print('Partition boundaries:')
print(partition_bounds)
print(' ')


# generamos índices aleatorios, que tengan el rango de variación del tamaño total de los datos
rand_indxs = np.random.permutation(range(len(fake_labels)))
print('Randomized data indices:')
print(rand_indxs)

Partition proportions:
[0.8 0.1 0.1]
 
Partition boundaries:
[ 8  9 10]
 
Randomized data indices:
[9 1 4 3 2 5 6 7 0 8]


In [33]:
#de modo que, partition_bounds indica el índice límite de cada división
#siendo las proporciones de tamaño, con la suma acumulada aplicada

X_train   = fake_data[rand_indxs[:partition_bounds[0]],:]
y_train = fake_labels[rand_indxs[:partition_bounds[0]]]

# select rows for the devset data
X_devset   = fake_data[rand_indxs[partition_bounds[0]:partition_bounds[1]],:]
y_devset = fake_labels[rand_indxs[partition_bounds[0]:partition_bounds[1]]]

# select rows for the test data
X_test   = fake_data[rand_indxs[partition_bounds[1]:],:]
y_test = fake_labels[rand_indxs[partition_bounds[1]:]]

In [34]:
X_train

array([[101, 102, 103, 104],
       [ 21,  22,  23,  24],
       [ 51,  52,  53,  54],
       [ 41,  42,  43,  44],
       [ 31,  32,  33,  34],
       [ 61,  62,  63,  64],
       [ 71,  72,  73,  74],
       [ 81,  82,  83,  84]])

In [35]:
print('Training data size: ' + str(X_train.shape))
print('Devset data size: '   + str(X_devset.shape))
print('Test data size: '     + str(X_test.shape))
print(' ')

# print out the train/test data
print('Training data: ')
print(X_train)
print(' ')

print('Devset data: ')
print(X_devset)
print(' ')

print('Test data: ')
print(X_test)

Training data size: (8, 4)
Devset data size: (1, 4)
Test data size: (1, 4)
 
Training data: 
[[101 102 103 104]
 [ 21  22  23  24]
 [ 51  52  53  54]
 [ 41  42  43  44]
 [ 31  32  33  34]
 [ 61  62  63  64]
 [ 71  72  73  74]
 [ 81  82  83  84]]
 
Devset data: 
[[11 12 13 14]]
 
Test data: 
[[91 92 93 94]]
