# Train-test split

Es hora de hablar del que es quizá el método más popular de scikit-learn, aquel que nos ayuda a dividir un dataset en diferentes conjuntos de información.

Para este entonces ya deberías tener clara la importancia de realizar esta división, así que no nos detendremos demasiado en el por qué, sino más bien en el cómo.

Comenzamos por importar el método

In [None]:
from sklearn.model_selection import train_test_split

En realidad el método es bastante sencillo de utilizar, pero hay algunos trucos que debes tener en cuenta para sacarle el máximo jugo.

### Interfaz

Esta función tiene una interfaz un poco peculiar, puesto que está hecho para recibir una cantidad variable de argumentos, para ejemplificar, mira lo siguiente:

In [None]:
import numpy as np

# Generate some example data
X1 = np.arange(0, 100)
X2 = np.arange(100, 200)
X3 = np.arange(200, 300)

print(f"Shapes: {X1.shape}, {X2.shape}, {X3.shape}")

# Split the data into training and testing sets
X1_train, X1_test, X2_train, X2_test, X3_train, X3_test = train_test_split(X1, X2, X3)



print("Shapes after splitting:")
print(f"X1_train: {X1_train.shape}, X1_test: {X1_test.shape}")
print(f"X2_train: {X2_train.shape}, X2_test: {X2_test.shape}")
print(f"X3_train: {X3_train.shape}, X3_test: {X3_test.shape}")

Lo más común es que lo veas de la siguiente forma, en donde se le pasa un conjunto de datos y las etiquetas correspondientes:

In [None]:
X = np.random.rand(100, 2)
y = np.random.randint(0, 2, 100)

X_train, X_test, y_train, y_test = train_test_split(X, y)

### Argumentos

<b>Tamaños de los sets</b>

Por default, y sin más argumentos, el tamaño de los datasets estará dividido en 75% para el conjunto de entrenamiento y 25% para el conjunto de prueba.

Estos valores son modificables, desde luego, puedes utilizar los parámetros <code>test_size</code> o <code>train_size</code> para modificar el tamaño (recuerda establecer solamente uno), puedes utilizar tanto valores enteros como flotantes.

Si utilizas un valor entero, se utilizará ese número exacto, por ejemplo:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=10)

print("Shapes after splitting:")
print(f"X_train: {X_train.shape}, X_test: {X_test.shape}")
print(f"y_train: {y_train.shape}, y_test: {y_test.shape}")

Pero también puedes utilizar flotantes, que servirán como porcentajes:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.5)

print("Shapes after splitting:")
print(f"X_train: {X_train.shape}, X_test: {X_test.shape}")
print(f"y_train: {y_train.shape}, y_test: {y_test.shape}")

<b>Semilla aleatoria</b>

Por default, la función asigna de forma aleatoria los datos a cualquiera de los dos conjuntos, así que dos ejecuciones no nos entregarán los mismos resultados:

In [None]:
X1 = np.arange(0, 100)

X_train, X_test = train_test_split(X1, train_size=0.5)
print("First 10 elements of X_train:", X_train[:10])

X_train, X_test = train_test_split(X1, train_size=0.5)
print("First 10 elements of X_train:", X_train[:10])

Si lo que quieres es reproducibilidad, puedes establecer una semilla aleatoria utilizando el argumento <code>random_state</code>:

In [None]:
X1 = np.arange(0, 100)

X_train, X_test = train_test_split(X1, train_size=0.5, random_state=42)
print("First 10 elements of X_train:", X_train[:10])

X_train, X_test = train_test_split(X1, train_size=0.5, random_state=42)
print("First 10 elements of X_train:", X_train[:10])

<b>Estratificación</b>

Cuando estés trabajando con conjuntos de datos desbalanceados (aquellos que cuenten con más datos de una clase que de otras) puedes establecer el argumento <code>stratify</code> para que los datos sean distribuidos equitativamente en los dos sets:

In [None]:
def show_counts(y):
    unique, counts = np.unique(y, return_counts=True)
    counts = dict(zip(unique, counts))
    for class_, count in counts.items():
        print(f"Class {class_}:\t{count:>5} ({count/len(y)*100:00.2f}%)")

Creamos un dataset de ejemplo, presta atención a las cuentas de las etiquetas de “apple” y “orange”:

In [None]:
sample_size = 1000
X = np.random.rand(sample_size, 2)
y = np.random.choice(["apple", "orange"], sample_size, p=[0.9, 0.1])

show_counts(y)

Si las dividimos sin estratificación, presta atención a lo que sucede con las cuentas:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=60)

show_counts(y_train)
show_counts(y_test)

Pero si lo hacemos estratificando con <code>y</code>:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=60, stratify=y)

show_counts(y_train)
show_counts(y_test)

<b>No aleatorizar</b>

Por default, la función separa los datos de forma aleatoria, pero habrá ocasiones en las que esto no es lo ideal, por ejemplo, cuando estés trabajando con datos en series de tiempo. En estos casos el tomar datos de forma aleatoria causaría un problema de <i>data leakage</i>. Scikit-learn nos permite desactivar la aleatorización pasando el argumento <code>shuffle</code> igual a falso:

In [None]:
X_train, X_test = train_test_split(X, shuffle=False)

print("First 10 elements of X_train:", X_train[:10])
print("First 10 elements of X_test:", X_test[:10])

Pero si lo llamamos como sin <code>shuffle</code>:

In [None]:
X_train, X_test = train_test_split(X)

print("First 10 elements of X_train:", X_train[:10])
print("First 10 elements of X_test:", X_test[:10])

Espero que ahora tengas una comprensión clara del método <code>train_test_split()</code> y cómo ajustar los argumentos para satisfacer las necesidades de tu conjunto de datos. Recuerda que este es un paso importante en la creación de modelos de aprendizaje automático precisos y efectivos.