[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/sensioai/blog/blob/master/030_data_splitting/data_splitting.ipynb)

# Conjuntos de Datos

Hasta ahora hemos presentado la mayor√≠a de conceptos fundamentales necesarios para entender c√≥mo funciona una `red neuronal`, implementando desde cero los algoritmos que necesitamos para el dise√±o y entrenamiento de estos modelos. Sin embargo, de ahora en adelante utilizaremos la librer√≠a de `redes neuronales` [Pytorch](https://pytorch.org/), la cual hemos introducido en los posts anteriores. A pesar de que ya conocemos c√≥mo entrenar modelos simples de `Perceptr√≥n Multicapa` en tareas de regresi√≥n y clasificaci√≥n, es posible que no obtengas los resultados deseados (al menos comparados con resultados que puedes encontrar en otras referencia). En los pr√≥ximos posts nos vamos a centrar en t√©cnicas concretas que van a permitirnos entrenar los mejores modelos posibles, terminando con una "receta" que podemos utilizar en nuestros proyectos. En este post empezamos viendo t√©cnicas de divisi√≥n de datos necesarias para entrenar y validar nuestras `redes neuronales` de forma correcta.

## Datos de entrenamiento

Vamos a entrenar un `MLP` para clasificaci√≥n de im√°genes con el dataset MNIST, algo que ya hemos hecho en los posts anteriores.

In [2]:
import torch
from sklearn.datasets import fetch_openml
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Empezamos descargando nuestro dataset. En este primer ejemplo utilizaremos todos los datos disponibles para entrenar nuestra red. Al fin y al cabo, sabemos que cu√°ntos m√°s datos tengamos, mejor ser√° nuestro modelo. As√≠ que, ¬øpor qu√© no usarlos todos?

In [3]:
# descarga datos

mnist = fetch_openml('mnist_784', version=1,parser='auto')
X, Y = mnist["data"], mnist["target"]

X_train, y_train = X / 255., Y.astype(np.int)

X_train.shape, y_train.shape

  warn(


AttributeError: module 'numpy' has no attribute 'int'.
`np.int` was a deprecated alias for the builtin `int`. To avoid this error in existing code, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
The aliases was originally deprecated in NumPy 1.20; for more details and guidance see the original release note at:
    https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations

In [None]:
class Dataset(torch.utils.data.Dataset):
    def __init__(self, X, Y):
        self.X = torch.from_numpy(X).float().cuda()
        self.Y = torch.from_numpy(Y).long().cuda()
    def __len__(self):
        return len(self.X)
    def __getitem__(self, ix):
        return self.X[ix], self.Y[ix]
    
dataset = Dataset(X_train, y_train)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=100, shuffle=True)

> üí° Si no est√°s familiarizado con `Pytorch`, te recomiendo que le eches un vistazo a nuestra [playlist](https://youtu.be/WL50sQVdQFg) para aprender a usar esta librer√≠a.

In [None]:
def build_model(D_in=784, H=100, D_out=10):
    model = torch.nn.Sequential(
        torch.nn.Linear(D_in, H),
        torch.nn.ReLU(),
        torch.nn.Linear(H, D_out),
    ).to("cuda")
    return model

def fit(model, dataloader, epochs=10, log_each=1):
    criterion = torch.nn.CrossEntropyLoss()
    optimizer = torch.optim.SGD(model.parameters(), lr=0.8)
    l = []
    model.train()
    for e in range(1, epochs+1): 
        _l = []
        for x_b, y_b in dataloader:
            y_pred = model(x_b)
            loss = criterion(y_pred, y_b)
            _l.append(loss.item())
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
        l.append(np.mean(_l))
        if not e % log_each:
            print(f"Epoch {e}/{epochs} loss {l[-1]:.5f}")
    return {'epoch': list(range(1, epochs+1)), 'loss': l}

In [None]:
model = build_model()
hist = fit(model, dataloader)

Muy bien, hemos entrenado nuestro clasificador de im√°genes. ¬øC√≥mo sabemos si es bueno? De momento la √∫nica informaci√≥n que tenemos es el valor de la funci√≥n de p√©rdida, la medida del error que nuestro clasificador comete durante el entrenamiento. Esta valor decrece a medida que pasan las *epochs*, lo cual indica que nuestra `red` est√° aprendiendo y mejorando. Podemos observar esto la siguiente im√°gen.

In [None]:
fig = plt.figure(dpi=100)
ax = plt.subplot(111)
pd.DataFrame(hist).plot(x='epoch', grid=True, ax=ax)
plt.show()

El siguiente paso podr√≠a ser evaluar diferentes **m√©tricas**. En este [post](https://sensioai.com/blog/016_metricas_clasficiacion) hablamos extendidamente de este tema. La m√©trica m√°s sencilla que podemos usar para evaluar un clasificador es la precisi√≥n (cu√°ntas im√°genes nuestro modelo clasifica correctamente). 

In [None]:
from sklearn.metrics import accuracy_score

def softmax(x):
    return torch.exp(x) / torch.exp(x).sum(axis=-1,keepdims=True)

def evaluate(x):
    model.eval()
    y_pred = model(x)
    y_probas = softmax(y_pred)
    return torch.argmax(y_probas, axis=1)

In [None]:
y_pred = evaluate(torch.from_numpy(X_train).float().cuda())
accuracy_score(y_train, y_pred.cpu().numpy())

Superamos el $99 \%$ de precisi√≥n, ¬°nada mal!. Podemos incluir esta m√©trica en nuestro bucle de entrenamiento para ver su evoluci√≥n.

In [None]:
def fit(model, dataloader, epochs=10, log_each=1):
    criterion = torch.nn.CrossEntropyLoss()
    optimizer = torch.optim.SGD(model.parameters(), lr=0.8)
    model.train()
    l, acc = [], []
    for e in range(1, epochs+1): 
        _l, _acc = [], []
        for x_b, y_b in dataloader:
            y_pred = model(x_b)
            loss = criterion(y_pred, y_b)
            _l.append(loss.item())
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            y_probas = torch.argmax(softmax(y_pred), axis=1)            
            _acc.append(accuracy_score(y_b.cpu().numpy(), y_probas.cpu().detach().numpy()))
        l.append(np.mean(_l))
        acc.append(np.mean(_acc))
        if not e % log_each:
            print(f"Epoch {e}/{epochs} loss {l[-1]:.5f} acc {acc[-1]:.5f}")
    return {'epoch': list(range(1, epochs+1)), 'loss': l, 'acc': acc}

In [None]:
model = build_model()
hist = fit(model, dataloader)

In [None]:
fig = plt.figure(dpi=200, figsize=(10,3))
ax = plt.subplot(121)
pd.DataFrame(hist).plot(x='epoch', y='loss', grid=True, ax=ax)
ax = plt.subplot(122)
pd.DataFrame(hist).plot(x='epoch', y='acc', grid=True, ax=ax)
plt.show()

Hemos entrenado un clasificador de im√°genes que alcanza el $99 \%$ de precisi√≥n en los datos utilizados para entrenar, adem√°s viendo las curvas de entrenamiento parece que si entrenamos durante m√°s *epochs*, podr√≠amos incluso mejorar este resultado. 

In [None]:
model = build_model()
hist = fit(model, dataloader, epochs=30, log_each=10)

In [None]:
fig = plt.figure(dpi=200, figsize=(10,3))
ax = plt.subplot(121)
pd.DataFrame(hist).plot(x='epoch', y='loss', grid=True, ax=ax)
ax = plt.subplot(122)
pd.DataFrame(hist).plot(x='epoch', y='acc', grid=True, ax=ax)
plt.show()

Llegamos a alcanzar el $100 \%$ de precisi√≥n. Nuestro modelo clasifica correctamente todas la im√°genes en el dataset. ¬øEs posible que hayamos entrenado el mejor modelo de la historia?. Lamentablemente, la respuesta es NO. El procedimiento que hemos seguido tiene un fallo, y es que cuando este modelo est√© trabajando en el mundo real, las im√°genes que va a recibir ser√°n diferentes a las utilizadas durante el entrenamiento, y ahora mismo no tenemos ni idea de c√≥mo se va a comportar. Es por esto que necesitamos evaluar nuestro modelo en un conjunto de im√°genes que no hayamos usado para entrenar para hacernos una idea de la *performance* de nuestro modelo en el mundo real.

## El conjunto de *test*

Para evaluar un modelo una vez entrenado, usamos el conjunto de datos de *test*. En multitud de ocasiones, este conjunto nos vendr√° dado directamente, sobretodo si el dataset con el que trabajamos se utiliza para comparar diferentes modelos en, por ejemplo, una competici√≥n o un *benchmark*. Adem√°s, este conjunto de datos suele estar oculto y protegido de manera que todos los modelos sean siempre evaluados en el mismo conjunto de datos y, adem√°s, en un conjunto de datos que nadie conoce. Esta es la manera m√°s justa de comparar modelos, y la que utilizaremos nosotros para evaluar nuestros modelos una vez entrenados. En nuestro caso, simplemente separaremos un conjunto de im√°genes de nuestro dataset.

In [None]:
X_train, X_test, y_train, y_test = X[:60000] / 255., X[60000:] / 255., Y[:60000].astype(np.int), Y[60000:].astype(np.int)

X_train.shape, X_test.shape

Ahora entrenaremos nuestro modelo s√≥lo con las im√°genes de entrenamiento, y lo evaluaremos en las im√°genes de test.

In [None]:
dataset = Dataset(X_train, y_train)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=100, shuffle=True)

In [None]:
model = build_model()
hist = fit(model, dataloader, epochs=30, log_each=10)

In [None]:
fig = plt.figure(dpi=200, figsize=(10,3))
ax = plt.subplot(121)
pd.DataFrame(hist).plot(x='epoch', y='loss', grid=True, ax=ax)
ax = plt.subplot(122)
pd.DataFrame(hist).plot(x='epoch', y='acc', grid=True, ax=ax)
plt.show()

In [None]:
y_pred = evaluate(torch.from_numpy(X_test).float().cuda())
accuracy_score(y_test, y_pred.cpu().numpy())

Oh oh... Nuestro modelo es perfecto en los datos de entrenamiento, sin embargo al evaluarlo en los datos de *test* (recuerda, datos no usados para entrenar) la precisi√≥n se reduce. Este fen√≥meno se conoce por el nombre de *overfitting*, y se da cuando un modelo se ajusta muy bien a los datos de entrenamiento pero luego falla en datos nuevos, no vistos en el entrenamiento.

## Capacidad

Hablamos de la capacidad de un modelo para referirnos a su potencia a la hora de representar un conjunto de datos.


![](https://i0.wp.com/www.aprendemachinelearning.com/wp-content/uploads/2017/12/generalizacion-machine-learning.png?resize=525%2C211)

Si un modelo tiene poca capacidad, observaremos *underfitting*. El modelo no tiene suficientes par√°metros para representar correctamente un dataset y tendremos una mala precisi√≥n. 

In [None]:
model = build_model(H=3)
hist = fit(model, dataloader, epochs=30, log_each=10)

Nuestro modelo simple no es capaz de alcanzar la m√°xima precisi√≥n en los datos de entrenamiento, esta es la clara se√±al de *underfitting* y en este caso simplemente tendremos que aumentar el n√∫mero de par√°metros.

En el caso contrario, si nuestro modelo tiene mucha capacidad (m√°s par√°metros de los necesarios) se ajustar√° muy bien a los datos de entrenamiento pero no ser√° capaz de generalizar a datos nos vistos durante el entrenamiento. Esto es lo que llamamos *overfitting*, y es el fen√≥meno que estamos observando en nuestro ejemplo. Nuestro objetivo ser√° encontrar un modelo con la capacidad "correcta", algo de lo que hablaremos en futuros posts.

En este punto, podr√≠as estar tentado a probar diferentes arquitecturas, modificando el n√∫mero de capas del `MLP` por ejemplo, y utilizar la mejor combinaci√≥n de par√°metros que maximice la m√©trica en el conjunto de test. Sin embargo, esta aproximaci√≥n no es la correcta ya que lo √∫nico que conseguiriamos ser√≠a hacer *overfitting* al conjunto de test. Es por esto que utilizamos los datos de *test* para evaluar nuestro modelo, y para elegir el mejor modelo utilizamos un tercer conjunto de datos.

## El conjunto de *validaci√≥n*.

El conjunto de datos de validaci√≥n nos servir√° para iterar nuestro modelo, probar varias versiones para encontrar aquella con mejor capacidad que, √∫ltimamente, evaluaremos con los datos de test. Si tanto el conjunto de test como el de evaluaci√≥n son representativos, podemos confiar que las m√©tricas obtenidas en validaci√≥n se transferir√°n a test.

In [None]:
X_train, X_val, X_test = X[:50000] / 255., X[50000:60000] / 255., X[60000:] / 255.
y_train, y_val, y_test = Y[:50000].astype(np.int), Y[50000:60000].astype(np.int), Y[60000:].astype(np.int)

X_train.shape, X_val.shape, X_test.shape

In [None]:
dataset = {
    'train': Dataset(X_train, y_train),
    'val': Dataset(X_val, y_val)
}

dataloader = {
    'train': torch.utils.data.DataLoader(dataset['train'], batch_size=100, shuffle=True),
    'val': torch.utils.data.DataLoader(dataset['val'], batch_size=1000, shuffle=False)
}

In [None]:
def fit(model, dataloader, epochs=10, log_each=1):
    criterion = torch.nn.CrossEntropyLoss()
    optimizer = torch.optim.SGD(model.parameters(), lr=0.8)
    l, acc = [], []
    val_l, val_acc = [], []
    for e in range(1, epochs+1): 
        _l, _acc = [], []
        model.train()
        for x_b, y_b in dataloader['train']:
            y_pred = model(x_b)
            loss = criterion(y_pred, y_b)
            _l.append(loss.item())
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            y_probas = torch.argmax(softmax(y_pred), axis=1)            
            _acc.append(accuracy_score(y_b.cpu().numpy(), y_probas.cpu().detach().numpy()))
        l.append(np.mean(_l))
        acc.append(np.mean(_acc))
        model.eval()
        _l, _acc = [], []
        with torch.no_grad():
            for x_b, y_b in dataloader['val']:
                y_pred = model(x_b)
                loss = criterion(y_pred, y_b)
                _l.append(loss.item())
                y_probas = torch.argmax(softmax(y_pred), axis=1)            
                _acc.append(accuracy_score(y_b.cpu().numpy(), y_probas.cpu().numpy()))
        val_l.append(np.mean(_l))
        val_acc.append(np.mean(_acc))
        if not e % log_each:
            print(f"Epoch {e}/{epochs} loss {l[-1]:.5f} acc {acc[-1]:.5f} val_loss {val_l[-1]:.5f} val_acc {val_acc[-1]:.5f}")
    return {'epoch': list(range(1, epochs+1)), 'loss': l, 'acc': acc, 'val_loss': val_l, 'val_acc': val_acc}

In [None]:
model = build_model()
hist = fit(model, dataloader, epochs=30, log_each=10)

In [None]:
fig = plt.figure(dpi=200, figsize=(10,3))
ax = plt.subplot(121)
pd.DataFrame(hist).plot(x='epoch', y=['loss', 'val_loss'], grid=True, ax=ax)
ax = plt.subplot(122)
pd.DataFrame(hist).plot(x='epoch', y=['acc', 'val_acc'], grid=True, ax=ax)
plt.show()

Como puedes observar en las curvas de entrenamiento, la *loss* de entrenamiento disminuye mientras la precisi√≥n aumenta hasta llegar al valor m√°ximo. Sin embargo, si observamos las m√©tricas de validaci√≥n, √©stas se estancan en el valor que hemos obtenido antes al evaluar nuestro modelo en los datos de test. Esta es la se√±al clara de que nuestro modelos est√° haciendo *overfitting* a los datos de entrenamiento, lo cual implica que no ser√° capaz de generalizar bien a nuevos datos. 

![](https://qph.fs.quoracdn.net/main-qimg-ad7d9595f354c89dc3d9245de5b1ebf6.webp)

Ser√° pues el objetivo de los pr√≥ximos posts ver c√≥mo tratamos con el *overfitting* para intentar reducir al m√°ximo su impacto, ya que c√≥mo hemos visto si no hacemos nada nuestros modelos tender√°n a hacer *overfitting* (este es el sino de las `redes neuronales`).

## Validaci√≥n cruzada

Hemos visto que para evaluar correctamente un modelo necesitamos un conjunto de datos de *test*. Adem√°s para poder iterar diferentes versiones de un modelo, necesitamos un conjunto de *validaci√≥n*. Este es el procedimiento m√°s utilizado cuando trabajamos con modelos o datasets muy grandes que requieren muchos recursos computacionales. Sin embargo existe una mejor aproximaci√≥n que, si nos la podemos permitir, nos dar√° muchos mejores resultados: la validaci√≥n cruzada.

![](https://scikit-learn.org/stable/_images/grid_search_cross_validation.png)

Esta t√©cnica consiste en dividir nuestro conjunto de datos de entrenamiento en diferentes paquetes, o *folds* en ingl√©s, y entrenar tantos modelos como *folds* tengamos, utilizando un *fold* diferente para validar en cada caso y entrenando con el resto de *folds*. De esta manera, habremos entrenado y validado con todos los datos de entrenamiento. Esta t√©cnica permite, adem√°s, utilizar todos los modelos entrenados para generar las predicciones finales en los que se conoce como un ensamblado de modelos. La idea es que las predicciones generadas por este ensamblado ser√°n mejores que cualquier predicci√≥n hecha por un modelo individual, ya que las debilidades de un modelo ser√°n compensadas por el resto. Esta t√©cnica es muy utilizada en competiciones para sacar ese extra de precisi√≥n final que puede marcar la diferencia.

In [None]:
from sklearn.model_selection import KFold

FOLDS = 5
kf = KFold(n_splits=FOLDS)

X_train, X_test, y_train, y_test = X[:60000] / 255., X[60000:] / 255., Y[:60000].astype(np.int), Y[60000:].astype(np.int)

X_train.shape, X_test.shape, kf.get_n_splits(X)

In [None]:
train_accs, val_accs = [], []
for k, (train_index, val_index) in enumerate(kf.split(X_test)):
    print("Fold:", k+1)
    X_train_fold, X_val_fold = X_train[train_index], X_train[val_index]
    y_train_fold, y_val_fold = y_train[train_index], y_train[val_index]
    
    dataset = {
        'train': Dataset(X_train_fold, y_train_fold),
        'val': Dataset(X_val_fold, y_val_fold)
    }

    dataloader = {
        'train': torch.utils.data.DataLoader(dataset['train'], batch_size=100, shuffle=True),
        'val': torch.utils.data.DataLoader(dataset['val'], batch_size=1000, shuffle=False)
    }
    
    model = build_model()
    hist = fit(model, dataloader)
    
    train_accs.append(hist['acc'][-1])   
    val_accs.append(hist['val_acc'][-1])

Hacer validaci√≥n cruzada nos permite dar un intervalo de confianza en las m√©tricas, lo cual nos permite conocer c√≥mo de seguro est√° nuestro modelo en sus predicciones (informaci√≥n que podemos tener en cuenta a la hora de escoger un modelo sobre otro).

In [None]:
np.mean(train_accs), np.std(train_accs)

In [None]:
np.mean(val_accs), np.std(val_accs)

## Resumen 

En este post hemos visto como tratar nuestros datos para entrenar un modelo de manera correcta. Esto incluye utilizar un conjunto de validaci√≥n para iterar nuestro modelo y encontrar su capacidad "correcta" y un conjunto de test para evaluar nuestro modelo final. Ambos conjuntos no son utilizados durante el entrenamiento. Tambi√©n hemos hablado de la capacidad de un modelo, que puede dar como resultado los fen√≥menos de *underfitting* u *overfitting* dependiendo si la `red neurona` tiene poco par√°metros o demasiados para representar nuestros datos, respectivamente. La aproximaci√≥n m√°s com√∫n a este problema es la de sobreparametrizar nuestro modelo y luego aplicar t√©cnicas de las cuales hablaremos m√°s adelante para intentar reducir al m√°ximo el *overfitting*. Por √∫ltimo, tambi√©n hemos hablado sobre la validaci√≥n cruzada, una t√©cnica de validaci√≥n muy interesante que debemos aplicar siempre que podemos permit√≠rnoslo y que tambi√©n nos permite utilizar varios modelos en un ensamblado para mejorar las m√©tricas finales.