# Dataset and Dataloaders with PyTorch

In [4]:
import torch
from torch.utils.data import Dataset # To store data
from torch.utils.data import DataLoader # To charge data

Las clases Dataset permiten instanciar objetos con el conjunto de datos que se van a cargar. PyTorch permite crear dos tipos distintos de datasets:

* Map-style: Implementa los métodos getitem() and len() y representa un mapeo de claves/índices a valores del conjunto de datos. La clase Dataset sería un ejemplo y es el tipo de dataset que veremos.
* Iterable-style: Implementa el método iter() y representa un iterable sobre los datos. La clase IterableDataset es un ejemplo.

In [5]:
class NumbersDataset(Dataset):
    def __init__(self):
        self.samples = list(range(1, 1001))
        self.labels = list(range(1000, 2001))

    def __len__(self):
        return len(self.samples)

    def __getitem__(self, idx):
        return self.samples[idx], self.labels[idx]

In [21]:
dataset = NumbersDataset()
print(len(dataset))
print(dataset[100])
print(dataset[122:125])

1000
(101, 1100)
([123, 124, 125], [1122, 1123, 1124])


La clase torch.utils.data.DataLoader es la clase principal para cargar los datos. A esta clase se le pasa como argumento un objeto Dataset (map-style o iterable style) y tiene varias opciones como:

* Definir el orden y la forma de cargar los datos.
* Batching automático: Se carga un batch de datos de manera automática o manual.
* Realizar la carga de datos en un proceso o en múltiples procesos.
* Ubicar los tensores en memoria page-locked para agilizar su transferencia a la GPU.

A continuación, creamos una instancia de la clase torch.utils.data.DataLoader a la que pasamos el objeto dataset que hemos creado. Definimos un tamaño de batch de 10 y shuffle=False para que no se cambio el orden de los datos en cada epoch (recorrido completo de los datos).

In [22]:
batch_size=10

train_loader = torch.utils.data.DataLoader(dataset=dataset, batch_size=batch_size, shuffle=False)

for i, (numbers, labels) in enumerate(train_loader):
  if  i<11:
    print('Batch number %d'%(i+1))
    print(numbers, labels)

Batch number 1
tensor([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]) tensor([1000, 1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009])
Batch number 2
tensor([11, 12, 13, 14, 15, 16, 17, 18, 19, 20]) tensor([1010, 1011, 1012, 1013, 1014, 1015, 1016, 1017, 1018, 1019])
Batch number 3
tensor([21, 22, 23, 24, 25, 26, 27, 28, 29, 30]) tensor([1020, 1021, 1022, 1023, 1024, 1025, 1026, 1027, 1028, 1029])
Batch number 4
tensor([31, 32, 33, 34, 35, 36, 37, 38, 39, 40]) tensor([1030, 1031, 1032, 1033, 1034, 1035, 1036, 1037, 1038, 1039])
Batch number 5
tensor([41, 42, 43, 44, 45, 46, 47, 48, 49, 50]) tensor([1040, 1041, 1042, 1043, 1044, 1045, 1046, 1047, 1048, 1049])
Batch number 6
tensor([51, 52, 53, 54, 55, 56, 57, 58, 59, 60]) tensor([1050, 1051, 1052, 1053, 1054, 1055, 1056, 1057, 1058, 1059])
Batch number 7
tensor([61, 62, 63, 64, 65, 66, 67, 68, 69, 70]) tensor([1060, 1061, 1062, 1063, 1064, 1065, 1066, 1067, 1068, 1069])
Batch number 8
tensor([71, 72, 73, 74, 75, 76, 77, 78, 79, 80]) tenso

Ahora, creamos otra instancia pero con shuffle=True para que se cambie el orden de los datos en cada epoch.

In [23]:
train_loader = torch.utils.data.DataLoader(dataset=dataset, batch_size=batch_size, shuffle=True)

for i, (numbers, labels) in enumerate(train_loader):
  if  i<11:
    print('Batch number %d'%(i+1))
    print(numbers, labels)

Batch number 1
tensor([517, 429, 502, 934, 940, 910, 811, 543, 646, 461]) tensor([1516, 1428, 1501, 1933, 1939, 1909, 1810, 1542, 1645, 1460])
Batch number 2
tensor([691, 150, 355, 448, 666, 660,  51, 246, 662, 618]) tensor([1690, 1149, 1354, 1447, 1665, 1659, 1050, 1245, 1661, 1617])
Batch number 3
tensor([414, 603, 475, 673, 928, 690, 552, 967, 279, 295]) tensor([1413, 1602, 1474, 1672, 1927, 1689, 1551, 1966, 1278, 1294])
Batch number 4
tensor([629, 525, 152, 885, 773, 972, 305, 917, 977, 644]) tensor([1628, 1524, 1151, 1884, 1772, 1971, 1304, 1916, 1976, 1643])
Batch number 5
tensor([491, 138, 349, 451, 891,  12, 649, 816, 387, 421]) tensor([1490, 1137, 1348, 1450, 1890, 1011, 1648, 1815, 1386, 1420])
Batch number 6
tensor([287,  80, 542, 740, 177,  67, 213, 687, 767,   2]) tensor([1286, 1079, 1541, 1739, 1176, 1066, 1212, 1686, 1766, 1001])
Batch number 7
tensor([465, 860,  26, 189, 941, 746, 747, 425, 930,  61]) tensor([1464, 1859, 1025, 1188, 1940, 1745, 1746, 1424, 1929, 1060])