In [None]:
import numpy as np
import torch
from torch.utils.data import DataLoader, TensorDataset

# Datasets

In [None]:
nObservations = 100
nFeatures = 20

data = np.random.randn(nObservations, nFeatures)
data.shape

(100, 20)

In [None]:
# Convert to torch tensor
dataT = torch.tensor(data)

# print info
print('Numpy data:')
print(type(data))
print(data.shape)
print(data.dtype)
print(' ')

print('Tensor data:')
print(type(dataT))
print(dataT.size() )
print(dataT.dtype)

Numpy data:
<class 'numpy.ndarray'>
(100, 20)
float64
 
Tensor data:
<class 'torch.Tensor'>
torch.Size([100, 20])
torch.float64


In [None]:
# COnverting data types

dataT2 = torch.tensor(data).float()
print(dataT2.dtype)

dataT3 = torch.tensor(data).long()
print(dataT3.dtype)

torch.float32
torch.int64


In [None]:
# Dataset Tensors
dataset = TensorDataset(dataT)
dataset.tensors

(tensor([[ 1.0851, -1.1098, -0.0182,  ...,  0.2381, -1.3192,  0.9322],
         [-0.4525, -2.0397,  0.6038,  ..., -0.0377,  0.0089,  0.1437],
         [-1.0100,  0.3494,  0.0100,  ...,  0.8974, -0.9351,  1.2851],
         ...,
         [ 2.4642,  1.2769,  0.1608,  ..., -1.7696,  0.9353,  0.5286],
         [ 2.0729,  0.3903,  0.4593,  ...,  0.1384,  0.8935,  0.4906],
         [-0.4197,  2.2799, -0.8266,  ..., -0.2190, -1.6005,  1.5344]],
        dtype=torch.float64),)

In [None]:
# With Labels
labels = torch.ceil(torch.linspace(.01, 4, nObservations))

# trainsorm to an actual matrix (column vactor)
labels = labels.reshape((-1,1))

dataset = TensorDataset(dataT, labels)
print(dataset.tensors[0].size())
print(dataset.tensors[1].size())

print(np.shape(np.random.randint(5, size = nObservations)))

torch.Size([100, 20])
torch.Size([100, 1])
(100,)


# DataLoaders

In [None]:
batch_size = 25
dataloader = DataLoader(dataset, batch_size = batch_size, shuffle = False) # drop_last = True

In [None]:
# size of each batch
for data, labs in dataloader:
  print('BATCH INFO:')
  print(data.size())
  print(labs.size())
  print(' ')

BATCH INFO:
torch.Size([25, 20])
torch.Size([25, 1])
 
BATCH INFO:
torch.Size([25, 20])
torch.Size([25, 1])
 
BATCH INFO:
torch.Size([25, 20])
torch.Size([25, 1])
 
BATCH INFO:
torch.Size([25, 20])
torch.Size([25, 1])
 


In [None]:
# size of each batch
for data, labs in dataloader:
  print(labs.T)
  print(' ')

tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
         1., 1., 1., 1., 1., 1., 1.]])
 
tensor([[2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
         2., 2., 2., 2., 2., 2., 2.]])
 
tensor([[3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3.,
         3., 3., 3., 3., 3., 3., 3.]])
 
tensor([[4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4.,
         4., 4., 4., 4., 4., 4., 4.]])
 


In [None]:
# with shuffle
dataloader = DataLoader(dataset, batch_size = batch_size, shuffle = True)
for data, labs in dataloader:
  print(labs.T)
  print(' ')

tensor([[3., 1., 4., 1., 1., 1., 3., 4., 3., 3., 4., 1., 1., 4., 2., 4., 3., 4.,
         2., 2., 3., 1., 3., 3., 2.]])
 
tensor([[4., 4., 1., 3., 2., 1., 2., 4., 1., 1., 2., 3., 3., 1., 4., 3., 2., 3.,
         2., 2., 1., 4., 3., 4., 4.]])
 
tensor([[3., 2., 1., 1., 1., 2., 2., 3., 4., 1., 3., 1., 4., 1., 1., 2., 4., 4.,
         1., 2., 4., 4., 4., 1., 2.]])
 
tensor([[3., 2., 2., 4., 3., 4., 4., 2., 3., 4., 3., 3., 2., 3., 1., 1., 2., 3.,
         1., 4., 2., 2., 3., 2., 2.]])
 


In [None]:
# To get only one batch
dat, labs = next(iter(dataloader))
labs

tensor([[3.],
        [2.],
        [1.],
        [3.],
        [3.],
        [1.],
        [4.],
        [3.],
        [2.],
        [3.],
        [3.],
        [3.],
        [3.],
        [2.],
        [2.],
        [2.],
        [1.],
        [4.],
        [1.],
        [2.],
        [2.],
        [4.],
        [4.],
        [3.],
        [1.]])