<h1 align="center"><font color="yellow">Pytorch: Datasets</font></h1>

<font color="yellow">Data Scientist.: PhD.Eddy Giusepe Chirinos Isidro</font>

<font color="orange">Neste script vamos a estudar como o Pytorch define nossos datasets.</font>

In [None]:
%conda install requests,matplotlib --yes

In [1]:
%load_ext watermark 
%watermark -v -p numpy,pandas,matplotlib,requests,torch

Python implementation: CPython
Python version       : 3.9.13
IPython version      : 8.13.2

numpy     : 1.24.3
pandas    : 2.0.1
matplotlib: 3.7.1
requests  : 2.31.0
torch     : 2.0.1



# Iterando Tensores

`Lembrar:`

<font color="orange">O conjunto de MNIST é um conjunto de Dados muito utilizado na área de `Visão Computacional`. As principais características são:</font>

* `Imagens em escala de cinza:` Cada imagem do MNIST tem dimensões de `28x28 pixels` e é representada em escala de cinza. Isso significa que cada pixel pode ter um valor entre `0 e 255`, onde <font color="orange">0 representa o preto</font> e <font color="orange">255 representa o branco</font>.

* `Dígitos de 0 a 9:` O conjunto de dados MNIST contém imagens de dígitos manuscritos de `0 a 9`. Cada imagem é rotulada com o dígito correspondente.

* `Conjunto de treinamento e teste:` O conjunto de dados MNIST é dividido em dois conjuntos: um conjunto de treinamento e um conjunto de teste. O conjunto de treinamento contém `60.000` imagens, enquanto o conjunto de teste contém `10.000` imagens.

* `Equilíbrio de classes:` O MNIST é equilibrado em relação às classes, o que significa que cada dígito (0 a 9) tem uma quantidade semelhante de exemplos no conjunto de dados.


In [2]:
import torch
from sklearn.datasets import fetch_openml
import numpy as np

# Descarregando nosso Dataset
mnist = fetch_openml('mnist_784', version=1)
X, Y = mnist["data"], mnist["target"]

# Normalizando:
X_train, X_test, y_train, y_test = X[:60000] / 255., X[60000:] / 255., Y[:60000].astype(int), Y[60000:].astype(int)


X_t = torch.from_numpy(X_train.values).float().cuda()
Y_t = torch.from_numpy(y_train.values).long().cuda()


  warn(


In [3]:
D_in, H, D_out = 784, 100, 10

model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
).to("cuda")

In [4]:
from sklearn.metrics import accuracy_score

def softmax(x):
    return torch.exp(x) / torch.exp(x).sum(axis=-1,keepdims=True)

def evaluate(x):
    model.eval()
    y_pred = model(x)
    y_probas = softmax(y_pred)
    return torch.argmax(y_probas, axis=1)

In [5]:
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.8)


epochs = 100
log_each = 10
l = []
model.train()
for e in range(1, epochs+1): 
    
    # forward
    y_pred = model(X_t)

    # loss
    loss = criterion(y_pred, Y_t)
    l.append(loss.item())
    
    # ponemos a cero los gradientes
    optimizer.zero_grad()

    # Backprop (calculamos todos los gradientes automáticamente)
    loss.backward()

    # update de los pesos
    optimizer.step()
    
    if not e % log_each:
        print(f"Epoch {e}/{epochs} Loss {np.mean(l):.5f}")
        
y_pred = evaluate(torch.from_numpy(X_test.values).float().cuda())

print("")
print("\033[93mA accuracy é: \033[0m")
accuracy_score(y_test, y_pred.cpu().numpy())

Epoch 10/100 Loss 1.78112
Epoch 20/100 Loss 1.49077
Epoch 30/100 Loss 1.25031
Epoch 40/100 Loss 1.06897
Epoch 50/100 Loss 0.94615
Epoch 60/100 Loss 0.85100
Epoch 70/100 Loss 0.77457
Epoch 80/100 Loss 0.71397
Epoch 90/100 Loss 0.66534
Epoch 100/100 Loss 0.62636

[93mA accuracy é: [0m


0.9187

# Iterando por Batches

<font color="orange">Na implementação anterior estamos Otimizando nosso modelo com o Algoritmo de `batch gradient descent`, na qual utilizamos todos nossos Dados em cada passo de Otimização. No entanto, um algoritmo que pode convergir mais rápido (e única opção se nosso dataset é tão grande que não cabe em memória) é o de `mini-batch gradient descent`.</font>

In [10]:
D_in, H, D_out = 784, 100, 10

model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
).to("cuda")

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.8)

epochs = 100
batch_size = 100
log_each = 1
l = []
model.train()
batches = len(X_t) // batch_size
for e in range(1, epochs+1): 
    
    _l = []
    # Iteramos por batches
    for b in range(batches):
        x_b = X_t[b*batch_size:(b+1)*batch_size]
        y_b = Y_t[b*batch_size:(b+1)*batch_size]
        
        # forward
        y_pred = model(x_b)

        # loss
        loss = criterion(y_pred, y_b)
        _l.append(loss.item())

        # ponemos a cero los gradientes
        optimizer.zero_grad()

        # Backprop (calculamos todos los gradientes automáticamente)
        loss.backward()

        # update de los pesos
        optimizer.step()
    
    l.append(np.mean(_l))
    if not e % log_each:
        print(f"Epoch {e}/{epochs} Loss {np.mean(l):.5f}")
        
y_pred = evaluate(torch.from_numpy(X_test.values).float().cuda())

print("")
print("\033[93mA accuracy é: \033[0m")
accuracy_score(y_test, y_pred.cpu().numpy())

Epoch 1/100 Loss 0.31462
Epoch 2/100 Loss 0.21930
Epoch 3/100 Loss 0.17579
Epoch 4/100 Loss 0.14918
Epoch 5/100 Loss 0.13052
Epoch 6/100 Loss 0.11640
Epoch 7/100 Loss 0.10509
Epoch 8/100 Loss 0.09587
Epoch 9/100 Loss 0.08814
Epoch 10/100 Loss 0.08152
Epoch 11/100 Loss 0.07579
Epoch 12/100 Loss 0.07079
Epoch 13/100 Loss 0.06632
Epoch 14/100 Loss 0.06233
Epoch 15/100 Loss 0.05874
Epoch 16/100 Loss 0.05549
Epoch 17/100 Loss 0.05254
Epoch 18/100 Loss 0.04986
Epoch 19/100 Loss 0.04743
Epoch 20/100 Loss 0.04520
Epoch 21/100 Loss 0.04317
Epoch 22/100 Loss 0.04130
Epoch 23/100 Loss 0.03959
Epoch 24/100 Loss 0.03801
Epoch 25/100 Loss 0.03656
Epoch 26/100 Loss 0.03521
Epoch 27/100 Loss 0.03395
Epoch 28/100 Loss 0.03278
Epoch 29/100 Loss 0.03169
Epoch 30/100 Loss 0.03067
Epoch 31/100 Loss 0.02971
Epoch 32/100 Loss 0.02881
Epoch 33/100 Loss 0.02796
Epoch 34/100 Loss 0.02717
Epoch 35/100 Loss 0.02641
Epoch 36/100 Loss 0.02570
Epoch 37/100 Loss 0.02502
Epoch 38/100 Loss 0.02438
Epoch 39/100 Loss 0.0

0.9803

Esta implementação é correta e funcional, dependendo de nossos dados pode chegar a ser mais complexa (<font color="orange">`Por exemplo:` se precisarmos carregar muitas imagens à quais queremos aplicar Transformações, juntar batches, etc</font>) Ademais, é comum re-utilizar a lógica para carregar nossos dados não só para treinar a rede, senão para gerar predições. Este fato motiva o uso das Classes especiais que `Pytorch` nos oferece para isso. 

# A classe Dataset

Começamos estudando a classe `Dataset`. Esta classe herda da classe pai `torch.utils.data.Dataset` e temos que definir, como mínimo, três funções: 

- `__init__`: o construtor
- `__len__`: retorna o número de amostras no dataset
- `__getitem__`: retorna uma amostra em concreto do dataset

Uma vez definida a classe, ésta pode se usada como se de qualquer iterador se trata-se.

In [11]:
# A classe Dataset, herda da classe `torch.utils.data.Dataset`
class Dataset(torch.utils.data.Dataset):
    # Construtor
    def __init__(self, X, Y):
        self.X = torch.from_numpy(X.values).float().cuda()
        self.Y = torch.from_numpy(Y.values).long().cuda() # .long() --> Passa para Inteiro Longo (para representar comumente Rótulos ou Categorias)
    # Retornamos o número de dados no dataset
    def __len__(self):
        return len(self.X)
    # Retonamos o elemento `ix` del dataset
    def __getitem__(self, ix):
        return self.X[ix], self.Y[ix]
    

Uma vez definida a Classe, podemos instanciar um objeto que podemos usar para Iterar pelos nossos Dados:

In [12]:
dataset = Dataset(X_train, y_train)

len(dataset)

60000

In [13]:
D_in, H, D_out = 784, 100, 10

model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
).to("cuda")

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.8)

epochs = 30
batch_size = 100
log_each = 1
l = []
model.train()
batches = len(dataset) // batch_size
for e in range(1, epochs+1): 
    
    _l = []
    # iteramos por batches en el dataset
    for b in range(batches):
        x_b, y_b = dataset[b*batch_size:(b+1)*batch_size]
        
        # forward
        y_pred = model(x_b)

        # loss
        loss = criterion(y_pred, y_b)
        _l.append(loss.item())

        # ponemos a cero los gradientes
        optimizer.zero_grad()

        # Backprop (calculamos todos los gradientes automáticamente)
        loss.backward()

        # update de los pesos
        optimizer.step()
    
    l.append(np.mean(_l))
    if not e % log_each:
        print(f"Epoch {e}/{epochs} Loss {np.mean(l):.5f}")
        
y_pred = evaluate(torch.from_numpy(X_test.values).float().cuda())


print("")
print("\033[93mA accuracy é: \033[0m")
accuracy_score(y_test, y_pred.cpu().numpy())

Epoch 1/30 Loss 0.29849
Epoch 2/30 Loss 0.20752
Epoch 3/30 Loss 0.16580
Epoch 4/30 Loss 0.14027
Epoch 5/30 Loss 0.12225
Epoch 6/30 Loss 0.10858
Epoch 7/30 Loss 0.09771
Epoch 8/30 Loss 0.08878
Epoch 9/30 Loss 0.08138
Epoch 10/30 Loss 0.07501
Epoch 11/30 Loss 0.06948
Epoch 12/30 Loss 0.06460
Epoch 13/30 Loss 0.06034
Epoch 14/30 Loss 0.05656
Epoch 15/30 Loss 0.05320
Epoch 16/30 Loss 0.05017
Epoch 17/30 Loss 0.04744
Epoch 18/30 Loss 0.04497
Epoch 19/30 Loss 0.04274
Epoch 20/30 Loss 0.04071
Epoch 21/30 Loss 0.03886
Epoch 22/30 Loss 0.03717
Epoch 23/30 Loss 0.03563
Epoch 24/30 Loss 0.03420
Epoch 25/30 Loss 0.03288
Epoch 26/30 Loss 0.03167
Epoch 27/30 Loss 0.03054
Epoch 28/30 Loss 0.02948
Epoch 29/30 Loss 0.02850
Epoch 30/30 Loss 0.02758

[93mA accuracy é: [0m


0.9797

Como você pode ver, podemos ITERAR diretamente sobre o objeto `dataset` da mesma maneira que fizemos anteriormente, no entanto `Pytorch` não oferece outro objeto que nos facilte as coisas na hora de Iterar por bacthes. 

# A Classe DataLoader

<font color="orange">A classe `DataLoader` recebe um `Dataset` e implementa a lógica para iterar nossos dados em Batches.</font>

In [14]:
dataloader = torch.utils.data.DataLoader(dataset,
                                         batch_size=100,
                                         shuffle=True
                                        )



In [15]:
dataloader

<torch.utils.data.dataloader.DataLoader at 0x7f41a0068a90>

In [None]:
x, y = next(iter(dataloader))

x.shape, y.shape
