# Training a simple neural network on the MNIST Dataset with pytorch
This is the start of the journey to learn pytorch. I already know tensorflow, its just transpile (:d) my knowledge

## Importing

In [1]:
import torch, random, numpy as np
import torch.nn as nn 
import torch.nn.functional as F 
import torch.optim as optim 
from torchvision import datasets, transforms

In [2]:
SEED = 42
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.cuda.manual_seed_all(SEED)  # si usas multi-GPU
np.random.seed(SEED)
random.seed(SEED)

torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

## Dataset splits and preprocessing 

We make a simple preprocessing because the MNIST dataset don't require huge processing.

In [3]:
transform = transforms.Compose([
    transforms.ToTensor(),       
    transforms.Normalize((0.5,), (0.5,)) #this is like the scaler of tensorflow
])


train_loader = torch.utils.data.DataLoader(
    datasets.MNIST("./data", train=True, download=True, transform=transform), #we use
    batch_size=64,
    shuffle=True
)

test_loader = torch.utils.data.DataLoader(
    datasets.MNIST("./data", train=False, download=True, transform=transform),
    batch_size=1000,
    shuffle=False
)

## Neural Network arquitecture

In [28]:
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(1,16,3,1)
        self.conv2 = nn.Conv2d(16,32,3,1)
        self.full1 = nn.Linear(12*12*32,128)
        self.full2 = nn.Linear(128,10)
        
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x,2)
        x = torch.flatten(x,1)
        x = F.relu(self.full1(x))
        x = self.full2(x)

        return x

In [12]:
model = SimpleCNN()

In [14]:
optimizer = optim.Adam(model.parameters(), lr=0.001)
metric = nn.CrossEntropyLoss()

## Training Function

In [6]:
def train(model, train_loader, device, metric, epochs, optimizer):
    model.train()
    for batch_idx, (data, targets) in enumerate(train_loader):

        data, targets = data.to(device), targets.to(device)

        optimizer.zero_grad()

        output = model(data)

        loss = metric(output, targets)

        loss.backward()

        optimizer.step()

        if batch_idx % 100 == 0:
            print(f"Época {epoch} | Lote {batch_idx} | Pérdida: {loss.item():.4f}")

## Evaluating function

In [7]:
def evaluate(model, device, test_loader, metric):
    model.eval()
    test_loss = 0
    correct = 0

    with torch.no_grad():
        for batch_idx, (data, targets) in enumerate(test_loader):
            data, targets = data.to(device), targets.to(device)

            output = model(data)

            test_loss += metric(output, targets).item()

            pred = output.argmax(dim=1, keepdim=True)

            correct += pred.eq(targets.view_as(pred)).sum().item()

        test_loss /= len(test_loader.dataset)
        accuracy = 100 * correct / len(test_loader.dataset)

    print(f"\nPérdida promedio en test: {test_loss:.4f}, Precisión: {accuracy:.2f}%\n")
    return test_loss, accuracy
    

## Training and evaluation

In [9]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

for epoch in range(1, 6):  # entrenamos 5 épocas
    train(model, train_loader, device, metric, epoch, optimizer)
    evaluate(model, device, test_loader, metric)


Época 1 | Lote 0 | Pérdida: 2.2965
Época 1 | Lote 100 | Pérdida: 0.2903
Época 1 | Lote 200 | Pérdida: 0.1690
Época 1 | Lote 300 | Pérdida: 0.0579
Época 1 | Lote 400 | Pérdida: 0.0512
Época 1 | Lote 500 | Pérdida: 0.1974
Época 1 | Lote 600 | Pérdida: 0.0400
Época 1 | Lote 700 | Pérdida: 0.0152
Época 1 | Lote 800 | Pérdida: 0.1052
Época 1 | Lote 900 | Pérdida: 0.1103

Pérdida promedio en test: 0.0001, Precisión: 98.09%

Época 2 | Lote 0 | Pérdida: 0.1785
Época 2 | Lote 100 | Pérdida: 0.0392
Época 2 | Lote 200 | Pérdida: 0.0049
Época 2 | Lote 300 | Pérdida: 0.0515
Época 2 | Lote 400 | Pérdida: 0.0363
Época 2 | Lote 500 | Pérdida: 0.0446
Época 2 | Lote 600 | Pérdida: 0.1856
Época 2 | Lote 700 | Pérdida: 0.1785
Época 2 | Lote 800 | Pérdida: 0.0106
Época 2 | Lote 900 | Pérdida: 0.0549

Pérdida promedio en test: 0.0000, Precisión: 98.47%

Época 3 | Lote 0 | Pérdida: 0.0124
Época 3 | Lote 100 | Pérdida: 0.0560
Época 3 | Lote 200 | Pérdida: 0.0027
Época 3 | Lote 300 | Pérdida: 0.0193
Época 3 | 

In [10]:
# Guardar pesos
torch.save(model.state_dict(), "modelo_mnist.pth")

# Cargar pesos después
model = SimpleCNN()              # recreas el modelo
model.load_state_dict(torch.load("modelo_mnist.pth"))
model.eval()                     # modo evaluación


SimpleCNN(
  (conv1): Conv2d(1, 16, kernel_size=(3, 3), stride=(1, 1))
  (conv2): Conv2d(16, 32, kernel_size=(3, 3), stride=(1, 1))
  (full1): Linear(in_features=4608, out_features=128, bias=True)
  (full2): Linear(in_features=128, out_features=10, bias=True)
)

## Using the CIFAR-10 dataset

## Pre processing

In [3]:
transform = transforms.Compose([
    transforms.ToTensor(),       
    transforms.Normalize((0.5,0.5,0.5), (0.5,)) #this is like the scaler of tensorflow
])


train_loader = torch.utils.data.DataLoader(
    datasets.CIFAR10("./data", train=True, download=True, transform=transform), #we use
    batch_size=64,
    shuffle=True
)

test_loader = torch.utils.data.DataLoader(
    datasets.CIFAR10("./data", train=False, download=True, transform=transform),
    batch_size=1000,
    shuffle=False
)

## Architecture

Lets try with the same architecture. (i'd think it would cause underfitting)

In [4]:
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(3,16,3,1) #only change the chanels
        self.conv2 = nn.Conv2d(16,32,3,1)
        self.full1 = nn.Linear(14*14*32,128)
        self.full2 = nn.Linear(128,10)
        
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x,2)
        x = torch.flatten(x,1)
        x = F.relu(self.full1(x))
        x = self.full2(x)

        return x

In [5]:
model = SimpleCNN() 

In [49]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

for epoch in range(1, 6):  # entrenamos 5 épocas
    train(model, train_loader, device, metric, epoch, optimizer)
    evaluate(model, device, test_loader, metric)


Época 1 | Lote 0 | Pérdida: 2.3027
Época 1 | Lote 100 | Pérdida: 2.2850
Época 1 | Lote 200 | Pérdida: 2.2963
Época 1 | Lote 300 | Pérdida: 2.3140
Época 1 | Lote 400 | Pérdida: 2.3053
Época 1 | Lote 500 | Pérdida: 2.3117
Época 1 | Lote 600 | Pérdida: 2.3093
Época 1 | Lote 700 | Pérdida: 2.3017

Pérdida promedio en test: 0.0023, Precisión: 9.95%

Época 2 | Lote 0 | Pérdida: 2.2908
Época 2 | Lote 100 | Pérdida: 2.2999
Época 2 | Lote 200 | Pérdida: 2.3027
Época 2 | Lote 300 | Pérdida: 2.3034
Época 2 | Lote 400 | Pérdida: 2.3063
Época 2 | Lote 500 | Pérdida: 2.3031
Época 2 | Lote 600 | Pérdida: 2.3031
Época 2 | Lote 700 | Pérdida: 2.3058

Pérdida promedio en test: 0.0023, Precisión: 9.95%

Época 3 | Lote 0 | Pérdida: 2.3128
Época 3 | Lote 100 | Pérdida: 2.3115
Época 3 | Lote 200 | Pérdida: 2.3054
Época 3 | Lote 300 | Pérdida: 2.3079
Época 3 | Lote 400 | Pérdida: 2.3068
Época 3 | Lote 500 | Pérdida: 2.2965
Época 3 | Lote 600 | Pérdida: 2.3062
Época 3 | Lote 700 | Pérdida: 2.3090

Pérdida pro

KeyboardInterrupt: 

Definitely underfitting.

In [10]:
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(3,32,3,1) #only change the chanels
        self.conv2 = nn.Conv2d(32,64,1)
        self.conv3 = nn.Conv2d(64,128,1)
        self.full1 = nn.Linear(14*14*128,256)
        self.full2 = nn.Linear(256,10)
        
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x,2)
        x = F.relu(self.conv3(x))
        x = F.max_pool2d(x,2)
        x = torch.flatten(x,1)
        x = F.relu(self.full1(x))
        x = self.full2(x)

        return x

In [9]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

for epoch in range(1, 6):  # entrenamos 5 épocas
    train(model, train_loader, device, metric, epoch, optimizer)
    evaluate(model, device, test_loader, metric)


Época 1 | Lote 0 | Pérdida: 2.3023
Época 1 | Lote 100 | Pérdida: 1.7098
Época 1 | Lote 200 | Pérdida: 1.5849
Época 1 | Lote 300 | Pérdida: 1.5186
Época 1 | Lote 400 | Pérdida: 1.1585
Época 1 | Lote 500 | Pérdida: 1.2978
Época 1 | Lote 600 | Pérdida: 0.8950
Época 1 | Lote 700 | Pérdida: 1.1868

Pérdida promedio en test: 0.0011, Precisión: 59.99%

Época 2 | Lote 0 | Pérdida: 1.1988
Época 2 | Lote 100 | Pérdida: 0.9167
Época 2 | Lote 200 | Pérdida: 1.0174
Época 2 | Lote 300 | Pérdida: 0.6777
Época 2 | Lote 400 | Pérdida: 1.1762
Época 2 | Lote 500 | Pérdida: 1.1342
Época 2 | Lote 600 | Pérdida: 1.1499
Época 2 | Lote 700 | Pérdida: 0.9798

Pérdida promedio en test: 0.0010, Precisión: 65.74%

Época 3 | Lote 0 | Pérdida: 0.7342
Época 3 | Lote 100 | Pérdida: 0.9794
Época 3 | Lote 200 | Pérdida: 0.8515
Época 3 | Lote 300 | Pérdida: 0.8779
Época 3 | Lote 400 | Pérdida: 1.0512
Época 3 | Lote 500 | Pérdida: 0.8302
Época 3 | Lote 600 | Pérdida: 0.8377
Época 3 | Lote 700 | Pérdida: 0.6798

Pérdida p

Lets change the kernel size. 

In [8]:
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(3,32,3,1) #only change the chanels
        self.conv2 = nn.Conv2d(32,64,3,1)
        self.conv3 = nn.Conv2d(64,128,3,1)
        self.full1 = nn.Linear(6*6*128,256)
        self.full2 = nn.Linear(256,10)
        
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x,2)
        x = F.relu(self.conv3(x))
        x = F.max_pool2d(x,2)
        x = torch.flatten(x,1)
        x = F.relu(self.full1(x))
        x = self.full2(x)

        return x

In [9]:
model = SimpleCNN() 

In [24]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

for epoch in range(1, 6):  # entrenamos 5 épocas
    train(model, train_loader, device, metric, epoch, optimizer)
    evaluate(model, device, test_loader, metric)


Época 1 | Lote 0 | Pérdida: 2.3085
Época 1 | Lote 100 | Pérdida: 2.2941
Época 1 | Lote 200 | Pérdida: 2.3035
Época 1 | Lote 300 | Pérdida: 2.3069
Época 1 | Lote 400 | Pérdida: 2.3073
Época 1 | Lote 500 | Pérdida: 2.2956
Época 1 | Lote 600 | Pérdida: 2.3016
Época 1 | Lote 700 | Pérdida: 2.2961

Pérdida promedio en test: 0.0023, Precisión: 9.92%

Época 2 | Lote 0 | Pérdida: 2.3012
Época 2 | Lote 100 | Pérdida: 2.3020
Época 2 | Lote 200 | Pérdida: 2.3045
Época 2 | Lote 300 | Pérdida: 2.3067
Época 2 | Lote 400 | Pérdida: 2.3070
Época 2 | Lote 500 | Pérdida: 2.3130
Época 2 | Lote 600 | Pérdida: 2.3070
Época 2 | Lote 700 | Pérdida: 2.3022

Pérdida promedio en test: 0.0023, Precisión: 9.92%

Época 3 | Lote 0 | Pérdida: 2.3054


KeyboardInterrupt: 

I think i should use batchnorm because the network is heavier and the activations would explode.

In [10]:
class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(3,32,3,1)
        self.conv2 = nn.Conv2d(32,64,3,1)
        self.conv3 = nn.Conv2d(64,128,3,1)
        self.bn1 = nn.BatchNorm2d(32)  
        self.bn2 = nn.BatchNorm2d(64)
        self.bn3 = nn.BatchNorm2d(128)
        
        self.fc1 = nn.Linear(128*6*6,256)
        self.dropout = nn.Dropout(0.5) 
        self.fc2 = nn.Linear(256,10)
        
    def forward(self, x):
        x = F.relu(self.bn1(self.conv1(x)))
        x = F.relu(self.bn2(self.conv2(x)))
        x = F.max_pool2d(x,2)
        x = F.relu(self.bn3(self.conv3(x)))
        x = F.max_pool2d(x,2)
        x = torch.flatten(x,1)
        x = F.relu(self.fc1(x))
        x = self.dropout(x)  
        x = self.fc2(x)
        return x

In [12]:
model = SimpleCNN()

In [16]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

for epoch in range(1, 6):  # entrenamos 5 épocas
    train(model, train_loader, device, metric, epoch, optimizer)
    evaluate(model, device, test_loader, metric)


Época 1 | Lote 0 | Pérdida: 0.8118
Época 1 | Lote 100 | Pérdida: 0.7369
Época 1 | Lote 200 | Pérdida: 0.6888
Época 1 | Lote 300 | Pérdida: 0.7158
Época 1 | Lote 400 | Pérdida: 0.6138
Época 1 | Lote 500 | Pérdida: 0.7415
Época 1 | Lote 600 | Pérdida: 1.1334
Época 1 | Lote 700 | Pérdida: 0.6786

Pérdida promedio en test: 0.0007, Precisión: 75.38%

Época 2 | Lote 0 | Pérdida: 0.8483
Época 2 | Lote 100 | Pérdida: 0.7162
Época 2 | Lote 200 | Pérdida: 0.6166
Época 2 | Lote 300 | Pérdida: 0.9041
Época 2 | Lote 400 | Pérdida: 0.8154
Época 2 | Lote 500 | Pérdida: 0.8425
Época 2 | Lote 600 | Pérdida: 0.6791
Época 2 | Lote 700 | Pérdida: 0.6608

Pérdida promedio en test: 0.0007, Precisión: 76.34%

Época 3 | Lote 0 | Pérdida: 0.6291
Época 3 | Lote 100 | Pérdida: 0.6285
Época 3 | Lote 200 | Pérdida: 0.7109
Época 3 | Lote 300 | Pérdida: 0.7430
Época 3 | Lote 400 | Pérdida: 0.7352
Época 3 | Lote 500 | Pérdida: 0.6994
Época 3 | Lote 600 | Pérdida: 0.9023
Época 3 | Lote 700 | Pérdida: 0.8926

Pérdida p

I implemented a colab version using GPU (my PC dont have one) right here achieving of accuracy with a stronger architecture and using early stopping + more epochs.

https://colab.research.google.com/drive/1zCVQ7lWG148b5nF9N_iCgf7eMjN32TLb?usp=sharing