# Learning pytorch by training using MNIST 

Third script we train feed forward networks and fully connected operator. We start using some good stuff provided by pytorch. 

Things observed in this code: 

* -This code starts using the nn.Module class provided by pytorch.

* -We will also use the optimizer. However we can always access the parameter list and perform the gradient update as we want. Keras users cannot do this as they do not know how backpropagation works and need an optimizer. Good researchers can invent new update methods and in this case, either they implement their own optimizer or they perform the optimization looping over parameters. Be a researcher and not a keras user.

In [2]:
import torch #main module
if not torch.cuda.is_available():
    print("unable to run on GPU")
else:
    print("running on CPU") # Adjusted for CPU
import torchvision #computer vision dataset module
from torchvision import datasets, transforms
from torch import nn #Keras users will now be really happy

import numpy

unable to run on GPU


  warn(


In [4]:
'''
Specific parameters of network
'''
epochs=10
batch=100
data_len=60000

In [6]:
''' Pytorch Data Loader'''
mnist_transforms=transforms.Compose([transforms.ToTensor()])
mnist_train=datasets.MNIST('/tmp/', train=True, download=True, transform=mnist_transforms)
mnist_test=datasets.MNIST('/tmp/', train=False, download=False, transform=mnist_transforms)

In [8]:
# this is the dataloader
train_loader = torch.utils.data.DataLoader(mnist_train, batch_size=100, shuffle=True)
test_loader = torch.utils.data.DataLoader(mnist_test, batch_size=100, shuffle=False)

batch=100
input_d=784

In [10]:
############### USE THE NN MODULE ###################
# The nn.Module is a class provided by  pytorch that have fantastic properties. Just refer to the documentation, here I only expose some of them.
# We have to override two methods, the __init__ and the forward. The __init__ is used to define the parameters and the forward to perform the
# forward operation of the network. 

class Network(nn.Module):
    def __init__(self):
        super(Network, self).__init__()
        self.ReLU = nn.ReLU()
        self.SoftMax = nn.Softmax(dim=1)
        self.CE = nn.CrossEntropyLoss() # this performs softmax plus cross-entropy loss
        self.F1 = nn.Linear(784, 512) # This will create a Linear operator, i.e it creates a matrix weight and a vector bias. 
        # These new torch.Tensors with required_grad=True are automatically incorporated as part of the parameter list. The parameter self.F1 is overrided if you now do: self.F1=nn.Linear(512,512). 
        # Creating dynamic networks (for instance a class Network that implement a fully connected with a variable depth or different topology) can be done using utilities from the nn.Module such as register list or register module, check them. 
        # One key point, nn.Linear is a nn.Module also, with its __init__ and forward overrided. This means you can create your own operator and then incorporate it in other modules (this is what people do to create Residual Networks, for instance).

        # On the other hand, we can create our own operations by defining the parameters. For instance we want to create a second layer of 512 hidden units. We can do it this way:
        # First create the parameters needed as nn.Parameters
        self.w = nn.Parameter(torch.from_numpy(numpy.random.randn(512, 512) / numpy.sqrt(512)).float())
        self.b = nn.Parameter(torch.zeros(512,).float())
        # Parameter is  a torch.Tensor that requires_grad. The ONLY difference is that the nn.Module automatically add it to the parameter list. Again the name of the variables
        # must be different if you want to register several of them.
        # The __init__ method from nn.Linear defines these variables, but with uniform sampling initialization.

        # All we have seen can be mixed. Either we use a built-in layer like nn.Linear (which creates a weight and a bias). Or we can create ours, like with self.w and self.b. Now we use a built-in, because we want. The problem is that we might want to change the default initialization. Well, just access the parameters.
        self.FO = nn.Linear(512, 10)
        # If you want to access the parameters of the Linear Module you can easily do it in this way.
        # Change initialization from F1 and FO. It uses uniform distribution by default, however we want to use Gaussian.
        self.F1.weight.data = torch.from_numpy(numpy.random.randn(512, 784) / numpy.sqrt(512)).float() 
        self.FO.weight.data = torch.from_numpy(numpy.random.randn(10, 512) / numpy.sqrt(10)).float()
        # Flip dimension. This has to do with blas and cublas library that pytorch uses as backend.

    def forward(self, x):   
        # we can override x no problem. Pytorch can see they are different variables
        x = self.ReLU(self.F1(x))
        x = self.ReLU(torch.mm(x, self.w) + self.b) # this is what nn.Linear do inside. The forward() method from nn.Linear does these operations
        x = self.FO(x)
        return x

    def inference(self, x):# I usually create this method to return softmax directly or to control other stuff I will show in other tutorial
        x = self.ReLU(self.F1(x))
        x = self.ReLU(torch.mm(x, self.w) + self.b)
        x = self.SoftMax(self.FO(x))
        return x

    def Loss(self, t, t_pred):# we can create the methods we want
        return self.CE(t_pred, t)

Este código define una clase Network que hereda de nn.Module, una clase fundamental en PyTorch para construir redes neuronales. La clase Network sobrescribe dos métodos esenciales: __init__ y forward. En __init__, se inicializan las capas de la red, las funciones de activación y la función de pérdida. Se definen dos capas lineales (nn.Linear), una con 784 entradas y 512 salidas (self.F1), y otra con 512 entradas y 10 salidas (self.FO). Además, se crean parámetros personalizados (self.w y self.b) para una segunda capa de 512 unidades ocultas, inicializados manualmente usando distribuciones Gaussianas.

El método forward realiza la propagación hacia adelante de la red, aplicando la función de activación ReLU entre las capas. Por otro lado, inference es un método adicional para realizar inferencias, aplicando la función softmax para obtener probabilidades, lo cual es útil para evaluar el rendimiento en el conjunto de prueba. Finalmente, el método Loss calcula la pérdida de entropía cruzada entre las predicciones y las etiquetas reales. En conjunto, este código muestra cómo estructurar una red neuronal usando PyTorch de manera modular, lo que facilita la extensión y el mantenimiento del modelo.

In [12]:
# create instance
myNet = Network()
# myNet.cuda() # move all the registered nn.Parameters and torch.tensor to the gpus,i.e, it moves to gpu everything that involves computation.
for e in range(epochs):
    MC, ce = [0.0]*2
    # now create an optimizer. Calling myNet.parameters() returns a list with all the registered parameters. This is the list of parameters that I referred to when I was creating the nn.Module. Each nn.Parameter is added to this list, and you can access it directly in order to optimize wrt the parameters.
    optimizer = torch.optim.SGD(myNet.parameters(), lr=0.1, momentum=0.9)
    for x, t in train_loader: # sample one batch
        # x, t = x.cuda(), t.cuda()
        x = x.view(-1, 784)
        o = myNet.forward(x) # forward. o has to be the pre-softmax because the cross entropy loss applies it.
        o = myNet.Loss(t, o) # compute loss
        o.backward() # this computes the gradient which respect to leaves. And this is the reason for required gradients True
        optimizer.step()# step in gradient direction
        optimizer.zero_grad()
        ce += o.item()
 
    with torch.no_grad():
        for x, t in test_loader:
            # x, t = x.cuda(), t.cuda()
            x = x.view(-1, 784)
            test_pred = myNet.inference(x)
            index = torch.argmax(test_pred, 1)# compute maximum
            MC += ((index != t).sum().float()) # accumulate MC error

    print("Cross entropy {:.3f} and Test error {:.3f}".format(ce/600., 100*MC/10000.))

Cross entropy 0.246 and Test error 3.150
Cross entropy 0.093 and Test error 3.180
Cross entropy 0.064 and Test error 2.380
Cross entropy 0.048 and Test error 2.930
Cross entropy 0.033 and Test error 2.720
Cross entropy 0.028 and Test error 2.460
Cross entropy 0.025 and Test error 2.140
Cross entropy 0.021 and Test error 2.260
Cross entropy 0.012 and Test error 1.870
Cross entropy 0.007 and Test error 1.720


Durante el entrenamiento del modelo, la pérdida de entropía cruzada disminuyó consistentemente con cada época, comenzando en 0.246 y reduciéndose a 0.007 en la última observación. La entropía cruzada es una medida de la diferencia entre las predicciones del modelo y las etiquetas reales; por lo tanto, una disminución constante sugiere que el modelo está mejorando su precisión y ajustándose bien a los datos de entrenamiento.

Sin embargo, el error en el conjunto de prueba muestra algunas fluctuaciones. Inicialmente, el error era 3.150%, pero varió durante las épocas, alcanzando un mínimo de 1.720%. Estas fluctuaciones pueden indicar variabilidad en la capacidad del modelo para generalizar a datos no vistos, lo cual es normal en el proceso de entrenamiento de redes neuronales. Lo importante es que, en general, el error de prueba tiende a disminuir, lo que sugiere que el modelo está aprendiendo a manejar datos nuevos de manera más efectiva.

En conjunto, estos resultados son prometedores. La disminución en la pérdida de entropía cruzada indica un aprendizaje efectivo y una mejora en la precisión del modelo, mientras que la tendencia decreciente en el error de prueba sugiere una buena capacidad de generalización. Es importante continuar monitoreando estas métricas durante el resto del entrenamiento para asegurar que el modelo no caiga en problemas de sobreajuste y mantenga su capacidad de generalización.

* ### **Explicación del código:**

* Se importan las librerías necesarias: torch para operaciones tensoriales, torchvision para manipulación de datos de visión por computadora, y numpy para operaciones matemáticas adicionales.
* Se definen los parámetros básicos del modelo, como el número de épocas, el tamaño del lote y la longitud de los datos.
* Pytorch Data Loader y this is the dataloader: Aquí se cargan los datos MNIST y se aplican las transformaciones necesarias (convertir imágenes a tensores). Los datos se dividen en lotes utilizando DataLoader.
* Funciones def: Se define la arquitectura del modelo utilizando nn.Module. Se definen las capas de la red y las funciones de activación, pérdida y un método para la inferencia.
* El modelo se entrena durante las épocas definidas. En cada época, se realiza la propagación hacia adelante, se calcula la pérdida, se realiza la retropropagación para actualizar los parámetros y se evalúa el rendimiento en el conjunto de prueba.

**Principales Diferencias con el Código Anterior
Uso de nn.Module:**

* Anterior: No utiliza nn.Module para definir la red.

* Actual: Utiliza nn.Module para definir una clase de red estructurada.

**Inicialización de Parámetros:**

* Anterior: Inicializa parámetros de pesos y sesgos manualmente usando torch.from_numpy.

* Actual: Utiliza nn.Linear para inicializar capas y parámetros, facilitando el manejo y organización del modelo.

**Método de Inferencia:**

* Anterior: No define explícitamente un método de inferencia.

* Actual: Define el método inference para realizar predicciones con softmax, útil para la evaluación en el conjunto de prueba.

**Modularidad y Organización:**

* Anterior: Todo el código está en el script principal.

* Actual: El código está más modularizado, con la red definida dentro de una clase, mejorando la claridad y mantenimiento.

Este código utiliza buenas prácticas de PyTorch, como el uso de nn.Module y optimizadores integrados, lo que facilita la extensión y modificación del modelo.

Para una competencia piloto, te recomendaría usar el código que emplea nn.Module. Esto es porque es más modular, escalable y eficiente, además de facilitar la integración de nuevas técnicas y optimizaciones.

**Pasos para una competencia exitosa:**

**Preparación del Modelo:**

Utiliza nn.Module para definir una red bien estructurada.

Asegúrate de tener optimizadores eficientes y funciones de pérdida bien definidas.

**Carga de Datos y Preprocesamiento:**

Prepara los datos adecuadamente, aplicando las transformaciones necesarias para mejorar la calidad y el rendimiento del modelo.

Usa DataLoader para gestionar eficientemente los lotes de datos.

**Entrenamiento del Modelo:**

Ejecuta múltiples épocas de entrenamiento, ajustando los hiperparámetros como la tasa de aprendizaje y el tamaño del lote.

Monitorea continuamente la pérdida de entrenamiento y el error en el conjunto de prueba para evitar el sobreajuste.

**Evaluación y Validación:**

Utiliza técnicas de validación cruzada para evaluar el rendimiento del modelo en distintos subconjuntos de datos.

Realiza ajustes finos basados en los resultados obtenidos durante la validación.

**Optimización y Mejora:**

Implementa técnicas de regularización y optimización, como el decaimiento del peso y el aumento de los datos.

Experimenta con diferentes arquitecturas de redes para encontrar la más eficaz para tu tarea específica.

Siguiendo estos pasos con una red bien estructurada usando nn.Module, tendrás una sólida base para competir y mejorar las probabilidades de ganar