<a href="https://colab.research.google.com/github/SantiagoGomezfpv/hyperparameter/blob/main/pytorchModel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelo Fully Connected

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# Cargar y preparar datos MNIST
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transforms.ToTensor())
test_dataset = datasets.MNIST(root='./data', train=False, transform=transforms.ToTensor())

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False)

# Definir la red neuronal fully connected
class FullyConnectedNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.view(-1, 784)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        return x

# Crear modelo y optimizador
model = FullyConnectedNet()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())

# Entrenar el modelo
for epoch in range(10):
    running_loss = 0.0
    for i, data in enumerate(train_loader, 0):
        inputs, labels = data
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if i % 200 == 199:
            print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 200))
            running_loss = 0.0

# Evaluar el modelo
with torch.no_grad():
    correct = 0
    total = 0
    for data in test_loader:
        images, labels = data
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

    print('Precisión del modelo en el conjunto de test: %d %%' % (100 * correct / total))


Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz to ./data/MNIST/raw/train-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz to ./data/MNIST/raw/train-images-idx3-ubyte.gz


100%|██████████| 9912422/9912422 [00:00<00:00, 33858455.14it/s]


Extracting ./data/MNIST/raw/train-images-idx3-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz to ./data/MNIST/raw/train-labels-idx1-ubyte.gz


100%|██████████| 28881/28881 [00:00<00:00, 917722.46it/s]

Extracting ./data/MNIST/raw/train-labels-idx1-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz





Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz to ./data/MNIST/raw/t10k-images-idx3-ubyte.gz


100%|██████████| 1648877/1648877 [00:49<00:00, 33398.40it/s]


Extracting ./data/MNIST/raw/t10k-images-idx3-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz to ./data/MNIST/raw/t10k-labels-idx1-ubyte.gz


100%|██████████| 4542/4542 [00:00<00:00, 3823104.31it/s]


Extracting ./data/MNIST/raw/t10k-labels-idx1-ubyte.gz to ./data/MNIST/raw

[1,   200] loss: 0.663
[1,   400] loss: 0.318
[1,   600] loss: 0.269
[1,   800] loss: 0.242
[2,   200] loss: 0.181
[2,   400] loss: 0.166
[2,   600] loss: 0.149
[2,   800] loss: 0.155
[3,   200] loss: 0.111
[3,   400] loss: 0.121
[3,   600] loss: 0.105
[3,   800] loss: 0.107
[4,   200] loss: 0.080
[4,   400] loss: 0.083
[4,   600] loss: 0.086
[4,   800] loss: 0.086
[5,   200] loss: 0.063
[5,   400] loss: 0.066
[5,   600] loss: 0.068
[5,   800] loss: 0.062
[6,   200] loss: 0.052
[6,   400] loss: 0.053
[6,   600] loss: 0.050
[6,   800] loss: 0.054
[7,   200] loss: 0.042
[7,   400] loss: 0.044
[7,   600] loss: 0.041
[7,   800] loss: 0.042
[8,   200] loss: 0.035
[8,   400] loss: 0.031
[8,   600] loss: 0.033
[8,   800] loss: 0.036
[9,   200] loss: 0.028
[9,   400] loss: 0.026
[9,   600] loss: 0.029
[9,   800] loss: 0.035
[10,   200] loss: 0.025
[10,   400] loss: 0.023
[10,   600] loss: 0.023
[10,   800] loss: 0.025
P

# Modelo CNN



In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

# Definir la arquitectura de la CNN
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.fc1 = nn.Linear(64*5*5, 128)  # Corregido el tamaño de entrada
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = torch.relu(x)
        x = torch.max_pool2d(x, 2)
        x = self.conv2(x)
        x = torch.relu(x)
        x = torch.max_pool2d(x, 2)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = torch.relu(x)
        x = self.fc2(x)
        return x

# Cargar los datos de MNIST
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])


trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
trainset, valset = torch.utils.data.random_split(trainset, [54000, 6000])
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)
valloader = torch.utils.data.DataLoader(valset, batch_size=64, shuffle=True)

testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False)

# Instanciar el modelo y definir la función de pérdida y el optimizador
model = CNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Entrenamiento del modelo
num_epochs = 5
for epoch in range(num_epochs):
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if i % 100 == 99:
            print('[%d, %5d] loss: %.3f' %
                  (epoch + 1, i + 1, running_loss / 100))
            running_loss = 0.0

print('Finished Training')

# Evaluación del modelo
correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print('Accuracy on the 10000 test images: %d %%' % (
    100 * correct / total))


[1,   100] loss: 0.693
[1,   200] loss: 0.179
[1,   300] loss: 0.120
[1,   400] loss: 0.108
[1,   500] loss: 0.094
[1,   600] loss: 0.087
[1,   700] loss: 0.071
[1,   800] loss: 0.061
[1,   900] loss: 0.062
[2,   100] loss: 0.062
[2,   200] loss: 0.047
[2,   300] loss: 0.045
[2,   400] loss: 0.057
[2,   500] loss: 0.044
[2,   600] loss: 0.049
[2,   700] loss: 0.040
[2,   800] loss: 0.040
[2,   900] loss: 0.041
[3,   100] loss: 0.032
[3,   200] loss: 0.030
[3,   300] loss: 0.028
[3,   400] loss: 0.035
[3,   500] loss: 0.030
[3,   600] loss: 0.027
[3,   700] loss: 0.029
[3,   800] loss: 0.035
[3,   900] loss: 0.031
[4,   100] loss: 0.024
[4,   200] loss: 0.021
[4,   300] loss: 0.018
[4,   400] loss: 0.024
[4,   500] loss: 0.021
[4,   600] loss: 0.027
[4,   700] loss: 0.021
[4,   800] loss: 0.033
[4,   900] loss: 0.026
[5,   100] loss: 0.017
[5,   200] loss: 0.018
[5,   300] loss: 0.015
[5,   400] loss: 0.019
[5,   500] loss: 0.025
[5,   600] loss: 0.023
[5,   700] loss: 0.012
[5,   800] 

# Optuna

In [1]:
!pip install optuna

Collecting optuna
  Downloading optuna-3.6.1-py3-none-any.whl (380 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m380.1/380.1 kB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting alembic>=1.5.0 (from optuna)
  Downloading alembic-1.13.1-py3-none-any.whl (233 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m233.4/233.4 kB[0m [31m16.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting colorlog (from optuna)
  Downloading colorlog-6.8.2-py3-none-any.whl (11 kB)
Collecting Mako (from alembic>=1.5.0->optuna)
  Downloading Mako-1.3.5-py3-none-any.whl (78 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m78.6/78.6 kB[0m [31m6.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: Mako, colorlog, alembic, optuna
Successfully installed Mako-1.3.5 alembic-1.13.1 colorlog-6.8.2 optuna-3.6.1


In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import optuna

# Definir el dispositivo como CUDA si está disponible, de lo contrario usar CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Definición de la CNN
class Net(nn.Module):
    def __init__(self, trial):
        super(Net, self).__init__()
        self.trial = trial  # Almacena el objeto trial como un atributo de la clase
        # Optimizamos el número de capas convolucionales
        n_layers = trial.suggest_int('n_layers', 1, 3)

        self.convs = nn.ModuleList()
        self.pool = nn.MaxPool2d(2, 2)  # Definimos la capa de max pooling aquí
        in_channels = 1
        for i in range(n_layers):
            out_channels = trial.suggest_int('n_filters_l{}'.format(i), 16, 128)
            self.convs.append(nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=1, padding=1))
            in_channels = out_channels

        # No definimos las capas completamente conectadas aquí porque necesitamos el tamaño de salida dinámico

    def forward(self, x):
        for conv in self.convs:
            x = F.relu(conv(x))
            x = self.pool(x)
        x = x.view(x.size(0), -1)
        output_size = x.size(1)

        # Creamos las capas completamente conectadas dinámicamente
        if not hasattr(self, 'fc'):
            self._create_fc_layers(output_size)

        x = x.to(device)
        for i, fc in enumerate(self.fc[:-1]):
            x = F.relu(fc(x))
            p = self.trial.suggest_float('dropout_l{}'.format(i), 0.2, 0.5)
            x = F.dropout(x, p=p, training=self.training)
        x = self.fc-1  # Corregir la llamada a la última capa lineal
        return x

    def _create_fc_layers(self, output_size):
      # Creamos las capas completamente conectadas aquí
      n_fc_layers = self.trial.suggest_int('n_fc_layers', 1, 3)
      in_features = output_size
      self.fc = nn.ModuleList()
      for i in range(n_fc_layers):
          out_features = self.trial.suggest_int('n_neurons_l{}'.format(i), 32, 1024)
          self.fc.append(nn.Linear(in_features, out_features))
          in_features = out_features
      self.fc.append(nn.Linear(in_features, 10))  # 10 clases en MNIST
      self.fc = self.fc.to(device)  # Mover la lista de módulos 'fc' al dispositivo correcto

# Función objetivo para Optuna
def objective(trial):
    # Cargar datos de MNIST
    transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
    trainset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
    trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)

    # Construir la red neuronal
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model = Net(trial).to(device)

    # Optimizamos el tipo de optimizador y la tasa de aprendizaje
    optimizer_name = trial.suggest_categorical('optimizer', ['Adam', 'RMSprop', 'SGD'])
    lr = trial.suggest_float('lr', 1e-5, 1e-1, log=True)
    optimizer = getattr(optim, optimizer_name)(model.parameters(), lr=lr)

    # Entrenamiento de la red
    for epoch in range(2):  # limitamos a 2 épocas para el ejemplo
        model.train()
        for data, target in trainloader:
            data, target = data.to(device), target.to(device)
            optimizer.zero_grad()
            output = model(data)
            loss = F.cross_entropy(output, target)
            loss.backward()
            optimizer.step()

    # Validación de la red
    correct = 0
    total = 0
    with torch.no_grad():
        for data, target in trainloader:
            data, target = data.to(device), target.to(device)
            outputs = model(data)
            _, predicted = torch.max(outputs.data, 1)
            total += target.size(0)
            correct += (predicted == target).sum().item()

    accuracy = correct / total
    return accuracy

# Crear un estudio de Optuna y encontrar los mejores hiperparámetros
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)  # Ejecutar 100 pruebas para encontrar los mejores hiperparámetros

# Imprimir los mejores hiperparámetros encontrados
print("Mejores hiperparámetros:", study.best_params)


[I 2024-05-14 20:06:20,120] A new study created in memory with name: no-name-e3067aa5-8a17-450a-947e-ee0977b54a5a


Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz to ./data/MNIST/raw/train-images-idx3-ubyte.gz


100%|██████████| 9912422/9912422 [00:00<00:00, 167579127.61it/s]


Extracting ./data/MNIST/raw/train-images-idx3-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz to ./data/MNIST/raw/train-labels-idx1-ubyte.gz


100%|██████████| 28881/28881 [00:00<00:00, 15685056.82it/s]

Extracting ./data/MNIST/raw/train-labels-idx1-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz





Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz to ./data/MNIST/raw/t10k-images-idx3-ubyte.gz


100%|██████████| 1648877/1648877 [00:00<00:00, 81949608.93it/s]


Extracting ./data/MNIST/raw/t10k-images-idx3-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz to ./data/MNIST/raw/t10k-labels-idx1-ubyte.gz


100%|██████████| 4542/4542 [00:00<00:00, 8639695.59it/s]

Extracting ./data/MNIST/raw/t10k-labels-idx1-ubyte.gz to ./data/MNIST/raw




[W 2024-05-14 20:06:22,276] Trial 0 failed with parameters: {'n_layers': 2, 'n_filters_l0': 114, 'n_filters_l1': 119, 'optimizer': 'SGD', 'lr': 0.05648034534415181, 'n_fc_layers': 3, 'n_neurons_l0': 783, 'n_neurons_l1': 379, 'n_neurons_l2': 443, 'dropout_l0': 0.45941427231179705, 'dropout_l1': 0.22808816411714922, 'dropout_l2': 0.26316712208006143} because of the following error: TypeError("unsupported operand type(s) for -: 'ModuleList' and 'int'").
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/optuna/study/_optimize.py", line 196, in _run_trial
    value_or_values = func(trial)
  File "<ipython-input-2-107ee09b11e9>", line 83, in objective
    output = model(data)
  File "/usr/local/lib/python3.10/dist-packages/torch/nn/modules/module.py", line 1511, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
  File "/usr/local/lib/python3.10/dist-packages/torch/nn/modules/module.py", line 1520, in _call_impl
    return forward_call(*args, 

TypeError: unsupported operand type(s) for -: 'ModuleList' and 'int'

In [20]:
import torch                                        # Librería para aprendizaje profundo
import torch.nn as nn                               # Contiene módulos para construir redes neuronales
import torch.optim as optim                         # Contiene optimizadores para entrenar redes neuronales
import torchvision                                  # Librería para datasets y transformaciones de visión computacional
import torchvision.transforms as transforms         # Contiene funciones para preprocesar imágenes
import optuna                                       # Librería para optimización hiperparámetros

# Define la arquitectura de la CNN (Red Neuronal Convolucional)
class CNN(nn.Module):
    def __init__(self, trial):
        super(CNN, self).__init__()
        # Capa de convolución 1 con número de filtros variable
        self.conv1 = nn.Conv2d(1, trial.suggest_int('n_filters1', 16, 64), kernel_size=3, stride=1)
        # Capa de convolución 2 con número de filtros variable, dependiendo de la salida de la capa anterior
        self.conv2 = nn.Conv2d(trial.suggest_int('n_filters1', 16, 64), trial.suggest_int('n_filters2', 32, 128), kernel_size=3, stride=1)
        # Capa totalmente conectada (fully connected) con número de unidades variable
        self.fc1 = nn.Linear(trial.suggest_int('n_filters2', 32, 128) * 5 * 5, trial.suggest_int('n_units', 64, 256))
        # Capa de salida con 10 unidades para clasificar en las 10 clases de MNIST
        self.fc2 = nn.Linear(trial.suggest_int('n_units', 64, 256), 10)

    def forward(self, x):
        # Operaciones en la propagación hacia adelante
        x = self.conv1(x)
        x = torch.relu(x)  # Función de activación ReLU (introducir no linealidades en los datos)
        x = torch.max_pool2d(x, 2)  # Max pooling con tamaño de kernel 2x2
        x = self.conv2(x)
        x = torch.relu(x)
        x = torch.max_pool2d(x, 2)
        x = torch.flatten(x, 1)  # Aplanar la salida para la capa totalmente conectada
        x = self.fc1(x)
        x = torch.relu(x)
        x = self.fc2(x)
        return x

# Cargar el conjunto de datos MNIST
transform = transforms.Compose([
    transforms.ToTensor(),  # Convertir las imágenes a tensores
    transforms.Normalize((0.5,), (0.5,))  # Normalizar los valores de píxeles
])

trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
# Dividir el conjunto de datos de entrenamiento en entrenamiento y validación
trainset, valset = torch.utils.data.random_split(trainset, [54000, 6000])
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)
valloader = torch.utils.data.DataLoader(valset, batch_size=64, shuffle=True)

testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False)

# Definir la función objetivo para Optuna
def objective(trial):
    model = CNN(trial)
    criterion = nn.CrossEntropyLoss()  # Función de pérdida para problemas de clasificación
    optimizer = optim.Adam(model.parameters(), lr=trial.suggest_float('lr', 1e-5, 1e-1, log=True))  # Optimizador Adam con tasa de aprendizaje variable
    num_epochs = 5

    for epoch in range(num_epochs):
        running_loss = 0.0
        for i, data in enumerate(trainloader, 0):
            inputs, labels = data
            optimizer.zero_grad()               # Reiniciar los gradientes acumulados
            outputs = model(inputs)             # Propagación hacia adelante
            loss = criterion(outputs, labels)   # Calcular la pérdida
            loss.backward()                     # Retropropagación
            optimizer.step()                    # Actualización de los pesos

            running_loss += loss.item()

    # Evaluación del modelo en el conjunto de validación
    correct = 0
    total = 0
    with torch.no_grad():
        for data in valloader:
            images, labels = data
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)  # Obtener las predicciones
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    accuracy = correct / total
    return accuracy

# Ejecutar la optimización de Optuna
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=10)

print('Número de pruebas finalizadas:', len(study.trials))
print('Mejor prueba:')
trial = study.best_trial
print('  Valor: {}'.format(trial.value))
print('  Parámetros: ')
for key, value in trial.params.items():
    print('    {}: {}'.format(key, value))

[I 2024-05-14 19:23:20,114] A new study created in memory with name: no-name-5a2fbf7c-f6a9-4055-b140-dec490fbf18e
[W 2024-05-14 19:23:31,308] Trial 0 failed with parameters: {'n_filters1': 64, 'n_filters2': 97, 'n_units': 200, 'lr': 2.131637717863943e-05} because of the following error: KeyboardInterrupt().
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/optuna/study/_optimize.py", line 196, in _run_trial
    value_or_values = func(trial)
  File "<ipython-input-20-2c34cf59e499>", line 65, in objective
    optimizer.step()                    # Actualización de los pesos
  File "/usr/local/lib/python3.10/dist-packages/torch/optim/optimizer.py", line 385, in wrapper
    out = func(*args, **kwargs)
  File "/usr/local/lib/python3.10/dist-packages/torch/optim/optimizer.py", line 76, in _use_grad
    ret = func(self, *args, **kwargs)
  File "/usr/local/lib/python3.10/dist-packages/torch/optim/adam.py", line 166, in step
    adam(
  File "/usr/local/lib/pytho

KeyboardInterrupt: 

# Optimizador Optuna Elena

[Optuna-optimization-for-PyTorch-CNN](https://github.com/elena-ecn/optuna-optimization-for-PyTorch-CNN/blob/main/optuna_optimization.py#L179)

El conjunto de datos MNIST contiene **60.000** imágenes de **entrenamiento** y **10.000** imágenes de **prueba**.
donde cada muestra es una imagen pequeña, cuadrada, en escala de grises de **28 × 28** píxeles de
dígitos únicos escritos a mano entre 0 y 9.

Los hiperparámetros de CNN elegidos para optimizar son:


*   Tipo de optimizador
*   Tasa de aprendizaje
*   Valores de abandono
*   Número de capas convolucionales
*   Número de filtros de capas convolucionales
*   Número de neuronas de capas completamente conectadas.



In [None]:
!pip install optuna

In [None]:
import os                               # Importa el módulo os para interactuar con el sistema operativo
import torch                            # Importa PyTorch
import torchvision                      # Importa torchvision para trabajar con conjuntos de datos y modelos preentrenados
import torch.nn as nn                   # Importa el módulo nn (neural network) de PyTorch para definir redes neuronales
import torch.nn.functional as F         # Importa funciones de activación y pérdida de PyTorch
import torch.optim as optim             # Importa optimizadores de PyTorch
import optuna                           # Importa Optuna para la optimización de hiperparámetros
from optuna.trial import TrialState     # Importa TrialState para el estado de las pruebas en Optuna

In [None]:
class Net(nn.Module):
    def __init__(self, trial, num_conv_layers, num_filters, num_neurons, drop_conv2, drop_fc1):
        """
        Parámetros:
            - trial (optuna.trial._trial.Trial): Prueba de Optuna
            - num_conv_layers (int):             Número de capas convolucionales
            - num_filters (list):                Número de filtros de las capas convolucionales
            - num_neurons (int):                 Número de neuronas de las capas totalmente conectadas
            - drop_conv2 (float):                Ratio de dropout para la capa convolucional 2
            - drop_fc1 (float):                  Ratio de dropout para FC1
        """
        super(Net, self).__init__()                                                     # Inicializa la clase padre
        in_size = 28                                                                    # Tamaño de la imagen de entrada (28 píxeles)
        kernel_size = 3                                                                 # Tamaño del filtro de convolución

        # Define las capas convolucionales
        self.convs = nn.ModuleList([nn.Conv2d(1, num_filters[0], kernel_size=(3, 3))])  # Lista con las capas convolucionales
        out_size = in_size - kernel_size + 1                                            # Tamaño del kernel de salida
        out_size = int(out_size / 2)                                                    # Tamaño después del max-pooling
        for i in range(1, num_conv_layers):
            self.convs.append(nn.Conv2d(in_channels=num_filters[i-1], out_channels=num_filters[i], kernel_size=(3, 3)))
            out_size = out_size - kernel_size + 1                                       # Tamaño del kernel de salida
            out_size = int(out_size/2)                                                  # Tamaño después del max-pooling

        self.conv2_drop = nn.Dropout2d(p=drop_conv2)                                    # Dropout para conv2
        self.out_feature = num_filters[num_conv_layers-1] * out_size * out_size         # Tamaño de las características aplanadas
        self.fc1 = nn.Linear(self.out_feature, num_neurons)                             # Capa totalmente conectada 1
        self.fc2 = nn.Linear(num_neurons, 10)                                           # Capa totalmente conectada 2
        self.p1 = drop_fc1                                                              # Ratio de dropout para FC1

        # Inicializa los pesos con la inicialización de He
        for i in range(1, num_conv_layers):
            nn.init.kaiming_normal_(self.convs[i].weight, nonlinearity='relu')
            if self.convs[i].bias is not None:
                nn.init.constant_(self.convs[i].bias, 0)
        nn.init.kaiming_normal_(self.fc1.weight, nonlinearity='relu')

    def forward(self, x):
        """Propagación hacia adelante.

        Parámetros:
            - x (torch.Tensor): Tensor de entrada de tamaño [N,1,28,28]
        Devuelve:
            - (torch.Tensor): El tensor de salida después de la propagación hacia adelante [N,10]
        """
        for i, conv_i in enumerate(self.convs):  # Para cada capa convolucional
            if i == 2:  # Añade dropout si es la capa 2
                x = F.relu(F.max_pool2d(self.conv2_drop(conv_i(x)), 2))  # Conv_i, dropout, max-pooling, RelU
            else:
                x = F.relu(F.max_pool2d(conv_i(x), 2))                   # Conv_i, max-pooling, RelU

        x = x.view(-1, self.out_feature)                                 # Aplana el tensor
        x = F.relu(self.fc1(x))                                          # FC1, RelU
        x = F.dropout(x, p=self.p1, training=self.training)              # Aplica dropout después de FC1 solo durante el entrenamiento
        x = self.fc2(x)                                                  # FC2

        return F.log_softmax(x, dim=1)                                   # log(softmax(x))


In [None]:
def train(network, optimizer):
    """
    Entrena el modelo.

    Parámetros:
        - red (__main__.Net):                      La CNN
        - optimizador (torch.optim.<optimizador>): El optimizador para la CNN
    """
    network.train()  # Establece el módulo en modo de entrenamiento (afecta solo ciertos módulos)
    for batch_i, (data, target) in enumerate(train_loader):  # Para cada lote

        # Limita los datos de entrenamiento para una computación más rápida
        if batch_i * batch_size_train > number_of_train_examples:
            break

        optimizer.zero_grad()                                 # Borra los gradientes
        output = network(data.to(device))                     # Propagación hacia adelante
        loss = F.nll_loss(output, target.to(device))          # Calcula la pérdida (negative log likelihood: −log(y))
        loss.backward()                                       # Calcula los gradientes
        optimizer.step()                                      # Actualiza los pesos


In [None]:
def test(network):
    """
    Evalúa el modelo.

    Parámetros:
        - red (__main__.Net): La CNN

    Devuelve:
        - accuracy_test (torch.Tensor): La precisión de la prueba
    """
    network.eval()         # Establece el módulo en modo de evaluación (afecta solo ciertos módulos)
    correct = 0
    with torch.no_grad():  # Deshabilita el cálculo de gradientes (cuando estás seguro de que no llamarás a Tensor.backward())
        for batch_i, (data, target) in enumerate(test_loader):  # Para cada lote

            # Limita los datos de prueba para una computación más rápida
            if batch_i * batch_size_test > number_of_test_examples:
                break

            output = network(data.to(device))                                     # Propagación hacia adelante
            pred = output.data.max(1, keepdim=True)[1]                            # Encuentra el valor máximo en cada fila, devuelve los índices de los valores máximos
            correct += pred.eq(target.to(device).data.view_as(pred)).sum()        # Calcula las predicciones correctas

    accuracy_test = correct / len(test_loader.dataset)

    return accuracy_test


In [None]:
def objective(trial):
    """Función objetivo a ser optimizada por Optuna.

    Hiperparámetros elegidos para ser optimizados: optimizador, tasa de aprendizaje,
    valores de dropout, número de capas convolucionales, número de filtros de las
    capas convolucionales, número de neuronas de las capas totalmente conectadas.

    Entradas:
        - trial (optuna.trial._trial.Trial): Prueba de Optuna
    Devuelve:
        - accuracy (torch.Tensor): La precisión de la prueba. Parámetro a maximizar.
    """

    # Define el rango de valores a probar para los hiperparámetros
    num_conv_layers = trial.suggest_int("num_conv_layers", 2, 3)  # Número de capas convolucionales
    num_filters = [int(trial.suggest_discrete_uniform("num_filter_"+str(i), 16, 128, 16))
                   for i in range(num_conv_layers)]               # Número de filtros para las capas convolucionales
    num_neurons = trial.suggest_int("num_neurons", 10, 400, 10)   # Número de neuronas de la capa FC1
    drop_conv2 = trial.suggest_float("drop_conv2", 0.2, 0.5)      # Dropout para la capa convolucional 2
    drop_fc1 = trial.suggest_float("drop_fc1", 0.2, 0.5)          # Dropout para la capa FC1

    # Genera el modelo
    model = Net(trial, num_conv_layers, num_filters, num_neurons, drop_conv2,  drop_fc1).to(device)

    # Genera los optimizadores
    optimizer_name = trial.suggest_categorical("optimizer", ["Adam", "RMSprop", "SGD"])  # Optimizadores
    lr = trial.suggest_float("lr", 1e-5, 1e-1, log=True)                                 # Tasas de aprendizaje
    optimizer = getattr(optim, optimizer_name)(model.parameters(), lr=lr)

    # Entrenamiento del modelo
    for epoch in range(n_epochs):
        train(model, optimizer)  # Entrena el modelo
        accuracy = test(model)   # Evalúa el modelo

        # Para la poda (detiene la prueba temprano si no es prometedora)
        trial.report(accuracy, epoch)
        # Maneja la poda basada en el valor intermedio.
        if trial.should_prune():
            raise optuna.exceptions.TrialPruned()

    return accuracy

In [None]:
if __name__ == '__main__':

    # -------------------------------------------------------------------------
    # Estudio de optimización para una CNN de PyTorch con Optuna
    # -------------------------------------------------------------------------

    # Usa cuda si está disponible para cálculos más rápidos
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    # --- Parámetros ----------------------------------------------------------
    n_epochs = 10                         # Número de épocas de entrenamiento
    batch_size_train = 64                 # Tamaño del lote para datos de entrenamiento
    batch_size_test = 1000                # Tamaño del lote para datos de prueba
    number_of_trials = 100                # Número de pruebas de Optuna
    limit_obs = True                      # Limitar el número de observaciones para cálculos más rápidos

    # *** Nota: Para resultados más precisos, no limite las observaciones.
    #           Sin embargo, si no se limitan, podría llevar mucho tiempo ejecutarlo.
    #           Otra opción es limitar el número de épocas. ***

    if limit_obs:                                          # Limitar el número de observaciones
        number_of_train_examples = 500 * batch_size_train  # Máximas observaciones de entrenamiento
        number_of_test_examples = 5 * batch_size_test      # Máximas observaciones de prueba
    else:
        number_of_train_examples = 60000                   # Máximas observaciones de entrenamiento
        number_of_test_examples = 10000                    # Máximas observaciones de prueba
    # -------------------------------------------------------------------------

    # Hacer que las ejecuciones sean repetibles
    random_seed = 1
    torch.backends.cudnn.enabled = False  # Deshabilitar el uso de algoritmos no deterministas de cuDNN
    torch.manual_seed(random_seed)

    # Crea el directorio 'files', si no existe, para guardar el conjunto de datos
    directory_name = 'files'
    if not os.path.exists(directory_name):
        os.mkdir(directory_name)

    # Descarga el conjunto de datos MNIST al directorio 'files' y normalízalo
    train_loader = torch.utils.data.DataLoader(
        torchvision.datasets.MNIST('/files/', train=True, download=True,
                                   transform=torchvision.transforms.Compose([
                                       torchvision.transforms.ToTensor(),
                                       torchvision.transforms.Normalize((0.1307,), (0.3081,))])),
        batch_size=batch_size_train, shuffle=True)

    test_loader = torch.utils.data.DataLoader(
        torchvision.datasets.MNIST('/files/', train=False, download=True,
                                   transform=torchvision.transforms.Compose([
                                       torchvision.transforms.ToTensor(),
                                       torchvision.transforms.Normalize((0.1307,), (0.3081,))])),
        batch_size=batch_size_test, shuffle=True)

    # Crea un estudio de Optuna para maximizar la precisión de prueba
    study = optuna.create_study(direction="maximize")
    study.optimize(objective, n_trials=number_of_trials)


Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz to /files/MNIST/raw/train-images-idx3-ubyte.gz


100%|██████████| 9912422/9912422 [00:01<00:00, 5444301.23it/s]


Extracting /files/MNIST/raw/train-images-idx3-ubyte.gz to /files/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz to /files/MNIST/raw/train-labels-idx1-ubyte.gz


100%|██████████| 28881/28881 [00:00<00:00, 160017.98it/s]


Extracting /files/MNIST/raw/train-labels-idx1-ubyte.gz to /files/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz to /files/MNIST/raw/t10k-images-idx3-ubyte.gz


100%|██████████| 1648877/1648877 [00:04<00:00, 393172.39it/s]


Extracting /files/MNIST/raw/t10k-images-idx3-ubyte.gz to /files/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 403: Forbidden

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz to /files/MNIST/raw/t10k-labels-idx1-ubyte.gz


100%|██████████| 4542/4542 [00:00<00:00, 4292593.23it/s]
[I 2024-05-07 17:09:26,506] A new study created in memory with name: no-name-123ea2a7-cc3a-482b-b37c-b19f3f9d1e36
  num_filters = [int(trial.suggest_discrete_uniform("num_filter_"+str(i), 16, 128, 16))
  num_neurons = trial.suggest_int("num_neurons", 10, 400, 10)  # Número de neuronas de la capa FC1


Extracting /files/MNIST/raw/t10k-labels-idx1-ubyte.gz to /files/MNIST/raw



[I 2024-05-07 17:27:21,348] Trial 0 finished with value: 0.48919999599456787 and parameters: {'num_conv_layers': 2, 'num_filter_0': 128.0, 'num_filter_1': 128.0, 'num_neurons': 340, 'drop_conv2': 0.21439508970072876, 'drop_fc1': 0.409350471900658, 'optimizer': 'SGD', 'lr': 4.735407160810673e-05}. Best is trial 0 with value: 0.48919999599456787.
[I 2024-05-07 17:37:19,810] Trial 1 finished with value: 0.595300018787384 and parameters: {'num_conv_layers': 2, 'num_filter_0': 112.0, 'num_filter_1': 48.0, 'num_neurons': 360, 'drop_conv2': 0.3637459814288115, 'drop_fc1': 0.36470795939010936, 'optimizer': 'Adam', 'lr': 0.0008584929846386581}. Best is trial 1 with value: 0.595300018787384.
[I 2024-05-07 17:45:10,827] Trial 2 finished with value: 0.5598999857902527 and parameters: {'num_conv_layers': 3, 'num_filter_0': 80.0, 'num_filter_1': 48.0, 'num_filter_2': 112.0, 'num_neurons': 380, 'drop_conv2': 0.29614793864676914, 'drop_fc1': 0.3769548775900181, 'optimizer': 'Adam', 'lr': 1.42057720473

In [None]:
# -------------------------------------------------------------------------
# Resultados
# -------------------------------------------------------------------------

# Encuentra el número de pruebas podadas y completadas
pruned_trials = study.get_trials(deepcopy=False, states=[TrialState.PRUNED])
complete_trials = study.get_trials(deepcopy=False, states=[TrialState.COMPLETE])

# Muestra las estadísticas del estudio
print("\nEstadísticas del estudio:")
print("  Número de pruebas finalizadas: ", len(study.trials))
print("  Número de pruebas podadas: ", len(pruned_trials))
print("  Número de pruebas completadas: ", len(complete_trials))

trial = study.best_trial
print("Mejor prueba:")
print("  Valor: ", trial.value)
print("  Parámetros:")
for key, value in trial.params.items():
    print("    {}: {}".format(key, value))

# Guarda los resultados en un archivo CSV
df = study.trials_dataframe().drop(['datetime_start', 'datetime_complete', 'duration'], axis=1)  # Excluir columnas
df = df.loc[df['state'] == 'COMPLETE']        # Mantener solo los resultados que no se podaron
df = df.drop('state', axis=1)                 # Excluir columna de estado
df = df.sort_values('value')                  # Ordenar según la precisión
df.to_csv('optuna_results.csv', index=False)  # Guardar en archivo CSV

# Muestra los resultados en un DataFrame
print("\nResultados generales (ordenados por precisión):\n {}".format(df))

# Encuentra los hiperparámetros más importantes
most_important_parameters = optuna.importance.get_param_importances(study, target=None)

# Muestra los hiperparámetros más importantes
print('\nHiperparámetros más importantes:')
for key, value in most_important_parameters.items():
    print('  {}:{}{:.2f}%'.format(key, (15-len(key))*' ', value*100))


# PyG (PyTorch Geometric)

[Documentation](https://pytorch-geometric.readthedocs.io/en/latest/get_started/introduction.html#learning-methods-on-graphs)

In [3]:
# Instalar: https://gist.github.com/ameya98/b193856171d11d37ada46458f60e73e7?permalink_comment_id=3674777

import torch

def format_pytorch_version(version):
  return version.split('+')[0]

TORCH_version = torch.__version__
TORCH = format_pytorch_version(TORCH_version)

def format_cuda_version(version):
  return 'cu' + version.replace('.', '')

CUDA_version = torch.version.cuda
CUDA = format_cuda_version(CUDA_version)

!pip install torch-scatter     -f https://pytorch-geometric.com/whl/torch-{TORCH}+{CUDA}.html
!pip install torch-sparse      -f https://pytorch-geometric.com/whl/torch-{TORCH}+{CUDA}.html
!pip install torch-cluster     -f https://pytorch-geometric.com/whl/torch-{TORCH}+{CUDA}.html
!pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-{TORCH}+{CUDA}.html
!pip install torch-geometric

Looking in links: https://pytorch-geometric.com/whl/torch-2.2.1+cu121.html
Collecting torch-scatter
  Downloading https://data.pyg.org/whl/torch-2.2.0%2Bcu121/torch_scatter-2.1.2%2Bpt22cu121-cp310-cp310-linux_x86_64.whl (10.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.9/10.9 MB[0m [31m55.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: torch-scatter
Successfully installed torch-scatter-2.1.2+pt22cu121
Looking in links: https://pytorch-geometric.com/whl/torch-2.2.1+cu121.html
Collecting torch-sparse
  Downloading https://data.pyg.org/whl/torch-2.2.0%2Bcu121/torch_sparse-0.6.18%2Bpt22cu121-cp310-cp310-linux_x86_64.whl (5.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.0/5.0 MB[0m [31m28.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: torch-sparse
Successfully installed torch-sparse-0.6.18+pt22cu121
Looking in links: https://pytorch-geometric.com/whl/torch-2.2.1+cu121.html
Collecting torch-cluster
 

In [4]:
from torch_geometric.datasets import Planetoid

dataset = Planetoid(root='/tmp/Cora', name='Cora')

Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.x
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.tx
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.allx
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.y
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.ty
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.ally
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.graph
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.test.index
Processing...
Done!


In [5]:
import torch
import torch.nn.functional as F
from torch_geometric.nn import GCNConv

class GCN(torch.nn.Module):
    def __init__(self):
        super().__init__()
        # Definición de la primera capa de convolución GCN.
        # dataset.num_node_features es el número de características en cada nodo del grafo.
        # La primera capa convolucional transforma estas características en un espacio de características de tamaño 16.
        self.conv1 = GCNConv(dataset.num_node_features, 16)
        # Definición de la segunda capa de convolución GCN.
        # La entrada son 16 características producidas por la capa anterior,
        # y la salida es un vector de características de tamaño igual al número de clases en el dataset.
        self.conv2 = GCNConv(16, dataset.num_classes)

    def forward(self, data):
        # Se obtienen los datos de entrada: x son las características de los nodos y edge_index es la estructura del grafo.
        x, edge_index = data.x, data.edge_index

        # Paso de la primera capa GCN.
        x = self.conv1(x, edge_index)
        # Aplicación de la función de activación ReLU.
        x = F.relu(x)
        # Aplicación de dropout para regularización.
        x = F.dropout(x, training=self.training)
        # Paso de la segunda capa GCN.
        x = self.conv2(x, edge_index)

        # Se aplica la función de activación log_softmax para obtener la salida del modelo.
        # Esto proporciona la probabilidad de que cada nodo pertenezca a cada clase.
        return F.log_softmax(x, dim=1)


In [7]:
# Selecciona el dispositivo de cómputo (GPU si está disponible, de lo contrario, CPU).
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# Instancia el modelo GCN y lo mueve al dispositivo seleccionado.
model = GCN().to(device)
# Mueve los datos de entrada al dispositivo seleccionado.
data = dataset[0].to(device)
# Define el optimizador Adam para actualizar los parámetros del modelo durante el entrenamiento.
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)

# Indica que el modelo está en modo de entrenamiento.
model.train()
# Ciclo de entrenamiento que itera sobre un número fijo de épocas (en este caso, 200).
for epoch in range(200):
    # Reinicia los gradientes del optimizador.
    optimizer.zero_grad()
    # Propaga los datos de entrada a través del modelo para obtener las predicciones.
    out = model(data)
    # Calcula la función de pérdida NLL (negative log likelihood) para los nodos de entrenamiento.
    loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask])
    # Retropropaga el error para calcular los gradientes.
    loss.backward()
    # Actualiza los parámetros del modelo utilizando el optimizador.
    optimizer.step()


In [8]:
# Indica que el modelo está en modo de evaluación. Esto desactiva capas como Dropout que se usan durante el entrenamiento.
model.eval()
# Realiza predicciones en los datos de prueba y obtiene la clase predicha para cada nodo.
pred = model(data).argmax(dim=1)
# Calcula el número de predicciones correctas comparando las predicciones con las etiquetas verdaderas de los nodos de prueba.
correct = (pred[data.test_mask] == data.y[data.test_mask]).sum()
# Calcula la precisión dividiendo el número de predicciones correctas entre el número total de nodos de prueba.
acc = int(correct) / int(data.test_mask.sum())
# Imprime la precisión.
print(f'Accuracy: {acc:.4f}')

Accuracy: 0.7960
