In [1]:
#primero importamos todos los paquetes necesarios
import torch #contiene todas las funciones de PyTorch
import torch.nn as nn #contiene la clase padre de todos los modelos (nn.Module)
import torch.nn.functional as F #esencial para la función de activación 
import torchvision #fundamental para la importación de imágenes
import torchvision.transforms as transforms
from torchvision.datasets import ImageFolder
from torch.utils.data import DataLoader
from matplotlib import pyplot as plt #para poder representar las gráficas
import numpy as np #para las métricas de la red

#importamos también las funcioness definidas para el entrenamiento y puesta a prueba de los modelos
from modules.CNN_utilities import entrena, representa_test, representa_train, tester

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
#establecemos el tamaño del batch, la escala de las imágenes y el número de épocas de entrenamiento
batch = 4
#la arquitectura propuesta por Ghosh requiere una escala de 512, 512, 3
escala = 512
epocas = 50

#a continuación definimos la operación que permitirá transformar las imágenes del repositorio en Tensores que puedan ser empleados por PyTorch
transform = transforms.Compose(
    [transforms.ToTensor(), #transforma la imagen de formato PIL a formato tensor
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)), #normaliza el tensor para que la media de sus valores sea 0 y su desviación estándar 0.5
     transforms.Resize((escala, escala))]) #redimensionamos las imágenes

#a continuación cargamos el conjunto de imágenes de train (OCT) y los dos de test (iPhone y Samsung)
OCT = ImageFolder(root = 'Datos/Classified Data/Images/OCT', transform = transform)
print(f'Tamaño del conjunto de datos de train: {len(OCT)}')

Samsung = ImageFolder(root = 'Datos/Classified Data/Images/Samsung', transform = transform)
print(f'Tamaño del conjunto de datos de test de Samsung: {len(Samsung)}')

iPhone = ImageFolder(root = 'Datos/Classified Data/Images/iPhone', transform = transform)
print(f'Tamaño del conjunto de datos de test de iPhone: {len(iPhone)}')

#establecemos una lista con el nombre de las etiquetas
classes = OCT.classes

#y definimos también las funciones que van a ir cargando las imágenes en el modelo
train_loader = DataLoader(
    dataset = OCT,
    batch_size = 4, #establecemos un tamaño de lote (batch_size) de 4, ya que son pocas imágenes y podemos permitírnoslo
    shuffle = True, #indicamos que mezcle las imágenes
    num_workers = 2 #genera subprocesos para cargar los datos y así liberamos el proceso main
)

test_S_loader = DataLoader(
    dataset = Samsung,
    batch_size = 4, #establecemos un tamaño de lote (batch_size) de 10, ya que son pocas imágenes y podemos permitírnoslo
    shuffle = True, #indicamos que mezcle las imágenes
    num_workers = 2 #genera subprocesos para cargar los datos y así liberamos el proceso main
)

test_i_loader = DataLoader(
    dataset = iPhone,
    batch_size = 4, #establecemos un tamaño de lote (batch_size) de 10, ya que son pocas imágenes y podemos permitírnoslo
    shuffle = True, #indicamos que mezcle las imágenes
    num_workers = 2 #genera subprocesos para cargar los datos y así liberamos el proceso main
)

Tamaño del conjunto de datos de train: 113
Tamaño del conjunto de datos de test de Samsung: 93
Tamaño del conjunto de datos de test de iPhone: 99


In [3]:
#A lo largo de este script voy a probar a variar algunos parámetros del modelo (intentando no perder la esencia de la estructura original)
#Los parámetros modificados serán los siguientes:
# - número de capas convolucionales (6, 9 o 13)
# - número de filtros por capa (conservando los originales, reduciéndolos a la mitad o multiplicándolos por dos)
# - número de neuronas de las capas fully-connected, probando las siguientes combinaciones:
#    * 256/1024/512
#    * 128/512/256
#    * 64/256/128
#    * 128/256/512
#    * 512/256/128
# Por tanto el número total de posibles combinaciones es 3*3*5 = 45 combinaciones

In [4]:
#Para facilitar la lectura del código y sobre todo su ejecución, voy a definir una función que permita lanzar las ejecuciones necesarias de manera automática

FALTA MODIFICAR EL FORWARD PARA INCLUIR SOLO LAS CAPAS NECESARIAS Y MODIFICAR EL IN_FEATURES

In [5]:
def crea_Ghosh(capas_conv, filtros, neuronas):
    '''
    Función que crea una red siguiendo la arquitectura Ghosh pero con las características introducidas como parámetros.
    
    Parámetros
    --------------------------------------------------------------------------
    capas_conv: número entero que puede tomar 3 posibles valores (6, 9 o 13) y que representa el número de capas convolucionales que tiene la red.
    filtros: float que representa el número de filtros por capa convolucional. Puede ser 1.0 si conserva el número original, 0.5 si lo divide a la mitad y 2.0 si lo duplica.
    neuronas: String que contiene el número de neuronas de las capas fully-connected separados por barras laterales (/).
    
    Return
    --------------------------------------------------------------------------
    modelo: devuelve una instancia de la clase Ghosh con las características arquitectónicas deseadas, es decir, un modelo de CNN con las características indicadas en los parámetros.
    '''
    #primero definimos la clase correspondiente (Ghosh en este caso), incluyendo los elementos necesarios para obtener las variaciones deseadas
    class Ghosh(nn.Module):
        #esta estructura está formada por capas convolucionales, de maxpooling, de activación, de Dropout, fully-connected y de clasificación

        def __init__(self):
            #sobreescribimos el constructor del padre
            super(Ghosh,self).__init__()
            #primero definimos una capa convolucional
            #el número de filtros de cada capa irá multiplicado por el parámetro filtros (para reducirlo, duplicarlo o mantenerlo)
            self.conv1 = nn.Conv2d(
                in_channels = 3, #3 canales de entrada porque las imágenes son a color
                out_channels = 32*filtros, #se trata del número de salidas de la capa. Es el número de kernels de la capa
                kernel_size = 7, #suele tratarse de un número impar
                stride = 2, #cantidad píxeles que se desplaza el filtro sobre la imagen
                padding = 2, #cantidad de relleno que se va a aplicar sobre los bordes de la imagen
            )

            #la segunda (y tercera) capa convolucional, se pueden definir como una única porque el número de entradas y salidas coincide
            self.conv2_3 = nn.Conv2d(
                in_channels = 32*filtros, #32 canales de entrada para que coincida con las salidas de la capa anterior
                out_channels = 32*filtros, #se trata del número de salidas de la capa. Es el número de kernels de la capa
                kernel_size = 3, #suele tratarse de un número impar
                stride = 2, #cantidad píxeles que se desplaza el filtro sobre la imagen
                padding = 2, #cantidad de relleno que se va a aplicar sobre los bordes de la imagen
            )

            #la cuarta capa convolucional
            self.conv4 = nn.Conv2d(
                in_channels = 32*filtros, #32 canales de entrada para que coincida con las salidas de la capa anterior
                out_channels = 64*filtros, #se trata del número de salidas de la capa. Es el número de kernels de la capa
                kernel_size = 3, #suele tratarse de un número impar
                stride = 2, #cantidad píxeles que se desplaza el filtro sobre la imagen
                padding = 2, #cantidad de relleno que se va a aplicar sobre los bordes de la imagen
            )

            #la quinta capa convolucional
            self.conv5 = nn.Conv2d(
                in_channels = 64*filtros, #64 canales de entrada para que coincida con las salidas de la capa anterior
                out_channels = 64*filtros, #se trata del número de salidas de la capa. Es el número de kernels de la capa
                kernel_size = 3, #suele tratarse de un número impar
                stride = 2, #cantidad píxeles que se desplaza el filtro sobre la imagen
                padding = 2, #cantidad de relleno que se va a aplicar sobre los bordes de la imagen
            )

            #la sexta capa convolucional
            self.conv6 = nn.Conv2d(
                in_channels = 64*filtros, #64 canales de entrada para que coincida con las salidas de la capa anterior
                out_channels = 128*filtros, #se trata del número de salidas de la capa. Es el número de kernels de la capa
                kernel_size = 3, #suele tratarse de un número impar
                stride = 2, #cantidad píxeles que se desplaza el filtro sobre la imagen
                padding = 2, #cantidad de relleno que se va a aplicar sobre los bordes de la imagen
            )
            
            #comprobamos el número de capas introducidas como parámetros
            if capas_conv > 6:
                #la séptima (y octava y novena) capa convolucional
                self.conv7_8_9 = nn.Conv2d(
                    in_channels = 128*filtros, #64 canales de entrada para que coincida con las salidas de la capa anterior
                    out_channels = 128*filtros, #se trata del número de salidas de la capa. Es el número de kernels de la capa
                    kernel_size = 3, #suele tratarse de un número impar
                    stride = 2, #cantidad píxeles que se desplaza el filtro sobre la imagen
                    padding = 2, #cantidad de relleno que se va a aplicar sobre los bordes de la imagen
                )
                
                #nuevamente comprobamos antes de incluir las últimas 4 capas
                if capas_conv > 9:
                    #la décima capa convolucional
                    self.conv10 = nn.Conv2d(
                        in_channels = 128*filtros, #64 canales de entrada para que coincida con las salidas de la capa anterior
                        out_channels = 256*filtros, #se trata del número de salidas de la capa. Es el número de kernels de la capa
                        kernel_size = 3, #suele tratarse de un número impar
                        stride = 2, #cantidad píxeles que se desplaza el filtro sobre la imagen
                        padding = 2, #cantidad de relleno que se va a aplicar sobre los bordes de la imagen
                    )

                    #las últimas 3 capa convolucionales
                    self.conv11_12_13 = nn.Conv2d(
                        in_channels = 256*filtros, #64 canales de entrada para que coincida con las salidas de la capa anterior
                        out_channels = 256*filtros, #se trata del número de salidas de la capa. Es el número de kernels de la capa
                        kernel_size = 3, #suele tratarse de un número impar
                        stride = 2, #cantidad píxeles que se desplaza el filtro sobre la imagen
                        padding = 2, #cantidad de relleno que se va a aplicar sobre los bordes de la imagen
                    )

            #la función de activación (en este caso PReLU)
            self.activation = nn.PReLU()

            #la capa de MaxPool
            self.pool = nn.MaxPool2d(
                kernel_size = 2, #establecemos el tamaño del kernel a 2*2
                stride = 2 #cantidad píxeles que se desplaza el filtro sobre la imagen
            )
            
            #REVISAR TODO ESTO, QUE NO ME FÍO YO MUCHO DE CÓMO LO HA SACADO CHATGPT
            #debido a que el número de neuronas de entrada de la capa fully-connected dependerá del número de neuronas de salida vamos a definir este valor
            #AQUÍ HAY QUE VER CÓMO SE DEFINE ESE VALOR (y asignárselo a la variable neuronas_entrada)
            #el número de características es la salida de la capa anterior (out_channels*escala*escala de la imagen tras la capa anterior)
            #para saber las dimensiones de una imagen tras pasar por una capa convolucional: output_size = ((input_size + 2*padding - kernel_size) / stride)
            #esta fórmula deriva de la operación de convolución y se emplea en muchos papers y libros, por ejemplo:
            # "Deep Learning for Computer Vision" de Rajalingappaa Shanmugamani, en el capítulo 3 "Convolutional Neural Networks"
            
            #la primera capa de neuronas a la que aplicaremos Dropout como técnica de regularización
            self.fc1 = nn.Linear(
                in_features = neuronas_entrada, #número de características de entrada
                out_features = int(neuronas.split('/')[0]) #número de neuronas de salida, obtenidas del parámetro pasado
            )

            #la segunda capa fully-connected
            self.fc2 = nn.Linear(int(neuronas.split('/')[0]),int(neuronas.split('/')[1]))

            #la tercera capa fully-connected
            self.fc3 = nn.Linear(int(neuronas.split('/')[1]),int(neuronas.split('/')[2]))

            #la capa de neuronas fully-connected final
            self.dense = nn.Linear(
                in_features = int(neuronas.split('/')[2]), 
                out_features = 5 #número de neuronas de salida (número de etiquetas del problema)
            )

        def forward(self,x):
            #en esta función es donde tiene lugar la computación (y la función invocada por defecto al ejecutar la red)
            #siguiendo la estructura descrita en Ghosh et al. (con sus respectivas variaciones):

            #primero una capa convolucional de tipo 1, con su consecuente activación PReLU y la capa de MaxPool
            x = self.pool(self.activation(self.conv1(x)))
            #una capa convolucional de tipo 2 con su correspondiente activación
            x = self.activation(self.conv2_3(x))
            #capa convolucional de tipo 2 con activación y MaxPool
            x = self.pool(self.activation(self.conv2_3(x)))
            #cuarta convolucional con activación
            x = self.activation(self.conv4(x))
            #quinta convolucional con activación y MaxPool
            x = self.pool(self.activation(self.conv5(x)))
            #3 capas convolucionales consecutivas de tipo 2 con su correspondiente activación
            x = self.activation(self.conv6(x))
            if capas_conv > 6:
                x = self.activation(self.conv7_8_9(x))
                x = self.activation(self.conv7_8_9(x))
                #novena capa convolucional con activación y MaxPool
                x = self.pool(self.activation(self.conv7_8_9(x)))
                if capas_conv > 9:
                    #se repite la misma estructura de 3 capas convolucionales con activación y una última con activación y MaxPool
                    x = self.activation(self.conv10(x))
                    x = self.activation(self.conv11_12_13(x))
                    x = self.activation(self.conv11_12_13(x))
                    x = self.pool(self.activation(self.conv11_12_13(x)))
            #aplanamos la salida, hasta convertirla de forma matricial a forma vectorial (sería la capa flatten)
            x = x.view(-1,self.num_flat_features(x))#usamos una función propia de la clase para obtener el número de características
            #aplicamos una primera red neuronal fully-connected, con la activación consecuente y la estrategia dropout para evitar el sobreentrenamiento
            x = F.dropout(self.activation(self.fc1(x)))
            #lo mismo sucede con la segunda capa fully-connected
            x = F.dropout(self.activation(self.fc2(x)))
            #y con la tercera
            x = F.dropout(self.activation(self.fc3(x)))
            #por último tiene lugar la capa de predicciones, que convierte las 512 neuronas de la tercera capa fully-connected en una salida de 5 neuronas (una por clase)
            x = self.dense(x)

            return x

        def num_flat_features(self,x):
            #por último definimos la función que permite obtener el número de características de los tensores
            size = x.size()[1:] #seleccionamos todas las dimensiones expcepto la primera (que son los batches)
            num_features = 1
            #va iterando y calcula el número de características de los datos (x)
            for s in size:
                num_features*=s
            return num_features

    #por último creamos una instancia de esta red
    modelo = Ghosh()
    #y la devolvemos
    return modelo

In [41]:
def calcula_dim(num_capas):
    size = 512
    if num_capas >= 6:
        size = funcion(size,7,2,2) #tras primera capa conv
        for i in range(5):
            size = funcion(size,3,2,2) #tras segunda-sexta capa conv
        if num_capas >= 9:
            for i in range(3):
                size = funcion(size,3,2,2) #tras séptima-novena capa conv
            if num_capas == 13:
                for i in range(3):
                    size = funcion(size,3,2,2)
    return round(size)

In [43]:
calcula_dim(6)

9

In [33]:
def funcion(input_size,kernel_size,stride,padding):
    return ((input_size + 2*padding - kernel_size) / stride)