alexnet is not recommended. Use the imagePretrainedNetwork function instead and specify the "alexnet" model. For more information, see Version History.

There are no plans to remove support for the alexnet function. However, the imagePretrainedNetwork function has additional functionality that helps with transfer learning workflows. For example, you can specify the number of classes in your data using the numClasses option, and the function returns a network that is ready for retraining without the need for modification.

En MATLAB, la advertencia sobre AlexNet se debe probablemente a que:

AlexNet es un modelo más antiguo (2012), y desde entonces han aparecido modelos más eficientes, precisos y avanzados como VGG, ResNet, y EfficientNet.
MATLAB ha mejorado su API con nuevas funciones, como imagePretrainedNetwork, para gestionar modelos preentrenados de manera más flexible.
MATLAB está empujando a los usuarios hacia modelos más modernos que ofrezcan mejor rendimiento en términos de precisión y eficiencia computacional.

Aunque AlexNet está algo desactualizado en comparación con modelos modernos, AlexNet todavía puede ser útil en ciertas situaciones:

Simplicidad: Es una red relativamente simple y menos profunda, por lo que es una excelente opción para estudiantes o personas que recién comienzan con redes neuronales.
Menos demandante computacionalmente: Debido a su simplicidad, puede ser más rápido y menos costoso en términos de recursos de cómputo. Esto puede ser útil si no tienes acceso a hardware potente (como GPUs) o si solo necesitas una red rápida para pruebas.
Benchmarking: AlexNet se sigue utilizando como referencia en papers o experimentos para comparar con modelos más recientes.
Propósitos educativos: Es un buen modelo para aprender conceptos básicos de redes convolucionales, ya que fue uno de los primeros modelos que demostró el poder de las CNNs en el conjunto de datos ImageNet.

Si tu objetivo es rendimiento o precisión, en lugar de usar AlexNet, sería mejor optar por modelos más modernos y eficientes. Aquí algunos que son ampliamente recomendados y disponibles tanto en MATLAB como en Python (usando PyTorch o TensorFlow):

VGG16/VGG19: Modelos más profundos que AlexNet.
ResNet: Introduce bloques residuales para entrenar redes más profundas sin sufrir problemas de degradación de gradientes.
EfficientNet: Optimizado para lograr una mejor precisión con menos parámetros y menos coste computacional.
DenseNet: Similar a ResNet pero con más conexiones internas.

En Python, puedes usar AlexNet si tu objetivo es aprendizaje o pruebas rápidas, pero para aplicaciones serias, se recomienda usar modelos más recientes como ResNet, VGG, o EfficientNet.

hay q instalar torch para poder traer alexnet a python

In [9]:
import torch
from torchvision import models

In [18]:
# Cargar la red AlexNet preentrenada en el dataset ImageNet
net = models.alexnet(pretrained=True)

# Poner la red en modo evaluación
net.eval()

net

AlexNet(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(11, 11), stride=(4, 4), padding=(2, 2))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 192, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(192, 384, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(384, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(6, 6))
  (classifier): Sequential(
    (0): Dropout(p=0.5, inplace=False)
    (1): Linear(in_features=9216, out_features=4096, bias=True)
 

features = Esta sección se encarga de extraer características de la imagen de entrada utilizando capas convolucionales y de pooling.
Conv2d: Capa de convolución 2D.
3: Número de canales de entrada (RGB).
64: Número de filtros (salidas) en esta capa.
kernel_size: Tamaño del filtro (11x11).
stride: El paso que da el filtro en cada dirección (4 píxeles).
padding: Añade un borde de 2 píxeles alrededor de la imagen para controlar el tamaño de la salida.

Capa de activación ReLU (Rectified Linear Unit) que introduce no linealidad en la red. inplace=True significa que la operación se realiza en el mismo lugar, ahorrando memoria.

MaxPool2d:
Capa de agrupamiento máximo (pooling) que reduce las dimensiones espaciales de la salida de la convolución.
kernel_size: Tamaño de la ventana de pooling (3x3).
stride: La ventana se mueve 2 píxeles a la vez.

Dropout:
Capa de Dropout que se utiliza durante el entrenamiento para evitar el sobreajuste. Aquí, el 50% de las neuronas se "apagan" aleatoriamente durante cada paso de entrenamiento.

Capa de Convolución: Extrae características visuales de la imagen.
Capa de ReLU: Introduce no linealidad.
Capa de Pooling: Reduce la dimensionalidad y ayuda a prevenir el sobreajuste.
Capa de Promedio Adaptativo: Reduce la salida a un tamaño fijo.
Clasificación: Conecta las características extraídas a las clases objetivo usando capas lineales y dropout para regularización.

In [19]:
# Si tienes una imagen para procesar, puedes hacerlo así:

from torchvision import transforms
from PIL import Image

In [20]:
# Transformaciones para preparar la imagen (redimensionar, normalizar, etc.)
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

resize: Esta transformación redimensiona la imagen para que el lado más corto tenga 256 píxeles, manteniendo la relación de aspecto.
Propósito: Asegura que las imágenes de entrada tengan un tamaño coherente, lo que es importante para la entrada a la red neuronal.

centerCrop: Esta transformación recorta la imagen en el centro a un tamaño de 224x224 píxeles.
Propósito: Esto es necesario porque muchos modelos preentrenados, como AlexNet, esperan una entrada de 224x224 píxeles. Al centrar el recorte, se capturan las características más relevantes de la imagen.

totensor: Convierte la imagen en un tensor de PyTorch.
Propósito: Las redes neuronales en PyTorch trabajan con tensores, no con imágenes directamente. Esta transformación convierte la imagen de formato PIL o NumPy a un tensor de dimensiones (C, H, W) donde C es el número de canales (por ejemplo, 3 para imágenes RGB), H es la altura y W es el ancho.

Normaliza el tensor usando la media y la desviación estándar proporcionadas para cada canal de color.
Propósito: La normalización es un paso crucial porque ayuda a centrar los datos de entrada alrededor de cero y a escalar las características. Esto puede mejorar la convergencia del modelo durante el entrenamiento y mejorar la precisión. Las medias y desviaciones estándar especificadas son las que se calcularon a partir del conjunto de datos ImageNet, que se utilizó para preentrenar muchos modelos, incluido AlexNet.

***CARGAR IMAGEN

img_path = 'imagenes/patito.png'  # Cambia a la ruta de tu imagen
img = Image.open(img_path)
img_t = transform(img)  # Aplicar las transformaciones
batch_t = torch.unsqueeze(img_t, 0)  # Añadir una dimensión de batch

En este código, se asume que tienes un archivo llamado imagenet_classes.json que contiene un diccionario que asigna índices de clase a nombres de clase.

In [42]:
# Realizar la predicción
with torch.no_grad(): #desactiva el cálculo de gradientes, lo que ahorra memoria y mejora la velocidad de ejecución en la inferencia
    out = net(batch_t)

# Mostrar el resultado
_, index = torch.max(out, 1) #devuelve los valores máximos y los índices a lo largo de la dimensión especificada. Aquí, el índice correspondiente a la clase con la mayor puntuación se utiliza para obtener el nombre de la clase predicha
print(f'Predicted class index: {index.item()}')

NameError: name 'batch_t' is not defined

esto solo funcionaria con matlab, aqui hay q tirar con otros modelos
[net,classNames] = imagePretrainedNetwork("alexnet");

net = imagePretrainedNetwork("alexnet",Weights="none");

probamos el modelo resnet50

ResNet-50 es un modelo de red neuronal convolucional profunda (CNN) que pertenece a la familia de Redes Residuales (ResNet), introducidas por Kaiming He et al. en su artículo seminal titulado "Deep Residual Learning for Image Recognition" en 2015. ResNet fue revolucionario porque resolvió uno de los problemas clave en el entrenamiento de redes profundas: la degradación del rendimiento a medida que se incrementa la profundidad de la red.

Efectividad en profundidad: Utiliza conexiones residuales que permiten el entrenamiento de redes muy profundas sin degradación del rendimiento.
Generalización: Se ha demostrado que ResNet generaliza bien en diversas tareas, incluida la clasificación de imágenes generadas por IA.
Uso: Adecuado para un gran número de clases y variaciones en las imágenes

In [None]:
net = models.resnet50(pretrained=True)

# Poner el modelo en modo evaluación
net.eval()

Si tienes imágenes de alta calidad (ya sean reales o generadas por IA), los modelos más avanzados (como EfficientNet o ViT) podrían ofrecer mejores resultados.

Si las imágenes generadas por IA son muy similares a las reales, un modelo más simple como ResNet puede ser suficiente. Pero si hay grandes diferencias, puede ser necesario un modelo más complejo.

Modelos más grandes y complejos requieren más recursos para entrenar y hacer inferencias. Debes considerar la disponibilidad de GPUs y tiempo de entrenamiento.

PREPROCESAR IMAGENES

In [None]:
import torchvision.transforms as transforms

transform = transforms.Compose([
    transforms.Resize((224, 224)),  # Ajustar tamaño
    transforms.ToTensor(),  # Convertir a tensor
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),  # Normalizar
])

- data augmentation 
técnica esencial en el entrenamiento de modelos de aprendizaje profundo, especialmente en la clasificación de imágenes. Su propósito es aumentar la diversidad del conjunto de entrenamiento sin necesidad de recopilar más datos.

Rotación: Girar la imagen en un cierto rango de grados.
Cambio de Escala: Cambiar el tamaño de la imagen (acercar o alejar).
Desplazamiento (Shift): Desplazar la imagen en direcciones horizontales o verticales.
Reflejo (Flip): Voltear la imagen horizontal o verticalmente.
Ajuste de Brillo/Contraste: Cambiar el brillo y el contraste de la imagen.
Transformaciones de Color: Cambiar la saturación, el tono, etc.
Recorte Aleatorio: Recortar secciones aleatorias de la imagen.
Ruido Aleatorio: Añadir ruido a la imagen.

In [None]:
import torchvision.transforms as transforms

# Definir las transformaciones de aumento de datos
transform = transforms.Compose([
    transforms.RandomRotation(degrees=15),  # Rotación aleatoria hasta 15 grados
    transforms.RandomHorizontalFlip(),  # Voltear horizontalmente con probabilidad 0.5
    #Es especialmente útil para imágenes donde la orientación no es crítica (por ejemplo, objetos)
    transforms.RandomResizedCrop(size=224, scale=(0.8, 1.0)),  # Recorte aleatorio 
    #Recorta una sección aleatoria de la imagen y la redimensiona a un tamaño específico
    transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.1),  # Ajustar brillo y contraste
])


In [None]:
from torchvision import datasets
from torch.utils.data import DataLoader

# Cargar el conjunto de datos de entrenamiento con aumento de datos
train_dataset = datasets.ImageFolder(root='path to dataset', transform=transform)
train_loader = DataLoader(dataset=train_dataset, batch_size=32, shuffle=True)


DIVIDIR CONJUNTO DE DATOS
- ENTRENAMIENTO
- VALIDACION
- TEST

ELEGIR MODELO

funcion de perdida y optimizador 

función de pérdida es una medida de cuán bien está funcionando un modelo en comparación con la verdad conocida (etiquetas) durante el entrenamiento. Cuanto menor sea el valor de la pérdida, mejor será el rendimiento del modelo

In [None]:
#Clasificación Binaria: Para problemas donde solo hay dos clases, ia/reales

import torch.nn as nn
criterion = nn.BCELoss()

#hay otras para clasificacion multiclase, regresion (predecir el valor de una casa)...

Durante el entrenamiento, el modelo realiza una predicción sobre los datos de entrada y luego calcula la pérdida utilizando la función de pérdida definida.
La pérdida se utiliza para calcular los gradientes de los parámetros del modelo. Esto se realiza a través del algoritmo de retropropagación (backpropagation).
Ajuste de Parámetros: Los parámetros del modelo se ajustan para minimizar la pérdida a través del optimizador, que actualiza los pesos del modelo

optimizador es un algoritmo que ajusta los parámetros del modelo (los pesos y sesgos) para minimizar la función de pérdida. Su objetivo es encontrar el conjunto óptimo de parámetros que permita que el modelo generalice bien a nuevos datos

In [None]:
#Stochastic Gradient Descent (SGD): Actualiza los parámetros basándose en un pequeño subconjunto de datos (un batch)

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

#Adam: Un optimizador más avanzado que ajusta la tasa de aprendizaje para cada parámetro. Es uno de los más populares por su rapidez y eficiencia.

optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

#RMSprop: Se utiliza a menudo en redes neuronales recurrentes y ayuda a mitigar problemas de desvanecimiento del gradiente.

optimizer = torch.optim.RMSprop(model.parameters(), lr=0.001)


Inicialización: Se inicializa el optimizador con los parámetros del modelo y la tasa de aprendizaje (learning rate).
Actualización de Parámetros: En cada iteración del ciclo de entrenamiento:
Se calculan los gradientes de la función de pérdida con respecto a los parámetros.
El optimizador ajusta los parámetros utilizando estos gradientes.

entrenamiento 

In [None]:
num_epochs = 10  #cantidad de veces q el modelo pasara por todo el conj de entrenamiento
#numero muy alto podria provocar sobreajuste

for epoch in range(num_epochs):
    model.train()  # Modo entrenamiento
    running_loss = 0.0 #acumula la perdida a lo largo de todas
    #las iteraciones 

    for inputs, labels in train_loader:  # se necesita DataLoader
        #imagenes y datos de entrada
        optimizer.zero_grad()  #se reinician los gradientes, los gradientes de cada parametro se acumulan

        outputs = model(inputs)  # Hacer la predicción
        #salida del modelo, predicciones sobre los datos de entrada
        loss = criterion(outputs, labels)  # Calculo de la pérdida
        loss.backward()  # Retropropagación, calcula los gradientes de la función de pérdida 
        #con respecto a cada uno de los parámetros del modelo. Es fundamental para actualizar los pesos del modelo de manera efectiva.
        optimizer.step()  # Actualizar los pesos

        running_loss += loss.item() #acumulacion de perdida

    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {running_loss/len(train_loader):.4f}')


evaluacion 

In [None]:
model.eval()  # Modo evaluación
correct = 0 #numero de predicciones correctas q el modelo realiza
total = 0 #num total de muestras en el conjunto de prueba

with torch.no_grad(): #desactiva el cálculo de gradientes en la sección del código que sigue
    #Eficiencia: Ahorra memoria y computación, ya que no necesitas calcular gradientes durante la evaluación.
    #No Necesario: No estás actualizando los pesos del modelo; solo necesitas realizar predicciones.
    for inputs, labels in test_loader:
        outputs = model(inputs)
        #inputs se pasa a través del modelo para obtener las predicciones. outputs contendrá las salidas del modelo para el batch actual.
        #interpretación de Salidas: outputs suele ser un tensor que contiene las puntuaciones (logits) para cada clase de cada imagen en el batch.
        _, predicted = torch.max(outputs.data, 1)
        #devuelve dos valores:
#El primero (_) es el valor máximo (no se usa aquí, por eso se ignora).
#El segundo (predicted) es el índice de la clase con la puntuación máxima para cada imagen en el batch. Es decir, predicted contendrá la clase que el modelo predice para cada entrada en inputs.
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print(f'Accuracy of the model on the test images: {100 * correct / total:.2f}%')


cosas q podemos añadir 
Regularización: Aplica técnicas como Dropout para prevenir el sobreajuste.
Transfer Learning: Experimenta con diferentes modelos preentrenados y ajusta hiperparámetros para mejorar el rendimiento.

guardar modelo 

In [None]:
torch.save(model.state_dict(), 'model.pth')  # Guardar el estado del modelo
