# Computer Vision: entrenamiento de un clasificador de imágenes en PyTorch

Para aplicaciones de Computer Vision, PyTorch dispone de un paquete llamado *torchvision*, que tiene cargadores de datos para conjuntos de datos comunes como Imagenet, CIFAR10, MNIST, etc. y transformadores de datos para imágenes (*torchvision.datasets* y *torch.utils.data.DataLoader*).

Esto proporciona una gran comodidad y evita escribir código repetitivo.

Para esta práctica, se va a utilizar el conjunto de datos CIFAR10, el cual incluye imágenes de las siguientes clases: 'avión', 'automóvil', 'pájaro', 'gato', 'ciervo', 'perro', 'rana', 'caballo', 'barco', 'camión'. 

*En inglés: ‘airplane’, ‘automobile’, ‘bird’, ‘cat’, ‘deer’, ‘dog’, ‘frog’, ‘horse’, ‘ship’, ‘truck’*.

Las imágenes en CIFAR-10 son de dimensiones 3x32x32, es decir, imágenes en color de 3 canales de 32x32 píxeles de tamaño.


Realizaremos los siguientes pasos:

- Carga y normalización de los conjuntos de datos de prueba y entrenamiento CIFAR10 usando torchvision.
- Definición de una red neuronal convolucional.
- Definición de una función de pérdida.
- Entrenamiento de la red con los datos de entrenamiento.
- Prueba de la red entranada en los datos de prueba.

## Carga y normalización de CIFAR10

La salida de los conjuntos de datos de torchvision son imágenes PIL de rango [0, 1]. 

Por su parte, transforms.ToTensor() permite convertir una imagen PIL o numpy.ndarray (H x W x C) con valores de píxel en el rango [0, 255] a un torch.FloatTensor de dimensiones (C x H x W) en el rango [0.0, 1.0].

Para normalizarlos, utilizamos*transforms.Normalize()* especificando [-1, 1].

(https://pytorch.org/vision/stable/transforms.html#torchvision.transforms.Normalize)

In [5]:
# 3 medias y 3 desviaciones estándar para los 3 canales


In [1]:
# https://pytorch.org/vision/stable/datasets.html#torchvision.datasets.CIFAR10


## Definición de una red neuronal convolucional

Hiperparámetros de las capas que se van a usar:

- torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

- torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)

- torch.nn.Linear(in_features, out_features, bias=True, device=None, dtype=None)

## Definición de una función de pérdida y un optimizador
Usaremos una pérdida de clasificación de entropía cruzada y SGD con momentum.

## Entrenamiento de la red
Tenemos que ir alimentando al iterador de datos, introduciendo las entradas a la red, y realizar el proceso de optimización.

In [2]:
# Volcado del modelo entrenado en un archivo .pth (4D Path Document)


## Evaluación del modelo

Las salidas son *energías* para las 10 clases. Cuanto mayor es la energía de una clase, más piensa la red que la imagen es de esa clase en particular. Entonces, lo que tenemos que hacer es extraer el índice de la energía más alta:

Veamos cómo funciona la red en todo el conjunto de datos:

El accuracy ronda el 54%, lo que es bastante mejor que el azar, que es un 10% de precisión (elegir al azar una clase de 10 posibles). Parece que la red aprendió algo.

Comprobemos ahora cuáles son las clases que funcionan bien y cuáles son las que lo hacen peor.

## Bonus: ¿cómo entrenar en GPU?

Primero definimos nuestro dispositivo como el primer dispositivo cuda visible si tenemos CUDA disponible:

In [None]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# Si tenemos CUDA, se debería mostrar un dispositivo CUDA:

print(device)

Asumiendo que, en efecto, el dispositivo es CUDA, los siguientes métodos revisarán recursivamente todos los módulos y convertirán sus parámetros y búferes en tensores CUDA:

In [None]:
net.to(device)

También tenemos que enviar las entradas y los objetivos en cada paso a la GPU:

In [None]:
inputs, labels = data[0].to(device), data[1].to(device)

¿Por qué no se nota una aceleración realmente significativa en comparación con la CPU? Porque la red es realmente pequeña.

Ejercicio: intenta aumentar el ancho de la red (segundo argumento de la primera capa nn.Conv2d y primer argumento de la segunda nn.Conv2d; que deben ser el mismo número). Observa cómo se acelera el proceso.

Si se desea ver una aceleración aún más masiva usando todas las GPUs disponibles, consultar la siguiente sección de PyTorch: https://pytorch.org/tutorials/beginner/blitz/data_parallel_tutorial.html