# RNA preentrenadas
## (_reconocimiento de imágenes_)
___

Existen numerosas redes neuronales artificiales (RNA ó _Artificial Neural Networks, ANN_) ya configuradas y entrenadas para distintas tareas como, por ejemplo, el reconocimiento de imágenes.


Es habitual que los investigadores publiquen, junto con sus trabajos, el código fuente y los parámetros (_pesos_) obtenidos durante el entrenamiento del modelo a partir de un conjunto de datos de referencia

## RN preentrenadas en pyTorch
---
El módulo **torchvision.models** contiene diversos modelos predefinidos


Los nombres en mayúsculas son clases Python que implementan dichos modelos


Los nombres en minúsculas son funciones que devuelven modelos instanciados a partir de dichas clases, en ocasiones con diferentes conjuntos de parámetros. Por ejemplo, _resnet101_ devuelve una instancia de *ResNet* con 101 capas, mientras que *resnet18* tiene 18 capas

In [None]:
import torch
from torchvision import models
dir(models)

### AlexNet
___
El modelo *AlexNet* ganó la competición [ILSVRC](http://www.image-net.org/challenges/LSVRC/) (_ImageNet Large Scale Visual Recognition Challenge_) de 2012, "barriendo" a sus competidores. 

En esta competición se evalúan algoritmos para la detección de objetos y la clasificación de imágenes. En concreto, el conjunto de datos (_dataset_) para la clasificación de imágenes según su contenido está formado por **1.2 millones** de imágenes etiquetadas con uno de entre **1.000 nombres** (por ejemplo: "gato")

*AlexNet*, que se basa en el empleo de redes neuronales convolucionales (CNN) entrenadas sobre GPU, es considerado uno de los trabajos más influyentes en la visión por computadora. 

Para ejecutar el modelo _AlexNet_ en una imagen de entrada, podemos instanciar un objeto de la clase correspondiente:

In [None]:
alexnet = models.AlexNet()
print(alexnet)

Lo que acabamos de obtener es un objeto que replica la arquitectura de la red neuronal _AlexNet_. Sin embargo, esta red está "sin entrenar". Necesitaríamos un conjunto de imágenes de prueba, convenientemente etiquetadas, para que pueda "autoajustar" sus parámetros. Una vez entrenada, ya podríamos usar nuestra red para clasificar imágenes.

Las funciones proporcionadas por el módulo **torchvision.modules** nos permiten instanciar modelos ya preentrenados, es decir, con sus pesos internos ajustados. Veamos como.

### Clasificando imágenes con ResNet
___
El modelo _ResNet_ ganó varios de los concursosde la competición ILSVRC en 2015. Su arquitectura se basa en estructuras conocidas de células piramidales del cortex cerebral y supuso el inicio del desarrollo de redes neuronales convolucionales extremadamente profundas (_AlexNet_ tenía 8 capas frente a las 101 que genera _resnet101_)

Vamos a crear una instancia de _ResNet_ pero de forma que "venga" ya entrenada. En este caso, a partir del _dataset_ de **ImageNet** de 1.2 millones de imágenes y 1.000 categorías

In [None]:
resnet = models.resnet101(pretrained=True)

Echemos un vistazo a la estructura de nuestra ANN. Ésta está formada por numerosas capas (_layers_), cada una de ellas compuesta por múltiples unidades funcionales (_neuronas_), conectadas entre sí para la realización de diferentes operaciones. Finalmente, esta secuencia en cascada de filtros y operaciones no lineales, terminará en una capa final donde se generarán las puntuaciones (probabilidades) para cada una de las clases de salida

In [None]:
print(resnet)

### Clasificando imágenes
---
Nuestra nueva red, referenciada por la variable _resnet_, puede ser invocada como una función, recibiendo como argumento una imagen y devolviendo, como resultado, qué es lo que la red neuronal acierta a "ver" en ella. En realidad, nos devolverá un vector con la probabilidades de que, lo que aperece en la imagen, sea cada una de las 1.000 palabras (_etiquetas_) con las que fue entrenada para clasificar imágenes.

Antes de que podamos hacer esto, necesitamos preprocesar nuestra imagen de entrada para ajustar su tamaño y rangos de los colores de los píxeles a los del set de entrenamiento. Para ello, el módulo **torchvision** nos proporciona las herramientas necesarias


In [None]:
from torchvision import transforms
preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(
        mean=[0.485, 0.456, 0.406],
        std=[0.229, 0.224, 0.225]
    )])

Hemos definido una función (_preprocess_) que "ejecutará" una serie de acciones (_Compose_) sobre nuestras imágenes: la escalará a 256x256, la recortará a 224x224 alrededor del centro, la convertirá en un tensor de PyTorch (en este caso, un vector de 3 dimensiones: alto, ancho y color RGB) y, finalmente, normalizará sus componentes RGB a los valores de media (_mean_) y desviación estándar (_std_) del _dataset_ de entrenamiento.

Ahora es el momento de coger una de nuestras fotos favoritas, preprocesarla, y ver que nos dice RasNet de ella.

Para nuestro ejemplo, vamos a usar una foto de la mítica gata _Grumpy Cat_:

In [None]:
from PIL import Image
img = Image.open("grumpy_cat.jpg")
img

Una vez cargada la imagen, vamos a preprocesarla:

In [None]:
img_t = preprocess(img)
batch_t = torch.unsqueeze(img_t, 0)

Ya estamos listos para "evaluar" la imagen con nuestra ANN. Para ello, necesitamos poner nuestro modelo en modo _eval_. A continuación le pasaremos la imagen de entrada, obteniendo como resultado un vector de probabilidades para cada una de las 1.000 clases definidas en el _dataset_ de _ImageNet_

In [None]:
resnet.eval()
out = resnet(batch_t)
print("probs:", out)

Necesitamos ahora encontrar la etiqueta de la clase que recibió la puntuación (probabilidad) más alta. Para ello, cargaremos una lista con las etiquetas con el mismo orden en que fue entrenada la red

In [None]:
with open('imagenet_classes.txt') as f:
    labels = [line.strip() for line in f.readlines()]

Ahora, determinaremos el índice correspondiente a la entrada con la puntuación máxima y extraeremos la etiqueta de la lista anterior

In [None]:
_, index = torch.max(out, 1)
percentage = torch.nn.functional.softmax(out, dim=1)[0]*100
print(labels[index[0]], percentage[index[0]].item())

Nuestra red neuronal nos dice que es un _Gato Siamés_ con un probabilidad de un 55.34%

No parece una probabilidad demasiado alta! Vamos a ver que otras opciones consideraba...

In [None]:
_, indices = torch.sort(out, descending=True)
for idx in indices[0][:5]:
    print(labels[idx], percentage[idx].item())

En realidad, dudaba entre varias razas de gato (siamés, persa,...)

Vamos a ponérselo ahora un poco más difícil con esta imagen:

In [None]:
img2 = Image.open("devon_dog.jpg")
img2

Preprocesamos la imagen y la pasamos por la red neuronal...

In [None]:
# preprocesado
img_t = preprocess(img2)
batch_t = torch.unsqueeze(img_t, 0)

# clasificación
out = resnet(batch_t)

# resultados
percentage = torch.nn.functional.softmax(out, dim=1)[0]*100
_, indices = torch.sort(out, descending=True)
for idx in indices[0][:5]:
    print(labels[idx], percentage[idx].item())

Como podemos ver, lo relevante para la red en este caso son las gafas de sol, y clasifica la imagen como tal. 

Y tú? cómo clasificarías esta imagen?

## Try it!
___

Modifica el siguiente código con la URL de la imagen que quieres que analice nuestra red neuronal


In [None]:
import urllib.request
import io

# -------------------------------------------------
# Introduce la URL aquí
URL = 'https://www.tegustaviajar.com/wp-content/uploads/2019/03/castillo-de-la-mota.jpg'
# -------------------------------------------------

with urllib.request.urlopen(URL) as url:
    f = io.BytesIO(url.read())

img_try = Image.open(f)
img_try

Y ahora ejecuta la siguiente celda (parte del código anterior se ha agrupado en la función **guess_what()**)

In [None]:
from torchvision import transforms

def guess_what(img, resnet, labels, nres):
    """Procesa la imagen y muestra los resultados más probables
    
    Args:
        img: imagen a procesar
        resnet: CNN resnet previamente entrenada
        labels: colección de eiquetas para clasificar las imágenes
        nres: número de resultados
    """
    # preprocesado -----------------------------------------
    preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(
        mean=[0.485, 0.456, 0.406],
        std=[0.229, 0.224, 0.225]
    )])
    img_t = preprocess(img)
    batch_t = torch.unsqueeze(img_t, 0)

    # clasificación ----------------------------------------
    out = resnet(batch_t)

    # muestra resultados -----------------------------------
    percentage = torch.nn.functional.softmax(out, dim=1)[0]*100
    _, indices = torch.sort(out, descending=True)

    for idx in indices[0][:nres]:
        print(labels[idx], percentage[idx].item())

# ----------------------------------------------------------
# Llamamos a la función aquí
# El último parámetro indica cuántos resultados quieres
guess_what(img_try, resnet, labels, 3)