<a href="https://colab.research.google.com/drive/1jyeHkbBzJwfC14TMuCaE_0QHKs7ofOV9" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Reconocimiento de imagen y CNNs

Fuente: https://planetachatbot.com/c%C3%B3mo-empezar-con-reconocimiento-de-imagen-y-redes-neuronales-convolucionales-en-5-minutos-7f651054dfd7

El reconocimiento de imagen es el problema de identificar y clasificar objetos en una imagen. Posiblemente, una de sus aplicaciones más comunes en la actualidad es el etiquetado automático de imágenes, usado para la gestión y organización de contenido web.

Gracias a un tipo de modelos conocidos como Convolutional Neural Networks (CNNs), redes neuronales convolucionales, el reconocimiento de imagen ha experimentado enormes progresos. Estos modelos están inspirados por los procesos biológicos que tienen lugar en el cortex visual, donde las neuronas individuales responden a estímulos en un área restringida del campo visual. Este área se superpone parcialmente con el de las neuronas más proximas, cubriendo de forma colectiva el campo visual completo.

Como resultado, las CNNs aprenden a responder a diferenctes caractéricas de la imagen (bordes, formas, etc), como los bancos de filtros utilizados en los algoritmos tradicionales y definidos de forma manual. De hecho, la capacidad de aprender dichos filtros supone una ventaja única de las CNNs, que elimina el esfuerzo manual requerido en el diseño de características.

En la actualidad, existen multitud de arquitecturas de CNN disponibles de forma gratuita y sin restricciones de uso que pueden alcanzar un rendimiento razonable en tareas de reconocimiento visual. Por ejemplo, Keras — una librería de alto nivel que sirve como capa de abstracción sobre Tensorflow — proporciona acceso a alguno de los ganadores de la competición ImageNet ILSVRC. CNNs como ResNet50 (desarrollada por Microsoft Research) o InceptionV3 (desarrollada por Google Research) se ofrecen listas para reconocer 1000 objectos comunes (lista de objectos ILSVRC).

## Cargando y ejecutando el modelo

Cualquiera de los modelos de reconocimiento de imagen disponibles en Keras puede ser cargado con sólo dos líneas de código. Esto automáticamente descargará el modelo entrenado para clasificar 1000 objetos comunes usando el conjunto de datos de ImageNet.

In [None]:
from keras.applications.inception_v3 import InceptionV3

model = InceptionV3(weights='imagenet', include_top=True)

El módulo keras.applications proporciona acceso a las arquitecturas más comunes, como VGG16, ResNet50, InceptionV3 o MobileNet. En este caso vamos a elegir la Inception-v3 de Google, que es una de las mejores, con un error top-5 del 3,46%. Valor que mide la frequencia con la que falla el modelo a la hora de predecir la respuesta correcta como una de sus cinco mejores estimaciones — error top-5 — .

## Función de predicción

Para empezar a hacer prediciones sólo necesitamos preparar la imagen de entrada y decodificar el vector de predición de salida. Para esto, vamos a escribir la función auxiliar predict.

In [None]:
import numpy as np
from keras.preprocessing import image
from keras.applications.inception_v3 import preprocess_input, decode_predictions

def predict(model, img_path, target_size=(299, 299), top_n=5):
    img = image.load_img(img_path, target_size=target_size)
    x = image.img_to_array(img)
    x = np.expand_dims(x, axis=0)
    x = preprocess_input(x)
    preds = model.predict(x)
    return decode_predictions(preds, top=top_n)[0]https://ermlab.com/en/blog/nlp/cifar-10-classification-using-keras-tutorial/

En primer lugar, la imagen tiene que ser redimensionada para adaptarse al tamaño de entrada de la red Inception-v3, en este caso target_size=(299, 299), otras redes como la VGG16 o la ResNet50 deben establecer un tamaño igual a (224, 224). La función image.load_img del módulo keras.preprocessing carga directamente la image desde su ubicación img_path y redimensiona la imagen al tamaño especificado target_size.

El siguiente paso es convertir la imagen img a un array de numpy con image.img_to_array y cambiar sus dimensiones con np.expand_dim para pasar de (3, 299, 299) a (1, 3, 299, 299). De este modo se tiene un array de 4 dimensiones con 1 imagen de 3 canales RGB y tamaño 299 por 299. Esto es necesario porque la función model.predict requiere que la entrada sea un array de 4 dimensiones, pudiendo clasificar multiples imágenes de una sola vez.

El último paso antes de la predicción es la normalización de los datos, que usa la función preprocess_input para centrarlos en cero usando la media de los valores de los canales de las imágenes del conjunto de entrenamiento. Este paso es extremadamente importante porque si no se realiza provocará que las probabilidades de las predicciones sean incorrectas.

Finalmente, el valor devuelto por la función de predicción model.predict es decodificado por decode_predictions para devolver el resultado de la clasificiación a través de la correspondiente etiqueta y la probabilidad predicha.

**Carga de la imagen**

Definido nuestro sistema de reconocimiento, solo necesitamos cargar nuestras propias imágenes para probar su funcionamiento. Para ello, podemos usar directamente el código que podemos encontrar al hacer click en el botón negro que se encuentra en lo alto a la izquierda, justo debajo del menú.

In [None]:
nombre_base = 'dog.jpg'
base_image_path =  nombre_base
fn=plt.imread(base_image_path)
plt.imread(base_image_path)
plt.figure(figsize = (8,6))
plt.imshow(plt.imread(base_image_path))
plt.show()

Funciones auxiliares

In [None]:
import matplotlib.pyplot as plt

def plot_image(img_path):
    img = image.load_img(fn, target_size=(299, 299))
    plt.figure(figsize=(8, 8))
    plt.imshow(img, interpolation='nearest')
    plt.axis('off')
    
def plot_pred(pred):
    plt.figure(figsize=(8, 2))
    classes = [c[1] for c in pred]
    probas = [c[2] for c in pred]
    y_pos = np.arange(len(classes))
    plt.barh(y_pos, probas, align='center')
    plt.yticks(y_pos, classes)
    plt.gca().invert_yaxis()
    plt.xlabel('Probability')
    plt.xlim(0, 1)

**Predicción**

Cargada la imagen, obtendremos una predición que se mostrará como a continuación.

In [None]:
pred = predict(model, nombre_base)
plot_pred(pred)

## The CIFAR10 Dataset

Fuente: Khipu 2019

Ahora que entendemos las capas convolucionales, podemos combinarlas como bloques de construcción para construir un clasificador ConvNet para imágenes. Para esta práctica, utilizaremos el conjunto de datos de imagen en color CIFAR10 (pronunciado "seefar ten") que consta de 50,000 imágenes de entrenamiento y 10,000 imágenes de prueba. Tomamos 10,000 imágenes del conjunto de entrenamiento para formar un conjunto de validación y visualizar algunas imágenes de ejemplo.

In [None]:
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
from IPython import display
%matplotlib inline

In [None]:
from keras.datasets import cifar10
(train_images, train_labels), (test_images, test_labels)= cifar10.load_data()
cifar_labels = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']

In [None]:
# Take the last 10000 images from the training set to form a validation set
train_labels = train_labels.squeeze()
validation_images = train_images[-10000:, :, :]
validation_labels = train_labels[-10000:]
train_images = train_images[:-10000, :, :]
train_labels = train_labels[:-10000]

¿Cuáles son las formas y los tipos de datos de train_images y train_labels?

In [None]:
print('train_images.shape = {}, data-type = {}'.format(train_images.shape, train_images.dtype))
print('train_labels.shape = {}, data-type = {}'.format(train_labels.shape, train_labels.dtype))

print('validation_images.shape = {}, data-type = {}'.format(validation_images.shape, validation_images.dtype))
print('validation_labels.shape = {}, data-type = {}'.format(validation_labels.shape, validation_labels.dtype))

### Visualizar ejemplos del conjunto de datos.
Ejecute la celda a continuación varias veces para ver varias imágenes. (Pueden verse un poco borrosos porque hemos eliminado las imágenes pequeñas).

In [None]:
plt.figure(figsize=(10,10))
for i in range(25):
  plt.subplot(5,5,i+1)
  plt.xticks([])
  plt.yticks([])
  plt.grid('off')

  img_index = np.random.randint(0, 40000)
  plt.imshow(train_images[img_index])
  plt.xlabel(cifar_labels[train_labels[img_index]])

## A ConvNet Classifier

Finalmente, construimos una arquitectura convolucional simple para clasificar las imágenes CIFAR. Construiremos una versión mini de la arquitectura AlexNet, que consta de 5 capas convolucionales con agrupación máxima, seguidas de 3 capas completamente conectadas al final. Para investigar el efecto que tiene cada una de estas dos capas en la cantidad de parámetros, construiremos el modelo en dos etapas.

Primero, las capas convolucionales + max-pooling:

In [None]:
# Define the convolutinal part of the model architecture using Keras Layers.
model = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(filters=48, kernel_size=(3, 3), activation=tf.nn.relu, input_shape=(32, 32, 3), padding='same'),
    tf.keras.layers.MaxPooling2D(pool_size=(3, 3)),
    tf.keras.layers.Conv2D(filters=128, kernel_size=(3, 3), activation=tf.nn.relu, padding='same'),
    tf.keras.layers.MaxPooling2D(pool_size=(3, 3)),
    tf.keras.layers.Conv2D(filters=192, kernel_size=(3, 3), activation=tf.nn.relu, padding='same'),
    tf.keras.layers.Conv2D(filters=192, kernel_size=(3, 3), activation=tf.nn.relu, padding='same'),
    tf.keras.layers.Conv2D(filters=128, kernel_size=(3, 3), activation=tf.nn.relu, padding='same'),
    tf.keras.layers.MaxPooling2D(pool_size=(3, 3)),
])


¿Cuántos parámetros hay en la parte convolucional de la arquitectura? Podemos inspeccionar esto fácilmente usando la función de resumen del modelo en Keras:

In [None]:
model.summary()

Ahora agregamos una parte completamente conectada. Tenga en cuenta que también agregamos "Dropout" después de la primera capa completamente conectada. Dropout es una técnica de regularización que elimina de forma aleatoria las conexiones ("caídas") entre las neuronas, y fue una de las innovaciones clave del documento de AlexNet en 2012.

In [None]:
model.add(tf.keras.layers.Flatten())  # Flatten "squeezes" a 3-D volume down into a single vector.
model.add(tf.keras.layers.Dense(1024, activation=tf.nn.relu))
model.add(tf.keras.layers.Dropout(rate=0.5))
model.add(tf.keras.layers.Dense(1024, activation=tf.nn.relu))
model.add(tf.keras.layers.Dense(10, activation=tf.nn.softmax))

In [None]:
model.summary()

### Lectura adicional opcional: esquemas de inicialización aleatoria
Es posible que se haya preguntado qué valores estamos usando para los valores iniciales de los pesos y sesgos en nuestro modelo. La respuesta corta es que generalmente usamos inicialización aleatoria. En este caso, acabamos de utilizar los inicializadores Keras predeterminados para cada capa, que generalmente son suficientes.

La respuesta más larga es que el uso de números completamente aleatorios no siempre funciona mejor en la práctica y que hay una serie de esquemas de inicialización comunes (que están disponibles en la mayoría de los marcos de aprendizaje profundo como TensorFlow y Keras).

Consideremos algunos ejemplos:

 * Cuando se usa la activación de ReLU, es común inicializar los sesgos con pequeños números positivos porque esto alienta a las activaciones de ReLU a comenzar en el estado _on_.

 * Cuanto más profundas sean las redes neuronales, más probable es que los gradientes se reduzcan hasta el punto en que desaparezcan o crezcan hasta el punto en que se desborden (los problemas de gradientes que desaparecen y explotan). Para ayudar a combatir esto, podemos inicializar nuestros pesos para tener una escala apropiada (específica del modelo). Un método para hacerlo se llama inicialización [Xavier o Glorot] (http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf).

 * El esquema de inicialización _Xavier_ fue diseñado con las activaciones tradicionales Sigmoid y TanH y no funciona tan bien para las activaciones ReLU. Una alternativa es la inicialización [Él o Kaiming] (https://arxiv.org/pdf/1502.01852.pdf), que es una modificación de la inicialización de Xavier para las activaciones de ReLU.

 [Este blog] (http://andyljones.tumblr.com/post/110998971763/an-explanation-of-xavier-initialization) entra en más detalles sobre la inicialización _He_ y _Xavier_. [La documentación de Keras] (https://keras.io/initializers/) enumera una serie de esquemas comunes.

### Visualizando el modelo

Construyamos un diagrama de flujo del modelo que hemos construido para ver cómo fluye la información entre las diferentes capas.

In [None]:
tf.keras.utils.plot_model(model, to_file='small_lenet.png', show_shapes=True, show_layer_names=True)
display.display(display.Image('small_lenet.png'))


### Formación y validación del modelo.

En la última práctica, escribimos la tubería del conjunto de datos, la función de pérdida y el ciclo de entrenamiento para darle una buena apreciación de cómo funciona. Esta vez, usamos el bucle de entrenamiento integrado en Keras. Para conjuntos de datos simples y estándar como CIFAR, hacerlo de esta manera funcionará bien, ¡pero es importante saber qué sucede debajo del capó porque es posible que deba escribir algunos o todos los pasos manualmente cuando trabaje con conjuntos de datos más complejos!

In [None]:
batch_size = 128
num_epochs = 10  # The number of epochs (full passes through the data) to train for

# Compiling the model adds a loss function, optimiser and metrics to track during training
model.compile(optimizer=tf.keras.optimizers.Adam(),
              loss=tf.keras.losses.sparse_categorical_crossentropy,
              metrics=['accuracy'])

# The fit function allows you to fit the compiled model to some training data
model.fit(x=train_images,
          y=train_labels,
          batch_size=batch_size,
          epochs=num_epochs,
          validation_data=(validation_images, validation_labels.astype(np.float32)))

print('Training complete')

### Evaluación del Test 


In [None]:
metric_values = model.evaluate(x=test_images, y=test_labels)

print('Final TEST performance')
for metric_value, metric_name in zip(metric_values, model.metrics_names):
  print('{}: {}'.format(metric_name, metric_value))

Tenga en cuenta que logramos aproximadamente un 80% de precisión del conjunto de entrenamiento, pero nuestra precisión de prueba es solo de alrededor del 67%. ¿Cuál crees que puede ser la razón de esto?

### Clasificando ejemplos
Ahora usamos nuestro modelo entrenado para clasificar una muestra de 25 imágenes del conjunto de prueba. Pasamos estas 25 imágenes a la función `` model.predict```, que devuelve una matriz dimensional [25, 10]. La entrada en la posición $ (i, j) $ de esta matriz contiene la probabilidad de que la imagen $ i $ pertenezca a la clase $ j $. Obtenemos la predicción más probable utilizando la función `` np.argmax '' que devuelve el índice de la entrada máxima a lo largo de las columnas. Finalmente, graficamos el resultado con la predicción y la probabilidad de predicción etiquetadas debajo de la imagen y la etiqueta verdadera en el lateral.

In [None]:
img_indices = np.random.randint(0, len(test_images), size=[25])
sample_test_images = test_images[img_indices]
sample_test_labels = [cifar_labels[i] for i in test_labels[img_indices].squeeze()]

predictions = model.predict(sample_test_images)
max_prediction = np.argmax(predictions, axis=1)
prediction_probs = np.max(predictions, axis=1)

In [None]:
plt.figure(figsize=(10,10))
for i, (img, prediction, prob, true_label) in enumerate(
    zip(sample_test_images, max_prediction, prediction_probs, sample_test_labels)):
  plt.subplot(5,5,i+1)
  plt.xticks([])
  plt.yticks([])
  plt.grid('off')

  plt.imshow(img)
  plt.xlabel('{} ({:0.3f})'.format(cifar_labels[prediction], prob))
  plt.ylabel('{}'.format(true_label))
