<a href="https://colab.research.google.com/github/DCDPUAEM/DCDP/blob/main/04%20Deep%20Learning/notebooks/05-CNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Clasificaci√≥n con Redes Neuronales Convolucionales</h1>

En esta notebook usaremos una red neuronal convolucional (CNN) para clasificar el dataset *cats vs dogs* de kaggle. Observaremos, adem√°s, el efecto del dropout y analizaremos la informaci√≥n de las capas ocultas para ganar intuici√≥n sobre el funcionamiento interno de este tipo de redes.

___

Verifiquemos que el entorno de ejecuci√≥n en Colab sea GPU

In [None]:
import tensorflow as tf

print('GPU presente en: {}'.format(tf.test.gpu_device_name()))

# [El dataset Dogs vs. Cats](https://www.kaggle.com/c/dogs-vs-cats/overview)

El conjunto de datos de Dogs vs Cats fue publicado por Kaggle como parte de una competencia de visi√≥n computacional a fines de 2013, cuando las CNNs no eran muy comunes.

Se puede descargar el dataset original en: https://www.kaggle.com/c/dogs-vs-cats/data.

Esta notebook se puede usar con dos conjuntos de datos:

* Usaremos el conjunto de datos original de entrenamiento, dado que contiene las etiquetas de las clases. Este conjunto contiene 25,000 im√°genes de perros y gatos (12,500 de cada clase) y tiene un tama√±o de 543 MB. Ya se encuentra dividido en *train*, *validation* y *test*. [Download](https://drive.google.com/file/d/1Q3xOfn2Up9uIOLviS66oYH_oFFK-IGpW/view?usp=sharing)

* Usaremos un conjunto reducido de datos, el cual contiene 1000 im√°genes de cada clase para entrenamiento, 500 para validaci√≥n y 500 para prueba. Todos los datos se sacaron del conjunto de entrenamiento original. [Download](https://drive.google.com/file/d/1Ce3u8dwYYriLkz5OpcGn72xIQENIHZX5/view?usp=sharing)

Copiaremos el dataset desde un v√≠nculo de Google Drive

In [None]:
!pip install -qq gdown

Descargamos el dataset desde Google Drive

In [None]:
# ----- Versi√≥n completa -----
# !gdown --id 1Q3xOfn2Up9uIOLviS66oYH_oFFK-IGpW

# ----- Copia de la versi√≥n completa -----
# !gdown 1hchhNQ_3WNncaXVD3kX58EIppcYFt-E2

# ----- Versi√≥n reducida -----
!gdown 1Ce3u8dwYYriLkz5OpcGn72xIQENIHZX5

# ----- Copia de la versi√≥n reducida -----
# !gdown 1NK9LvrVwsEQM0UHkFHq_GYCF2fjGrwAP

Descomprimimos

In [None]:
from zipfile import ZipFile

# file_name = '/content/cnn_perros_gatos.zip'
# file_name = '/content/cnn_perros_gatos-copia.zip'
file_name = '/content/cnn_perros_gatos-small.zip'
# file_name = '/content/cnn_perros_gatos-small-copia.zip'

with ZipFile(file_name, 'r') as myzip:
    myzip.extractall()
    print('Listo')

Veamos algunas im√°genes del dataset, como podemos ver:

* Son archivos jpeg
* Tienen diferentes tama√±os

In [None]:
!pip install -qq ipyplot

In [None]:
from PIL import Image
import ipyplot
import random, os

path_1 = '/content/cnn_perros_gatos/train/cats'
path_2 = '/content/cnn_perros_gatos/train/dogs'

filenames_1 = random.sample(os.listdir(path_1), 5)
filenames_2 = random.sample(os.listdir(path_2), 5)

full_filenames_1 = [os.path.join(path_1, fname) for fname in filenames_1]
full_filenames_2 = [os.path.join(path_2, fname) for fname in filenames_2]

filenames = full_filenames_1 + full_filenames_2
images_list = [Image.open(fname) for fname in filenames]

ipyplot.plot_images(images_list,show_url=False,)

üîµ ¬øQu√© retos presentar√≠a este dataset para una MLP?

Exploramos las carpetas de entrenamiento, validaci√≥n y prueba.

In [None]:
import os, shutil

train_dogs = 'cnn_perros_gatos/train/dogs'
print('Para entrenamiento:')
print(f'\t{len(os.listdir(train_dogs))} Perros.')
train_cats = 'cnn_perros_gatos/train/cats'
print(f'\t{len(os.listdir(train_cats))} Gatos.')
print('\nPara validaci√≥n:')
validation_dogs = 'cnn_perros_gatos/validation/dogs'
print(f'\t{len(os.listdir(validation_dogs))} Perros.')
validation_cats = 'cnn_perros_gatos/validation/cats'
print(f'\t{len(os.listdir(validation_cats))} Gatos.')
print('\nPara prueba:')
test_dogs = 'cnn_perros_gatos/test/dogs'
print(f'\t{len(os.listdir(test_dogs))} Perros.')
test_cats = 'cnn_perros_gatos/test/cats'
print(f'\t{len(os.listdir(test_cats))} Gatos.')

Definimos los directorios de entrenamiento, validaci√≥n y prueba para usaralos en el resto de la notebook.

In [None]:
train_dir = 'cnn_perros_gatos/train'
validation_dir = 'cnn_perros_gatos/validation'
test_dir = 'cnn_perros_gatos/test'

# Modelo 1

Definimos un primer modelo de CNN. Usaremos las capas `Conv2D` para las operaciones de convoluci√≥n y `MaxPooling2D` para el pooling.

* https://keras.io/api/layers/convolution_layers/convolution2d/
* https://keras.io/api/layers/pooling_layers/max_pooling2d/

In [None]:
from keras.layers import Conv2D, MaxPooling2D, Dense, Flatten
from keras.models import Sequential

model = Sequential([
    Conv2D(32, 3, activation='relu',
                           input_shape=(150, 150, 3)),  # ¬øPor qu√© 150x150?
    MaxPooling2D(),
    Conv2D(64, 3, activation='relu'),
    MaxPooling2D(),
    Conv2D(128, 3, activation='relu'),
    MaxPooling2D(),
    Conv2D(128, 3, activation='relu'),
    MaxPooling2D(),
    Flatten(),
    Dense(512, activation='relu'),
    Dense(1, activation='sigmoid')
])

In [None]:
model.summary()

* NOTA que comenzamos con im√°genes de tama√±o 150 x 150 (una elecci√≥n de tama√±o arbitraria) y terminamos con mapas de caracter√≠sticas de tama√±o 7 x 7 justo antes de la capa de *flatten*.
* En realidad las im√°genes de entrada tienen tama√±os diversos (desconocidos), pero afortunadamente Keras nos puede ayudar a pre-procesarlas.

Compilamos el modelo

In [None]:
from keras.optimizers import RMSprop

opt = RMSprop(learning_rate=1e-4)

In [None]:
model.compile(optimizer=opt,
              loss='binary_crossentropy',
              metrics=['accuracy'])

## Preprocesamiento de datos


Los datos deben formatearse en tensores de punto flotante preprocesados adecuadamente antes de que se introduzcan en la red. En este momento, nuestros datos se encuentran almacenados como archivos JPEG, por lo que los pasos para que puedan ser introducidos en nuestra red son:

* Leer los archivos de imagen.

* Decodificar el contenido JPEG a cuadr√≠culas de p√≠xeles RBG.

* Convertirlos en tensores de punto flotante.

* Volver a escalar los valores de p√≠xeles (entre 0 y 255) al intervalo $[0, 1]$ (las redes neuronales prefieren tratar con valores de entrada peque√±os).

Afortunadamente, Keras tiene herramientas para encargarse de estos pasos autom√°ticamente. Keras tiene un m√≥dulo con herramientas de ayuda para procesamiento de im√°genes, ubicado en **keras.preprocessing.image**. En particular, contiene la clase **ImageDataGenerator**, que permite configurar r√°pidamente los generadores de Python que pueden convertir autom√°ticamente los archivos de imagen en disco en *batches* de tensores preprocesados.

In [None]:
from keras.preprocessing.image import ImageDataGenerator

# Todas las im√°genes ser√°n reescaladas por 1./255.
train_datagen = ImageDataGenerator(rescale=1./255)
test_datagen = ImageDataGenerator(rescale=1./255)
val_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(
        train_dir,              # Directorio donde buscar√° las imagenes
        target_size=(150, 150), # Todas las im√°genes se redimensionar√°n a 150 x 150
        batch_size=20,
        class_mode='binary'     # Es una tarea de clasificaci√≥n binaria
        )

test_generator = test_datagen.flow_from_directory(
        test_dir,
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')

validation_generator = val_datagen.flow_from_directory(
        validation_dir,
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')

* Vamos a revisar la salida de uno de estos generadores: produce batches de im√°genes de 150 x 150 RGB (con la forma (20, 150, 150, 3)) y etiquetas binarias (con la forma (20,)). 20 es el n√∫mero de muestras en cada batch (el tama√±o del batch).
* Como el generador genera estos batches de forma indefinida (i.e. recorre sin fin las im√°genes presentes en la carpeta que se le indic√≥), se necesita romper el loop de iteraci√≥n en alg√∫n punto. A continuaci√≥n podemos ver c√≥mo es cada corrida (batch/step) que proporciona el generador.

In [None]:
for data_batch, labels_batch in train_generator:
    print(f'Dimensiones del batch de im√°genes: {data_batch.shape}')
    print(f'Dimensiones del batch de las etiquetas: {labels_batch.shape}')
    break

* Vamos a proceder a entrenar nuestro modelo con los datos usando el generador. Debido a que los datos se generan infinitamente, el generador necesita saber cu√°ntas muestras extraer antes de declarar una √©poca finalizada. Esta es la funci√≥n del argumento **steps_per_epoch**

* En este caso, **steps_per_epoch** corresponde al n√∫mero de batches que requiere el generador para leer el conjunto de datos completo. S√≥lo despu√©s de haber solicitado este n√∫mero de batches, el proceso de ajuste de nuestro modelo pasar√° a la siguiente √©poca. **steps_per_epoch** corresponde a el n√∫mero de pasos de descenso del gradiente. En nuestro caso, cada batch tiene un tama√±o de 20 muestras, por lo que tomar√° 100 pasos (batches) hasta que cubramos las 2,000 muestras de nuestra base de datos.

* Como siempre, uno puede pasar un argumento llamado **validation_data**. Es importante destacar que este argumento puede ser un generador de datos en s√≠ mismo, pero tambi√©n podr√≠a ser una tupla de arreglos Numpy. Si se pasa un generador como **validation_data**, entonces se espera que este generador produzca batches de datos de validaci√≥n sin fin, y por lo tanto tambi√©n se debe especificar el argumento **validation_steps**, que le dice al proceso cu√°ntos batches debe extraer del generador de validaci√≥n para su evaluaci√≥n.

## Entrenamiento del modelo

Tarda alrededor de 3 minutos



In [None]:
history = model.fit(
      train_generator,
      steps_per_epoch=100,
      epochs=30,
      validation_data=validation_generator,
      validation_steps=50)

## Rendimiento del modelo

Guardamos el modelo

In [None]:
model.save('cnn_perros_gatos_model1.h5')

Grafiquemos las curvas de aprendizaje

In [None]:
import matplotlib.pyplot as plt

# ---- graficamos la funci√≥n de perdida ----
plt.figure(figsize=(11,5))
plt.subplot(1,2,1)
plt.title("Validation and Training Loss",fontsize=14)
plt.plot(history.history['loss'], label='train')
plt.plot(history.history['val_loss'], label='validation')
plt.legend()
# ---- graficamos la m√©trica de rendimiento ----
plt.subplot(1,2,2)
plt.title("Validation and Training Accuracy",fontsize=14)
plt.plot(history.history['accuracy'], label='train')
plt.plot(history.history['val_accuracy'], label='validation')
plt.legend()
plt.show()

**Overfitting**... ¬°Tenemos muy pocos ejemplos!

In [None]:
model.evaluate(test_generator)

# Modelo 2

## Aumento de Datos

* El efecto de sobreajuste ocurre cuando se tienen muy pocas muestras de las que aprender, lo que nos impide entrenar un modelo capaz de generalizar a nuevos datos. Si tuviesemos datos infinitos, nuestro modelo estar√≠a expuesto a todos los aspectos posibles de la distribuci√≥n de datos en cuesti√≥n y nunca se sobreajustar√≠a nuestro modelo.

* El aumento de datos adopta el enfoque de generar m√°s datos de entrenamiento a partir de muestras de entrenamiento existentes, al "aumentar" las muestras a trav√©s de una serie de transformaciones aleatorias que producen im√°genes de apariencia cre√≠ble. El objetivo es que durante el tiempo de entrenamiento, nuestro modelo nunca vea exactamente la misma imagen dos veces. Esto ayuda a que el modelo se exponga a m√°s aspectos de los datos y generalice mejor.

* En Keras, esto se puede hacer configurando una serie de transformaciones aleatorias que se realizar√°n en las im√°genes le√≠das por nuestra instancia de ImageDataGenerator.

* Vamos a comenzar por aumentar una imagen.



In [None]:
datagen = ImageDataGenerator(
      rotation_range=40,
      width_shift_range=0.2,
      height_shift_range=0.2,
      shear_range=0.2,
      zoom_range=0.2,
      horizontal_flip=True,
      fill_mode='nearest')

Las opciones anteriores son solo algunas de las opciones disponibles.

* **rotation_range** es un valor en grados (0-180), un rango dentro del cual girar las im√°genes de forma aleatoria.

* **width_shift** y **height_shift** son rangos expresados como una fracci√≥n del ancho o altura total de la imagen, dentro de los cuales se pueden trasladar vertical u horizontalmente de forma aleatoria a las im√°genes.

* **shear_range** aplica aleatoriamente transformaciones de corte.

* **zoom_range** aplica acercamientos aleatorios dentro de las im√°genes.

* **horizontal_flip** Voltea de forma aleatoria la mitad en las im√°genes horizontalmente.

* **fill_mode** es la estrategia utilizada para rellenar p√≠xeles creados, que pueden aparecer despu√©s de una rotaci√≥n o un cambio de ancho / altura.

Generamos 25 im√°genes modificadas a partir de una misma imagen

In [None]:
from keras import utils
import random

train_cats_dir = '/content/cnn_perros_gatos/train/cats' # El directorio donde est√°n las im√°genes de gatos de entrenamiento
fnames = [os.path.join(train_cats_dir, fname) for fname in os.listdir(train_cats_dir)]
img_path = random.sample(fnames, 1)[0] # Escogemos una imagen al azar para aplicar el "aumentado de datos"
img = utils.load_img(img_path, target_size=(150, 150)) # Leemos la imagen y la redimensionamos.
x = utils.img_to_array(img) # Leemos la imagen y la redimensionamos.
x = x.reshape((1,) + x.shape) # Redimensionamos el arreglo a (1, 150, 150, 3)

'''
El comando .flow () genera batches de im√°genes transformadas aleatoriamente
Con el "for" de abajo estaremos en un loop indefinidamente,
Necesitamos 'romper' el loop en alg√∫n momento
'''

fig, axs = plt.subplots(5,5,figsize=(10,10))
k = 0
for batch in datagen.flow(x, batch_size=1):
    i = k//5
    j = k%5
    axs[i,j].imshow(utils.array_to_img(batch[0]))
    axs[i,j].axis('off')
    k += 1
    if k == 25:
        break
plt.tight_layout()
plt.show()

* Si entrenamos una nueva red neuronal utilizando esta configuraci√≥n de aumento de datos, nuestra red nunca ver√° dos veces la misma entrada, pues a cada nueva imagen se le aplica transformaciones aleatorias dentro de ciertos rangos.

* Sin embargo, las entradas que ves est√°n a√∫n muy interrelacionadas, ya que provienen de un peque√±o n√∫mero de im√°genes originales: **no podemos producir nueva informaci√≥n, s√≥lo podemos mezclar la informaci√≥n existente**.

* Dado que esto podr√≠a no ser suficiente para librarnos del sobreajuste. Para mitigarlo a√∫n m√°s, tambi√©n agregaremos una capa de Dropout a nuestro modelo, justo antes de la etapa del clasificador densamente conectado (fully-connected).

Definimos la misma red CNN, con dropout.

In [None]:
from keras.layers import Conv2D, MaxPooling2D, Dense, Flatten, Dropout
from keras.models import Sequential

model = Sequential([
    Conv2D(32, 3, activation='relu', input_shape=(150, 150, 3),name='Convolution1'),
    MaxPooling2D(name='MaxPooling1'),
    Conv2D(64, 3, activation='relu',name='Convolution2'),
    MaxPooling2D(name='MaxPooling2'),
    Conv2D(128, 3, activation='relu',name='Convolution3'),
    MaxPooling2D(name='MaxPooling3'),
    Conv2D(128, 3, activation='relu',name='Convolution4'),
    MaxPooling2D(name='MaxPooling4'),
    Flatten(name='Flatten'),
    Dropout(0.1,name='DropOut'), # 0.5
    Dense(512, activation='relu',name='Densa'),
    Dense(1, activation='sigmoid',name='Salida')
])

In [None]:
model.summary()

In [None]:
from keras.optimizers import RMSprop

opt = RMSprop(learning_rate=1e-4)

In [None]:
model.compile(optimizer=opt,
              loss='binary_crossentropy',
              metrics=['accuracy'])

## Entrenamiento

Definimos los nuevos generadores de im√°genes

In [None]:
train_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,)

# Debemos notar que los datos del conjunto validaci√≥n y prueba no son sometidos
# al aumentado de datos

test_datagen = ImageDataGenerator(rescale=1./255)

val_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(
        # Esta es la carpeta de origen
        train_dir,
        # Todas las im√°genes se redimensionar√°n a 150 x 150
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')

test_generator = test_datagen.flow_from_directory(
        test_dir,
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')

validation_generator = val_datagen.flow_from_directory(
        validation_dir,
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')

Entrenemos el modelo.

**Observaci√≥n**: Para mejores resultados entrenar durante 100 √©pocas (tarda alrededor de 30 minutos). Por cuestiones de tiempo, entrenamos con 30 √©pocas (tarda alrededor de 8 minutos).

In [None]:
history = model.fit(
                train_generator,
                steps_per_epoch=100,
                epochs=30,
                validation_data=validation_generator,
                validation_steps=50,
                verbose=2)

In [None]:
# Descomentar la siguiente linea si entrenaste con epochs = 100
model.save('cnn_perros_gatos_model2.h5')

Veamos las curvas de entrenamiento

In [None]:
# ---- graficamos la funci√≥n de perdida ----
plt.figure(figsize=(11,5))
plt.subplot(1,2,1)
plt.title("Validation and Training Loss",fontsize=14)
plt.plot(history.history['loss'], label='train')
plt.plot(history.history['val_loss'], label='validation')
plt.legend()
# ---- graficamos la m√©trica de rendimiento ----
plt.subplot(1,2,2)
plt.title("Validation and Training Accuracy",fontsize=14)
plt.plot(history.history['accuracy'], label='train')
plt.plot(history.history['val_accuracy'], label='validation')
plt.legend()
plt.show()

In [None]:
model.evaluate(validation_generator)

## ¬øQu√© pasar√≠a si entrenas con 100 √©pocas?

Con 100 √©pocas se obtendr√≠an los siguientes resultados:

![](https://drive.google.com/uc?id=1tqFh1ETyhtOE3ttAIkjk8cqFy-e-SLR_)

El accuracy fue de 80.1%


Podemos descargar este modelo ya entrenado de Google Drive

### ‚ö° Podemos seguirlo usando o leerlo desde un archivo

In [None]:
!gdown 1m5kfBviSBa6dI9wEwBpowwlBJ1EUdds0

In [None]:
from keras.models import load_model

model = load_model('cnn_perros_gatos_extra_imgs_100_epocas.h5')
model.summary()

## ‚ûñ Visualizando los mapas de caracter√≠sticas de una red neuronal convolucional

Algunos se√±alan que los modelos de aprendizaje profundo funcionan como "cajas negras", pues aprenden representaciones que son dif√≠ciles de extraer y presentar de una forma legible para el ser humano.

Si bien esto es parcialmente cierto para algunos tipos de modelos de aprendizaje profundo, definitivamente no lo es para las redes convolucionales (*CNN*). Las representaciones aprendidas por las redes convolucionales son altamente susceptibles de visualizaci√≥n, en gran parte porque son representaciones de conceptos visuales. Desde 2013, se ha desarrollado una amplia gama de t√©cnicas para visualizar e interpretar estas representaciones. No exploraremos todas ellas, pero mencionaremos tres de las m√°s accesibles y √∫tiles:



*   **Visualizaci√≥n de las salidas intermedias de una *CNN*  ("activaciones intermedias")**. Este m√©todo es √∫til para entender c√≥mo las capas sucesivas de una red convolucional transforman su entrada y para obtener una noci√≥n de la funci√≥n de los filtros individuales en una red convolucional .

*   **Visualizaci√≥n de los  filtros en una CNN**. Este m√©todo es √∫til para entender con precisi√≥n a qu√© patr√≥n o concepto visual es receptivo cada filtro en una red convolucional.

*   **Visualizaci√≥n de los mapas de calor de activaci√≥n por clase en una imagen**. Este m√©todo es √∫til para entender qu√© parte de una imagen se identific√≥ como perteneciente a una clase determinada y, por lo tanto, permite localizar objetos en im√°genes.

En este ejercicio, abordaremos √∫nicamente el primer m√©todo, la visualizaci√≥n de las activaciones intermedias o mapas de caracter√≠sticas. Para ello, usaremos la CNN que entrenamos anteriormente.



Seleccionaremos una imagen de entrada, puede ser cualquier imagen del **conjunto de test**. Por ser del conjunto de test, no forma parte de las im√°genes sobre las que se entren√≥ la red.



In [None]:
from keras import utils
import numpy as np

# ----- Para el conjunto de datos completo ----
# img_path = 'cnn_perros_gatos/test/cats/cat.147.jpg'   # Una im√°gen de un gato
# img_path = 'cnn_perros_gatos/test/dogs/dog.1517.jpg'  # Una im√°gen de un perro

# ----- Para el conjunto de datos reducido ----
img_path = '/content/cnn_perros_gatos/test/cats/cat.10128.jpg'
# img_path = '/content/cnn_perros_gatos/test/dogs/dog.10086.jpg'

# ----- Preprocesamos la imagen en un tensor 4D

img = utils.load_img(img_path, target_size=(150, 150))
img_tensor = utils.img_to_array(img)
img_tensor = np.expand_dims(img_tensor, axis=0)

# ----- Debemos recordar que el modelo fue entrenado con imagenes de entrada preprocesadas de la siguiente manera:
img_tensor /= 255.

# Debemos ver que su forma es de (1, 150, 150, 3)
print(img_tensor.shape)

Mostramos la im√°gen

In [None]:
import matplotlib.pyplot as plt

plt.imshow(img_tensor[0])
plt.axis('Off')
plt.show()

* Para extraer los mapas de caracter√≠sticas que queremos visualizar, crearemos un modelo de Keras que toma lotes √≥ *batches* de im√°genes como entrada y genera las activaciones de todas las capas de convoluci√≥n y *pooling*.
* Para ello, utilizaremos la clase de Keras **Model**, que ya vimos anteriormente. Un **model** se instancia mediante dos argumentos: un tensor de entrada (o lista de tensores de entrada) y un tensor de salida (o lista de tensores de salida). La clase resultante es un modelo de Keras, igual que los modelos secuenciales (Sequential models) que ya estudiamos, que mapea las entradas especificadas a las salidas especificadas. Lo que distingue a la clase **Model** es que permite modelos con m√∫ltiples salidas, a diferencia de **Sequential**.

In [None]:
model.layers[0].output

In [None]:
# Extraemos las salidas de las 8 capas superiores:
layer_outputs = [layer.output for layer in model.layers[:8]]
# Creamos un modelo que devolver√° estas salidas, dada la entrada al modelo:
activation_model = tf.keras.models.Model(inputs=model.input, outputs=layer_outputs)

* Cuando se introduce una imagen como entrada a la red, este modelo devuelve los valores de las activaciones de las capas del modelo original. Hasta antes de esta secci√≥n del ejercicio, el modelo que se present√≥ s√≥lo ten√≠a exactamente una entrada y una salida. Ahora estamos introduciendo el concepto de un modelo con m√∫ltiples salidas.

* En el caso general, un modelo podr√≠a tener cualquier n√∫mero de entradas y salidas. Este √∫ltimo modelo tiene una entrada y 8 salidas, una salida por capa de activaci√≥n.

In [None]:
# Esto devolver√° una lista de arreglos de Numpy: Un arreglo por capa de activaci√≥n
activations = activation_model.predict(img_tensor)

In [None]:
activations[1].shape

Por ejemplo, vamos a imprimir las dimensiones  del mapa de caracter√≠sticas/activaciones de la primer capa convolucional para la imagen del gato:

In [None]:
first_layer_activation = activations[0]
print(first_layer_activation.shape)

Es un mapa de caracter√≠sticas con una dimensi√≥n de 148 x 148 con 32 canales o profundidad.

Vamos a visualizar el 3er canal de ese mapa de caracter√≠sticas.

In [None]:
import matplotlib.pyplot as plt

plt.matshow(first_layer_activation[0, :, :, 28], cmap='plasma')
plt.axis('Off')
plt.show()

Probemos alg√∫n otro canal, pero debemos tener en cuenta que los canales que tenga uno pueden variar de los que tiene cualquier otro, ya que los filtros que en espec√≠fico aprende la red en las capas convolucionales no son determin√≠sticos.

In [None]:
plt.matshow(first_layer_activation[0, :, :, 30], cmap='viridis')
plt.axis('Off')
plt.show()

Finalmente, vamos a desplegar un gr√°fico completo de todas las activaciones en la red. En otras palabras, vamos a extraer y mostrar cada canal presente en cada uno de nuestros 8 mapas de caracter√≠sticas. Apilaremos los resultados en un gran tensor de imagen, con los canales colocados uno junto al otro.



Primero, guardamos los nombres de las capas

In [None]:
layer_names = []
for layer in model.layers[:8]:
    layer_names.append(layer.name)

images_per_row = 16

In [None]:

for k,(layer_name, layer_activation) in enumerate(zip(layer_names, activations)):
    # Este es el n√∫mero de caracter√≠sticas presentes en un mapa de caracter√≠sticas
    n_features = layer_activation.shape[-1]

    # El mapa de caracter√≠sticas tiene la forma: (1, size, size, n_features)
    size = layer_activation.shape[1]

    # Vamos a colocar los canales de activaci√≥n en esta matriz
    n_cols = n_features // images_per_row
    display_grid = np.zeros((size * n_cols, images_per_row * size))

    # Colocaremos cada mapa en esta gran malla horizontal
    for col in range(n_cols):
        for row in range(images_per_row):
            channel_image = layer_activation[0, :, :, col * images_per_row + row]

            # Procesaremos el mapa de caracter√≠sticas para que sea visualmente agradable
            channel_image -= channel_image.mean()
            channel_image /= channel_image.std()
            channel_image *= 64
            channel_image += 128
            channel_image = np.clip(channel_image, 0, 255).astype('uint8')
            display_grid[col * size : (col + 1) * size,
                         row * size : (row + 1) * size] = channel_image

    # Mostramos los mapas en la malla
    scale = 1. / size
    plt.figure(figsize=(scale * display_grid.shape[1],
                        scale * display_grid.shape[0]))
    plt.title(layer_name)
    plt.grid(False)
    plt.axis('Off')
    plt.imshow(display_grid, aspect='auto', cmap='viridis')
    plt.savefig(f"mascara-{k+1}.png")

plt.show()

# Observaciones

Del gr√°fico de mapas de caracter√≠sticas podemos notar lo siguiente:

* La primera capa de la red act√∫a como una colecci√≥n de varios detectores de borde. En esa etapa, las activaciones a√∫n retienen casi toda la informaci√≥n presente en la imagen inicial.

* A medida que avanzamos en profundidad, las activaciones se vuelven cada vez m√°s abstractas y menos interpretables visualmente. Se comienzan a codificar conceptos de nivel superior como "oreja de gato" u "ojo de gato". Las representaciones superiores llevan cada vez menos informaci√≥n sobre el contenido visual de la imagen, y cada vez m√°s informaci√≥n relacionada con la clase de la imagen.

* La escasez de activaciones aumenta con la profundidad de la red: en la primera capa, todos los filtros se activan mediante la imagen de entrada, pero en las siguientes capas, m√°s y m√°s canales de activaci√≥n est√°n en blanco. Esto significa que el patr√≥n codificado por el filtro no se encuentra en la imagen de entrada.

# Comentarios Finales

Acabamos de evidenciar un hecho muy importante de las representaciones aprendidas por las redes neuronales profundas: las caracter√≠sticas extra√≠das por una capa se vuelven cada vez m√°s abstractas con la profundidad de la red.

Las activaciones de las capas superiores contienen cada vez menos informaci√≥n sobre la entrada espec√≠fica que se est√° viendo y m√°s informaci√≥n sobre el objetivo (en el caso de este ejemplo, la clase de la imagen: gato o perro). Una red neuronal profunda act√∫a efectivamente como un *pipeline* (tuber√≠a) que destila la informaci√≥n, con datos en crudo que entran (en nuestro caso, im√°genes RBG) y se transforman repetidamente de tal forma que la informaci√≥n irrelevante es filtrada (por ejemplo, la apariencia visual espec√≠fica de la imagen) mientras que la informaci√≥n √∫til es magnificada y refinada (por ejemplo, la clase de la imagen).

Esto es an√°logo a la forma en que los humanos y los animales perciben el mundo: despu√©s de observar una escena durante unos segundos, un humano puede recordar qu√© objetos abstractos estaban presentes en √©l (por ejemplo, una bicicleta, un √°rbol) pero muchas veces no puede recordar la apariencia espec√≠fica de estos objetos.

El cerebro ha aprendido a abstraer completamente la informaci√≥n visual, a transformarla en conceptos visuales de alto nivel mientras filtra por completo los detalles visuales irrelevantes, haciendo que sea tremendamente dif√≠cil recordar c√≥mo se ven exactamente las cosas a nuestro alrededor.
