<a href="https://colab.research.google.com/github/ssanchezgoe/curso_deep_learning_economia/blob/main/NBs_Google_Colab/DL_S15_CNN_Arquitecturas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

<h1> Curso Deep Learning: Economía</h1>

## S15: Redes neuronales convolucionales y arquitecturas

## **Clasificación con CNN - Arquitectura**

Como vimos las redes convolucionales surgen  a partir de trabajos inspirados en el estudio de la corteza cerebral de los animales y cómo estas reaccioban e interactuaban ante los estímulos visuales, es por esto que una de las principales tareas en las que se usan las redes convolucionales es en la clasificación de imagenes. Como vimos en la clase previa la arquitectura típica de una red convolucional es la siguiente:

<p><img alt="Colaboratory logo" height="300px" src="https://i.imgur.com/BqlLRkJ.png" align="center" hspace="10px" vspace="0px"></p>


Si bien existen multiples arquitecturas que varían ciertas características, esta es la forma básica que sigue una red convolucional (convolución-pooling-convolución-pooling y así sucesivamente), la cual a la hora de tener una clasificación se definirá simplemente por la capa de salida que tendrá nuestra red densa conectada al final de la parte de convolución, es decir, tendremos de acuerdo a nuestro objetivo la salida correspondiente, ya sea con una activación softmax o sigmoid por ejemplo.

Veamos un ejemplo de clasificación a partir de construir una red convolucional para el **MNIST database of handwritten digits** dataset.

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
from tensorflow import keras

In [None]:
(X_train,y_train),(X_test,y_test)=keras.datasets.mnist.load_data()

Veamos la cantidad de elementos que tenemos en cada conjunto


In [None]:
print('Datos de entrenamiento:',X_train.shape)
print('Datos de test:',X_test.shape)

Vamos a normalizar los datos

In [None]:
X_train=X_train/255.0
X_test=X_test/255.0

In [None]:
fig,ax=plt.subplots(2,10,figsize=(15,5))
for i,ax in enumerate(ax.flat):
  ax.imshow(X_train[i],cmap='binary')
  ax.set_axis_off()
  ax.set_title(y_train[i])

Como vemos en el dataset tenemos un conjunto de números escritos a mano, ahora construyamos una red convolucional qu me permita hacer predicción de sus etiquetas

In [None]:
keras.backend.clear_session()

In [None]:
model=keras.models.Sequential([
                               keras.layers.Conv2D(40,kernel_size=3,strides=1,padding='same',activation='relu',kernel_initializer='he_uniform',input_shape=(28,28,1)),
                               keras.layers.MaxPool2D(pool_size=2),
                               keras.layers.Conv2D(80,kernel_size=3,strides=1,padding='valid',activation='relu',kernel_initializer='he_uniform'),
                               keras.layers.MaxPool2D(pool_size=2),
                               keras.layers.Conv2D(100,kernel_size=3,strides=2,padding='valid',activation='relu',kernel_initializer='he_uniform'),
                               keras.layers.MaxPool2D(pool_size=2),
                               keras.layers.Flatten(),
                               keras.layers.Dense(50,activation='relu',kernel_initializer='he_uniform'),
                               keras.layers.Dense(20,activation='relu',kernel_initializer='he_uniform'),
                               keras.layers.Dense(10,activation='softmax')
])

In [None]:
model.compile(optimizer='adam',loss='sparse_categorical_crossentropy',metrics=['accuracy'])

In [None]:
X_train=X_train.reshape(60000,28,28,1)
X_test=X_test.reshape(10000,28,28,1)

In [None]:
history=model.fit(X_train,y_train,epochs=10,validation_split=0.3)

In [None]:
model.evaluate(X_test,y_test)

Como anotación, con las redes convolucionales podemos realizar no solo clasificación, sino además tareas como la de localización, donde queremos predecir una caja como frontera alrededor de un objeto, donde esta vez no solo debemos predecir la clasificación del objeto sino que además debemos obtener las coordenadas de la caja en forma de frontera.


<p><img alt="Colaboratory logo" height="300px" src="https://i.imgur.com/nxg6gy9.png" align="center" hspace="10px" vspace="0px"></p>

Donde quizás lo mas complicado es tener un dataset con estas etiquetas, por lo tanto una parte ardua de la detección es lograr etiquetar nuestro conjunto de imagenes con las fronteras correspondientes, para esto se pueden usar herramientas de etiquetado como VGG Image Annotator, LabelImg, OpenLabeler or ImgLab. [link](https://arxiv.org/pdf/1611.02145.pdf)

# Ejercicio usando Cifar100

Importemos algunas librerias que seran de utilidad

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
from tensorflow import keras 

importemos los datos usando keras

In [None]:
(train_image, train_label) , (test_image, test_label) = keras.datasets.cifar100.load_data()

In [None]:
test_image.shape

In [None]:
train_image.shape

In [None]:
plt.imshow(train_image[1])
plt.grid(0)
plt.axis('off')
plt.show()

veamos algunas de las figuras que contiene el dataset

In [None]:
fig , ax = plt.subplots(3,7, figsize=(15,7))
for i, ax in enumerate(ax.flat):
  ax.imshow(train_image[i], cmap='Greys')
  ax.axis('off')

escalemos los datos en un rango de 0 a 1

In [None]:
train_image = train_image / 255.0
test_image = test_image / 255.0

In [None]:
keras.backend.clear_session()

creemos nuestro modelo de CNN usando keras

In [None]:
model = keras.models.Sequential([
      keras.layers.Conv2D(32, kernel_size=3, activation='elu', kernel_initializer='he_normal' , padding='same',strides=(1,1) ,input_shape=(32, 32, 3)),
      keras.layers.BatchNormalization(),
      keras.layers.Conv2D(32, kernel_size=3, activation='elu', kernel_initializer='he_normal' , padding='same',strides=(1,1) ,input_shape=(32, 32, 3)),
      keras.layers.BatchNormalization(),
      keras.layers.MaxPool2D(pool_size=(2,2)),
      keras.layers.Dropout(0.2),

      keras.layers.Conv2D(64, kernel_size=3, activation='elu', kernel_initializer='he_normal' , padding='same', strides=(1,1)),
      keras.layers.BatchNormalization(),
      keras.layers.Conv2D(64, kernel_size=3, activation='elu', kernel_initializer='he_normal' , padding='same', strides=(1,1)),
      keras.layers.BatchNormalization(),
      keras.layers.MaxPool2D(pool_size=(2,2)),
      keras.layers.Dropout(0.2),

      keras.layers.Conv2D(128, kernel_size=3, activation='elu', kernel_initializer='he_normal' , padding='same', strides=(1,1)),
      keras.layers.BatchNormalization(),
      keras.layers.Conv2D(128, kernel_size=3, activation='elu', kernel_initializer='he_normal',  padding='same', strides=(1,1)),
      keras.layers.BatchNormalization(),
      keras.layers.MaxPool2D(pool_size=(2,2)),
      keras.layers.Dropout(0.2),

      keras.layers.Flatten(),
      keras.layers.Dense(128, activation='elu', kernel_initializer='he_normal'),

      keras.layers.Dropout(0.2),

      keras.layers.Dense(100, activation='softmax')
])

In [None]:
model.summary()

In [None]:
model.compile(optimizer='nadam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

usemos early stopping en nuestro modelo 

In [None]:
early_stopping = keras.callbacks.EarlyStopping(patience=5, restore_best_weights=True)

procedamos a entrenar nuestro modelo

In [None]:
history = model.fit(train_image, train_label, epochs=30, validation_split=0.2 , batch_size=64, callbacks=[early_stopping])

In [None]:
model.evaluate(test_image, test_label, verbose=0)

# Arquitecturas de CNNs (más complejas)

A lo largo de los años, se han desarrollado variantes la arquitectura fundamental que de una CNN que vimos en la sesión pasar. Dichas arquidecturas nuevas han contrubuido en el avance de este campo. Una buena medida del progreso es la tasa de error obtenidas en competencias como el desafío ILSVRC ImageNet. En esta competencia, la tasa de error entre las 5 mejores arquitecturas para la clasificación de imágenes cayó del 26% a menos del 2,3% en solo seis años. A continuación se muestra la tabla de arquitecturas con mayor presición, o menor tasa de error:

<p><img alt="Colaboratory logo" height="430px" src="https://github.com/ssanchezgoe/diplomado_udea/blob/master/image/competition.png?raw=true" align="center" hspace="10px" vspace="0px"></p> 


En lo que respecta a nosotros estudiaremos la arquitectura de dos CNN de ellas, dada su importacia:


1. VGGNet16

2. ResNet

Debido al costo computacional tan elevado que representa entrenar dichas redes, Keras lo hizo ya por nosotros!. Importaremos el pesos preentrenados de estas dos arquitecturas. Para mayor información consultar el siguiente [link](https://keras.io/applications/)

**VGGNet**

El segundo lugar en el desafío ILSVRC 2014 lo obtubo VGGNet14, desarrollado por K. Simonyan y A. Zisserman. Tenía una arquitectura muy simple y clásica, con 2 o 3 capas convolucionales, una capa de agrupación, luego nuevamente 2 o 3 capas convolucionales, una capa de agrupación, etc. (con un total de solo 16 capas convolucionales), más una red densa al final con 2 capas ocultas y la capa de salida. Solo usó 3 × 3 filtros, pero muchos filtros.

<p><img alt="Colaboratory logo" height="400px" src="https://github.com/ssanchezgoe/diplomado_udea/blob/master/image/VGG16-Architecture-with-Softmax-layer-replaced-used-as-the-base-model-for-each-classifier.png?raw=true" align="center" hspace="10px" vspace="0px"></p> 

In [None]:
from tensorflow import keras
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import numpy as np

# Indian elephant
!wget https://upload.wikimedia.org/wikipedia/commons/f/f9/Zoorashia_elephant.jpg -O indian_elephant.jpg
# African elephant
!wget https://github.com/ssanchezgoe/diplomado_udea/blob/master/image/african_elephant_bull.jpg?raw=true -O african_elephant.jpg

# Choose the elephant to be classified
img_path = 'african_elephant.jpg'

img = mpimg.imread(img_path)
implot = plt.imshow(img)

print("Tamaño de la imagen:",img.shape)

In [None]:
from keras.preprocessing import image

model = keras.applications.vgg16.VGG16(weights='imagenet', include_top=True)
model.summary()

In [None]:
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = keras.applications.vgg16.preprocess_input(x)

features = model.predict(x)

print("Prediction", keras.applications.vgg16.decode_predictions(features, top=3)[0])

**ResNet**

El desafío de ILSVRC 2015 fue ganado mediante una Red Residual (o ResNet), desarrollada por Kaiming He et al., lográndose una tasa de error inferior a 3.6%, usando una CNN muy profunda compuesta de 152 capas. La clave para poder entrenar una red tan profunda es usar skip connections (también llamadas conexiones de atajo): la señal que alimenta a una capa también se agrega a la salida de una capa ubicada un poco más arriba en la pila. 

Lo anterior resulta útil ya que, al entrenar una red neuronal, el objetivo es hacer que modele una función objetivo $h(x)$. Si agrega la entrada $x$ a la salida de la red (es decir, agrega una skip connection), la red se verá obligada a modelar $f(x) = h (x) - x$ en lugar de $h(x)$. Esto se llama aprendizaje residual (ver Figura 14-15).

<p><img alt="Colaboratory logo" height="350px" src="https://github.com/ssanchezgoe/diplomado_udea/blob/master/image/resnet.png?raw=true" align="center" hspace="10px" vspace="0px"></p>

In [None]:
keras.backend.clear_session()

from keras.applications.resnet import ResNet50
from keras.applications.resnet import preprocess_input, decode_predictions
import numpy as np

model = keras.applications.resnet50.ResNet50(weights='imagenet')
model.summary()

In [None]:
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = keras.applications.resnet50.preprocess_input(x)

preds = model.predict(x)
# decode the results into a list of tuples (class, description, probability)
# (one such list for each sample in the batch)
print('Predicted:', keras.applications.resnet50.decode_predictions(preds, top=3)[0])

# Transfer learning (transferencia de aprendizaje)
Como hemos visto las DNN deben ser entrenadas en varias épocas, usando algoritmos como el de backpropagation para actualizar los pesos y poco a poco reducir la perdida. Dicho proceso puede consumir una gran cantidad de recursos, monetarios, temporales o computacionales.

Por ello se ha implementado una técnica llamada transferencia de aprendizaje, en la cuál se usan los pesos entrenados de alguna red que realice una tarea parecida a aquella que queremos resolver. Así no se realizará un entrenamiento partiendo de pesos inicializados de manera aleatoria, si no de pesos que ya han creado filtros adecuados para la tarea dada.

Con un modelo preentrenado podemos hacer tres cosas:


*   Usarlo como nos es entregado para la tarea que deseamos (por ejemplo usar VGG como un clasificador de imagenes con 1000 clases)
*   Usar sus pesos (o parte de ellos) como extractor de características previo al uso de nuestra propia DNN. (Los pesos del modelo prenetrenado no se van a actualizar en posteriores etápas de entrenamiento o fine tuning)
*    Usar los pesos (o parte de ellos) como parte de nuestra red neuronal, puediendo actualizar o no alguna de las capas en posteriores etápas de entrenamiento o fine tuining.







### ¿Por qué funciona el transfer learning?
Para explicar porqué funciona ésta estrategia debemos recordar como funcionan las redes convolucionales (aunque la tranferencia de aprendizaje puede usarse para cualquier arquitectura).

![CNN](https://miro.medium.com/max/2344/1*3aT9KWCeQ6wIYdLLhD4mCw.png)

Las capas convolucionales irán creando poco a poco mapas de características que minimicen la función de perdida, dichos mapas, como ya dijimos, serán más simples en las capas iniciales (generando kernels que detectan colores o lineas básicas) y a medida que la red se hace más profunda dichas características se irán mezclando y creando kernels más complejos (detectando rostros completos, ojos u otras características complejas de nuestros datos).


Veamos por ejemplo en las siguientes imagenes los filtros y las partes de las imágenes qué más activan dichos filtros:
![alt text](https://miro.medium.com/max/907/1*jPCEik198_CjtmSL2H6o4g.png)
![alt text](https://miro.medium.com/max/818/1*1Y6HZxK-lOmqB8KnizTCow.png)

Note como en las primeras capas el modelo reconoce lineas simples y colores, y en las últimas  los filtros se han complejizado suficiente como para activar rostros completos.

De éste ejemplo es claro que, si tenemos problemas relativamente parecidos o si los filtros aprendidos por nuestra red son útiles en otros problemas será mejor inicializar nuestros pesos con dichos filtros y no de una forma aleatoria.
Por ejemplo, si nuestra tarea es clasificar gatos y perros, será mejor iniciar con dicha red (que ya ha creado filtros para ellos) que hacerlo desde cero, y, de ser necesario, hacer un fine tuning de la red con nuevos ejemplos.

En keras tenemos algunas redes preentrenadas, todas ellas bastante buenas y de uso libre. [Ver acá algunos modelos preentrenados en Keras](https://keras.io/applications/)

Hagamos un ejemplo del uso de VGG16 en keras para hacer transferencia de aprendizaje

In [None]:
%tensorflow_version 2.x
from tensorflow.keras.applications.vgg16 import VGG16
model = VGG16()
model.summary()

Hemos cargado el modelo VGG16, claramente más complejo que aquellos que hemos usado hasta ahora y sin embargo el más simple en nuestra colección de modelos preentrenados.

Veamos cómo usarlo.

In [None]:
!wget 'https://pbs.twimg.com/profile_images/973248614469312512/ffd7wIOW_400x400.jpg'

In [None]:
from tensorflow.keras.preprocessing.image import load_img
from tensorflow.keras.preprocessing.image import img_to_array
from tensorflow.keras.applications.vgg16 import preprocess_input
from tensorflow.keras.applications.vgg16 import decode_predictions
from tensorflow.keras.applications.vgg16 import VGG16
import matplotlib.pyplot as plt
#carguemos la imagen y preprocesemosla
image = load_img('ffd7wIOW_400x400.jpg', target_size=(224, 224)) #VGG necesita imagenes de 224x224 pixeles
plt.imshow(image)
plt.show()
image = img_to_array(image)

#procesamos la imagen con el mismo preprocesado que se aplicó a las imagenes de entrenamiento
image = image.reshape((1, image.shape[0], image.shape[1], image.shape[2]))
image = preprocess_input(image)
#cargamos el modelo y predecimos las probabilidades
model = VGG16()
yhat = model.predict(image)
label = decode_predictions(yhat)
label = label[0][0]

print('%s (%.2f%%)' % (label[1], label[2]*100))

En éste ejemplo, usando la red como clasificador vemos que nos dice que la imagen es de un gato y además que es un gato de raza atigrado (tabby) con una certeza de 31.8% (el resto de la probabilidad se reparte entre las otras 999 clases)

Usemos ahora VGG como un preprocesador para hacer extracción de características.

En éstos casos se saca provecho del hecho de que cada capa está extrayendo información de ciertas características de la imagen, podemos usar las salidas de dichas capas como entradas para nuestros propios modelos, usandolos de manera efectiva como estractores de features.

En éste caso usaremos la pa penúltima capa fully conected con 4096 neuronas como salida, es decir "mocharemos" las capas posteriores a dicha capa de la arquitectura, y ésta salida alimentará nuestra pequeña red neuronal.

In [None]:
%tensorflow_version 1.x
from keras.applications.vgg16 import VGG16
from keras.models import Model
from keras.layers import Dense
from keras.layers import Flatten
# cargamos VGG sin las últimas capas
model = VGG16(include_top=False, input_shape=(300, 300, 3))
# agreguemos capas nuevas
flat1 = Flatten()(model.outputs)
class1 = Dense(1024, activation='relu')(flat1)
output = Dense(10, activation='softmax')(class1)
#nuevo modelo
model = Model(inputs=model.inputs, outputs=output)
model.summary()

Note que en el ejemplo anterior hemos definido el modelo no de forma secuencial si no funcional.

Ahora si lo que queremos es que algunas de las capas no se entrenen (congelar los pesos), debemos poner la bandera "trainable =False".

In [None]:
model = VGG16(include_top=False, input_shape=(300, 300, 3))
for layer in model.layers:
	layer.trainable = False
%tensorflow_version 2.x

Acá podemos congelar cuantas capaz deseemos y posteriormente entrenar las demás.

El uso de la transferencia de aprendizaje nos ayuda a mejorar los tiempos de entrenamiento, a mejorar las capacidades predictivas y a realizar nuevas tareas aprovechando los modelos y procesos de entenamiento realizados anteriormente (construir sobre lo construído).

# Ejercicio: Transfer Learning

Importar las librerías y los datos

In [None]:
from matplotlib import pyplot as plt
from tensorflow.keras import models
from tensorflow.keras import layers
from tensorflow.keras.applications import VGG16
from keras.datasets import cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')
plt.imshow(x_train[0])

Preprocesar los datos de acuerdo a los parámetros de VGG16

In [None]:
x_train=preprocess_input(x_train)
x_test=preprocess_input(x_test)
plt.imshow(x_train[0])

Cargar la base convolucional de VGG16 (Sin la parte densa)

In [None]:
conv_base = VGG16(weights='imagenet',include_top=False,input_shape=(32, 32, 3))
conv_base.summary()

Congelar las capas convolucionales excepto las últimas 4

In [None]:
conv_base.trainable = True
for layer in conv_base.layers[:-4]:
    layer.trainable = False
for layer in conv_base.layers:
    print(layer, layer.trainable)

Crear el resto del modelo, agregando las capas densas

In [None]:
model = models.Sequential()
model.add(conv_base)
model.add(layers.Flatten())
model.add(layers.BatchNormalization())
model.add(layers.Dense(512, activation='relu'))
model.add(layers.BatchNormalization())
model.add(layers.Dropout(0.5))
model.add(layers.Dense(256, activation='relu'))
model.add(layers.BatchNormalization())
model.add(layers.Dropout(0.5))
model.add(layers.Dense(100, activation='softmax'))

model.compile('adam',loss='sparse_categorical_crossentropy',metrics=['acc'])

model.summary()

In [None]:
model.fit(x_train,y_train,validation_data=(x_test,y_test),epochs=10)