# Redes neuronales 9
---

## Arquitecturas de redes

Actualmente existe una gran cantidad de modelos de redes neuronales artificiales, pero es interesante estudiar algunos de los que han sido pioneros o destacados, mejorando e introduciendo elementos claves que han supuesto avances significativos.

### Alexnet

Esta arquitectura apareció en 2012 y fue una de las primeras redes profundas en mejorar la precisión de la clasificación del conjunto **ImageNet**. Constituyó un gran avance en comparación con los métodos tradicionales. Está compuesta por 5 capas convolutivas seguidas por 3 capas *fully connected*.

<img src="imgs/alexnet.png" width="80%">

AlexNet, fue propuesta por Alex Krizhevsky, usa ReLU (unidad lineal rectificadora) para la parte no lineal, en lugar de una función tangente hiperbólica o sigmoide, que era el estándar anterior para las redes neuronales tradicionales. La ventaja de la ReLU sobre la sigmoide es que se entrena mucho más rápido que esta última porque la derivada del sigmoide se vuelve muy pequeña en la región de saturación y, por lo tanto, las actualizaciones de los pesos casi desaparecen. Esto se conoce como el problema de **desvanecimiento del gradiente**.

Otro problema que resolvió esta arquitectura fue la reducción del sobreajuste mediante el uso de una capa **dropout** después de cada capa FC.

<img src="imgs/dropout.png" width="30%">

### VGG16

Esta arquitectura fue propuesta por el VGG (Visual Geometry Group), Oxford. Lleva a cabo una la mejora con respecto a AlexNet al reemplazar los filtros de tamaño (11 y 5 en la primera y segunda capa convolutiva, respectivamente) con múltiples filtros seguidos de tamaño 3X3. Con un campo receptivo dado, el kernel de tamaño más pequeño apilado resulta mejor que el de tamaño más grande porque varias capas no lineales aumentan la profundidad de la red, lo que le permite que extraiga características más complejas a un costo menor.

<img src="imgs/vgg16.png" width="60%">

Las capas convolutivas de la VGG16 son seguidas por 3 capas *fully connected*. El número de kernels de la red comienza con un valor de 64 y aumenta en un factor de 2 después de cada capa de *pooling*. Alcanza la precisión del 92.3% en el top-5 en ImageNet.

### Inception

GoogLeNet ideó un módulo llamado *Inception* que se aproxima a una CNN dispersa mediante una construcción densa normal. Además, utiliza convoluciones de diferentes tamaños para capturar detalles a escalas variadas (5X5, 3X3, 1X1). Otro punto sobresaliente del módulo es que tiene la llamada capa *bottleneck* (1X1), que ayuda en la reducción masiva de los requisitos de cálculo.

<img src="imgs/inception-v3-model.png">
<img src="imgs/inception_module.png">


### ResNet

De acuerdo con lo que hemos visto hasta ahora, aumentar la profundidad debería aumentar la precisión de la red, siempre que se tenga cuidado del sobreajuste. Pero el problema con la mayor profundidad es que la señal requerida para cambiar los pesos, que surge del final de la red al comparar las etiquetas con las predicciones, se vuelve muy pequeña en las capas anteriores, debido a la mayor profundidad. Esencialmente significa que en las capas anteriores el aprendizaje es casi insignificante. Este problema se conoce como **desvanecimiento del gradiente**. El segundo problema con el entrenamiento de las redes más profundas es realizar la optimización en un gran espacio de parámetros. Las redes residuales permiten el desarrollo de redes tan profundas al construir la red a través de módulos llamados **módulos residuales**

<img src="imgs/residual.png">

<img src="imgs/resnet-comp.png">


### GAP Global Average Pooling

En los últimos años se ha recurrido a las capas GAP para minimizar el sobreajuste. Al igual que las capas *maxpooling*, las capas GAP se utilizan para reducir las dimensiones espaciales de un tensor tridimensional. Sin embargo, las capas GAP realizan un tipo más extremo de reducción de dimensionalidad, donde un tensor con dimensiones $h×w×d$ se reduce de tamaño para tener dimensiones $1×1×d$. Las capas GAP reducen cada mapa de características a un solo número simplemente tomando el promedio de todos los valores.

<img src="imgs/gap2.png" width="40%">


## Transfer Learning

In [2]:
from tensorflow.keras.applications.vgg16 import VGG16
from tensorflow.keras.preprocessing import image
from tensorflow.keras.applications.vgg16 import preprocess_input, decode_predictions
import numpy as np

model = VGG16(weights='imagenet', include_top=True)

In [8]:
#img_path = 'imgs/trilobite.jpeg'
img_path = 'imgs/cassete.jpeg'

img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

features = model.predict(x)
results = decode_predictions(features, top=5)
print(results)

[[('n02978881', 'cassette', 0.9823245), ('n04392985', 'tape_player', 0.007667508), ('n02979186', 'cassette_player', 0.0052932273), ('n03492542', 'hard_disc', 0.0034931386), ('n02988304', 'CD_player', 0.00030065488)]]
