[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/sensioai/blog/blob/master/043_cnn_arquitecturas/arquitecturas.ipynb)

# Arquitecturas de Redes Convolucionales

En el post [anterior](https://sensioai.com/blog/042_cnns) hemos introducido la arquitectura de `red neuronal convolucional`, un modelo de `red neuronal` especialmente dise√±ado para trabajar con im√°genes en tareas de visi√≥n artificial. Entre estas tareas, la m√°s com√∫n es la de clasificaci√≥n de im√°genes, que consiste simplemente en asignar una categor√≠a de entre varias a una imagen en particular. Una buena manera para medir el progreso en el campo del `Machine Learning` es a trav√©s de `benchmarks` y competiciones en los que investigadores proponen diferentes soluciones a un mismo problema, que se eval√∫an sobre un mismo conjunto de datos de test oculto. En el campo del `deep learning` y `computer vision`, una de estas competiciones, que hoy en d√≠a ya es un `benchmark` establecido, es la clasificaci√≥n de im√°genes en el dataset [Imagenet](http://www.image-net.org/challenges/LSVRC/). En 2012, la primera `red neuronal convolucional` entr√≥ en esta competici√≥n consiguiendo una mejora de 10 puntos sobre la mejor soluci√≥n hasta la fecha, lo cual supuso un detonante para el campo del `deep learning`. A partir de ese momento, todas las soluciones ganadoras presentadas durante los a√±os siguientes han sido redes convolucionales, convirtiendo a Imagenet una estupenda fuente de informaci√≥n para conocer los √∫ltimos avances en el campo (cuando una nueva arquitectura es dise√±ada, es pr√°ctica com√∫n reportar sus prestaciones en Imagenet para poder compararla con otras redes). En este post vamos a revisar algunas de las arquitecturas m√°s conocidas que han aparecido durante los a√±os, las cuales podremos usar para nuestras aplicaciones. Puedes conocer en detalle del progreso de este `benchmark` en [papers with code](https://paperswithcode.com/sota/image-classification-on-imagenet), donde tambi√©n encontrar√°s art√≠culos y c√≥digo en much√≠simos otros campos de aplicaci√≥n.

![](https://www.researchgate.net/profile/Kien_Nguyen26/publication/321896881/figure/fig1/AS:573085821489153@1513645715549/The-evolution-of-the-winning-entries-on-the-ImageNet-Large-Scale-Visual-Recognition.png)

## LeNet-5

Empezamos revisado la primera arquitectura de `CNN` desarrollada. Esta red es conocida por el nombre de LeNet-5 y, si bien no particip√≥ en la competici√≥n de Imagenet, es interesante conocer esta primera arquitectura.

![](https://pythonmachinelearning.pro/wp-content/uploads/2017/09/lenet-5.png.webp)

Esta `CNN` es alimentada por im√°genes de 32x32 p√≠xeles de d√≠gitos manuscritos, y est√° formada por tres capas convolucionales, dos de las cuales reducen la dimensionalidad de los mapas de caracter√≠sticas mediante *average pooling*. La salida de la √∫ltima capa convolucional es conectada un perceptr√≥n multicapa de dos capas, que tienen la responsabilidad de dar la predicci√≥n final. Puedes ver m√°s detalles en el [art√≠culo](http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf) original. A continuaci√≥n puedes ver un ejemplo de implementaci√≥n en `Pytorch`.

In [12]:
import torch 

def block(c_in, c_out, k=3, p=1, s=1):
    return torch.nn.Sequential(
        torch.nn.Conv2d(c_in, c_out, k, padding=p, stride=s),
        torch.nn.Tanh(),
        torch.nn.AvgPool2d(2, stride=2)
    )

def block2(c_in, c_out):
    return torch.nn.Sequential(
        torch.nn.Linear(c_in, c_out),
        torch.nn.ReLU()
    )

class LeNet5(torch.nn.Module):
  def __init__(self, n_channels=1, n_outputs=10):
    super().__init__()
    #self.pad = torch.nn.ConstantPad2d(2, 0.)
    self.conv1 = block(n_channels, 6, 5, p=0)
    self.conv2 = block(6, 16, 5, p=0)
    self.conv3 = torch.nn.Sequential(
        torch.nn.Conv2d(16, 120, 5, padding=0),
        torch.nn.Tanh()
    )
    self.fc1 = block2(120, 84)
    self.fc2 = torch.nn.Linear(84, 10)

  def forward(self, x):
    #x = self.pad(x)
    x = self.conv1(x)
    x = self.conv2(x)
    x = self.conv3(x)
    x = x.view(x.shape[0], -1)
    x = self.fc1(x)
    x = self.fc2(x)
    return x

In [13]:
lenet5 = LeNet5()
output = lenet5(torch.randn(64, 1, 32, 32))
output.shape

torch.Size([64, 10])

## AlexNet

[AlexNet](https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf) gan√≥ la competici√≥n de Imagenet en 2012. Es una arquitectura similar a LeNet5 pero m√°s profunda. Fue la primera red convolucional que gan√≥ la competici√≥n, y tambi√©n la primera en ser entrenada en GPUs.

![](https://miro.medium.com/fit/c/1838/551/1*arJJYgK-_7VcuKKX1TCKMA.png)

Tanto esta red como muchas otras las podemos encontrar ya implementadas en varios paquetes. En `Pytorch` podemos descargar redes convolucionales con el paquete `torchvision`.

In [14]:
import torchvision

alexnet = torchvision.models.AlexNet()
alexnet

AlexNet(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(11, 11), stride=(4, 4), padding=(2, 2))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 192, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(192, 384, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(384, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(6, 6))
  (classifier): Sequential(
    (0): Dropout(p=0.5, inplace=False)
    (1): Linear(in_features=9216, out_features=4096, bias=True)
 

In [15]:
output = alexnet(torch.randn(64, 3, 224, 224))
output.shape

torch.Size([64, 1000])

> üí°El dataset Imagenet contiene im√°genes comunes descargadas de internet, y el objetivo es el de clasificar im√°genes entre 1000 clases diferentes. Es por este motivo que ver√°s que los diferentes modelos en `torchvision` tienen una √∫ltima capa lineal con 1000 salidas.

## GoogLeNet

Ganadora de la edici√≥n de 2014, GoogLeNet es una red mucho m√°s profunda (podemos empezar a ver la tendencia de que cuantas m√°s capas, mejor resultados). Sus desarrolladores implementaron los m√≥dulos *inception*, los cuales aplican diferentes capas convolucionales, con diferentes tama√±os de filtros, en paralelo sobre las mismas entradas y luego concatenan las salidas. Adem√°s, para poder entrenar esta red tan profunda, se llevan a cabo predicciones en diversas capas intermedias para poder tener gradientes fluyendo hacia las capas iniciales. 

![](https://www.alanzucconi.com/wp-content/uploads/2015/07/googlenet-arch.png)

In [16]:
googlenet = torchvision.models.GoogLeNet()
googlenet

GoogLeNet(
  (conv1): BasicConv2d(
    (conv): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
    (bn): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
  )
  (maxpool1): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=True)
  (conv2): BasicConv2d(
    (conv): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
    (bn): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
  )
  (conv3): BasicConv2d(
    (conv): Conv2d(64, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
    (bn): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
  )
  (maxpool2): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=True)
  (inception3a): Inception(
    (branch1): BasicConv2d(
      (conv): Conv2d(192, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track

In [20]:
output = googlenet(torch.randn(64, 3, 224, 224))
output[0].shape

torch.Size([64, 1000])

## VGG

Si bien [VGG](https://arxiv.org/abs/1409.1556) no gan√≥, tuvo mucho √©xito ya que sent√≥ un precedente en el patr√≥n del dise√±o de las redes convolucionales. Este patr√≥n consiste en usar siempre capas convolucionales con filtros de 3x3, *stride* y *padding* 1 (manteniendo el tama√±o de las entradas constante) y usar *max pool* para reducir a la mitad los mapas de caracter√≠sticas. Adem√°s, despu√©s de cada capa se dobla el n√∫mero de filtros.

![](http://jesusutrera.com/articles/img/vgg_model.png)

In [23]:
# existen dos variantes: vgg16 y vgg19, con 16 y 19 capas respectivamente

vgg16 = torchvision.models.vgg16()
vgg16

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU(inplace=True)
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (6): ReLU(inplace=True)
    (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): ReLU(inplace=True)
    (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (13): ReLU(inplace=True)
    (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): ReLU(inplace=True)
    (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1

In [24]:
output = vgg16(torch.randn(64, 3, 224, 224))
output.shape

torch.Size([64, 1000])

## ResNet

[ResNet](https://arxiv.org/abs/1512.03385) fue el campe√≥n en 2015. La variante ganadora ten√≠a 152 capas y confirm√≥ la tendencia de profundizar con menos par√°metros. La clave para entrenar redes tan profundas es el uso de *skip connections* donde la se√±al que entra a una capa tambi√©n se agrega a la salida. Esto proporciona una ruta limpia para que el gradiente se propague desde la salida a la entrada. Tambi√©n se puede interpretar como una forma de dejar a la red la decisi√≥n de qu√© capas usar (si alguna capa no es necesaria, simplemente se la puede saltar).

![](https://i.stack.imgur.com/XTo6Q.png)

In [25]:
# existen varias variantes: resnet18, resnet35, resnet50, resnet101, resnet152

resnet34 = torchvision.models.resnet34()
resnet34

ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
  

In [26]:
output = resnet34(torch.randn(64, 3, 224, 224))
output.shape

torch.Size([64, 1000])

## Otras arquitecturas

Tras la finalizaci√≥n de la competici√≥n de Imagenet, nuevas arquitecturas han aparecido (y siguen apareciendo) que mejoran considerablemente las redes vistas anteriormente. Algunos ejemplos son:

- Xception (2016): mejora sobre GoogLeNet (b√°sicamente, GoogLeNet + ResNet)
- SENet (2017): A√±ade los bloques *SE* a GoogLeNet y ResNet.
- MobileNet (2017): fam√≠lia de CNNs especialmente dise√±adas para trabajar en dispositivos con pocos recursos computacionales como smartphones. 
- EfficientNet (2019): fam√≠lia de redes dise√±adas mediante algoritmos de `Inteligencia Artificial`(IA haciendo IA ü§Ø). Mejores prestaciones con menos par√°metros.

## Resumen

En este post hemos presentado diferentes arquitecturas de `redes convolucionales` que se han desarrollado durante los √∫ltimos a√±os. Estas redes han destacado por sus buenos resultados en el dataset Imagenet, una competici√≥n muy conocida en el mundo del `deep learning` para `computer vision` y `benchmark` establecido en el que todas las nuevas arquitecturas se eval√∫an para poder compararlas. Como hemos visto, las redes con mejores resultados son redes muy profundas (con muchas capas) y par√°metros. Esto es un problema si queremos entrenar una de ellas desde cero en alg√∫n problema concreto. Afortunadamente, no s√≥lo podemos aprovechar la arquitectura sino que podemos descargar tambi√©n los par√°metros entrenados y utilizarlos como estado inicial para nuestra aplicaci√≥n. Esta t√©cnica es conocida como transfer learning, y nos permite conseguir buenos modelos con menor requisitos computacionales. En el pr√≥ximo post veremos como llevar a cabo esta t√©cnica de manera sencilla.