# **Part 5 - Altres Arquitectures**

De moment hem treballat únicament amb xarxes de tipus Resnet, com ``resnet18`` o ``resnet152``. No obstant, pytorch (i, per extensió, ``fastai``) ofereix moltes altres xarxes i arquitectures prefabricades per fer transfer learning. En aquest *Notebook* veurem algunes d'elles: explicarem breument la seva història i context, estudiarem la seva arquitectura i compararem els seus resultats classificant les imatges del Dataset d'aquesta pràctica.

### **Carregar llibreries**

Carreguem les llibreries i mòduls habituals que hem fet servir en els altres exemples de la pràctica:

In [1]:
! [ -e /content ] && pip install -Uqq fastbook
import fastbook
from fastbook import *
fastbook.setup_book()
from fastai.callback.fp16 import *
import torch

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m719.8/719.8 kB[0m [31m8.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.0/7.0 MB[0m [31m65.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m37.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m468.7/468.7 kB[0m [31m25.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m212.2/212.2 kB[0m [31m11.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m200.1/200.1 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.9/132.9 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━

### **Carregar Dataset (només Colab)**

Si estem executant aquest Notebook des de Colab, necessitarem tenir el dataset guardat al nostre Drive en format .zip i executar la següent cel·la de codi per carregar-lo a aquesta sessió:

In [2]:
!unzip /content/gdrive/MyDrive/dataset_CIFAR10.zip
path = "/content/"

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
  inflating: validation/dog/0004.jpg  
  inflating: validation/dog/0005.jpg  
  inflating: validation/dog/0006.jpg  
  inflating: validation/dog/0007.jpg  
  inflating: validation/dog/0008.jpg  
  inflating: validation/dog/0009.jpg  
  inflating: validation/dog/0010.jpg  
  inflating: validation/dog/0011.jpg  
  inflating: validation/dog/0012.jpg  
  inflating: validation/dog/0013.jpg  
  inflating: validation/dog/0014.jpg  
  inflating: validation/dog/0015.jpg  
  inflating: validation/dog/0016.jpg  
  inflating: validation/dog/0017.jpg  
  inflating: validation/dog/0018.jpg  
  inflating: validation/dog/0019.jpg  
  inflating: validation/dog/0020.jpg  
  inflating: validation/dog/0021.jpg  
  inflating: validation/dog/0022.jpg  
  inflating: validation/dog/0023.jpg  
  inflating: validation/dog/0024.jpg  
  inflating: validation/dog/0025.jpg  
  inflating: validation/dog/0026.jpg  
  inflating: validation/dog/0027.jpg  

Altrament, **suposarem que el dataset es troba descomprimit en la mateixa carpeta des d'on estem executant aquest Notebook**.

### **DataLoader**

Per tots els exemples d'aquest Notebook farem servir el següent DataLoader:

In [3]:
dls = ImageDataLoaders.from_folder(
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu'),
    path = path,
    train='train',
    valid='validation',
    seed=42,
    batch_tfms=aug_transforms(size=64),
    bs = 64)

Noti's que hem ampliat la mida de les imatges de 32x32 a 64x64. La raó es que en moltes de les arquitectures que veurem, la dimensió de la imatge es redueix molt al propagar-se cap endavant; si usem una mida massa petita en les imatges d'input la dimensió arriba a zero en alguns casos (per exemple amb Alexnet), i ``fastai`` llança un error perquè no pot continuar propagant la imatge. <br>

També hem reduït la mida del batch size a 64, perquè ens hem trobat amb alguns problemes de memòria si executavem algunes d'aquestes arquitectures a la plataforma Colab, malgrat que no hauria d'haver-hi problema si s'està executant aquest Notebook des d'un ordinador fixe de prestacions mitjanes (pels estàndars actuals).



---




###**1. Alexnet**

Alexnet és una xarxa neuronal convolucional de 8 capes de profunditat entrenada per classificar imatges de 227x227 píxels del dataset Imagenet. Va ser la guanyadora del *ImageNet Large Scale Visual Recognition Competition* (*ILSVRC*) de l'any 2012, aconseguint una precisió propera al 85%. Malgrat que aquesta puntuació a dia d'avui no seria sorprenent, en aquell moment fóu una fita molt important.

<table style="text-align: center;">
<tr>
  <td>
   <img src="https://neurohive.io/wp-content/uploads/2018/10/AlexNet-1.png"/>
  </td>
</tr>
<tr>
  <th>Topologia de la xarxa Alexnet original. Imatge extreta de <a href = https://neurohive.io/en/popular-networks/alexnet-imagenet-classification-with-deep-convolutional-neural-networks/>Neurohive</a>.</th>
</tr>
</table>

Anem, doncs, a crear un objecte de tipus ``vision_learner`` que utilitzi l'arquitectura Alexnet:

In [4]:
alex_learner = vision_learner(dls, alexnet, metrics=[accuracy, error_rate]).to_fp16()

Downloading: "https://download.pytorch.org/models/alexnet-owt-7be5be79.pth" to /root/.cache/torch/hub/checkpoints/alexnet-owt-7be5be79.pth
100%|██████████| 233M/233M [00:01<00:00, 227MB/s]


L'entrenem durant 12 èpoques, congelant les dues primeres:

In [5]:
alex_learner.fine_tune(10, freeze_epochs=2)

epoch,train_loss,valid_loss,accuracy,error_rate,time
0,1.511327,1.118518,0.606,0.394,01:09
1,1.250181,1.062967,0.6184,0.3816,01:04


epoch,train_loss,valid_loss,accuracy,error_rate,time
0,1.000157,0.821441,0.7065,0.2935,01:07
1,0.867148,0.723745,0.7407,0.2593,01:07
2,0.806933,0.698689,0.7561,0.2439,01:07
3,0.729334,0.637446,0.7764,0.2236,01:16
4,0.6795,0.603789,0.7858,0.2142,01:06
5,0.611928,0.575719,0.7938,0.2062,01:07
6,0.575226,0.560517,0.8063,0.1937,01:05
7,0.518892,0.545063,0.8105,0.1895,01:06
8,0.510503,0.539401,0.8111,0.1889,01:07
9,0.493416,0.538972,0.8106,0.1894,01:07


Veiem que hem aconseguit un 80% de precisió re-entrenant la xarxa amb el nostre dataset, que no està molt allunyat dels resultats que va obtenir aquesta xarxa en el seu moment.

<br>

### **2. Squeezenet**

[En paraules dels seus creadors](https://arxiv.org/abs/1602.07360), Squeezenet fóu un intent de construir una xarxa capaç d'aconseguir la mateixa precisió que Alexnet, però fent servir 50 vegades menys paràmetres i menys de 0.5MB de memòria per guardar el model. La que provarem avui serà la versió 1.1, que està lleugerament més refinada que la versió original.




<table style="text-align: center;">
<tr>
  <td>
   <img src="https://www.researchgate.net/publication/335357358/figure/fig4/AS:795145175842817@1566588791117/The-architecture-of-SqueezeNet-11.ppm"/>
  </td>
</tr>
<tr>
  <th>Topologia de la xarxa Squeezenet 1.1. Imatge extreta de <a href = https://www.researchgate.net/figure/The-architecture-of-SqueezeNet-11_fig4_335357358>WANGHU & RUOXUE (2019), "Real-Time Driver-Drowsiness Detection System Using Facial Features"</a>.</th>
</tr>
</table>

Anem a comprovar si aquesta arquitectura realment està a l'altura de tals afirmacions...

Per a aquesta xarxa ens serveix el mateix DataLoader que hem fet servir per a la xarxa Alexnet, així que podem passar a crear directament la xarxa:

In [None]:
squish_learner = vision_learner(dls, squeezenet1_1, metrics=[accuracy, error_rate]).to_fp16()

Downloading: "https://download.pytorch.org/models/squeezenet1_1-b8a52dc0.pth" to /root/.cache/torch/hub/checkpoints/squeezenet1_1-b8a52dc0.pth
100%|██████████| 4.73M/4.73M [00:00<00:00, 27.1MB/s]


Una vegada creada la xarxa, procedim a entrenar-la. Idealment, hauriem d'obtenir uns resultats similars als que ens ha donat Alexnet, però amb molt menys temps d'entrenament.

In [None]:
squish_learner.fine_tune(10, freeze_epochs=2)

epoch,train_loss,valid_loss,accuracy,error_rate,time
0,1.425406,1.087537,0.6231,0.3769,01:06
1,1.195729,1.015506,0.6318,0.3682,01:01


epoch,train_loss,valid_loss,accuracy,error_rate,time
0,0.913902,0.757032,0.7363,0.2637,01:12
1,0.823293,0.679351,0.7596,0.2404,01:09
2,0.795195,0.679042,0.7592,0.2408,01:10
3,0.702959,0.590671,0.7908,0.2092,01:15
4,0.6599,0.580694,0.7951,0.2049,01:10
5,0.620579,0.54529,0.8061,0.1939,01:15
6,0.596448,0.510637,0.8204,0.1796,01:09
7,0.531956,0.499747,0.8207,0.1793,01:13
8,0.52631,0.489126,0.8258,0.1742,01:09
9,0.509471,0.487938,0.827,0.173,01:10


Curiosament, hem acabat obtenint prop d'un 83% de precisió, que és una mica més que l'exemple d'Alexnet.

<br>

### **3. VGG16 i VGG19**

La VGG-16 fóu l'Arquitectura guanyadora de l'*ILSVRC* de l'any 2014. Va suposar un salt qualitatiu envers les arquitectures líders del moment com Alexnet, aconseguint un impresionant 92.7% de precisió. Com el seu nom indica, es tracta d'una arquitectura de 16 capes convolucionals:

<table style="text-align: center;">
<tr>
  <td>
   <img src="https://miro.medium.com/v2/resize:fit:720/0*0M8CobXpNwFDCmOQ"/>
  </td>
</tr>
<tr>
  <th>Topologia de la xarxa VGG-16. Imatge extreta de <a https://medium.com/@mygreatlearning/everything-you-need-to-know-about-vgg16-7315defb5918>Medium</a>.</th>
</tr>
</table>

In [None]:
vgg16_learner = vision_learner(dls, vgg16_bn, metrics=[accuracy, error_rate]).to_fp16()

Downloading: "https://download.pytorch.org/models/vgg16_bn-6c64b313.pth" to /root/.cache/torch/hub/checkpoints/vgg16_bn-6c64b313.pth
100%|██████████| 528M/528M [00:07<00:00, 78.3MB/s]


In [None]:
vgg16_learner.fine_tune(10, freeze_epochs=2)

epoch,train_loss,valid_loss,accuracy,error_rate,time
0,1.441903,1.010889,0.6507,0.3493,01:12
1,0.970461,0.752161,0.7376,0.2624,01:09


epoch,train_loss,valid_loss,accuracy,error_rate,time
0,0.598352,0.452743,0.8457,0.1543,01:21
1,0.466979,0.368632,0.8736,0.1264,01:17
2,0.408214,0.325256,0.8872,0.1128,01:13
3,0.324227,0.314983,0.8939,0.1061,01:17
4,0.249876,0.304633,0.8966,0.1034,01:16
5,0.187534,0.298017,0.9053,0.0947,01:14
6,0.135919,0.302177,0.9052,0.0948,01:17
7,0.104642,0.286803,0.9121,0.0879,01:16
8,0.076573,0.281018,0.9141,0.0859,01:14
9,0.06085,0.278888,0.9146,0.0854,01:15


Hem aconseguit un 91.4% de precisió, que està molt a prop del màxim esperable per a aquest tipus de xarxa. <br>

Provem ara la VGG-19. Essencialment és el mateix tipus de xarxa, pero apilant 19 capes convolucionals en comptes de 16.

In [None]:
vgg19_learner = vision_learner(dls, vgg19_bn, metrics=[accuracy, error_rate]).to_fp16()

Downloading: "https://download.pytorch.org/models/vgg19_bn-c79401a0.pth" to /root/.cache/torch/hub/checkpoints/vgg19_bn-c79401a0.pth
100%|██████████| 548M/548M [00:15<00:00, 37.4MB/s]


In [None]:
vgg19_learner.fine_tune(10, freeze_epochs=2)

epoch,train_loss,valid_loss,accuracy,error_rate,time
0,1.518708,1.066034,0.6399,0.3601,01:12
1,1.00678,0.786184,0.7227,0.2773,01:16


epoch,train_loss,valid_loss,accuracy,error_rate,time
0,0.593567,0.435894,0.8477,0.1523,01:23
1,0.452955,0.354488,0.876,0.124,01:24
2,0.395166,0.334185,0.885,0.115,01:22
3,0.324196,0.296501,0.8989,0.1011,01:21
4,0.250396,0.295714,0.9001,0.0999,01:20
5,0.190576,0.288921,0.9046,0.0954,01:20
6,0.139383,0.266869,0.9158,0.0842,01:20
7,0.087548,0.270891,0.9192,0.0808,01:20
8,0.075082,0.268692,0.922,0.078,01:20
9,0.055379,0.272057,0.921,0.079,01:19


Aquesta vegada hem obtingut 92.1%, millorant lleugerament el resultat de la VGG-16.