
##  Rețele Convoluționale - Convolutional Neural Networks (CNNs)


<h2 id="1.-Introducere">1. Introducere<a class="anchor-link" href="#1.-Introducere">¶</a></h2><p>In lucrarea trecuta s-a studiat problema clasificării unei baze de date simple (MNIST) cu ajutorul unei rețele de tip perceptron multistrat (Multilayer Perceptron - MLP). Pe parcursul acestui studiu de caz s-au abordat pașii elementari pentru rezolvarea unei astfel de probleme (alegerea arhitecturii, a funcției <i>loss</i>, a optimizatorului, a ratei de învățare, împărțirea bazei de date in <i>batch-uri</i> precum si bucla de învățare.</p>

<p>In continuare, soluția simplă din laboratorul trecut va fi extinsă prin folosirea arhitecturilor mult mai puternice de tip rețele convoluționale (CNN).


<h2 id="2.-Motivație-și-aspecte-generale">2. Motivație și aspecte generale<a class="anchor-link" href="#2.-Motivatie-si-aspecte-generale">¶</a></h2>


<p>Rețeaua neuronală folosită anterior a utilizat drept trăsături de intrare chiar pixelii constituenți ai imaginilor. Deși rezultatele au fost satisfăcătoare, acest deznodământ nu ar fi fost la fel de probabil pentru baze de date mai complicate. 
In general, valorile directe ale pixelilor nu sunt considerate a fi trăsături puternice. Cu acest scop se utilizează extractoare de trăsături, precum Histogram of Oriented Gradients (HOG) si Local binary patterns (LBP), care surprind mai bine informatia spațială din fiecare zonă de interes sau din jurul fiecărui pixel.</p>

<img src="image.png"/><center>
<img src="image2.png"/><center>
<img src="FeatureFace.jpg"/><center>

## Deep Learning 

<p> Deep Learning este in momentul de fata cea mai des utilizata tehnica de machine learning deoarece permite invatarea unor reprezentari complexe prin intermediul retelelor neurale. Elementul principal al rețelelor neuronale este stratul. Stratul de neuroni este practic un modul de procesare a informatiei (puteti sa il vedeti ca un filtru aplicat pe datele de intrare). Astfel, datele intra intr-un strat, sunt procesate si transmise mai departe sub o alta forma. Mai exact, straturile extrag reprezentări din date, reprezentări care sunt mai semnificative pentru problema pe care vrem sa o rezolvam.
</p>

<img src="features.png"/>

 In computer vision filtrarea se realizeaza prin intermediul operatiei de convolutie.
 
<img src="filter.png"/>

<img src="filtering.png"/>

Ideea de convolutie a fost astfel adaptata in reteaua neurala prin intermediul stratului convolutional.

## Rețele convoluționale
<p>Rețelele convoluționale au adus o serie de îmbunătățiri in ceea ce privește algoritmii de <i>machine learning</i>. O parte dintre acestea vor fi discutate ulterior. Drept punct de plecare se va face referire la schema generala a unei rețele convoluționale:
<img src="cnn.jpeg"/></p><center>Schema generala a unei rețele convoluționale</center>
<p>Se pot observa doua zone principale:</p>
<ul>
<li>Prima, formata din straturile de tip Convolution si Pooling</li>
<li>A doua, formata din straturi <i>Fully Connected (Linear)</i> - straturi de neuroni clasici</li>
</ul>
<p>Prima zona s-a dovedit a avea rolul de extractor de trăsături. Primele straturi convoluționale extrag informații de tip contururi, iar acestea devin mai complexe odată cu parcurgerea rețelei. S-a observat ca trăsăturile ieșite după prima zona a rețelei sunt puternice, in general fiind mai reprezentative decât trăsăturile obținute prin aplicarea algoritmilor HoG sau LBP.</p>
<p>A doua zona, cu straturile <i>Fully Connected</i> este practic o rețea MLP aplicata trăsăturilor extrase de zona convoluțională a rețelei.</p>

<h3 id="2.1.-Straturile-convolutionale">2.1. Straturile <i>convoluționale</i><a class="anchor-link" href="#2.1.-Straturile-convolutionale">¶</a></h3><p>Acest tip de strat este unitatea de baza din noile arhitecturi. Făcând o analogie cu procedeele consacrate din prelucrarea imaginilor, un strat convoluțional realizează o serie de operații de filtrare liniara pe matricea de la intrarea in strat. Aceasta matrice poate fi imaginea in sine, sau rezultatul altui strat, denumit <i>feature map</i> (harta de trăsături). Un fapt relevant in acest caz este ca filtrul de convoluție are adâncimea matricei de la intrare (ex. 3 pentru o imagine RGB).
    
<img src="conv.png"/>  
    
De la modul in sine in care funcționează stratul convoluțional se pot observa diferențe fata de modul de funcționare al MLP, precum si proprietăți relevante:</p>
<ul>
<li><i>sparse interactions</i> (interactiuni "rare"): spre deosebire de MLP, unde fiecare neuron din stratul $N$ interacționa cu toți neuronii din stratul $N+1$, la un CNN doar o serie de neuroni din stratul curent vor participa la neuronul din stratul următor (zona denumita câmpul receptiv, <i>receptive field</i>). Acest fapt implica stocarea a mai putini parametri, si implicit operații mai puține;</li>
<li>partajarea parametrilor: filtrul de convoluție este folosit pentru întreaga imagine, deci ponderile care conduc la un anume neuron din stratul următor sunt mereu aceleași. Aceasta trăsătura este pusa in contrast cu arhitectura MLP, unde fiecare pondere era folosita o singura data, pentru o pereche anume de neuroni;</li>
<li>echivarianta la translatie a reprezentarilor: se refera la proprietatea ca daca imaginea de intrare suferă o transformare de tip translație, si harta de trăsături de ieșire va suferi aceeași modificare.</li>
</ul>
<p>Pentru a crea un strat convoluțional in Keras se folosește sintaxa:</p>

<p><code>conv_x = torch.nn.Conv2d(in_channels, out_channels, kernel_size = [linii_filtru, coloane_filtru], stride=(pas_orizontal, pas_vertical), padding = 'same')(input)</code></p>
<p>Forma corecta pentru <code>input</code> este de tipul <code>[nr_imag,linii,coloane,canale]</code>
Argumentul <code>strides</code> se refera la pasul pe care îl face filtrul convoluțional după ce operează asupra zonei curente. Un pas de <code>(1,1)</code> înseamnă ca va parcurge toți neuronii.
Argumentul <code>padding</code> se leagă de capetele imaginii. Se decide daca imaginea va fi bordata cu valori de 0, astfel încât sa fie parcurși toți pixelii din imagine (<code>'same'</code>) sau se vor ignora neuronii din capetele imaginii (<code>'valid'</code>). Daca <i>padding-ul</i> este <code>'same'</code> si pasul este <code>(1,1)</code>, atunci hârțile de trăsături vor avea același număr de linii si coloane ca stratul din care provin.</p>

<p>Toate straturile convoluționale sunt urmate de o funcție de activare (in general Rectified Linear Unit - ReLU) pentru care există următoarea funcție
<code> torch.nn.ReLU()(input) </code>.
<img src="acti.jpg"/>  

<h3 id="2.2.-Straturile-de-pooling">2.2. Straturile de <i>pooling</i><a class="anchor-link" href="#2.2.-Straturile-de-pooling">¶</a></h3><p>Operația de <i>pooling</i> este cel mai bine tradusa in limba romana ca o "grupare", o subeșantioane. Pe scurt, aceasta operație înlocuiește valoarea unei zone din imagine/harta de trăsături cu o statistica a acelei zone. Funcția de <i>max-pooling</i> este cea mai folosita in aplicații si înlocuiește valoarea dintr-o zona bine definita cu maximul acelei zone, rezultând într-o harta de trăsături mai mica, dar care păstrează cea mai relevanta statistica. In acest mod, pe lângă reducerea dimensionalității, se obține si o invarianta la translații mici.</p>
<p>Modul de creare a unui strat de <i>max-pooling</i> in Keras care sa ia vecinatati 2x2:<br/> 
<code>pool_x = torch.nn.MaxPool2d(kernel_size=(2, 2), stride=(2,2))(input)</code></p>
<p>Reduce dimensiunea matricei de la intrare prin luarea valorii maxime peste fereastra definită de <code>'pool_size'</code> pentru fiecare dimensiune de-a lungul axei caracteristici. Fereastra este deplasată în fiecare dimensiune cu pasul specificat de <code>'strides'</code>.</p> 

<img src="pooling.png"/>  

<h3 id="2.3-Straturile-fully-connected">2.3 Straturile <i>fully connected</i><a class="anchor-link" href="#2.3-Straturile-fully-connected">¶</a></h3><p>După cum a fost menționat anterior, aceste straturi sunt cele <b>dens conectate</b>, obișnuite dintr-un MLP. Deoarece hârțile de trăsături care rezultă din stratului convoluțional sau pooling sunt reprezentate ca matrici, înainte de a le putea folosi, <b>hârțile de trăsături trebuie aplatizate (vectorizate)</b>, adică matricea trebuie reprezentată ca un vector. Acest lucru se poate realizea cu funcția `view` sau cu clasa `Flatten` <br/>
<code>flat = input.view(new_shape)</code>
<br/>
<code>flat = nn.Flatten()(input)</code>
<br/>
    
Pentru a crea un strat dens:<br/>
<code>fc = torch.nn.Linear(in_features = nr_neuroni_iesire_stratul_precedent, out_features = nr_neuroni_de_iesire)(input)</code><br/></p>

<img src="feature_representation.png"/>  

<h2 id="3.-Arhitecturi-de-baza">3. Arhitecturi de baza<a class="anchor-link" href="#3.-Arhitecturi-de-baza">¶</a></h2><p>Exista o multitudine de arhitecturi actuale, unele care au adus imbunatatiri marginale, altele care sunt specializate pe o anumita sarcina, dar cateva arhitecturi sunt considerate a fi pietre de temelie pentru domeniu. In continuare vor fi prezentate cateva arhitecturi care au atras o atentie foarte mare la momentul aparitiei lor.</p>

<h3 id="3.1.-LeNet-5">3.1. LeNet-5<a class="anchor-link" href="#3.1.-LeNet-5">¶</a></h3><p>Cea mai veche arhitectura convolutionala a fost prezentata in 1998 cu scopul de a recunoaste cifre scrise de mana in documente. A fost conceputa pentru imagini de rezolutie mica (32 x 32 pixeli) si, din cauza constrangerilor (la aceea vreme) cu privire la puterea de calcul, nu a prezentat o adancime mare (doar 2 straturi convolutionale cu filtre de 5 x 5 pixeli). Schema arhitecturii:
<img src="lenet.png"/></p><center>Arhitectura LeNet-5</center>

<h3 id="3.2.-AlexNet">3.2. AlexNet<a class="anchor-link" href="#3.2.-AlexNet">¶</a></h3><p>Dupa mai bine de un deceniu (in 2012), arhitectura AlexNet a fost prima arhitectura neuronala care a castigat concursul ImageNet Large Scale Visual Recognition Challenge (ILSVRC) cu o arhitectura avand 5 straturi convolutionale, imagini de intrare considerabil mai mari, filtre de convolutie mai mari in straturile initiale (11 x 11) cu pasi mai mari de parcurgere a imaginii si a folosit activari de tip <code>ReLU</code>. Aceasta arhitectura, mult mai puternica decat ce s-a vehiculat pana in acel moment , a fost antrenata cu ajutorul a doua GPU-uri performante. Schema arhitecturii:
<img src="alexnet.png"/></p><center>Arhitectura AlexNet</center>

<h3 id="3.3-VGG">3.3 VGG<a class="anchor-link" href="#3.3-VGG">¶</a></h3><p>Urmatorul pas important adus in domeniu a fost studiul impactului adancimii unei retele. In acest scop, retelele din familia VGG au demonstrat cresterea performantei odata cu adancimea. Reteaua VGG-19 (de la cele 19 straturi neuronale de orice tip) este printre cele mai mari retele utilizate in termeni de numar de parametri care trebuie invatati. In prezent, aceasta arhitectura este adesea folosita pentru trasaturile generale puternice extrase dupa ultimul strat convolutional, utile si in alte sarcini decat clasificarea. O alta observatie importanta este reprezentata de reducerea tuturor filtrelor de convolutie la dimensiunea 3 x 3 cu pas 1 la deplasare. Schema arhitecturii VGG-16:
<img src="vgg16.png"/></p><center>Arhitectura VGG-16</center>

<h3 id="3.4.-ResNet">3.4. ResNet<a class="anchor-link" href="#3.4.-ResNet">¶</a></h3><p>Aparuta mai recent ca celelalte arhitecturi prezentate, importanta acestei arhitecturi a fost uriasa, rezolvand problema <i>vanishing gradient</i>. Aceasta reprezenta scaderea puternica a gradientilor odata cu avansarea in retea in etapa de propagare inapoi. Practic, retelele cu un numar mare de straturi erau foarte greu de antrenat. Solutia acestui tip de arhitectura a fost introducerea blocului "rezidual", care presupunea ca la iesirea dintr-un bloc compus din mai multe convolutii se adauga si intrarea in bloc. Aceste conecxiuni de tip "scurtatura" (sau "scurtcircuit") au permis crearea unor retele mult mai adanci (inclusiv 1000 de straturi). Ca o consecinta a numarului crescut de straturi, s-a putut reduce numarul de filtre per strat, pastrand numarul de parametri care trebuiau invatati relativ redus. Arhitectura ResNet-34 este ilustrata alaturi de VGG-19 (care are un numar considerabil mai mare de parametri):
<img src="resnet.png"/></p><center>Arhitectura ResNet-34 in comparatie cu VGG-19 si o arhitectura cu 34 de straturi fara "scurtaturi"</center>

## 4.1 Baza de date MNIST

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision
import torchvision.transforms as T
import torchvision.datasets as dset

print(f"pyTorch version {torch.__version__}")
print(f"torchvision version {torchvision.__version__}")
print(f"CUDA available {torch.cuda.is_available()}")

pyTorch version 1.10.1
torchvision version 0.11.2
CUDA available True


In [2]:
n_epochs = 10
train_bs = 8
test_bs = 8
learning_rate = 0.01

random_seed = 1
torch.backends.cudnn.enabled = False
torch.manual_seed(random_seed)

<torch._C.Generator at 0x240c9829470>

In [3]:
transforms = T.Compose([ 
        T.CenterCrop(1000),
        torchvision.transforms.Grayscale(num_output_channels=1),
        T.ToTensor(), # converts a PIL.Image or numpy array into torch.Tensor
       
        T.Normalize((0.1307,), (0.3081,)), # Normalize the dataset with mean and std specified
               ])
data_dir=r"D:\ai intro\AI intro\5. Retele Neurale\covid_dataset"
train_ds = dset.ImageFolder(data_dir+'/train',transform=transforms)
test_ds = dset.ImageFolder(data_dir+'/test',transform=transforms)


train_loader = torch.utils.data.DataLoader(train_ds, shuffle=True, batch_size=train_bs)
test_loader = torch.utils.data.DataLoader(test_ds, shuffle=False, batch_size=test_bs)

print("Nr de imagini in setul de antrenare", len(train_ds))
print("Nr de imagini in setul de test", len(test_ds))

print("Dim primei imagini din Dataset", train_ds[0][0])
print("Etichete pt prima imagine", train_ds[0][1])

n_classes = len(np.unique(train_ds.targets))
print(np.unique(train_ds.targets))

Nr de imagini in setul de antrenare 121
Nr de imagini in setul de test 14
Dim primei imagini din Dataset tensor([[[1.1414, 1.1414, 1.1414,  ..., 1.4723, 1.4596, 1.4596],
         [1.1414, 1.1414, 1.1414,  ..., 1.4596, 1.4596, 1.4596],
         [1.1414, 1.1414, 1.1414,  ..., 1.4978, 1.4978, 1.4978],
         ...,
         [1.7141, 1.7269, 1.7269,  ..., 1.7396, 1.7269, 1.7396],
         [1.7141, 1.7269, 1.7269,  ..., 1.7523, 1.7396, 1.7523],
         [1.7141, 1.7269, 1.7269,  ..., 1.7650, 1.7523, 1.7650]]])
Etichete pt prima imagine 0
[0 1]


## 4.2 Arhitectura rețelei

##  Varianta 1: API secvențial

In [4]:
n1 = 32 
n2 = 64
n3 = 128 
image_dim = train_ds[0][0].shape
print("Image dimension", image_dim)

# definim arhitectura retelei convoluționale
network = nn.Sequential(
    nn.Conv2d(1, n1, (5, 5), padding='valid'),
    nn.ReLU(),
    nn.MaxPool2d((2, 2)),
    nn.Conv2d(n1, n2, (5, 5), padding='valid'),
    nn.ReLU(),
    nn.MaxPool2d((2, 2)),
    nn.Flatten(),
    nn.Linear(n2*4*4, n3),
    nn.ReLU(),
    nn.Linear(n3, n_classes)
)

print(network)

Image dimension torch.Size([1, 1000, 1000])
Sequential(
  (0): Conv2d(1, 32, kernel_size=(5, 5), stride=(1, 1), padding=valid)
  (1): ReLU()
  (2): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)
  (3): Conv2d(32, 64, kernel_size=(5, 5), stride=(1, 1), padding=valid)
  (4): ReLU()
  (5): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)
  (6): Flatten(start_dim=1, end_dim=-1)
  (7): Linear(in_features=1024, out_features=128, bias=True)
  (8): ReLU()
  (9): Linear(in_features=128, out_features=2, bias=True)
)


##  Varianta 2: Moștenire clasa `torch.nn.Module` 
Este o modalitate de a crea networke care sunt mai flexibile decât torch.nn.Sequential API. Prin moștenire se pot crea rețele cu topologie neliniară, straturi partajate și chiar intrări sau ieșiri multiple. Clasa-copil trebuie să implementeze funcțiile `__init__()` pentru a instanția straturile necesare și o funcție `forward()` unde se realizează calculele, input este trecut prin straturile rețelei și/sau alte funcții.

In [5]:
n1 = 32
n2 = 64
n3 = 128 

class CustomNet(torch.nn.Module):
    def __init__(self, input_nc, n1, n2, n3, n_classes):
        super(CustomNet, self).__init__()
        self.conv1 = nn.Conv2d(input_nc, n1, (5, 5), padding='valid')
        self.conv2 = nn.Conv2d(n1, n2, (5, 5), padding='valid')
        self.linear1 = nn.Linear(n2*4*4, n3) # 4*4 image dimension after 2 max_pooling
        self.linear2 = nn.Linear(n3, n_classes)
        self.max_pool = nn.MaxPool2d((2, 2))
        self.relu = nn.ReLU()
    
    def forward(self, x):
        x = self.conv1(x)
        x = self.relu(x)
        x = self.max_pool(x)
        x = self.conv2(x)
        x = self.relu(x)
        x = self.max_pool(x)
        x = x.view(x.shape[0], -1)
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)

        return x


network = CustomNet(1, n1, n2, n3, n_classes)
print(network)

CustomNet(
  (conv1): Conv2d(1, 32, kernel_size=(5, 5), stride=(1, 1), padding=valid)
  (conv2): Conv2d(32, 64, kernel_size=(5, 5), stride=(1, 1), padding=valid)
  (linear1): Linear(in_features=1024, out_features=128, bias=True)
  (linear2): Linear(in_features=128, out_features=2, bias=True)
  (max_pool): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)
  (relu): ReLU()
)


## 4.3. Antrenarea networkului

In [6]:
# Specificarea functiei loss
criterion = nn.CrossEntropyLoss()

# definirea optimizatorului
opt = torch.optim.Adam(network.parameters(), lr=0.001)

In [7]:
n_epochs = 15

total_acc = []
total_loss = []

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("Device ", device)

network.train()
network.to(device)
criterion.to(device)

for ep in range(n_epochs):
    predictions = []
    targets = []
    
    loss_epoch = 0
    for data in train_loader:
        ins, tgs = data
        ins = ins.to(device)
        tgs = tgs.to(device)
        # redimensionam tensor-ul input
        # print(ins.shape)
        # print(tgs.shape)
        
        # seteaza toti gradientii la zero, deoarece PyTorch acumuleaza valorile lor dupa mai multe backward passes
        opt.zero_grad()

        # se face forward propagation -> se calculeaza predictia
        output = network(ins)

        # se calculeaza eroarea/loss-ul
        loss = criterion(output, tgs)

        # se face backpropagation -> se calculeaza gradientii
        loss.backward()

        # se actualizează weights-urile
        opt.step()

        loss_epoch = loss_epoch + loss.item()

        with torch.no_grad():
            network.eval()
            current_predict = network(ins)

            # deoarece reteaua nu include un strat de softmax, predictia finala (cifra) trebuie calculata manual
            current_predict = nn.Softmax(dim=1)(current_predict)
            current_predict = current_predict.argmax(dim=1)

            if 'cuda' in device.type:
                current_predict = current_predict.cpu().numpy()
                current_target = tgs.cpu().numpy()
            else:
                current_predict = current_predict.numpy()
                current_target = tgs.numpy()

            # print(current_predict.shape)
            predictions = np.concatenate((predictions, current_predict), axis=0)
            targets = np.concatenate((targets, current_target))
    
    total_loss.append(loss_epoch/train_bs)
    
    # print(predictions.shape)
    # print(len(targets))
    # Calculam acuratetea
    acc = np.sum(predictions==targets)/len(predictions)
    total_acc.append(acc)
    print(f'Epoch {ep}: error {loss_epoch/train_bs} accuracy {acc*100}')

    # salvam ponderile modelului dupa fiecare epoca
    torch.save(network, 'my_model.pth')

Device  cuda:0


RuntimeError: mat1 and mat2 shapes cannot be multiplied (8x3904576 and 1024x128)

## 4.3. Testarea networkului

In [None]:
# incarcam ponderile modelul antrenat
network = torch.load('my_model.pth')

test_labels = test_ds.targets.numpy()
predictions = []

network.eval()
for data in test_loader:
    ins, tgs = data
    ins = ins.to(device)

    current_predict = network(ins)
    current_predict = nn.Softmax(dim=1)(current_predict)
    current_predict = current_predict.argmax(dim=1)

    if 'cuda' in device.type:
        current_predict = current_predict.cpu().numpy()
    else:
        current_predict = current_predict.numpy()
    predictions = np.concatenate((predictions, current_predict))

acc = np.sum(predictions == test_labels)/len(predictions)
print(f'Test accuracy is {acc*100}')

Test accuracy is 99.07000000000001


# Exercițiu

Antrenați o rețea convoluțională pentru diagnosticarea COVID-19 în radiografii pulmonare și raportați performanțele pe setul de testare. 