# MatConvNet - An introduction <img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/logoDUTH.png' width='30%' align='right'>

**Laboratory of Robotics & Automation**<br />
_Kansizoglou Ioannis, PhD Candidate_<br />
<i> ikansizo@pme.duth.gr </i>

### Σκοπός βιβλιοθήκης

Περιλαμβάνει ένα σύνολο κλάσεων, δομών και συναρτήσεων για την ανάπτυξη, εκπαίδευση και ελέγχου νευρωνικών δικτύων με την χρήση του matlab2016b, χωρίς την απαραίτητη χρήση κάρτας γραφικών (GPU).

Με τη βοήθεια της βιβλιοθήκης κάθε επίπεδο (layer) του δικτύου μπορεί να υλοποιηθεί απλά με τη χρήση της κατάλληλης συνάρτησης.

Παρέχεται δωρεάν στο παρακάτω [link](http://www.vlfeat.org/matconvnet/). Εμείς θα χρησιμοποιήσουμε την έκδοση **1.0-beta23**.

### Χρήσιμα αρχεία

Ας περιηγηθούμε στον φάκελο **example**. Εκεί βρίσκονται τέσσερα **.m** αρχεία.
1. Το **run_experiment.m** είναι το αρχείο το οποίο εκτελούμε για να ξεκινήσουμε μία εκπαίδευση. Αυτό διαχειρίζεται τα άλλα τρία αρχεία που είναι συναρτήσεις.
2. Το **cnn.m** αναλαμβάνει την συλλογή των δεδομένων (training and testing data) και μεταπηδά από την μία διαδικασία στην άλλη.
3. Το **cnn_init.m** αρχικοποιεί ορισμένες παραμέτρους του δικτύου και της διαδικασίας εκπαίδευσής του.
4. Το **architecture.m** αποτελεί υποσυνάρτηση του **cnn_init.m**, καθώς ορίζει την αρχιτεκτονική του δικτύου και αρχικοποιεί τις παραμέτρους του κάθε επιπέδου (layer).

Σκοπός του παρόντος μαθήματος είναι ο πειραματισμός με την αρχιτεκτονική ενός δικτύου και επομένως θα επέμβουμε μόνο στο τελευταίο αρχείο.

Στο φάκελο **data/mnist-baseline** βρίσκεται η βάση δεδομένων (dataset) που θα χρησιμοποιήσουμε για την άσκηση.

### MNIST Dataset

Περιλαμβάνει ένα σύνολο grayscale εικόνων από χειρόγραφα ψηφεία.

<img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master\images\MNIST-dataset.jpg' align='center' width='90%'>

* image size:    [ $28\times28\times1$ ]
* training data: 60,000
* testing data:  10,000
* classes:       10

### Σχεδιασμός νέας αρχιτεκτονικής

Ανοίγουμε το αρχείο **architecture.m**. 

``` matlab
function layers = architecture()

    f=1/100 ;
    layers = {} ;

end
```

Παρατηρούμε μία μεταβλητή **f**. Λόγω της ReLU είναι καλό να αρχικοποιούμε τις παραμέτρους του δικτύου με τυχαίες μικρές τιμές. Για το λόγο αυτό ορίζουμε την τιμή f=1/100 που πολλαπλασιάζεται με την randn και επιστρέφει τυχαίες μικρές ποσότητες. Επίσης έχει αρχικοποιηθεί μία κενή δομή (struct) με όνομα layers. 

Για να προσθέσουμε ένα νέο επίπεδο στο τέλος της δομής εργαζόμαστε ως εξής:

``` matlab
layers{end+1} = struct(...); 
```

όπου μέσα στη δομή διευκρινίζονται το είδος του επιπέδου και οι παράμετροί του.

### Layers and Activation Functions in MatConvNet

#### Convolutional layer

struct(
<span style='color:purple'>'type'</span>, <span style='color:purple'>'conv'</span>, <span style='color:purple'>'weights'</span>, {{f*randn($K_h$,$K_w$,Channels,Depth, <span style='color:purple'>'single'</span>), zeros(1, Depth, <span style='color:purple'>'single'</span>)}}, <span style='color:purple'>'stride'</span>, S, <span style='color:purple'>'pad'</span>, P);

Θυμίζουμε ότι:

<img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/Convolution3d.PNG' width=55% align='right'>

$$
\begin{align*}
Width = \frac{I_w-K_w+2P}{S}+1
\end{align*}
$$

$$
\begin{align*}
Height = \frac{I_h-K_h+2P}{S}+1
\end{align*}
$$

$$
\begin{align*}
Channels = Depth\_of\_previous\_layer
\end{align*}
$$

$$
\begin{align*}
Depth = Number\_of\_filters
\end{align*}
$$

<img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/aloneReLU.png' width='50%' align='right'>

#### ReLU activation function

struct(<span style='color:purple'>'type'</span>, <span style='color:purple'>'relu'</span>);

#### MaxPool layer

struct(
<span style='color:purple'>'type'</span>, <span style='color:purple'>'pool'</span>, <span style='color:purple'>'method'</span>, <span style='color:purple'>'max'</span>, <span style='color:purple'>'pool'</span>, [$K_h$, $K_w$], <span style='color:purple'>'stride'</span>, S, <span style='color:purple'>'pad'</span>, P);

Δεδομένου ότι $S=K_h=K_w$ και $P=0$, θυμίζουμε ότι:

<img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/Maxpooling3d.PNG' width=55% align='right'>

$$
\begin{align*}
Width = \frac{I_w}{K_w}
\end{align*}
$$

$$
\begin{align*}
Height = \frac{I_h}{K_h}
\end{align*}
$$

$$
\begin{align*}
Depth = Depth\_of\_previous\_layer
\end{align*}
$$

#### Dense layer

struct(
<span style='color:purple'>'type'</span>, <span style='color:purple'>'conv'</span>, <span style='color:purple'>'weights'</span>, {{f*randn(1,1,Channels,Units, <span style='color:purple'>'single'</span>), zeros(1,Units, <span style='color:purple'>'single'</span>)}}, <span style='color:purple'>'stride'</span>, 1, <span style='color:purple'>'pad'</span>, 0);
<p><br></p>
<div class="row">
  <div class="column">
    <img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/DenseConv1.PNG' width=49% align='left'>
  </div>
  <div class="column">
    <img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/DenseConv2.PNG' width=49% align='right'>
  </div>
</div>

<img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/Softmax.PNG' width='50%' align='right'>

#### Softmax

<p><br></p>

struct(<span style='color:purple'>'type'</span>, <span style='color:purple'>'softmaxloss'</span>);

### Training vs Validation Data

<img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/Overfitting.png' width='40%' align='right'>

Αν η εκπαίδευση ενός δικτύου διαρκέσει για πολλές επαναλήψεις (**epochs**), παρατηρείται **overfitting** στα δεδομένα εκπαίδευσης. Το γεγονός αυτό είναι ανεπιθύμητο καθώς οταν δοθούν στο δίκτυο νέα δεδομένα δεν μπορεί να τα ξεχωρίσει αποδοτικά. Για το λόγο αυτό κατά τη διάρκεια της εκπαίδευσης, συνήθως μετά από κάθε epoch, εισάγουμε στο σύστημα ορισμένα δεδομένα που δεν έχουν συμπεριληφθεί στην εκπαίδευση για να δούμε πως τα πηγαίνει σε αυτά. Τα δεδομένα αυτά ονομάζονται **validation data**. 

**ΠΡΟΣΟΧΗ**: Τα validation data τα εισάγουμε κάθε φορά απλά για να δούμε το σφάλμα του συστήματος **αλλά δεν διορθώνουμε τις παραμέτρους με βάσει αυτά**, παρα μόνο με τα δεδομένα εκπαίδευσης (training data).

### Εγκατάσταση

* Αποσυμπιέζουμε το συμπιεσμένο αρχείο **matconvnet-1.0-beta23.tar**.
* Αντιγράφουμε το φάκελο **matconvnet-1.0-beta23** στο σημείο που βρίσκονται τα εγκατεστημένα αρχεία του matlab.
* Ανοίγουμε το matlab και πηγαίνουμε στο path μέσα στο φάκελο **matconvnet-1.0-beta23**.
* Εκτελούμε τις παρακάτω εντολές

Αν το Matlab ειναι εγκατεστημένο στα **Αρχεία Εφαρμογών**

``` matlab
>> mex -setup:'C:\Program Files\MATLAB\R2016b\bin\win64\mexopts\msvc2015.xml' C
>> mex -setup:'C:\Program Files\MATLAB\R2016b\bin\win64\mexopts\msvcpp2015.xml' C++
>> run matlab/vl_compilenn;
>> run matlab/vl_setupnn.m
```

Αν το Matlab ειναι εγκατεστημένο στην **Επιφάνεια Εργασίας**

``` matlab
>> mex -setup:'C:\Users\**Username**\Desktop\MATLAB\R2016b\bin\win64\mexopts\msvc2015.xml' C
>> mex -setup:'C:\Users\**Username**\Desktop\MATLAB\R2016b\bin\win64\mexopts\msvcpp2015.xml' C++
>> run matlab/vl_compilenn;
>> run matlab/vl_setupnn.m
```

Σε περίπτωση που είναι εγκατεστημένο σε άλλο μέρος πρέπει να βρείτε το path για να το συμπεριλάβετε στις δύο πρώτες εντολές.

``` matlab
>> mex -setup:'**PATH**\MATLAB\R2016b\bin\win64\mexopts\msvc2015.xml' C
>> mex -setup:'**PATH**\MATLAB\R2016b\bin\win64\mexopts\msvcpp2015.xml' C++
>> run matlab/vl_compilenn;
>> run matlab/vl_setupnn.m
```

### Εφαρμογή - example

**Να υλοποιηθεί το δίκτυο με την παρακάτω αρχιτεκτονική και να εκπαιδευτεί για 6 epochs.**

<img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/Example.PNG' width='100%' align='center' >

Πρώτα φορτώνουμε το **imdb.mat** και ας εμφανίσουμε ορισμένα στοιχεία του (π.χ. το 1ο).

In [1]:
# Load imdb.mat and imshow
print('load(C:\...\example\data\mnist-baseline\imdb.mat)')
print('\nimshow(images.data(:,:,1))')

load(C:\...\example\data\mnist-baseline\imdb.mat)

imshow(images.data(:,:,1))


Έπειτα σχεδιάζουμε την αρχιτεκτονική προσθέτοντας **structs** στο **architecture.m** .

**ΠΡΟΣΟΧΗ**: Τα μεγέθη των φίλτρων πρέπει να υπολογιστούν βάσει των εξισώσεων που αναλύθηκαν παραπάνω.

Αποθηκεύουμε το αρχείο και εκτελούμε την εντολή:


``` matlab
>> run_experiments
```

### Πιθανά λάθη

<img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/FiltersError.PNG' align='right' width='50%'>

Σφάλματα αρχιτεκτονικής δεν επιτρέπουν την εκκίνηση της εκπαίδευσης. Το σφάλμα εντοπίζεται στην **vl_nnconv** όπως φαίνεται δίπλα. Διαβάζουμε την πρώτη κόκκινη πρόταση. Μπορεί να οφείλεται σε:

* Μη συμβατό αριθμό των καναλιών του φίλτρου με το βάθος του προηγούμενου επιπέδου
* Λάθος διαστάσεις του φίλτρου
* Μη συμβατό αριθμό φίλτρων με αριθμό biases του επιπέδου
* κλπ

### Αξιολογώντας την εκπαίδευση

<img src='https://raw.githubusercontent.com/IoannisKansizoglou/DeepLectures/master/images/Losses.PNG' align='right' width='50%'>

Παρατηρούμε κυρίως τις **καμπύλες του loss** (**objective** στην matconvnet).
Με μπλε απεικονίζονται οι καμπύλες των training data και με πορτοκαλί αυτές των validation data.

To **top1err** υπολογίζει το ποσοστό των λάθος προβλέψεων ελέγχοντας στην έξοδο μόνο την πρόβλεψη του νευρώνα με την μεγαλύτερη τιμή. Αντιθέτως, το **top2err** υπολογίζει το ποσοστό των λάθος προβλέψεων θεωρώντας, ωστόσο, ως σωστή μία πρόβλεψη εφόσον στην έξοδο ο νευρώνας που αντιστοιχεί στην σωστή κλάση ανήκει στους πέντε νευρώνες με την μέγιστη τιμή.

Η απόδοση του δικτύου καθορίζεται από το **top1accuracy** των validation data, το οποίο υπολογίζεται ως:

$$
\begin{align*}
top1accuracy(\%) = ( 1 - top1err ) * 100\%
\end{align*}
$$

Όσο αυξάνεται η απόσταση του training και του validation loss, τόσο ενισχύεται το φαινόμενο του overfitting, με αποτέλεσμα σταδιακά το validation accuracy να μην βελτιώνεται άλλο. Αυτό πρακτικά σημαίνει ότι το δίκτυο παύει να "μαθαίνει" από τα training data χρήσιμες πληροφορίες για την επίλυση του προβλήματος που επιθυμούμε. Σε αυτήν την περίπτωση λέμε ότι το δίκτυο πάυει να γενικέυει.

Γενικότερα προσπαθούμε να σταματήσουμε την εκπαίδευση σε σημείο ούτως ώστε η απόσταση των δύο losses να μην έχει αυξηθεί υπερβολικά και το validation **top1accuracy** να είναι ικανοποιητικά υψηλό αναφορικά με το πρόβλημα που αντιμετωπίζουμε. 

# References

1] http://www.vlfeat.org/matconvnet/

2] https://medium.com/@kanchansarkar/relu-not-a-differentiable-function-why-used-in-gradient-based-optimization-7fef3a4cecec

3] https://en.wikipedia.org/wiki/Overfitting