# Neurale netwerken

De twee meest gebruikte packages voor het werken met neurale netwerken zijn Tensorflow (met bovenliggende keras) en PyTorch.

## Tensorflow

Open-source library ontwikkeld door Google voor te opbouwen, trainen en gebruiken van Neurale Netwerken. Bovenop Tensorflow is een keras package geschreven voor het gebruiksgemak.
De keras package is modulair en uitbreidbaar en maakt het mogelijk om complexe neurale netwerken te bouwen zoas voor deep learning.

Meer informatie over tensorflow en keras vind je respectievelijk [hier](https://www.tensorflow.org/), [hier](https://keras.io/) en [hier](https://keras.io/#getting-started-30-seconds-to-keras).

### Installatie

In [None]:
!pip install --upgrade pip
!pip install tensorflow

### Importing packages

In [5]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.models import load_model
from tensorflow.keras.callbacks import ModelCheckpoint

### Creating FeedForward Neural Network

Meer informatie over het Sequential class vind je [hier](https://keras.io/api/models/sequential/). Deze klasse kan gebruikt worden om een neuraal netwerk op te bouwen maar ook voor preprocessing te doen.
Het stelt namelijk een stapel van lagen voor die achter elkaar uitgevoerd worden.

Meer informatie over het Dense layer vind je [hier](https://keras.io/api/layers/core_layers/dense/). Dit is een standaard laag waar elk neuron van de input verbonden is met elk neuron van de output.
Je kan de activation functie meegeven als argument aan deze laag of als aparte laag (zie [hier](https://keras.io/api/layers/activations/)).

De dropout laag valt onder de [regularisatie categorie](https://keras.io/api/layers/regularization_layers/). De belangrijkste parameter hierbij is de rate, die het percent neuronen aangeeft dat willekeurig op 0 staat. 

In de compile functie kun je specificeren hoe de kost berekend wordt, de optimizer voor de learning rate, etc ([alle argumenten](https://keras.io/api/models/model_training_apis/))

In [3]:
n_features = 10 # afhankelijk van je data
n_neurons_hidden_1 = 50
n_neurons_hidden_2 = 50
n_outputs = 5 # afhankelijk van je wil bereiken

# maak het model aan
model = Sequential() # Feed forward
model.add(Dense(units=n_neurons_hidden_1, input_dim=n_features, activation='relu')) # hidden laag 1
model.add(Dropout(0.2))
model.add(Dense(units=n_neurons_hidden_2, input_dim=n_neurons_hidden_1, activation='relu')) # hidden laag 2
model.add(Dropout(0.2))
model.add(Dense(units=n_outputs, input_dim=n_neurons_hidden_2, activation='sigmoid')) # output laag

# compileer/initialiseer het model
model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

# trainen/fitten
model.fit(X_train, y_train, epochs=50, batch_size=32)

#predict
model.predict(X_test, batch_size=128)

Een aantal belangrijke opmerkingen hierbij zijn:
* Bij de eerste Dense-laag is het belangrijk om het aantal inputs mee te geven
* De beschikbare activatie functies zijn
 * softmax
 * relu
 * sigmoid
 * tanh
 * linear
* Er zijn een aantal optimizers mogelijk binnen sklearn. De twee veruit meest gebruikte zijn SGD (gecombineerd met Nesterov) en Adam.
 * SGD: Standaard Gradient Descent met vaste learning rate maar met momentum om uit lokale optima te geraken
 * Adam: Automatisch tweaken van learning rate
 * RMSProp: Meer gebruikt bij RNN
 * Adagrad
 * Adamax
* Epochs: Aantal keer dat de volledige trainingsset door het neuraal netwerk verwerkt wordt.
* Batch-size: Hoeveel samples er verwerkt worden voor de gewichten geupdate worden. 
  * Batch mode: Volledige trainingsset voor update gewichten (Veel geheugen nodig)
  * Stochastic Mode: Na elk sample is er een update (Duurt lang voor convergentie
  * Mini-batch mode: Alles ertussen in (32 is vaak een goed optie)

In deze blok is er gekozen voor de Categorical Crossentropy loss-functie om de error te berekenen.
Er zijn er echter nog een heel aantal loss-functies die in sommige gevallen betere resultaten geven.
De meeste gebruikte zijn:
* Regressie:
 * Mean Squared Error: Veruit de meest gebruikte, vooral voor Gaussianse verdelingen.
 * Mean Squared Logistic Error: Straft fouten veel minder sterk af, vooral voor te werken met niet geschaalde features
 * Mean Absolute Error Loss: Meer robust voor outliers
* Classificatie (2 of meer klassen)
 * Binary Cross-Entropy Loss: Standaard en meest gebruikte, output-laag moet sigmoid activation function
 * Categorical Cross Entropy: softmax om uit een reeks klassen 1 klasse met hoge zekerheid te voorspellen
 * Hinge Loss: Kan gebruikt worden als alternatief voor SVM-modellen, activation functie moet tangens hyperbolische functie zijn
 * Squared Hinge Loss: Alternatief voor hinge-loss dat smoothere error functie geeft.
* Multi-label classification: meerdere klassen tegelijkertijd mogelijk 
 * binary cross entropy: met sigmoids
 
 Daarnaast moet ook de metriek bepaald worden om de correctheid van het model te bepalen. Hiervoor zijn de volgende opties:
* Regression:
 * Mean Squared Error
 * Mean Absolute Error
 * Mean Absolute Percentage Error
 * Cosine Proximity
* Classification
 * Binary Accuracy
 * Categorical Accuracy
 * Top k Categorical Accuracy
 * Cosine Proximity
 
 Om af te ronden is er ook nog een parameter **validation_split** bij de fit-functie om een deel apart te houden van de trainingsdata.

### Save en load models

Bij het werken met Neurale Netwerken zal het snel duidelijk worden dat het training snel lang kan duren omdat er duizenden parameters getrained moeten worden.
Hierdoor is het aangeraden om een model op te slaan zodat niet steeds hetzelfde model moet getrained worden.
Dit kan zelf gedaan worden tijdens het trainen zodat indien er iets misgaat er kan verder getrained worden zonder van in het begin te moeten beginnen.
Het bewaren en inladen van een model kan met onderstaande code.
Hoe dit te doen kan je [hier](https://www.tensorflow.org/tutorials/keras/save_and_load) vinden.

In [None]:
# enkel gewichten bewaren
model.save_weights("path")
model.load_weights("path")

# volledig model op te slaan (ook architectuur en parameters) (bijvoorbeeld bij training om backups te maken)
model.save("path naar model")
model = load_model("path naar model")

# bewaar automatisch na elke epoch
cb = ModelCheckpoint(filepath="path", save_weights_only=True, verbose=1)
model.fit(X_train, y_train, epochs=50, batch_size=32, callbacks=[cb])

Bekijk [dit voorbeeld](https://keras.io/examples/structured_data/structured_data_classification_from_scratch/) over werken met dataframes en [dit voorbeeld](https://keras.io/examples/nlp/text_classification_from_scratch/) voor nlp.
Bestudeer de gevolgde stappen en verschillende onderdelen.

## PyTorch

Dit is net zoals Tensorflow een open-source package om te werken met neurale netwerken. 
Deze package is tijdens tensorflow versie 1 populair geworden bij onderzoeksgroepen omdat het gebruiksvriendelijker was.
Het is ook flexibeler/eenvoudig om complexere zaken die geen standaardoplossing hebben mee uit te voeren.
Met tensorflow versie 2 is het wel gemakkelijker om standaard oplossingen te bekomen, echter is het moeilijker om iets buiten de standaard uit te voeren.

Een belangrijk verschil is dat pytorch gebruik maakt van Tensors ipv numpy arrays.
De functionaliteit tussen de twee is gelijk maar de Tensors kunnen uitgevoerd worden op een GPU indien gewenst en werken samen met CUDA.
Bij tensorflow gebeurt dit meer in de achtergrond.

### Installation

De basis installatie van PyTorch is even eenvoudig als Tensorflow.
Echter indien er gewenst is dat de Neurale Netwerken getrained en uitgevoerd worden met behulp van een GPU is het commando iets ingewikkelder.
Meer informatie over het correcte commando om PyTorch te installeren vind je [hier](https://pytorch.org/).

In [None]:
!pip3 install torch==1.9.0+cu111 torchvision==0.10.0+cu111 torchaudio===0.9.0 -f https://download.pytorch.org/whl/torch_stable.html

### Importing packages

In [8]:
import torch
import torch.nn as nn
import torch.nn.functional as F

### Creating FeedForward Neural Network



In [7]:
# alles binnen pytorch werkt met tensors wat een andere naam is voor een feature vector maar conversie is nodig
X_train = torch.FloatTensor(X_train)
X_test = torch.FloatTensor(X_test)
y_train = torch.FloatTensor(y_train)
y_test = torch.FloatTensor(y_test)

class NeuralNetwork(nn.Module):
    def __init__(self):
        # call constructor of nn.Module
        super().init__()
        
        # make the necessary layers
        self.hidden1 = nn.Linear(in_features=10, out_features=50)
        self.dropout = nn.Dropout(0.2)
        self.hidden2 = nn.Linear(in_features=50, out_features=50)
        self.output = nn.Linear(in_features=50, out_features=5)
        
    def forward(self, x):
        # w1 * x1 + w2 * x2 + ...
        x = self.hidden1(x)
        
        # activation function
        x = F.relu(x)
        
        x = self.dropout(x)
        
        # laag 2
        x = F.relu(self.hidden2(x))
        
        x = self.dropout(x)
        
        # output
        x = F.sigmoid(self.output(x))
        
model = NeuralNetwork()
lossFunctie = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters())

epochs = 50
loss = []

# fitting
for i in range(epochs):
    y_hat = model.forward(X_train)
    loss_tmp = lossFunctie(y_hat, y_train)
    loss.append(loss_tmp)
    
    optimizer.zero_grad()
    loss_tmp.backward()
    optimizer.step()

# predictie
predictions = []
with torch.no_grad():
    for val in X_test:
        y_hat = model.forward(val)
        # dit plaats vijf waarden in de lijst
        predictions.append(y_hat)
        
        #dit plaats enkel de klasse met de hoogste kans
        predictions.append(y_hat.argmax().item())

SyntaxError: invalid syntax (<ipython-input-7-5359fe5527ee>, line 3)

### Save and load models

Bij tensorflow moest er gekozen worden tussen enkel de weights opslaan of het volledig model opslaan.
Bij Pytorch worden typisch enkel de gewichten opgeslaan en moet de definitie van de klasse (wat de architectuur bepaald) ook gekend zijn om de gewichten terug correct te kunnen laden.
Hier gaan we niet dieper op in maar meer informatie kan je [hier](https://pytorch.org/tutorials/beginner/saving_loading_models.html) vinden.

## Oefening

Download de MNIST dataset van sklearn (load_digits) dat 8x8 pixels bevat en beantwoord de volgende vragen:
* Maak een Neuraal Netwerk aan dat bestaat uit 1 laag met 20 neuronen zonder dropout. Hoeveel inputs en outputs heeft het model? Hoeveel gewichten moeten er getrained worden. Hoe accuraat is het model?
* Maak een NN aan dat bestaat uit 3 lagen van 30 neuronen zonder dropout. Vergelijk dit model met het vorige? Is er een model aan het under/over-fitten. Waaraan merk je dit? Hoe kan je dit oplossen?
* Ga op zoek naar het model met de hoogste accuraatheid. Welke architectuur en hyperparameters heeft dit model?