# PyTorch - Vortrag
### HTW Berlin - Angewandte Informatik (B. Sc.)
#### Modul "Ausgewählte Kapitel sozialer Webtechnologien" (aka Neuronale Netze)

##### Diletta Calussi - s0559842

# Inhalte

1. Das Framework PyTorch
2. PyTorch Fundamentals (Warm-up)
3. Neuronale Netze in PyTorch
4. Quellen

## 1. Das Framework [PyTorch](https://pytorch.org/)

- Eine ML Open-Source-Bibliothek für python
- Basiert auf der in [**Lua**](https://www.lua.org/) geschriebenen Bibliothek [**Torch**](http://torch.ch/)
- Vom Facebook-Forschungsteam für K.I. entwickelt 
- Erscheinungsjahr: 2016
- Unterstützt GPU sowie CPU 
- High Level


### Kurze Übersicht

1. Tensoren
2. Dynamische Graphen (Dynamic Computational Graph)
3. Autograd-System zur Berechnung der Ableitungen 


### Packages für diese Präsentation
- torch (CUDA oder GPU)
- torchvision
- numpy



Eine Anleitung für die Installation ist auf der Webseite von [PyTorch](https://pytorch.org/) verfügbar.

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
#Installation check
import torch
print("Torch version:", torch.__version__)
print("CUDA is active:", torch.cuda.is_available())
print("CUDA version:", torch.version.cuda)

Torch version: 0.4.1
CUDA is active: True
CUDA version: 8.0


## 2. PyTorch Fundamentals (Warm-up)

PyTorch bietet zwei Abstraktionen für Datenstrukturen: Tensoren und Variablen. Tensoren sind so ähnlich wie NumPy-Arrays und können auch auf GPUs übertragen werden. Variablen waren bis zur Version 0.4. als Wrapper um Tensoren notwendig, um bsp. die Berechnung der Gradienten zu ermöglichen.

### 2.1 Tensoren

Ein `torch.Tensor` ist eine mehrdimensionale Matrix, die Elemente von einem bestimmten Datentyp enthält. Ein detaillierter Überblick der unterstützten Datentype ist auf der [Webseite von PyTorch](https://pytorch.org/docs/stable/tensors.html) verfügbar.  

PyTorch unterstützt sowohl GPU- als auch CPU-Tensoren.

#### Beispiele aus der [PyTorch-Webseite](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py)

In [3]:
from __future__ import print_function
import torch

#5x3 matrix, nicht initialisiert
x = torch.empty(5, 3)
print(x)

#Random-Initialisierung
x = torch.rand(5, 3)
print(x)

#Matrix filled with zeros mit Typ Long
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

#Tensor aus Daten
x = torch.tensor([5.5, 3])
print(x)

x = x.new_ones(5, 3, dtype=torch.double)      # new_* methods take in sizes
print(x)

x = torch.randn_like(x, dtype=torch.float)    # override dtype!
print(x)                                      # result has the same size

print(x.size())

tensor([[0.0000e+00, 0.0000e+00, 2.3098e-14],
        [8.6740e-43, 2.8026e-45, 1.9180e+08],
        [3.2641e-28, 8.0419e-40, 1.7045e-24],
        [2.8026e-45, 1.9946e-14, 8.6740e-43],
        [1.4013e-45, 0.0000e+00, 3.6183e-15]])
tensor([[0.9120, 0.1146, 0.7886],
        [0.2711, 0.1704, 0.7164],
        [0.4287, 0.4288, 0.9780],
        [0.9754, 0.3429, 0.5061],
        [0.7708, 0.8438, 0.1262]])
tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])
tensor([5.5000, 3.0000])
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-2.0859, -1.4002, -0.6456],
        [-0.5518,  0.6765,  0.9266],
        [ 0.1259, -1.0140, -1.6901],
        [ 0.9061, -0.4135,  2.6784],
        [-0.7213, -0.9194,  0.9348]])
torch.Size([5, 3])


#### Operationen auf Tensoren

In [4]:
a = torch.randint(1,10,(2,3))
b = torch.randint(1,10,(2,3))
print(a)
print()
print(b)

tensor([[2., 6., 1.],
        [6., 4., 2.]])

tensor([[8., 8., 2.],
        [6., 8., 2.]])


In [5]:
#Elementwise Operationen (mit den Funktionen .add(), .sub(), .mul(), .div())
print("Elementwise-Operationen:")
print("Addition: \n", torch.add(a,b), "\noder:", a+b)
print("*"*60)
print("Subtraktion:\n", torch.sub(a,b), "\noder:", a-b)
print("*"*60)
print("Multiplikation:\n", torch.mul(a,b), "\noder:", a*b)
print("*"*60)
print("Division:\n", torch.div(a,b), "\noder:", a/b)
print("*"*60)
print("IN-PLACE: ")
print(a.add_(b)) #adds b to a
print(a)

Elementwise-Operationen:
Addition: 
 tensor([[10., 14.,  3.],
        [12., 12.,  4.]]) 
oder: tensor([[10., 14.,  3.],
        [12., 12.,  4.]])
************************************************************
Subtraktion:
 tensor([[-6., -2., -1.],
        [ 0., -4.,  0.]]) 
oder: tensor([[-6., -2., -1.],
        [ 0., -4.,  0.]])
************************************************************
Multiplikation:
 tensor([[16., 48.,  2.],
        [36., 32.,  4.]]) 
oder: tensor([[16., 48.,  2.],
        [36., 32.,  4.]])
************************************************************
Division:
 tensor([[0.2500, 0.7500, 0.5000],
        [1.0000, 0.5000, 1.0000]]) 
oder: tensor([[0.2500, 0.7500, 0.5000],
        [1.0000, 0.5000, 1.0000]])
************************************************************
IN-PLACE: 
tensor([[10., 14.,  3.],
        [12., 12.,  4.]])
tensor([[10., 14.,  3.],
        [12., 12.,  4.]])


Resizing geht am besten mit [`view()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.view):


In [6]:
#Reshaping mit view
print(a.size(), b.size())
try:
    torch.mm(a,b)
except RuntimeError as e:
    print(e)
#Resizing    
b_view = b.view(3,2)
torch.mm(a,b_view)

torch.Size([2, 3]) torch.Size([2, 3])
size mismatch, m1: [2 x 3], m2: [2 x 3] at c:\programdata\miniconda3\conda-bld\pytorch_1533090265711\work\aten\src\th\generic/THTensorMath.cpp:2070


tensor([[132., 170.],
        [152., 176.]])

### 2.2 NumPy Bridge
- Umwandlung eines PyTorch-Tensors zu einem numpy-Array:
    * Die Tensoren teilen den selben Speicherplatz. Änderungen beeinflussen beide Tensoren!

In [7]:
import numpy as np
import torch

In [25]:
a = torch.ones(5)
print("a:",a, type(a))

#Conversion zu einem numpy-Array
b = a.numpy()
print("b:", b, type(b))

#Sharing same memory locations --> Changes apply to each vector
a.add_(1)
print("a:", a)
print("b:", b)

a: tensor([1., 1., 1., 1., 1.]) <class 'torch.Tensor'>
b: [1. 1. 1. 1. 1.] <class 'numpy.ndarray'>
a: tensor([2., 2., 2., 2., 2.])
b: [2. 2. 2. 2. 2.]


### 2.3 CUDA Tensors
Tensoren können unter den Geräten mit der Methode `to()` geschoben werden:

In [9]:
# CUDA Tensors
if torch.cuda.is_available():
    device = torch.device("cuda")          # a CUDA device object
    y = torch.ones_like(x, device=device)  # directly create a tensor on GPU
    x = x.to(device)                       # or just use strings ``.to("cuda")``
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # ``.to`` can also change dtype together!

tensor([[-1.0859, -0.4002,  0.3544],
        [ 0.4482,  1.6765,  1.9266],
        [ 1.1259, -0.0140, -0.6901],
        [ 1.9061,  0.5865,  3.6784],
        [ 0.2787,  0.0806,  1.9348]], device='cuda:0')
tensor([[-1.0859, -0.4002,  0.3544],
        [ 0.4482,  1.6765,  1.9266],
        [ 1.1259, -0.0140, -0.6901],
        [ 1.9061,  0.5865,  3.6784],
        [ 0.2787,  0.0806,  1.9348]], dtype=torch.float64)


### 2.4 [Autograd](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html): Automatische Differentierung un PyTorch

Das Package `torch.autograd` bietet eine automatische Differenzierung für alle Operationen an Tensoren. 

Notwendig sind folgende Objekte:
- `torch.Tensor`-Objekte mit dem Attribut `requires_grad` auf `True` gesetzt. Am Ende einer Computation reicht es aus, die Methode `backward()` aufzurufen, damit alle Gradienten automatisch berechnet werden. Der Gradient von einem Tensor kann mit dem Attribut `grad` angesehen werden
- `Funktion`-Objekte die mit Tensoren in einem Graphen verbunden sind. Jeder Tensor hat das Attribut `.grad_fn`, das eine Referenz auf die Funktion enthält, die den Tensor generiert hat).

Beispiel aus der Übung:

<img src="graph.png" >

* a = 2
* b = e
* c = 3

In [10]:
# External Modules
import torch

In [11]:
#Tensor deklariation
a = torch.tensor(2., requires_grad=True)
b = torch.tensor(np.e, requires_grad=True)
c = torch.tensor(3., requires_grad=True)

print(a, b, c)
#Wenn ein Tensor nur ein Element enthält, kann das Element mit .item() ausgegeben werden
print("Variable a: ", a.item())

tensor(2., requires_grad=True) tensor(2.7183, requires_grad=True) tensor(3., requires_grad=True)
Variable a:  2.0


In [12]:
print(a.grad, b.grad, c.grad)
print(a.requires_grad, b.requires_grad, c.requires_grad)

None None None
True True True


In [13]:
def applyExerciseFunction(a,b,c):
    ln = torch.log(b)
    print(ln.grad_fn)
    x = a + ln 
    print(x.grad_fn)
    x = c * x
    print(x.grad_fn)
    x = (1./3.)*x
    print(x.grad_fn)
    out = 1./x
    print(out.grad_fn)
    return out

In [14]:
out =  applyExerciseFunction(a,b,c) #1/3
print("Ergebnis aus Fowardpass: ", out.item()) #1./3.

<LogBackward object at 0x0000026B2AF4C2E8>
<ThAddBackward object at 0x0000026B2AF4C2E8>
<ThMulBackward object at 0x0000026B2AF4C2E8>
<MulBackward object at 0x0000026B2AF4C2E8>
<MulBackward object at 0x0000026B2AF4C2E8>
Ergebnis aus Fowardpass:  0.3333333432674408


In [15]:
out.backward()

In [16]:
print("dout/da: ", a.grad)
print("dout/db: ", b.grad)
print("dout/dc: ", c.grad)

dout/da:  tensor(-0.1111)
dout/db:  tensor(-0.0409)
dout/dc:  tensor(-0.1111)


In [17]:
#Ausschalten der Gradienten:
print(a.requires_grad)
print((a ** 2).requires_grad)

with torch.no_grad():
    print((a ** 2).requires_grad)

True
True
False


## 3. Neuronale Netze in PyTorch: `torch.nn` und `torchvision`

### Das Package [`torch.nn`](https://pytorch.org/docs/stable/nn.html#)

Neuronale Netze können in PyTorch einfach mit dem Objekten und Funktionen aus dem Modul `torch.nn` erzeugt werden.

Das Package bietet Klassen für 
* die allgemeine Definition eines Modells (sog. [Container](https://pytorch.org/docs/stable/nn.html#containers)), wie `nn.Module`, sowie dessen 
* Layers, 
* Aktivierungsfunktionen, 
* Kostenfuntkionen ([Loss functions](https://pytorch.org/docs/stable/nn.html#loss-functions))

Optimizer sind im Package [`torch.optim`](https://pytorch.org/docs/stable/optim.html#module-torch.optim) zu finden.
Funktionen sind auch im Package `torch.nn.functional` verfügbar.
Ein `nn.Module` enthält die Methode `forward(input)`, die das Ergebnis berechnet.


### Das Package `torchvision`

Viele Datensätze sind mit dem Package [`torchvision.datasets`](https://pytorch.org/docs/stable/torchvision/datasets.html#torchvision-datasets) verfügbar.

## 3.1 FeedForward-Network

### 3.1.1 MNIST-Datensatz vorbereiten

Folgendes Beispiel implementiert ein FeedForward-Network für die Klassifizierung der Bilder aus dem MNIST-Datensatz.

Folgendes Beispiel ist aus der Webseite "Deep Learning Wizard" übernommen: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_feedforward_neuralnetwork/

In [18]:
import torchvision.transforms as transforms
import torchvision.datasets as dataset

In [19]:
train_dataset = dataset.MNIST(root='./data', 
                            train=True, 
                            transform=transforms.ToTensor(),
                            download=True)

test_dataset = dataset.MNIST(root='./data', 
                           train=False, 
                           transform=transforms.ToTensor())

#### Datensatz iterierbar machen

- 60.000 Bilder (Trainingsproben)
- Batches == 100 --> Kleine Gruppen von Bildern, die dem FFNN übergeben werden
- Eine Epoche sieht immer also 600 Bilder
- Wenn man den Datensatz 5x durchlaufen möchte, dann sind 3000 Iterationen notwendig (600x5)

In [20]:
batch_size = 100
n_iters = 3000
num_epochs = n_iters / (len(train_dataset) / batch_size) #5
num_epochs = int(num_epochs)

train_loader = torch.utils.data.DataLoader(dataset=train_dataset, 
                                           batch_size=batch_size, 
                                           shuffle=True)

test_loader = torch.utils.data.DataLoader(dataset=test_dataset, 
                                          batch_size=batch_size, 
                                          shuffle=False)

### 3.1.2 Netzklasse mit `nn.Module` definieren

PyTorch bietet viele Möglichkeiten, um ein Netz zu definieren. Hier leitet die Netzklasse aus dem Modul `nn.Module` ab. Sie definiert im Konsktruktor die notwendigen Layer sowie die Aktivierungsfunktion (== die Struktur) und in der Methode `forward()` die Schritte zum Ergebnis.

Eine Liste von weiteren Aktivierungsfunktionen ist [hier](https://pytorch.org/docs/stable/nn.html#non-linear-activations-weighted-sum-nonlinearity) verfügbar.

Weitere Beispiele zur Definiton von einer Netzklasse:
- PyTorch-Doku: https://pytorch.org/docs/stable/nn.html#
- Udacity "Neural Networks with PyTorch" (Jupyter Notebook):  
https://github.com/udacity/deep-learning-v2-pytorch/blob/master/intro-to-pytorch/Part%202%20-%20Neural%20Networks%20in%20PyTorch%20(Solution).ipynb

Die Implementierung von diesem Netz erfolgte in Anlehnung zu folgender Quelle:
- Deep Learning Wizard: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_feedforward_neuralnetwork/

In [28]:
#######################
#  USE GPU FOR MODEL  #
#######################

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

## Model A: 1 Hidden Layer Feedforward Neural Network (Sigmoid Activation)

### Übersicht - Ein Bild

<img src="nn1_params3.png" >

Quelle: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_feedforward_neuralnetwork/

1. Yellow box: Lineare Transformation auf dem Input $\boldsymbol{y} = W\boldsymbol{x} + \boldsymbol{b}$
2. Pink box: Logits werden einer nichtlinearen Funktion übergeben 
3. Blue box: Lineare Transformation auf dem Output
4. Red box: Wahrscheinlichkeiten
5. Purple box: Loss berechnen mit Cross Entropy Funktion


In [27]:
import torch
import torch.nn as nn

In [29]:
class FeedforwardNeuralNetModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(FeedforwardNeuralNetModel, self).__init__()
        # Linear function
        self.fc1 = nn.Linear(input_dim, hidden_dim) 

        # Non-linearity
        self.sigmoid = nn.Sigmoid()

        # Linear function (readout)
        self.fc2 = nn.Linear(hidden_dim, output_dim)  

    def forward(self, x):
        # Linear function  # LINEAR
        out = self.fc1(x)

        # Non-linearity  # NON-LINEAR
        out = self.sigmoid(out)

        # Linear function (readout)  # LINEAR
        out = self.fc2(out)
        return out

### Modellklasse instanzieren

- Input dimension: 784
    * Size of image
        * 28×28=784
- Output dimension: 10 (0, 1, 2, 3, 4, 5, 6, 7, 8, 9)    

- Hidden dimension: 100

In [30]:
input_dim = 28*28
hidden_dim = 100
output_dim = 10

model = FeedforwardNeuralNetModel(input_dim, hidden_dim, output_dim)
model.to(device)

FeedforwardNeuralNetModel(
  (fc1): Linear(in_features=784, out_features=100, bias=True)
  (sigmoid): Sigmoid()
  (fc2): Linear(in_features=100, out_features=10, bias=True)
)

### Loss
- Feedforward Neural Network: **Cross Entropy Loss**
    - Berechnung des Fehlers zwishen den softmax output und den Labels
    

Achtung: 
- Die `CrossEntropyLoss`-Funktion in PyTorch berechnet automatisch die Softmax-Werte. Deswegen muss man beim letzten Schritt im Forward-Pass kein Softmax berechnen    

In [31]:
criterion = nn.CrossEntropyLoss()

### Optimizer
- Stochastich Gradient Descent

In [32]:
learning_rate = 0.1
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)  

### Parameter von einem Netz untersuchen

In [33]:
print(len(list(model.parameters())))

# FC 1 Parameters 
print(list(model.parameters())[0].size())

# FC 1 Bias Parameters
print(list(model.parameters())[1].size())

# FC 2 Parameters
print(list(model.parameters())[2].size())

# FC 2 Bias Parameters
print(list(model.parameters())[3].size())

4
torch.Size([100, 784])
torch.Size([100])
torch.Size([10, 100])
torch.Size([10])


### Modell trainieren

1. Input zu Tensoren umwandeln mit requires_grad 
2. Gradient-Buffer zurücksetzen: `zero_grad()`
3. Berechnung des Outputs 
4. Berechnung des Fehlers durch Anwendung des `criterion` auf die berechneten Ergebnisse und bestehenden Labels
5. Berechnung der Gradienten bezüglich der Parameter: `backward()`
6. Parameter über den Optimizer aktualisieren: `step()`

In [34]:
iter = 0
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Load images with gradient accumulation capabilities
        images = images.view(-1, 28*28).requires_grad_().to(device)
        labels = labels.to(device)
        
        # Clear gradients w.r.t. parameters
        optimizer.zero_grad()

        # Forward pass to get output/logits
        outputs = model(images)

        # Calculate Loss: softmax --> cross entropy loss
        loss = criterion(outputs, labels)

        # Getting gradients w.r.t. parameters
        loss.backward()

        # Updating parameters
        optimizer.step() #parameters = parameters - learning_rate * parameters_gradients

        iter += 1

        if iter % 500 == 0:
            # Calculate Accuracy         
            correct = 0
            total = 0
            # Iterate through test dataset
            for images, labels in test_loader:
                # Load images with gradient accumulation capabilities
                images = images.view(-1, 28*28).requires_grad_().to(device)
    
                # Forward pass only to get logits/output
                outputs = model(images)

                # Get predictions from the maximum value
                _, predicted = torch.max(outputs.data, 1)

                # Total number of labels
                total += labels.size(0) #100

                #######################
                #  USE GPU FOR MODEL  #
                #######################
                # Total correct predictions
                if torch.cuda.is_available():
                    correct += (predicted.type(torch.FloatTensor).cpu() == labels.type(torch.FloatTensor)).sum()
                else:
                    correct += (predicted == labels).sum()


            accuracy = 100. * correct.item() / total

            # Print Loss
            print('Iteration: {}. Loss: {}. Accuracy: {:.2f}%'.format(iter, loss.item(), accuracy))

Iteration: 500. Loss: 0.6097607612609863. Accuracy: 86.43%
Iteration: 1000. Loss: 0.4247399866580963. Accuracy: 89.50%
Iteration: 1500. Loss: 0.4123305380344391. Accuracy: 90.46%
Iteration: 2000. Loss: 0.2970556616783142. Accuracy: 91.15%
Iteration: 2500. Loss: 0.2933889627456665. Accuracy: 91.71%
Iteration: 3000. Loss: 0.2421608418226242. Accuracy: 92.07%


## Modell B: 1 Hidden Layer Feedforward Neural Network (ReLU Activation)

In [35]:
'''
STEP 3: CREATE MODEL CLASS
'''
class FeedforwardNeuralNetModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(FeedforwardNeuralNetModel, self).__init__()
        # Linear function
        self.fc1 = nn.Linear(input_dim, hidden_dim) 
        # Non-linearity
        self.relu = nn.ReLU()
        # Linear function (readout)
        self.fc2 = nn.Linear(hidden_dim, output_dim)  

    def forward(self, x):
        # Linear function
        out = self.fc1(x)
        # Non-linearity
        out = self.relu(out)
        # Linear function (readout)
        out = self.fc2(out)
        return out
'''
STEP 4: INSTANTIATE MODEL CLASS
'''
input_dim = 28*28
hidden_dim = 100
output_dim = 10

model = FeedforwardNeuralNetModel(input_dim, hidden_dim, output_dim)
model.to(device)

'''
STEP 5: INSTANTIATE LOSS CLASS
'''
criterion = nn.CrossEntropyLoss()


'''
STEP 6: INSTANTIATE OPTIMIZER CLASS
'''
learning_rate = 0.1

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

'''
STEP 7: TRAIN THE MODEL
'''
iter = 0
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Load images with gradient accumulation capabilities
        images = images.view(-1, 28*28).requires_grad_().to(device)
        labels = labels.to(device)

        # Clear gradients w.r.t. parameters
        optimizer.zero_grad()

        # Forward pass to get output/logits
        outputs = model(images)

        # Calculate Loss: softmax --> cross entropy loss
        loss = criterion(outputs, labels)

        # Getting gradients w.r.t. parameters
        loss.backward()

        # Updating parameters
        optimizer.step()

        iter += 1

        if iter % 500 == 0:
            # Calculate Accuracy         
            correct = 0
            total = 0
            # Iterate through test dataset
            for images, labels in test_loader:
                # Load images with gradient accumulation capabilities
                images = images.view(-1, 28*28).requires_grad_().to(device)

                # Forward pass only to get logits/output
                outputs = model(images)

                # Get predictions from the maximum value
                _, predicted = torch.max(outputs.data, 1)

                # Total number of labels
                total += labels.size(0) #jedes Mal um 100 erhöht
                
                ######################
                #  USE GPU FOR MODEL  #
                #######################
                # Total correct predictions
                if torch.cuda.is_available():
                    correct += (predicted.type(torch.FloatTensor).cpu() == labels.type(torch.FloatTensor)).sum()
                else:
                    correct += (predicted == labels).sum()


            accuracy = 100. * correct.item() / total

            # Print Loss
            print('Iteration: {}. Loss: {}. Accuracy: {:.2f}%'.format(iter, loss.item(), accuracy))

Iteration: 500. Loss: 0.24110135436058044. Accuracy: 91.33%
Iteration: 1000. Loss: 0.2077825516462326. Accuracy: 93.12%
Iteration: 1500. Loss: 0.2603013515472412. Accuracy: 94.23%
Iteration: 2000. Loss: 0.3106187582015991. Accuracy: 94.78%
Iteration: 2500. Loss: 0.21734096109867096. Accuracy: 95.46%
Iteration: 3000. Loss: 0.13929630815982819. Accuracy: 95.72%


## Model C: 2 Hidden Layer Feedforward Neural Network (ReLU Activation)

<img src="nn2.png" >

In [36]:
import torch
import torch.nn as nn

'''
STEP 3: CREATE MODEL CLASS
'''
class FeedforwardNeuralNetModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(FeedforwardNeuralNetModel, self).__init__()
        # Linear function 1: 784 --> 100
        self.fc1 = nn.Linear(input_dim, hidden_dim) 
        # Non-linearity 1
        self.relu1 = nn.ReLU()

        # Linear function 2: 100 --> 100
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        # Non-linearity 2
        self.relu2 = nn.ReLU()

        # Linear function 3 (readout): 100 --> 10
        self.fc3 = nn.Linear(hidden_dim, output_dim)  

    def forward(self, x):
        # Linear function 1
        out = self.fc1(x)
        # Non-linearity 1
        out = self.relu1(out)

        # Linear function 2
        out = self.fc2(out)
        # Non-linearity 2
        out = self.relu2(out)

        # Linear function 3 (readout)
        out = self.fc3(out)
        return out
'''
STEP 4: INSTANTIATE MODEL CLASS
'''
input_dim = 28*28
hidden_dim = 100
output_dim = 10

model = FeedforwardNeuralNetModel(input_dim, hidden_dim, output_dim)
model.to(device)

'''
STEP 5: INSTANTIATE LOSS CLASS
'''
criterion = nn.CrossEntropyLoss()


'''
STEP 6: INSTANTIATE OPTIMIZER CLASS
'''
learning_rate = 0.1

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

'''
STEP 7: TRAIN THE MODEL
'''
iter = 0
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Load images with gradient accumulation capabilities
        images = images.view(-1, 28*28).requires_grad_().to(device)
        labels = labels.to(device)

        # Clear gradients w.r.t. parameters
        optimizer.zero_grad()

        # Forward pass to get output/logits
        outputs = model(images)

        # Calculate Loss: softmax --> cross entropy loss
        loss = criterion(outputs, labels)

        # Getting gradients w.r.t. parameters
        loss.backward()

        # Updating parameters
        optimizer.step()

        iter += 1

        if iter % 500 == 0:
            # Calculate Accuracy         
            correct = 0
            total = 0
            # Iterate through test dataset
            for images, labels in test_loader:
                # Load images with gradient accumulation capabilities
                images = images.view(-1, 28*28).requires_grad_().to(device)

                # Forward pass only to get logits/output
                outputs = model(images)

                # Get predictions from the maximum value
                _, predicted = torch.max(outputs.data, 1)

                # Total number of labels
                total += labels.size(0)

                #######################
                #  USE GPU FOR MODEL  #
                #######################
                # Total correct predictions
                if torch.cuda.is_available():
                    correct += (predicted.type(torch.FloatTensor).cpu() == labels.type(torch.FloatTensor)).sum()
                else:
                    correct += (predicted == labels).sum()


            accuracy = 100. * correct.item() / total

            # Print Loss
            print('Iteration: {}. Loss: {}. Accuracy: {:.2f}%'.format(iter, loss.item(), accuracy))

Iteration: 500. Loss: 0.5177395939826965. Accuracy: 91.50%
Iteration: 1000. Loss: 0.2385992854833603. Accuracy: 93.31%
Iteration: 1500. Loss: 0.07126786559820175. Accuracy: 94.82%
Iteration: 2000. Loss: 0.1462179273366928. Accuracy: 95.75%
Iteration: 2500. Loss: 0.07994501292705536. Accuracy: 96.04%
Iteration: 3000. Loss: 0.10123749822378159. Accuracy: 96.39%


## 3.2 Convolutional Neural Network (CNN)

Basic CNN - 2 zusätzliche Layer vor dem Feedforward Network:
- Convolution Layer
- Pooling Layer 

<img src="cnn1.png" >

Quelle: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_convolutional_neuralnetwork/

## Modell A: 
- 2 Convolutional Layers
    - Same Padding (same output size)
- 2 Max Pooling Layers
- 1 Fully Connected Layer


**FORMELN:**

**OUTPUT FORMEL FÜR CONVOLUTION**:

- $O = \frac {W - K + 2P}{S} + 1$
    - O: output height/length
    - W: input height/length
    - K: filter size (kernel size) = 5
    - P:  same padding (non-zero)
        * $P = \frac{K - 1}{2}  = \frac{5 - 1}{2} = 2$
    - S: stride = 1

**OUTPUT FORMEL FÜR POOLING**:
- $O = \frac {W - K}{S} + 1$
    - W: input height/width
    - K: filter size = 2
    - S: stride size = filter size, PyTorch defaults the stride to kernel filter size
        - Es wird das default PyTorch stride, also gilt diese Formel $O = \frac {W}{K}$
    
<img src="cnn10-2n.png">

Quelle: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_convolutional_neuralnetwork/

In [None]:
class CNNModel(nn.Module):
    def __init__(self):
        super(CNNModel, self).__init__()

        # Convolution 1
        self.cnn1 = nn.Conv2d(in_channels=1, out_channels=16, kernel_size=5, stride=1, padding=2)
        self.relu1 = nn.ReLU()

        # Max pool 1
        self.maxpool1 = nn.MaxPool2d(kernel_size=2)

        # Convolution 2
        self.cnn2 = nn.Conv2d(in_channels=16, out_channels=32, kernel_size=5, stride=1, padding=2)
        self.relu2 = nn.ReLU()

        # Max pool 2
        self.maxpool2 = nn.MaxPool2d(kernel_size=2)

        # Fully connected 1 (readout)
        self.fc1 = nn.Linear(32 * 7 * 7, 10) 

    def forward(self, x):
        # Convolution 1
        out = self.cnn1(x)
        out = self.relu1(out)

        # Max pool 1
        out = self.maxpool1(out)

        # Convolution 2 
        out = self.cnn2(out)
        out = self.relu2(out)

        # Max pool 2 
        out = self.maxpool2(out)

        # Resize
        # Original size: (100, 32, 7, 7)
        # out.size(0): 100
        # New out size: (100, 32*7*7)
        out = out.view(out.size(0), -1)

        # Linear function (readout)
        out = self.fc1(out)

        return out

In [None]:
model = CNNModel()
model.to(device)

In [None]:
criterion = nn.CrossEntropyLoss()

In [None]:
learning_rate = 0.01

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)  

In [None]:
print(model.parameters())

print(len(list(model.parameters())))

# Convolution 1: 16 Kernels
print(list(model.parameters())[0].size())

# Convolution 1 Bias: 16 Kernels
print(list(model.parameters())[1].size())

# Convolution 2: 32 Kernels with depth = 16
print(list(model.parameters())[2].size())

# Convolution 2 Bias: 32 Kernels with depth = 16
print(list(model.parameters())[3].size())

# Fully Connected Layer 1
print(list(model.parameters())[4].size())

# Fully Connected Layer Bias
print(list(model.parameters())[5].size())

### Training

1. Umwandlung der Inputs nach Tensoren mit requires_grad aktiv
    - CNN Input: (1,28,28)
    - Feedforward Input: (1, 28*28)
2. Gradient-Buffer zurücksetzen: `zero_grad()`
3. Berechnung des Outputs 
4. Berechnung des Fehlers durch Anwendung des `criterion` auf die berechneten Ergebnisse und bestehenden Labels
5. Berechnung der Gradienten bezüglich der Parameter: `backward()`
6. Parameter über den Optimizer aktualisieren: `step()`         

In [None]:
iter = 0
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Load images
        images = images.requires_grad_().to(device)
        labels = labels.to(device)

        # Clear gradients w.r.t. parameters
        optimizer.zero_grad()

        # Forward pass to get output/logits
        outputs = model(images)

        # Calculate Loss: softmax --> cross entropy loss
        loss = criterion(outputs, labels)

        # Getting gradients w.r.t. parameters
        loss.backward()

        # Updating parameters
        optimizer.step()

        iter += 1

        if iter % 500 == 0:
            # Calculate Accuracy         
            correct = 0
            total = 0
            # Iterate through test dataset
            for images, labels in test_loader:
                # Load images
                images = images.requires_grad_().to(device)
                labels = labels.to(device)

                # Forward pass only to get logits/output
                outputs = model(images)

                # Get predictions from the maximum value
                _, predicted = torch.max(outputs.data, 1)

                # Total number of labels
                total += labels.size(0)

                #######################
                #  USE GPU FOR MODEL  #
                #######################
                # Total correct predictions
                if torch.cuda.is_available():
                    correct += (predicted.type(torch.FloatTensor).cpu() == labels.type(torch.FloatTensor)).sum()
                else:
                    correct += (predicted == labels).sum()


            accuracy = 100. * correct.item() / total

            # Print Loss
            print('Iteration: {}. Loss: {}. Accuracy: {:.2f}%'.format(iter, loss.item(), accuracy))

## Quellen

Udacity:
    - Deep Learning with PyTorch(Tutorial): 
    - Deep Learning with PyTorch (Repo): https://github.com/udacity/deep-learning-v2-pytorch

Deep Learning Wizard, "Practical PyTorch": https://www.deeplearningwizard.com/deep_learning/practical_pytorch

Siraj Raval, "Pytorch in 5 Minutes": https://www.youtube.com/watch?v=nbJ-2G2GXL0 (very quick start)

IAML (Italian Association for Machine Learning), "Fun with PyTorch": https://iaml.it/blog/fun-with-pytorch-part-1

PyTorch, Neural Networks - PyTorch Tutorials: https://pytorch.org/tutorials/beginner/blitz/neural_networks_tutorial.html

PyTorch Documentation: https://pytorch.org/docs/stable/index.html

