# PyTorch - Vortrag
### HTW Berlin - Angewandte Informatik (B. Sc.)
#### Modul "Ausgewählte Kapitel sozialer Webtechnologien" (aka Neuronale Netze)

##### Diletta Calussi - s0559842

# Inhalte

1. Das Framework PyTorch
2. PyTorch Fundamentals (Warm-up)
3. Neuronale Netze in PyTorch
4. Quellen

##### Packages für die Präsentation
- torch (CUDA oder GPU)
- torchvision
- numpy



Eine Anleitung für die Installation ist auf der Webseite von [PyTorch](https://pytorch.org/) verfügbar.

## 1. Das Framework [PyTorch](https://pytorch.org/)

- Eine ML Open-Source-Bibliothek für python
- Inspiriert nach der in [**Lua**](https://www.lua.org/) geschriebenen Bibliothek [**Torch**](http://torch.ch/)
- Vom Facebook-Forschungsteam für K.I. entwickelt 
- Erscheinungsjahr: 2016
- Unterstützt GPU sowie CPU 

### **Key Features**: 

1. Imperative Programmierung
2. Dynamische Graphen (Dynamic Computation Graph)
    - Autograd-System zur automatischen Berechnung von Ableitungen in einem Graphen

### Key Feature 1: Imperative Programming

* "Tell what and tell how"
* vs. *symbolische Programmierung*:
     - Zunächst die Graphstruktur wird definiert
     - Dann wird der Graph einer Funktion übergeben
     - Computation erfolgt am Ende (!)
* Flexibilität:
    - --> Key Feature 2: Dynamic Computation Graph (s.u.)

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
#Installation check
import torch
print("Torch version:", torch.__version__)
print("CUDA is active:", torch.cuda.is_available())
print("CUDA version:", torch.version.cuda)

Torch version: 0.4.1
CUDA is active: True
CUDA version: 8.0


## 2. PyTorch Fundamentals (Warm-up)

### 2.1 [Tensoren](https://pytorch.org/tutorials/beginner/former_torchies/tensor_tutorial.html)

Ein `torch.Tensor` ist eine mehrdimensionale Matrix, die Elemente von einem bestimmten Datentyp enthält. Ein detaillierter Überblick der unterstützten Datentype ist auf der [Webseite von PyTorch](https://pytorch.org/docs/stable/tensors.html) verfügbar. 

PyTorch-Tensoren sind sowie numpy-Matrizen, nur dass sie GPU-Berechnungen ermöglichen.

#### Beispiele aus der [PyTorch-Webseite](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py)

In [3]:
from __future__ import print_function
import torch

#5x3 matrix, nicht initialisiert
x = torch.empty(5, 3)
print(x)

#Random-Initialisierung
x = torch.rand(5, 3)
print(x)

#Matrix filled with zeros mit Typ Long
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

x = x.new_ones(5, 3, dtype=torch.double)      # new_* methods take in sizes
print(x)

x = torch.randn_like(x, dtype=torch.float)    # override dtype!
print(x)                                      # result has the same size

tensor([[0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000]])
tensor([[0.6567, 0.0209, 0.1491],
        [0.0021, 0.0705, 0.2531],
        [0.1855, 0.5600, 0.0507],
        [0.7544, 0.1731, 0.4208],
        [0.7196, 0.0541, 0.3483]])
tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-0.5523,  0.7173,  0.2235],
        [-1.0418, -1.0518, -0.5022],
        [-1.9044,  1.0648,  1.8611],
        [ 0.3088, -1.2730,  0.9823],
        [ 0.1267, -1.2832,  0.5282]])


#### Operationen auf Tensoren

In [4]:
a = torch.randint(1,10,(2,3))
b = torch.randint(1,10,(2,3))
print(a)
print()
print(b)

#Elementwise Operationen (mit den Funktionen .add(), .sub(), .mul(), .div())
print("Elementwise-Operationen:")
print("Addition: \n", torch.add(a,b), "\noder:", a+b)
print("*"*60)
print("Subtraktion:\n", torch.sub(a,b), "\noder:", a-b)
print("*"*60)
print("Multiplikation:\n", torch.mul(a,b), "\noder:", a*b)
print("*"*60)
print("Division:\n", torch.div(a,b), "\noder:", a/b)
print("*"*60)
print("IN-PLACE: ")
print(a.add_(b)) #adds b to a
print(a)



tensor([[3., 1., 4.],
        [4., 6., 5.]])

tensor([[6., 2., 5.],
        [3., 3., 3.]])
Elementwise-Operationen:
Addition: 
 tensor([[9., 3., 9.],
        [7., 9., 8.]]) 
oder: tensor([[9., 3., 9.],
        [7., 9., 8.]])
************************************************************
Subtraktion:
 tensor([[-3., -1., -1.],
        [ 1.,  3.,  2.]]) 
oder: tensor([[-3., -1., -1.],
        [ 1.,  3.,  2.]])
************************************************************
Multiplikation:
 tensor([[18.,  2., 20.],
        [12., 18., 15.]]) 
oder: tensor([[18.,  2., 20.],
        [12., 18., 15.]])
************************************************************
Division:
 tensor([[0.5000, 0.5000, 0.8000],
        [1.3333, 2.0000, 1.6667]]) 
oder: tensor([[0.5000, 0.5000, 0.8000],
        [1.3333, 2.0000, 1.6667]])
************************************************************
IN-PLACE: 
tensor([[9., 3., 9.],
        [7., 9., 8.]])
tensor([[9., 3., 9.],
        [7., 9., 8.]])


Resizing geht am besten mit [`view()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.view):


In [5]:
#Reshaping mit view
print(a.size(), b.size())
try:
    torch.mm(a,b)
except RuntimeError as e:
    print(e)
#Resizing    
b_view = b.view(3,2)
torch.mm(a,b_view)

torch.Size([2, 3]) torch.Size([2, 3])
size mismatch, m1: [2 x 3], m2: [2 x 3] at c:\programdata\miniconda3\conda-bld\pytorch_1533090265711\work\aten\src\th\generic/THTensorMath.cpp:2070


tensor([[ 96.,  54.],
        [111.,  65.]])

### 2.2 NumPy Bridge

In [6]:
import numpy as np
import torch

In [7]:
a = torch.ones(5)
print("a:",a, type(a))

#Conversion PyTorch-NumPy
b = a.numpy()
print("b:", b, type(b))

#Conversion NumPy - PyTorch
w = np.ones(5)
v = torch.from_numpy(w)
print("w:", w, type(w))
print("v:", v, type(v))

#Sharing same memory locations --> Changes apply to each vector
a.add_(1)
print("a:", a)
print("b:", b)

a: tensor([1., 1., 1., 1., 1.]) <class 'torch.Tensor'>
b: [1. 1. 1. 1. 1.] <class 'numpy.ndarray'>
w: [1. 1. 1. 1. 1.] <class 'numpy.ndarray'>
v: tensor([1., 1., 1., 1., 1.], dtype=torch.float64) <class 'torch.Tensor'>
a: tensor([2., 2., 2., 2., 2.])
b: [2. 2. 2. 2. 2.]


### 2.4 Key Feature 2: Dynamic Computation Graph und [Autograd](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html) zur automatischen Differentierung

**I. Dynamic Computation Graph**

In Frameworks, die mit statischen Computation-Graphen arbeiten, wird die Graphstruktur zunächst aufgebaut, dann verwendet man eine Session, um Operation innerhalb des Graphen auszuführen.

Im Gegensatz dazu, ist ein PyTorch Computation Graph zur Laufzeit erzeugt (**define-by-run**). 
- Nützlich bei sich verändernden Graphstrukturen (z.B. RNNs usw.)
- Code ist genau so wie beim normalen Programmieren
- Standard Loops oder If-Statements sind möglich


**II. Autograd**

Das Package `torch.autograd` bietet eine automatische Differenzierung für alle Operationen an Tensoren. 

Notwendig sind folgende Objekte:
- `torch.Tensor`-Objekte mit dem Attribut `requires_grad` auf `True` gesetzt. Am Ende einer Computation reicht es aus, die Methode `backward()` aufzurufen, damit alle Gradienten automatisch berechnet werden. Der Gradient von einem Tensor kann mit dem Attribut `grad` angesehen werden
- `Funktion`-Objekte die mit Tensoren in einem Graphen verbunden sind. Jeder Tensor hat das Attribut `.grad_fn`, das eine Referenz auf die Funktion enthält, die den Tensor generiert hat).

Beispiel aus der Übung:

<img src="graph.png" >

* a = 2
* b = e
* c = 3

In [10]:
# External Modules
import torch

In [11]:
#Tensor deklariation
a = torch.tensor(2., requires_grad=True)
b = torch.tensor(np.e, requires_grad=True)
c = torch.tensor(3., requires_grad=True)

print(a, b, c)
#Wenn ein Tensor nur ein Element enthält, kann das Element mit .item() ausgegeben werden
print("Variable a: ", a.item())

tensor(2., requires_grad=True) tensor(2.7183, requires_grad=True) tensor(3., requires_grad=True)
Variable a:  2.0


In [12]:
print(a.grad, b.grad, c.grad)
print(a.requires_grad, b.requires_grad, c.requires_grad)

None None None
True True True


In [13]:
def applyExerciseFunction(a,b,c):
    ln = torch.log(b)
    print(ln.grad_fn)
    x = a + ln 
    print(x.grad_fn)
    x = c * x
    print(x.grad_fn)
    x = (1./3.)*x
    print(x.grad_fn)
    out = 1./x
    print(out.grad_fn)
    return out

In [14]:
out =  applyExerciseFunction(a,b,c) #1/3
print("Ergebnis aus Fowardpass: ", out.item()) #1./3.

<LogBackward object at 0x000001F409933208>
<ThAddBackward object at 0x000001F409933208>
<ThMulBackward object at 0x000001F409933208>
<MulBackward object at 0x000001F409933208>
<MulBackward object at 0x000001F409933208>
Ergebnis aus Fowardpass:  0.3333333432674408


In [15]:
out.backward()

In [16]:
print("dout/da: ", a.grad)
print("dout/db: ", b.grad)
print("dout/dc: ", c.grad)

dout/da:  tensor(-0.1111)
dout/db:  tensor(-0.0409)
dout/dc:  tensor(-0.1111)


In [17]:
#Ausschalten der Gradienten:
print(a.requires_grad)
print((a ** 2).requires_grad)

with torch.no_grad():
    print((a ** 2).requires_grad)

True
True
False


## 3. Neuronale Netze in PyTorch: `torch.nn` und `torchvision`

### Das Package [`torch.nn`](https://pytorch.org/docs/stable/nn.html#)

Neuronale Netze können in PyTorch einfach mit dem Objekten und Funktionen aus dem Modul `torch.nn` erzeugt werden.

Das Package bietet Klassen für 
* die allgemeine Definition eines Modells (sog. [Container](https://pytorch.org/docs/stable/nn.html#containers)), wie `nn.Module`, sowie dessen 
* Layers, 
* Aktivierungsfunktionen, 
* Kostenfuntkionen ([Loss functions](https://pytorch.org/docs/stable/nn.html#loss-functions))

Optimizer sind im Package [`torch.optim`](https://pytorch.org/docs/stable/optim.html#module-torch.optim) zu finden.
Funktionen sind auch im Package `torch.nn.functional` verfügbar.

Ein `nn.Module` enthält die Methode `forward(input)`, die das Ergebnis berechnet.


### Das Package `torchvision`

Viele Datensätze sind mit dem Package [`torchvision.datasets`](https://pytorch.org/docs/stable/torchvision/datasets.html#torchvision-datasets) verfügbar.

## 3.1 FeedForward-Network

### 3.1.1 MNIST-Datensatz vorbereiten

Folgendes Beispiel implementiert ein FeedForward-Network für die Klassifizierung der Bilder aus dem MNIST-Datensatz.

Folgendes Beispiel ist aus der Webseite "Deep Learning Wizard" übernommen: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_feedforward_neuralnetwork/

In [8]:
import torchvision.transforms as transforms
import torchvision.datasets as dataset

In [9]:
train_dataset = dataset.MNIST(root='./data', 
                            train=True, 
                            transform=transforms.ToTensor(),
                            download=True)

test_dataset = dataset.MNIST(root='./data', 
                           train=False, 
                           transform=transforms.ToTensor())

In [10]:
train_dataset

Dataset MNIST
    Number of datapoints: 60000
    Split: train
    Root Location: ./data
    Transforms (if any): ToTensor()
    Target Transforms (if any): None

In [11]:
test_dataset

Dataset MNIST
    Number of datapoints: 10000
    Split: test
    Root Location: ./data
    Transforms (if any): ToTensor()
    Target Transforms (if any): None

#### Datensatz iterierbar machen

- 60.000 Bilder (Trainingsproben)
- Batch-Größe: 100
- 5 Epochen

In [20]:
batch_size = 100
#n_iters = 3000
#num_epochs = n_iters / (len(train_dataset) / batch_size) # 5 Epochen insgesamt
#num_epochs = int(num_epochs)
num_epochs = 5

train_loader = torch.utils.data.DataLoader(dataset=train_dataset, 
                                           batch_size=batch_size, 
                                           shuffle=True)

test_loader = torch.utils.data.DataLoader(dataset=test_dataset, 
                                          batch_size=batch_size, 
                                          shuffle=False)

### 3.1.2 Netzklasse mit `nn.Module` definieren

PyTorch bietet viele Möglichkeiten, um ein Netz zu definieren. Hier leitet die Netzklasse aus dem Modul `nn.Module` ab. Sie definiert im Konsktruktor die notwendigen Layer sowie die Aktivierungsfunktion (== die Struktur) und in der Methode `forward()` die Schritte zum Ergebnis.

Eine Liste von weiteren Aktivierungsfunktionen ist [hier](https://pytorch.org/docs/stable/nn.html#non-linear-activations-weighted-sum-nonlinearity) verfügbar.

Weitere Beispiele zur Definiton von einer Netzklasse:
- PyTorch-Doku: https://pytorch.org/docs/stable/nn.html#
- Udacity "Neural Networks with PyTorch" (Jupyter Notebook):  
https://github.com/udacity/deep-learning-v2-pytorch/blob/master/intro-to-pytorch/Part%202%20-%20Neural%20Networks%20in%20PyTorch%20(Solution).ipynb

Folgende Implementierungen stammen aus dieser Webseite:
- **Deep Learning Wizard**: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_feedforward_neuralnetwork/

In [21]:
#GPU oder CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

## Model A: 1 Hidden Layer Feedforward Neural Network
- Aktiviverungsfunktion: Sigmoid
- Loss: Cross-Entropy mit Softmax

In [22]:
import torch
import torch.nn as nn

In [23]:
class FeedforwardNeuralNetModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(FeedforwardNeuralNetModel, self).__init__()
        #Struktur
        
        # Linear function
        self.fc1 = nn.Linear(input_dim, hidden_dim) 

        # Non-linearity
        self.sigmoid = nn.Sigmoid()

        # Linear function (readout)
        self.fc2 = nn.Linear(hidden_dim, output_dim)  

    def forward(self, x):
        # Linear function  # LINEAR
        out = self.fc1(x)

        # Non-linearity  # NON-LINEAR
        out = self.sigmoid(out)

        # Linear function (readout)  # LINEAR
        out = self.fc2(out)
        return out

### Übersicht

<img src="nn1_params3.png" >

Quelle: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_feedforward_neuralnetwork/


### Modellklasse instanzieren

- Input dimension: 784
    * Size of image
        * 28×28=784
- Output dimension: 10 (0, 1, 2, 3, 4, 5, 6, 7, 8, 9)    

- Hidden dimension: 100

In [24]:
input_dim = 28*28 #784
hidden_dim = 100 #Anzahl von Neurone im hidden Layer
output_dim = 10 #Targets

model = FeedforwardNeuralNetModel(input_dim, hidden_dim, output_dim)
model.to(device)

FeedforwardNeuralNetModel(
  (fc1): Linear(in_features=784, out_features=100, bias=True)
  (sigmoid): Sigmoid()
  (fc2): Linear(in_features=100, out_features=10, bias=True)
)

### Loss
- Feedforward Neural Network: **Cross Entropy Loss**
    - Berechnung des Fehlers zwishen den softmax output und den Labels
    

Achtung: 
- Die [`CrossEntropyLoss`](https://pytorch.org/docs/stable/nn.html#crossentropyloss)-Funktion in PyTorch berechnet automatisch die Softmax-Werte. Deswegen muss man beim letzten Schritt im Forward-Pass kein Softmax berechnen    

In [25]:
criterion = nn.CrossEntropyLoss()

### Optimizer
- Stochastich Gradient Descent

In [26]:
learning_rate = 0.1
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)  

### Parameter von einem Netz untersuchen

In [27]:
print(len(list(model.parameters())))

# FC 1 Parameters 
print(list(model.parameters())[0].size())

# FC 1 Bias Parameters
print(list(model.parameters())[1].size())

# FC 2 Parameters
print(list(model.parameters())[2].size())

# FC 2 Bias Parameters
print(list(model.parameters())[3].size())

4
torch.Size([100, 784])
torch.Size([100])
torch.Size([10, 100])
torch.Size([10])


### Modell trainieren

1. Input redimensionieren und mit requires_grad versehen
2. Gradient-Buffer zurücksetzen: `zero_grad()`
3. Berechnung des Outputs 
4. Berechnung des Fehlers durch Anwendung des `criterion` auf die berechneten Ergebnisse und bestehenden Labels
5. Berechnung der Gradienten bezüglich der Parameter: `backward()`
6. Parameter über den Optimizer aktualisieren: `step()`

In [28]:
iter = 0
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Load images with gradient accumulation capabilities
        images = images.view(-1, 28*28).requires_grad_().to(device)
        labels = labels.to(device)
        
        # Clear gradients w.r.t. parameters
        optimizer.zero_grad()

        # Forward pass to get output/logits
        outputs = model(images) #784

        # Calculate Loss: softmax --> cross entropy loss
        loss = criterion(outputs, labels)

        # Getting gradients w.r.t. parameters
        loss.backward()

        # Updating parameters
        optimizer.step() #parameters = parameters - learning_rate * parameters_gradients

        iter += 1

        if iter % 500 == 0:
            # Calculate Accuracy         
            correct = 0
            total = 0
            # Iterate through test dataset
            for images, labels in test_loader:
                # Load images with gradient accumulation capabilities
                images = images.view(-1, 28*28).requires_grad_().to(device)
    
                # Forward pass only to get logits/output
                outputs = model(images)

                # Get predictions from the maximum value
                _, predicted = torch.max(outputs.data, 1)

                # Total number of labels
                total += labels.size(0) #100

                #######################
                #  USE GPU FOR MODEL  #
                #######################
                # Total correct predictions
                if torch.cuda.is_available():
                    correct += (predicted.type(torch.FloatTensor).cpu() == labels.type(torch.FloatTensor)).sum()
                else:
                    correct += (predicted == labels).sum()


            accuracy = 100. * correct.item() / total

            # Print Loss
            print('Iteration: {}. Loss: {}. Accuracy: {:.2f}%'.format(iter, loss.item(), accuracy))

Iteration: 500. Loss: 0.5622904300689697. Accuracy: 86.26%
Iteration: 1000. Loss: 0.46150150895118713. Accuracy: 89.50%
Iteration: 1500. Loss: 0.3779106140136719. Accuracy: 90.36%
Iteration: 2000. Loss: 0.47078558802604675. Accuracy: 91.12%
Iteration: 2500. Loss: 0.3569553792476654. Accuracy: 91.72%
Iteration: 3000. Loss: 0.1626761555671692. Accuracy: 92.23%


## Modell B: 1 Hidden Layer Feedforward Neural Network (ReLU Activation)

In [29]:
'''
STEP 3: CREATE MODEL CLASS
'''
class FeedforwardNeuralNetModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(FeedforwardNeuralNetModel, self).__init__()
        # Linear function
        self.fc1 = nn.Linear(input_dim, hidden_dim) 
        # Non-linearity
        self.relu = nn.ReLU()
        # Linear function (readout)
        self.fc2 = nn.Linear(hidden_dim, output_dim)  

    def forward(self, x):
        # Linear function
        out = self.fc1(x)
        # Non-linearity
        out = self.relu(out)
        # Linear function (readout)
        out = self.fc2(out)
        return out
'''
STEP 4: INSTANTIATE MODEL CLASS
'''
input_dim = 28*28
hidden_dim = 100
output_dim = 10

model = FeedforwardNeuralNetModel(input_dim, hidden_dim, output_dim)
model.to(device)

'''
STEP 5: INSTANTIATE LOSS CLASS
'''
criterion = nn.CrossEntropyLoss()


'''
STEP 6: INSTANTIATE OPTIMIZER CLASS
'''
learning_rate = 0.1

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

'''
STEP 7: TRAIN THE MODEL
'''
iter = 0
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Load images with gradient accumulation capabilities
        images = images.view(-1, 28*28).requires_grad_().to(device)
        labels = labels.to(device)

        # Clear gradients w.r.t. parameters
        optimizer.zero_grad()

        # Forward pass to get output/logits
        outputs = model(images)

        # Calculate Loss: softmax --> cross entropy loss
        loss = criterion(outputs, labels)

        # Getting gradients w.r.t. parameters
        loss.backward()

        # Updating parameters
        optimizer.step()

        iter += 1

        if iter % 500 == 0:
            # Calculate Accuracy         
            correct = 0
            total = 0
            # Iterate through test dataset
            for images, labels in test_loader:
                # Load images with gradient accumulation capabilities
                images = images.view(-1, 28*28).requires_grad_().to(device)

                # Forward pass only to get logits/output
                outputs = model(images)

                # Get predictions from the maximum value
                _, predicted = torch.max(outputs.data, 1)

                # Total number of labels
                total += labels.size(0) #jedes Mal um 100 erhöht
                
                ######################
                #  USE GPU FOR MODEL  #
                #######################
                # Total correct predictions
                if torch.cuda.is_available():
                    correct += (predicted.type(torch.FloatTensor).cpu() == labels.type(torch.FloatTensor)).sum()
                else:
                    correct += (predicted == labels).sum()


            accuracy = 100. * correct.item() / total

            # Print Loss
            print('Iteration: {}. Loss: {}. Accuracy: {:.2f}%'.format(iter, loss.item(), accuracy))

Iteration: 500. Loss: 0.3413926661014557. Accuracy: 91.35%
Iteration: 1000. Loss: 0.24208097159862518. Accuracy: 93.18%
Iteration: 1500. Loss: 0.23489351570606232. Accuracy: 94.13%
Iteration: 2000. Loss: 0.1471656858921051. Accuracy: 94.64%
Iteration: 2500. Loss: 0.1271606981754303. Accuracy: 95.47%
Iteration: 3000. Loss: 0.1930629312992096. Accuracy: 95.78%


## Model C: 2 Hidden Layer Feedforward Neural Network (ReLU Activation)

Quelle: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_feedforward_neuralnetwork/

In [30]:
import torch
import torch.nn as nn

#https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_feedforward_neuralnetwork/
'''
STEP 3: CREATE MODEL CLASS
'''
class FeedforwardNeuralNetModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(FeedforwardNeuralNetModel, self).__init__()
        # Linear function 1: 784 --> 100
        self.fc1 = nn.Linear(input_dim, hidden_dim) 
        # Non-linearity 1
        self.relu1 = nn.ReLU()

        # Linear function 2: 100 --> 100
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        # Non-linearity 2
        self.relu2 = nn.ReLU()

        # Linear function 3 (readout): 100 --> 10
        self.fc3 = nn.Linear(hidden_dim, output_dim)  

    def forward(self, x):
        # Linear function 1
        out = self.fc1(x)
        # Non-linearity 1
        out = self.relu1(out)

        # Linear function 2
        out = self.fc2(out)
        # Non-linearity 2
        out = self.relu2(out)

        # Linear function 3 (readout)
        out = self.fc3(out)
        return out
'''
STEP 4: INSTANTIATE MODEL CLASS
'''
input_dim = 28*28
hidden_dim = 100
output_dim = 10

model = FeedforwardNeuralNetModel(input_dim, hidden_dim, output_dim)
model.to(device)

'''
STEP 5: INSTANTIATE LOSS CLASS
'''
criterion = nn.CrossEntropyLoss()


'''
STEP 6: INSTANTIATE OPTIMIZER CLASS
'''
learning_rate = 0.1

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

'''
STEP 7: TRAIN THE MODEL
'''
iter = 0
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Load images with gradient accumulation capabilities
        images = images.view(-1, 28*28).requires_grad_().to(device)
        labels = labels.to(device)

        # Clear gradients w.r.t. parameters
        optimizer.zero_grad()

        # Forward pass to get output/logits
        outputs = model(images)

        # Calculate Loss: softmax --> cross entropy loss
        loss = criterion(outputs, labels)

        # Getting gradients w.r.t. parameters
        loss.backward()

        # Updating parameters
        optimizer.step()

        iter += 1

        if iter % 500 == 0:
            # Calculate Accuracy         
            correct = 0
            total = 0
            # Iterate through test dataset
            for images, labels in test_loader:
                # Load images with gradient accumulation capabilities
                images = images.view(-1, 28*28).requires_grad_().to(device)

                # Forward pass only to get logits/output
                outputs = model(images)

                # Get predictions from the maximum value
                _, predicted = torch.max(outputs.data, 1)

                # Total number of labels
                total += labels.size(0)

                #######################
                #  USE GPU FOR MODEL  #
                #######################
                # Total correct predictions
                if torch.cuda.is_available():
                    correct += (predicted.type(torch.FloatTensor).cpu() == labels.type(torch.FloatTensor)).sum()
                else:
                    correct += (predicted == labels).sum()


            accuracy = 100. * correct.item() / total

            # Print Loss
            print('Iteration: {}. Loss: {}. Accuracy: {:.2f}%'.format(iter, loss.item(), accuracy))

Iteration: 500. Loss: 0.4178018569946289. Accuracy: 90.73%
Iteration: 1000. Loss: 0.2941732108592987. Accuracy: 93.79%
Iteration: 1500. Loss: 0.14714999496936798. Accuracy: 95.05%
Iteration: 2000. Loss: 0.1753612905740738. Accuracy: 95.51%
Iteration: 2500. Loss: 0.040193963795900345. Accuracy: 96.24%
Iteration: 3000. Loss: 0.07396182417869568. Accuracy: 96.74%


Noch weitere Beispiele...

- **CNN** in PyTorch: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_convolutional_neuralnetwork/

- **RNN** in PyTorch: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_recurrent_neuralnetwork/

- **LSTM** in PyTorch: https://www.deeplearningwizard.com/deep_learning/practical_pytorch/pytorch_lstm_neuralnetwork/

## Quellen

**Deep Learning Wizard, "Practical PyTorch"**: https://www.deeplearningwizard.com/deep_learning/intro/ (**:-D !!!**)

**Udacity**:
[Deep Learning with PyTorch (Tutorial)](https://www.udacity.com/course/deep-learning-pytorch--ud188), 
[Deep Learning with PyTorch (Repo)](https://github.com/udacity/deep-learning-v2-pytorch/tree/master/intro-to-pytorch)


**PyTorch, Neural Networks - PyTorch Tutorials**: https://pytorch.org/tutorials/beginner/blitz/neural_networks_tutorial.html

**PyTorch Documentation**: https://pytorch.org/docs/stable/index.html


Siraj Raval, "Pytorch in 5 Minutes": https://www.youtube.com/watch?v=nbJ-2G2GXL0 (very quick start)

IAML (Italian Association for Machine Learning):
["Fun with PyTorch - Part 1: Variables and Gradients"](https://iaml.it/blog/fun-with-pytorch-part-1)



Adventures in Machine Learning, "A PyTorch tutorial – deep learning in Python", http://adventuresinmachinelearning.com/pytorch-tutorial-deep-learning/

Ayoosh Kathuria, "Getting Started with PyTorch Part 1: Understanding how Automatic Differentiation works" (Autograd): https://towardsdatascience.com/getting-started-with-pytorch-part-1-understanding-how-automatic-differentiation-works-5008282073ec