In [3]:
"""
In Tensorflow ist es üblich von der Funktionalität von Keras Gebrauch zu machen und Models durch eine Sequenz von Layer-Objekten zu definieren
und dann ein Model-Objekt anhand des Input- und des Output-Layers zu erstellen.
Da wir die Variablen, die auf ein Layer deuten, (z.b die Variable 'out' deutet auf ein Dense-Layer) nach Erstellung des Model-Objekts nicht
mehr benötigen macht es Sinn die Erstellung des Models in eine Funktion zu packen. So etwa:

def build_model():
    inp = Input(...)
    x = Dense(...)(inp)
    ...
    out = Dense(...)(x)
    model = Model(inp, x)
    return model

Die Funktion 'build_model()' gibt uns dann nur das Objekt 'model' zurück und alle auf dem Weg dorthin erstellten Variablen werden nach Ausführen
der Funktion gelöscht.

In PyTorch gibt es nicht direkt ein solches Model-Objekt, stattdessen erstellt man eine sog. 'Klasse'.
Machen wir uns also mit den Grundfunktionen von Klassen vertraut.

'def' ('definieren/define') ist ja das Keyword, um eine Funktion zu erstellen. Anschließend können wir die Funktion über ihren Namen benutzen, etwa:
"""

def add(x, y):
    return x + y

print(add(3, 4))

7


In [6]:
"""
Das Keyword zur Definition einer Klasse ist 'class'.
Eine Klasse ist eine Datenstruktur, dessen Funktionalität wir zunächst definieren. Wir können dann theoretisch unendlich viele Instanzen/Objekte einer Klasse 
erstellen. Klassen besitzen eigene Funktionen, sog. 'Methoden' und zwar mindestens eine, nämlich den Konstruktor. Der Konstruktor ist die Funktion,
die aufgerufen wird, wenn wir eine Instanz einer Klasse erstellen wollen. Der Name dieser Konstruktor-Funktion ist in Python immer '__init__()'.
Sie hat zwingend ein Argument 'self' und kann wie auch eine Funktion ansonsten beliebige Variablen haben.
"""

class Mensch():
    def __init__(self, alter, gender):
        self.alter = alter
        self.gender = gender

"""
Der Konstruktor unserer Klasse Mensch nimmt abgesehen von 'self' 2 Argumente (Alter und Geschlecht). Unser Konstruktor speichert diese dann intern im Objekt.
self.Alter und self.Geschlecht sind Variablen, die innerhalb des Objektes existieren. Erstellen wir ein Objekt der Klasse 'Mensch'.
"""

middleaged_woman = Mensch(47, 'female')

"""
Wir können dann auf interne Variablen im Objekt 'middleaged_woman' folgendermaßen zugreifen:
"""

print(middleaged_woman.alter)
print(middleaged_woman.gender)

47
female


In [7]:
"""
Desweiteren könnten wir unsere Klasse auch etwas spannender gestalten, indem wir weitere Methoden hinzufügen.
"""
class Mensch():
    def __init__(self, alter, gender):
        self.alter = alter
        self.gender = gender
    
    def altern(self, jahre):
        self.alter += jahre

"""
Diese können wir dann mit selber Syntax wie die Variablen aufrufen.
"""
young_diverse = Mensch(22, 'diverse')
print(young_diverse.alter)

# Methode Altern benutzen.
young_diverse.altern(jahre=3)
print(young_diverse.alter)

22
25


In [135]:
"""
Eine der wichtigsten Eigenschaften von Klassen ist, dass man sie hierarchisch strukturieren kann. D.h. wenn wir eine Klasse 'Mensch' haben könnten
wir außerdem Klassen wie beispielsweise 'Kind', 'Mann', etc. definieren - also solche Klassen, die Unterformen des Überbegriffs 'Mensch' darstellen.
Ein 'Kind' hätte genau wie ein 'Mann' auch ein Alter und ein Gender. Auch die Methode altern(), die wir bereits definierten, ergibt für diese Unterklassen Sinn.
Deshalb kann man folgendes tun:
"""

class Kind(Mensch):
    def __init__(self, alter, gender):
        super().__init__(alter, gender)

"""
Bemerke zunächst, dass wir der Klasse 'Kind' ein Argument übergeben, und zwar die Klasse 'Mensch'. Damit signalisieren wir,
dass 'Kind' eine Unterklasse von 'Mensch' ist.
Dann schreiben wir in den Konstruktor noch den Ausdruck 'super().__init__(alter, gender)'. Was nun passiert ist, dass 'Kind' den Konstruktor und alle Methoden
von Mensch 'erbt'. Wir können also ein 'Kind' erstellen und alle Methoden von Mensch darauf benutzen.
"""

female_child = Kind(7, 'female')
female_child.altern(jahre=2)
print(female_child.alter)

9


In [138]:
"""
Der Zweck dessen ist, dass die Klasse 'Kind' nun zusätzlich zu den allgemeinen menschlichen Eigenschaften zusätzliche haben könnte,
die nicht jedem Menschen zu eigen sind.
Gehen wir z.B. davon aus, dass nur Kinder die Grundschule besuchen, wäre so etwas denkbar:
"""

class Kind(Mensch):
    def __init__(self, alter, gender, besucht_grundschule):
        # Durch die folgende Line erbt 'Kind' alle Methoden und den Konstruktor von 'Mensch'.
        super().__init__(alter, gender)
        # Zusätzlich hat Kind noch das Attribut 'besucht_grundschule'
        self.besucht_grundschule = besucht_grundschule
    
    # Nun können wir noch zusätzliche dem Kind eigene Methoden definieren.
    def einschulen(self):
        self.besucht_grundschule = True

    def ist_grundschuelerin(self):
        if self.besucht_grundschule:
            print('Das Kind besucht momentan die Grundschule.')
        else:
            print('Das Kind besucht momentan nicht die Grundschule.')
            if self.alter >= 6:
                print('Es wird aber so langsam Zeit!')

female_child = Kind(6, 'female', False)
female_child.ist_grundschuelerin()
female_child.einschulen()
female_child.ist_grundschuelerin()

Das Kind besucht momentan nicht die Grundschule.
Es wird aber so langsam Zeit!
Das Kind besucht momentan die Grundschule.


In [9]:
# Let's start with PyTorch!
from torch import nn
import torch
import numpy as np
import matplotlib.pyplot as plt

In [195]:
"""
Warum der Exkurs über Klassen?
In PyTorch ist es Konvention Models als Klasse zu definieren, die von der PyTorch-Klasse 'nn.Module' erben.
Die Layers eines Models werden durch den Konstruktor im Objekt gespeichert und dann eine Methode
'forward()' definiert, die die Layers über einem Input sequentiell ausführt.
Definieren wir also eine Encoder-Klasse, die 3 Convolutional Layers mit Strides und ein FC-Layer beinhaltet.

Beachte: die Dimensionen in PyTorch folgen einer anderen Konvention als in Tensorflow.
In Tensorflow : (batch_dimension, Höhe, Breite, Features)
In PyTorch    : (batch_dimension, Features, Höhe, Breite)
"""

class Encoder_Model(nn.Module):
    # ------------------------------------------------- #
    # Konstruktor
    def __init__(self):
        super().__init__()
        # Conv (1, 28, 28) -> (16, 14, 14)
        self.conv1 = nn.Conv2d(
            in_channels=1, 
            out_channels=16, 
            kernel_size=3, 
            stride=2,
            padding=(1,1))

        # Conv (16, 14, 14) -> (32, 7, 7)
        self.conv2 = nn.Conv2d(
            in_channels=16, 
            out_channels=32, 
            kernel_size=3, 
            stride=2,
            padding=(1,1))

        # Conv (32, 7, 7) -> (64, 4, 4)
        self.conv3 = nn.Conv2d(
            in_channels=32, 
            out_channels=64, 
            kernel_size=3, 
            stride=2,
            padding=(1,1))

        # FC Layer (576,) -> (9,)
        self.fc = nn.Linear(
            in_features=4*4*64,
            out_features=9)

    # ------------------------------------------------- #
    # forward-Methode
    def forward(self, image_input):
        # Conv 1 mit Relu
        x = self.conv1(image_input)
        x = torch.relu(x)
        # Conv 2 mit Relu
        x = self.conv2(x)
        x = torch.relu(x)
        # Conv 3 mit Relu
        x = self.conv3(x)
        x = torch.relu(x)
        # Flattening der Featuremap, dann Fully-Connected
        x = torch.flatten(x, start_dim=1)
        latent_code = self.fc(x)
        return latent_code

In [196]:
# Model definieren
Encoder = Encoder_Model()

In [197]:
# Kurzer Test, ob alles wie gewünscht funktioniert. 
x = torch.randn(1, 1, 28, 28)
z = Encoder.forward(x)
print(z.shape)

# Seems good!

torch.Size([1, 9])


In [198]:
"""
Bauen wir nun den Decoder als symmetrisches Gegenstück zum Encoder.
Wir haben zum Upsamplen zwei Möglichkeiten: UpSampling (Gegenstück zum Pooling) oder sog. Transposed Convolutions/Deconvolutions
(Gegenstück zur Strided Convolution). In diesem Notebook wählen wir letztere.
Dadurch, dass 28 (die Seitenlänge von MNIST) keine Potenz von 2 ist, ist es mit dem padding und den Kernelgrößen ein gewisses Gepfusche.
Allerdings gibt es im Grunde keine zwingenden Argumente dafür, dass ein Model, welches mit etwas 'unregelmäßigen' Parametern gebaut wird,
schlechter performen sollte als ein Model, dessen Seitenlängen in den Layern bspw. immer Vielfache von 2 sind.
Das ist letzten Endes eine ästhetische Entscheidung zugunsten von Klarheit und Übersicht und ist nicht primär durch Performance motiviert.
"""
class Decoder_Model(nn.Module):
    # ------------------------------------------------- #
    # Konstruktor
    def __init__(self):
        super().__init__()
        # FC Layer
        self.fc = nn.Linear(
            in_features=9,
            out_features=4*4*64)
        
        # Conv2Dtrans1
        self.convtrans1 = nn.ConvTranspose2d(
            in_channels=64, 
            out_channels=32, 
            kernel_size=3,
            stride=2,
            padding=(1,1))

        # Conv2Dtrans2
        self.convtrans2 = nn.ConvTranspose2d(
            in_channels=32, 
            out_channels=16, 
            kernel_size=3,
            stride=2,
            padding=(1,1))

        # Conv2Dtrans3
        self.convtrans3 = nn.ConvTranspose2d(
            in_channels=16, 
            out_channels=1, 
            kernel_size=4,
            stride=2,
            padding=(0,0))

    # ------------------------------------------------- #
    # forward-Methode
    def forward(self, latent_code_input):
        # FC, anschließend reshapen wir den Vektor zu einer Matrix (64, 4, 4)
        x = self.fc(latent_code_input)
        x = torch.relu(x)
        x = torch.reshape(x, (x.shape[0], 64, 4, 4))
        # Deconvolution 1
        x = self.convtrans1(x)
        x = torch.relu(x)
        # Deconvolution 2
        x = self.convtrans2(x)
        x = torch.relu(x)
        # Deconvolution 3
        x = self.convtrans3(x)
        return x

In [199]:
# Model definieren
Decoder = Decoder_Model()

In [200]:
x = torch.randn(1, 9)
z = Decoder.forward(x)
print(z.shape)

# Gut, die Models stehen.

torch.Size([1, 1, 28, 28])


In [202]:
# Schnappen wir uns unsere GPU bzw. CPU wenn keine GPU vorhanden ist.
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Nun kopieren wir unsere Models auf das device mit der Methode .to
Encoder = Encoder.to(device)
Decoder = Decoder.to(device)

# Den Optimizern in PyTorch übergeben wir die Methode 'parameters' des zu optimierenden Models und die learning rate.
opt_encoder = torch.optim.Adam(Encoder.parameters(), lr=1e-3)
opt_decoder = torch.optim.Adam(Decoder.parameters(), lr=1e-3)

'''
Loss-Functions in PyTorch funktionieren wie in Tensorflow. Wir brauchen eine Funktion mit zwei Argumenten (pred, label),
die den entsprechenden Fehler errechnet und zurückgibt. Wir wählen für den Autoencoder den 'Mean Squared Error', mit dem wir auch
unsere allerersten NNs optimiert haben. Hier bedeutet das, dass für jede Pixelposition der quadrierte Unterschied zwischen dem jeweiligen
Pixel im Originalbild/Label und der Rekonstruktion durch das Model berechnet wird. Wir erhalten also 28x28 Skalare. Aus diesen wird dann der
'mean'/Durchschnitt berechnet, um einen einzigen Skalar zu produzieren.
'''
def mse_loss(pred, label):
    loss = torch.mean((pred - label)**2)
    return loss

In [210]:
'''
Laden wir nun MNIST. Die Methode torchvision.datasets.MNIST() gibt uns ein Torch-Dataset-Objekt, welches iterierbar ist und Pillow-Images beinhaltet.
(Pillow ist eine Bildlibrary mit eigener Datenstruktur. Analog für Numpy wäre ein Numpy-Array). Wir müssten die Images selbst zu Pytorch-Tensoren konvertieren,
doch glücklicherweise gibt es in PyTorch sog. 'transforms', die an die obige Methode übergeben werden können und die Konvertierung für uns automatisieren. 
'''
import torchvision

transform = torchvision.transforms.Compose([torchvision.transforms.ToTensor()])

train_dataset = torchvision.datasets.MNIST(
    root="~/torch_datasets", transform=transform, train=True, download=True)

'''
Das DataLoader-Objekt in PyTorch ist quasi analog zum Tensorflow-Dataset. Mit num_workers können wir die Anzahl der CPU-Kerne einstellen, die Daten
abgreifen und an unser Device weiterleiten.
'''

train_loader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=128,
    shuffle=True,
    num_workers=4)

In [212]:
'''
Lets be cute. Wir machen unsere eigene Progress-Bar mit tqdm.
'''
from tqdm import tqdm

n_epochs = 100
for epoch in range(n_epochs):
    loss_epoch = 0
    for batch_images, _ in tqdm(train_loader):
        # Batch auf das device laden
        batch_images = batch_images.to(device)
        # Gradienten resetten.
        opt_encoder.zero_grad()
        opt_decoder.zero_grad()
        # encodieren
        batch_latent_codes = Encoder(batch_images)
        # decodieren
        batch_reconstructions = Decoder(batch_latent_codes)
        # loss berechnen
        loss = mse_loss(batch_reconstructions, batch_images)
        # Gradienten berechnen
        loss.backward()
        # Gewichte anhand der Gradienten updaten
        opt_encoder.step()
        opt_decoder.step()
        # Loss zum gesamten Loss der Epoche hinzufügen
        loss_epoch += loss.item()
    
    # Durchschnittlichen Loss der Epoche berechnen
    loss_epoch = loss_epoch / len(train_loader)
    
    # Loss der Epochen anzeigen
    print("epoch : {}/{}, loss = {:.6f}".format(epoch + 1, n_epochs, loss))

100%|██████████| 469/469 [00:32<00:00, 14.52it/s]


epoch : 1/100, loss = 0.019202


100%|██████████| 469/469 [00:31<00:00, 15.05it/s]


epoch : 2/100, loss = 0.019641


100%|██████████| 469/469 [00:32<00:00, 14.66it/s]


epoch : 3/100, loss = 0.018457


 32%|███▏      | 151/469 [00:11<00:20, 15.18it/s]