# Was macht eine Schraube zu einer Schraube?

## Storyboard

<div style="text-align: justify">
    In der Technikum Digital Factory stellen wir zurzeit Roboter für Forschung- und Ausbildungszwecke her. Die Maschinen in der Fertigungsstraße werden dabei automatisch mit belieferten Komponenten wie z.B. Schrauben bestückt, damit die Produktion vollautomatisch abläuft. Durch diesen hohen Grad der Automatisierung fällt es aber oftmals erst spät auf, wenn fehlerhafte oder beschädigte Komponenten geliefert wurden. Beschädigungen fallen oft erst dadurch auf, dass das Teil nicht eingebaut werden kann; wodurch die ganze Maschine zum Stehen kommen kann. Also liegt es nahe, Schrauben und andere Teile vor dem Bestücken der Maschine zu kontrollieren. Da die händische Kontrolle bei großen Stückzahlen sehr zeitaufwändig ist, wollen wir diese automatisiert durchführen.
    <br /><br />
    
    Aber wie erkennen wir automatisch Beschädigungen an gelieferten Teilen? 
    <br /><br />
    
    Um diese Frage zu beantworten, wollen wir mittels eines Kamerabilds Schrauben auf Beschädigungen überprüfen, bevor sie in eine Maschine eingelegt werden. Da die Produktion aber noch nicht in vollem Gange ist, haben wir nur einige wenige beschädigte Schrauben als Referenz zur Verfügung. Also können wir nur wenige Beispielbilder von beschädigten Schrauben aufnehmen, um unser System zu trainieren.
    <br /><br />
    
    Wir benötigen also ein System welches lernt, visuell beschädigte von unbeschädigten Schrauben zu unterscheiden. Aber was macht eine Schraube überhaupt zu einer beschädigten Schraube?
    </div>

### Generative Adversarial Networks
<div style="text-align: justify">
    In den AIAV Videos <a href="https://www.youtube.com/watch?v=5dJyt0m5PJw&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=31">Classifier vs. Detector</a>, <a href="https://www.youtube.com/watch?v=cdVDMm5Wscc&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=35">CNN Classifier</a>, <a href="https://www.youtube.com/watch?v=ioDdAE6AOMQ&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=39">Multinomial Naive Bayes Classifier</a> und <a href="https://www.youtube.com/watch?v=yhY9O-5BW74&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=40">Gaussian Naive Bayes Classifier</a> haben wir uns bereits verschiedene Arten der Klassifizierung angesehen. Dabei lernen Modelle bestimmte Aufgaben, z.B. das Erkennen eines Hammers, mithilfe von Trainingsdaten.
    <br /><br />
    
    Dabei stellt sich die Frage, wo diese Daten für die Trainingssequenzen herkommen. Will man z.B. einen Hammer erkennen, braucht man mehrere Bilder von dem Hammer, den man erkennen will. Sollen jetzt mehrere verschiedene Arten von Hammern erkannt werden, sind mehrere Bilder von allen zu erkennenden Hammerarten notwendig. Die Anforderungen an qualitative Trainingsdaten werden schnell sehr hoch; je genereller die Klassifizierung, desto mehr Trainingsdaten braucht man.
    <br /><br />
    
    Dieses Problem kann man mit <a href="https://ieeexplore.ieee.org/abstract/document/8253599">Generative Adversarial Networks (GAN)</a> umgehen. Die Idee von GANs ist es, zwei neuronale Netzwerke (siehe AIAV Video <a href="https://www.youtube.com/watch?v=pmfIJ3XUw2c&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=37">Klassische Neuronale Netze</a>) gegeinander antreten zu lassen. Diese beiden Netzwerke heißen Generator und Diskriminator. Die Aufgabe des Generators ist es, aus Rauschen Daten zu generieren, welche zu einem vorgegebenen Datensatz passen. Der Diskriminator versucht dann, die echten von den genierierten Daten zu unterscheiden.
    <br /><br />
    
    Abbildung 1 zeigt echte sowie generierte Bilder von Schrauben. Die echten Bilder sind aus einem <a href="https://www.mvtec.com/company/research/datasets/mvtec-ad">offenen Datensatz</a>, während die generierten Bilder von einem, anhand diesen Datensatzes trainierten, GAN erzeugt wurden. Da das GAN anhand des Datensatzes trainiert wurde, erzeugt sein Generator Bilder, welche zu den bestehenden Bildern im Datensatz passen. Die echten Bilder wurden dabei auf die gleiche Auflösung (32x32 Pixel) skaliert, wie die Bilder aus dem GAN. Können Sie erkennen, welche Bilder echt sind und welche nicht?  
     </div>

<img src="images/Abbildung1Vergleich.jpg" width="600" />

_Abbildung 1: Hier sehen Sie echte sowie generierte Bilder von Schrauben. Die echten Bilder sind aus einem <a href="https://www.mvtec.com/company/research/datasets/mvtec-ad">offenen Datensatz</a>, während die generierten Bilder von einem, anhand diesen Datensatzes, trainierten Generative Adversarial Networks kommen. Können Sie erkennen, welche Bilder echt sind und welche nicht?_

<div style="text-align: justify">
    Abbildung 2 zeigt den Ablauf, wie GANs trainiert werden. Zunächst erzeugt der Generator auf Basis eines rauschenden Signals eine Probe. Diese Probe entspricht einem Eintrag im Trainingsdatensatz. Danach wird eine weitere Probe, dieses Mal aus dem Trainingsdatensatz, genommen. Nun werden beide Proben in den Diskriminator gegeben, welcher für jede der Proben schätzt, ob diese echt, also aus dem Trainingsdatensatz ist, oder vom Generator erzeugt wurde. Während des Trainings wird dieser Ablauf mehrmals durchgeführt, mit dem Ziel, gleichzeitig Generator und Diskriminator zu optimieren.
    </div>

<img src="images/Abbildung2KonzeptGAN.png" width="800" />

_Abbildung 2: Die Idee von Generative Adversarial Networks (GAN) ist es, gleichzeitig den Generator und einen Diskriminator zu trainieren. Der Generator versucht dabei aus Rauschen einen Ausgang zu erzeugen, welcher der Probe aus den Trainingsdaten ähnlich ist. Diese generierten Datenproben werden dann zusammen mit Proben aus dem Trainingsdatensatz dem Diskriminator übergeben. Die Aufgabe des Diskriminators ist dann zu unterscheiden, welche Proben echt und welche generiert sind. Der Ablauf von GAN ist hier mittels dem <a href="https://www.mvtec.com/company/research/datasets/mvtec-ad">Datensatz von Schraubenbildern</a> gezeigt._

<div style="text-align: justify">
    Nach dieser Trainingssequenz können wir nun Generator und Diskriminator speichern und für andere Aufgaben verwenden. In unserem Beispiel kann der Generator nach genug Trainingsepisoden Bilder von Schrauben erzeugen, welche nicht von den Trainingsbildern unterscheidbar sind. Der Diskriminator hat währenddessen gelernt zu erkennen, ob das eingegebene Bild von einer Schraube ist, oder nicht.
    </div>

### Praktische Implementierung

<div style="text-align: justify">
    Für die praktische Implementierung des Usecases trainieren wir ein GAN anhand von aufgenommenen Bildern von unbeschädigten Schrauben. Dabei werden die Bilder zunächst als Graustufenbild eingelesen und auf eine Auflösung von 32 mal 32 Pixel skaliert. Die Skalierung auf so eine niedrige Auflösung ist notwendig, um den Rechenaufwand des Trainings gering zu halten. Nach dem Training werden Generator und Diskriminator zur Klassifizierung wiederverwendet. Dabei wird ein Modell zur <a href="https://arxiv.org/abs/1703.05921">Erkennung von Anomalien</a> basierend auf Generator und Diskriminator trainiert. Dieses entscheidet, ob neue und damit unbekannte Bilder die gleichen Merkmale aufweisen, wie die Bilder im Trainingsdatensatz.
    <br /><br />
    
    Abbildung 3 zeigt den Ablauf der Lösung. Dabei führen wir die Trainingssequenz vorab anhand der Trainingsdaten durch und speichern die Trainierten Netzwerke ab, da der benötigte Rechenaufwand für das Training relativ hoch ist. Während des Betriebs lesen wir dann Schraubenbilder ein, bearbeiten sie genauso wie die Trainingsdaten vor und lassen das Modell entscheiden ob das Bild Anomalien aufweist. Anomalien sind in diesem Fall Beschädigungen an der Schraube.
    </div>

<img src="images/Abbildung3KonzeptImplementierung.png" width="700" />

_Abbildung 3: Wir verwenden Generator und Diskriminator aus dem GAN wieder, um zu erkenen ob unsere Schrauben beschädigt sind. Die beschädigten Schrauben passen sie nicht zu den Schrauben aus dem Trainingsdatensatz und werden daher als beschädigt erkannt._

### Fazit

<div style="text-align: justify">
Generative Adversarial Networks erlauben es uns zu lernen, auch wenn nicht genug Daten für das Training von anderen Arten von Modellen vorhanden sind. Obwohl wir mit kleinen Neuronalen Netzwerken und in einer niedrigen Auflösung von 32x32 Pixeln gearbeitet haben, war die benötigte Rechenleistung für das Training relativ hoch. Dafür sind GANs aber eine sehr flexible Lösung. Vor allem in Kombination mit anderen Verfahren aus AI erlauben sie es uns, praktische Probleme zu lösen, ohne zuerst eine große Menge an Trainingsdaten aufnehmen zu müssen.
    </div>

<P style="page-break-before: always">

## Codedokumentation

Die Implementierung wurde mit <a href="https://github.com/plaidml/plaidml">PlaidML</a> als Machine Learning Bibliothek und <a href="https://keras.io/">Keras</a> als Anwenderinterface für die Bibliothek in <a href="https://www.python.org/">Python 3</a> realisiert. <a href="https://pillow.readthedocs.io/en/stable/">Pillow</a> und <a href="https://pypi.org/project/opencv-python/">opencv-python</a> wurden für allgemeine Bildverarbeitung und <a href="https://matplotlib.org/">Matplotlib</a> sowie <a href="https://numpy.org/">Numpy</a> für Visualisierung und Datenmanagement genutzt. PlaidML wurde für die Implementierung gewählt, da mit dieser Bibliothek das Training mit Grafikkarten von allen gängigen Herstellern beschleunigt werden kann. Dadurch, dass relativ viele Trainingsepisoden (70000 im Beispiel oben) durchgeführt werden müssen, benötigt diese Lösung zum Training die Beschleunigung durch eine Grafikkarte. Als Basis für die Implementierung wurden zwei Paper zu <a href="https://arxiv.org/pdf/1511.06434.pdf">Representation Learning mit GANs</a> und <a href="https://link.springer.com/chapter/10.1007/978-3-319-59050-9_12">Anomalieerkennung mittels GANs</a> sowie zwei Implementierungen auf Github <a href="https://github.com/tkwoo/anogan-keras">[1]</a>, <a href="https://github.com/neverrop/anogan_1">[2]</a> verwendet.

### Aufbau der Applikation

Das Skript [*prepareWorkspace.sh*](./app/prepareWorkspace.sh) installiert automatisch alle benötigten Software Komponenten in einem Python 3 Virtual Environment, lädt die Trainingsdaten herunter und bearbeitet die Trainingsbilder vor. Das Skript führt dabei auch die Konfiguration von PlaidML durch, bei welcher Sie einfach den Anweisungen am Terminal folgen können. Dabei kann die Grafikkarte als Methode zur Beschleunigung des Trainings ausgewählt werden. Bitte beachten Sie, dass das Training selbst mit Grafikkarte mehrere Stunden dauert.


Anschließend kann das [trainModels.py](./app/trainModels.py) Python Skript ausgeführt werden, um das Generative Adversarial Network anhand der heruntergeladenen Bilder zu trainieren.

Nach erfolgreichem Training können sie das [anomalyDetection.py](./app/anomalyDetection.py) Skript ausführen, um ein Bild aus den Testdaten zu laden und auf Beschädigungen zu untersuchen. Die Ergebnisse werden vom Programm visualisiert.

Das Skript [*deleteWorkspace.sh*](./app/deleteWorkspace.sh) löscht den Workspace sowie alle heruntergeladenen und generierten Dateien.


### Vorbereitung der Bilder

Zunächst werden alle benötigten Module importiert und einige Funktionen zur Bildverarbeitung implementiert. _readImageDir_ liest alle Bilder in einem Verzeichnis ein, _clusterImage_ wendet <a href="https://docs.opencv.org/4.5.2/d1/d5c/tutorial_py_kmeans_opencv.html">K-Means Clustering</a> auf ein Bild an um ein Bild in eine Bestimmte Anzahl an Bereichen aufzuteilen, _getBiggestContour_ ermittelt die größte durchgehende Kontur in einem Bild, _getMask_ ermittelt die Maske zur Hintergrundentfernung und _removeBackground_ wendet diese Maske an, um den Hintergrund zu entfernen.

_preProcessImages_ führt die Konvertierung zu Graustufen, Skalierung und optionale Hintergrundentfernung für alle eingelesenen Bilder durch. Skalierung und Konvertierung zu Graustufen werden dabei mittels OpenCV durchgeführt. Für die Hintergrundentfernung wird das skalierte Graustufenbild zunächst auf Konturen im Bild untersucht. Diese werden eingezeichnet und gefüllt, um die Schraube grob vom Hintergrund zu tennen. Da dabei aber durch die Belichtung einige Artefakte entstehen, wenden wir Unschärfe auf das Bild an und verwenden K-Means Clustering, um das Bild in zwei Bereiche aufzuteilen. Diese Bereiche werden mittels Konturerkennung noch einmal klar getrennt, um den Hintergrund bestmöglich von der Schraube zu unterscheiden.

In [None]:
import os
from os import listdir
from os.path import isfile, join

import cv2
import numpy as np

from PIL import Image

# Anlegen der Verzeichnisse für Trainingsdaten, generierte Bilder und Modelle
def createDir(directory):
    if not os.path.exists(directory):
        os.makedirs(directory)

createDir('./processedImages')
createDir('./genImages')
createDir('./savedModels')

#############################################################
#####           Bildverarbeitungsfunktionen             #####

def readImageDir(path, scaleFactor=2):
    """ Liest alle Bilder in einem Verzeichnis ein und skaliert sie """
    files = [f for f in listdir(path) if isfile(join(path, f))]
    imageData = []
    # Jedes Bild wird eingelesen und auf 128x128 Pixel Skaliert
    # Die Skalierung ist notwendig, um die Performance zu erhöhen
    for filename in files:
        # Einlesen der Bilddatei
        filename = '{}/{}'.format(path, filename)
        img = cv2.imread(filename)
        width = int(img.shape[0]/scaleFactor)
        height = int(img.shape[1]/scaleFactor)
        img = cv2.resize(img, (width, height), fx=0, fy=0, interpolation=cv2.INTER_LINEAR)
        imageData.append(np.asarray(img))
    # Alle Bilder werden in einem Numpy Array gespeichert
    return np.array(imageData)


def clusterImage(frame, K=2):
    """ Verwendet OpenCV K-Means Clustering um ein Bild in K Bereiche aufzuteilen """
    # Konvertierung des Graustufenbildes in ein Numpy float32 Array
    Z = frame.reshape((-1,1))
    Z = np.float32(Z)
    # Festlegen, wie viele Cluster gesucht werden (in diesem Fall 2)
    criteria = (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)
    # Durchführung des K-Means Clusterings
    _,label,center=cv2.kmeans(Z,K,None,criteria,10,cv2.KMEANS_PP_CENTERS)
    # Zurückkonvertierung in uint8 (natives Bildformat) 
    # und Generierung des Ausgabebildes
    center = np.uint8(center)
    res = center[label.flatten()]
    res2 = res.reshape((frame.shape))
    return res2


def getBiggestContour(img_bw):
    """ Gibt die Kontur mit der größten Fläche im Bild zurück """
    img_bw = img_bw.copy()
    # Ermittlung aller Konturen im Bild
    _, thresh = cv2.threshold(img_bw, 127, 255, 0)
    #contours, _ = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_NONE)
    contours, _ = cv2.findContours(thresh, 1, 1)
    # Da wir die Ganze Schraube abdecken wollen, 
    # zeichnen wir die Kontur mit der größten Fläche in der Maske ein
    return cv2.drawContours(img_bw, [max(contours, key = cv2.contourArea)], -1, 255, thickness=-1)


def getMask(img_in, blur=20):
    """ Erstellt eine Maske, welche im Bild die Schraube vom Tisch trennt """
    img = img_in.copy()
    # Erkennung von Konturen im Bild
    _, thresh = cv2.threshold(img, 127, 255, 0)
    contours, _ = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_NONE)
    # Einzeichnen der Konturen
    img_cont = cv2.drawContours(img, contours, -1, (0,255,0), -1)
    # Blur des Bildes um Artefakte zu beseitigen
    img_blur = cv2.blur(img_cont,(blur,blur))
    # K-Means Clustering, um eine Maske zu bekommen
    img_bw = clusterImage(img_blur, K=2)
    # Vordergrund = Weiß, Hintergrund = Schwarz
    img_bw[img_bw!=0] = 255
    # Füllen der Maske um Artefakte zu vermeiden
    return getBiggestContour(img_bw)


def removeBackground(img_in):
    """ Entfernt den Hintergrund der Schrauben """
    # Pipeline Hintergrundentfernung:
    #   Konturen -> K-Means Clustering -> Konturen & nur größte Fläche übernehmen -> Kontrast erhöhen
    mask = getMask(img_in)
    img_out = img_in.copy()
    img_out[mask==0]=255
    return img_out


def preProcessImages(images, scaleFactor=2, rmBG=False):
    """ Führt die Vorverarbeitung der Bilder für das Training durch """
    outImages =  []
    for img in images:
        # Konvertierung zu Graustufen
        img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
        # Entfernen des Hintergrunds
        if rmBG: img = removeBackground(img)
        # Skalierung
        width = int(img.shape[0]/scaleFactor)
        height = int(img.shape[1]/scaleFactor)
        img = cv2.resize(img, (width, height), fx=0, fy=0, interpolation=cv2.INTER_LINEAR)
        outImages.append(img)
    return np.array(outImages)

def normaliseImageData(images):
    """ Konvertiert die Bilder von [0;255] zu [-1,1] mit Median=0 & Standardabweichung=1 """
    images = (images / 127.5) - 1
    outImages = []
    for x in images:
        x -= np.mean(x)
        x /= np.std(x)
        outImages.append(x)
    return np.array(outImages)

Wir lesen nun die Trainingsbilder ein und bereiten diese mittels den oben vorgestellten Bildverarbeitungsfunktionen vor. Dabei werden die Bilder auf eine Auflösung von 32x32 Pixel skaliert. Diese Skalierung ist notwendig um die Benötigte Rechenleistung für das Training so gering zu halten, dass es auf normalen PCs mit Grafikkarte durchfürhbar ist. Anschließend werden die Bilder als numpy Datei abgespeichert, damit sie im Trainingsskript verwendet werden können.

In [None]:
#############################################################
#####       Einlesen der Trainings- und Testdaten       #####

if __name__ == "__main__":
    """ Liest alle Bilder ein, bearbeitet sie vor und speichert sie als Numpy Datei ab.  """
    # Import aller Bilder
    trainDataPath = './screw/train/good'
    trainImages = readImageDir(trainDataPath, scaleFactor=1)
    # Die Bilder werden in Graustufen umgewandelt und um scaleFactor skaliert.
    # Optional kann noch der Hintergrund der Bilder mittels K-Means Clustering entfernt werden (rmBG=True)
    trainData = preProcessImages(trainImages, scaleFactor=16, rmBG=False)
    # Abspeicherung der Bilder
    np.save('./processedImages/trainData', trainData)

### Training des Generative Adversarial Networks

Nach Vorbearbeitung der Bilder werden Generator, Diskriminator und ein kombiniertes Modell aus den beiden mittels Keras definiert. Der Generator nimmt dabei einen Vektor der Länge 128 als Eingang und ein Graustufenbild mit einer Auflösung von 32x32 Pixeln als Ausgang. Dieser Eingangsvektor wird auch latente Variable genannt und mit zufälligen Werten aus einer Gleichverteilung gefüllt. Aus diesen Werten soll der Generator Bilder erzeugen.

In [None]:
def generator(latentDim=128, imgShape=(32, 32, 1)):
    """ Gibt den Generator als Keras Modell zurück. """
    # Eingang: Vector mit Länge 128
    # Ausgang: Graustufenbild (32, 32, 1)
    model =  Sequential(
        [
            # Eingang: 128
            Dense(1024, input_dim=latentDim),
            Activation('relu'),
            # Reshape zu Bild mit Kanälen
            Dense(128*8*8),
            BatchNormalization(),
            Activation('relu'),
            Reshape((8,8,128)),
            # 8x8
            Conv2DTranspose(64, (2,2), strides=(2,2), padding='same'),
            Conv2D(64, (5,5), padding='same'),
            Activation('relu'),
            # 16x16
            Conv2DTranspose(64, (2, 2), strides=(2, 2), padding='same'),
            Conv2D(1, (5, 5), padding='same'),
            # Ausgang: 32x32
            Activation('tanh')
        ],
        name="generator",
    )
    return model

Der Diskriminator nimmt ein 32x32 Graustufenbild als Eingang und hat einen einzigen Wert als Ausgang. Dieser Ausgangswert gibt an, ob der Diskriminator das eingegebene Bild als echt oder unecht einschätzt.

In [None]:
def discriminator(imgShape=(32, 32, 1)):
    """ Gibt den Diskriminator als Keras Modell zurück. """
    # Eingang: Graustufenbild (32, 32, 1)
    # Ausgang: Einschätzung, ob Bild echt ist, oder nicht
    model =  Sequential(
        [
            # Eingang: 64x64
            Conv2D(64, (5, 5), input_shape=imgShape, padding='same'),
            LeakyReLU(),
            MaxPooling2D(pool_size=(2, 2)),
            Conv2D(128, (5, 5), padding='same'),
            LeakyReLU(),
            MaxPooling2D(pool_size=(2, 2)),
            Flatten(),
            Dense(1024),
            LeakyReLU(),
            # Ausgang: 1
            Dense(1),
            Activation('sigmoid')
        ]
    )
    return model

Das Kombinierte Modell setzt Generator und Diskriminator zusammen. Damit nimmt es die latente Variable als Eingang und die Einschätzung, ob das Bild echt oder unecht ist, als Ausgang.

In [None]:
def generatorContainingDiscriminator(g, d, latentDim=128):
    """ Kombiniertes Modell zum Training des Generators """
    ganInput = Input(shape=(latentDim,))
    x = g(ganInput)
    ganOutput = d(x)
    gan = Model(inputs=ganInput, outputs=ganOutput)
    return gan

Anschließend implementieren wir die GAN Klasse. Diese instanziert und trainiert die oben gezeigten Modelle. Die durchgeführten Schritte sind dabei in jeder Trainingsepoche gleich: Zufällige Werte für die latente Variable werden ermittelt. Aus diesen erzeugt der Generator Bilder. Diese werden dann gemeinsam mit Bildern aus dem Trainingsdatensatz zum training des Diskriminators verwendet. Dabei markieren wir die generierten Bilder als unecht (0) und die Bilder aus den Trainingsdaten als echt (1).

Dannach nehmen wir die Gewichte des Diskriminator als nicht trainierbar an, um mittels des kombinierten Modells den Generator zu trainieren. Dabei geben wir die zufälligen Werte der latenten Variable als Eingang und die Einschätzung, das Bild sei echt, als Ausgang an. Da der Diskriminator im gemeinsamen Modell nicht trainierbar ist, muss der Generator also lernen realistischere Bilder zu erzeugen, damit der gewünschte Ausgangswert erreicht wird. 

In [None]:
class GAN():
    def __init__(self, imgRows=64, imgCols=64, imgChannels=1, loadModel=False):
        # Festlegen des Bildformats
        self.imgShape = (imgRows, imgCols, imgChannels)
        self.latentDim = 128
        self.epoch = 0
        if not loadModel:
            # Erstellen von Generator und Diskriminator
            d = discriminator(imgShape=self.imgShape)
            g = generator(latentDim=self.latentDim, imgShape=self.imgShape)
            # Instanzierung der Optimiser
            d_optim = SGD(lr=0.0005, momentum=0.9, nesterov=True)
            g_optim = SGD(lr=0.0005, momentum=0.9, nesterov=True)
            # Festlegen der Diskriminator Schichten als "nicht trainierbar"
            # Dies ist notwendig, damit beim Kombinierten Modell nur der Generator traininert wird
            #for layer in d.layers: layer.trainable = False
            d.trainable = False
            # Bauen des kombinierten Modells
            d_on_g = generatorContainingDiscriminator(g, d, self.latentDim)
            # Kompilation des Generators und kombinierten Modells
            g.compile(loss='binary_crossentropy', optimizer=g_optim)
            d_on_g.compile(loss='binary_crossentropy', optimizer=g_optim)
            print('Generator:')
            g.summary()
            print('Kombiniertes Modell:')
            d_on_g.summary()
            # Kompilation des Diskriminators
            d.trainable = True
            d.compile(loss='binary_crossentropy', optimizer=d_optim)
            print('Diskriminator:')
            d.summary()
        else:
            pass
        # Speichern der Modelle als Klassenatribute
        self.d = d
        self.g = g
        self.d_on_g = d_on_g
    def train(self, epochs, trainData, batch_size=128, sample_interval=100):
        """ Trainiert das GAN eine bestimmte Anzahl an Epochen. """
        # Vorbereitung der Trainingsdaten
        X_train = trainData / 127.5 - 1.
        if self.imgShape[2] == 1: X_train = np.expand_dims(X_train, axis=3)
        valid = np.ones((batch_size, 1))
        fake = np.zeros((batch_size, 1))
        y = np.concatenate((valid, fake))
        nIter = int(X_train.shape[0]/batch_size)
        # Anzeigen des Fortschritt mittels eines Progress Bars
        progressBar = Progbar(target=self.epoch + epochs)
        for self.epoch in range(self.epoch, self.epoch + epochs + 1):
            # Probenentnahme aus den Trainingsdaten
            idx = np.random.randint(0, X_train.shape[0], batch_size)
            imgs = X_train[idx]
            # Zufällige Werte für Latente Variable
            noise = np.random.uniform(-1, 1, (batch_size, self.latentDim))
            # Generierung künstlicher Bilder
            gen_imgs = self.g.predict(noise)
            # Training des Diskriminators
            X = np.concatenate((imgs, gen_imgs))
            d_loss = self.d.train_on_batch(X, y)
            # Training des Generators
            self.d.trainable = False
            g_loss = self.d_on_g.train_on_batch(noise, valid)
            self.d.trainable = True
            # Werden mehrere Metriken überprüft, ermitteln wir aus dem Array den Loss
            if isinstance(g_loss, np.ndarray): g_loss = g_loss.item()
            if isinstance(d_loss, np.ndarray): d_loss = d_loss.item()
            # Anzeigen des Trainingsfortschritts
            progressBar.update(self.epoch, values=[('D loss',d_loss), ('G loss',g_loss)])
            # Ausgabe der Beispielbilder und Speichern der Modelle
            if self.epoch % sample_interval == 0:
                self.sample_images(self.epoch)
                self.saveModels()
    def saveModels(self):
        """ Speichert die Keras Modelle und Anzahl der trainierten Epochen. """
        self.g.save('./savedModels/generator')
        self.d.save('./savedModels/discriminator')
        self.d_on_g.save('./savedModels/combined')
        np.save('./savedModels/epoch', self.epoch)
    def sample_images(self, epoch):
        """ Speichert aus dem Generator generierte Beispielbilder. """
        r, c = 5, 5
        noise = np.random.uniform(-1, 1, size=(r * c, self.latentDim))
        gen_imgs = self.g.predict(noise)
        gen_imgs = 0.5 * gen_imgs + 0.5
        fig, axs = plt.subplots(r, c)
        cnt = 0
        for i in range(r):
            for j in range(c):
                axs[i,j].imshow(gen_imgs[cnt, :,:,0], cmap='gray')
                axs[i,j].axis('off')
                cnt += 1
        fig.savefig("genImages/%d.png" % epoch)
        plt.close()
    def print_input_images(self, imgs, name):
        """ Speichert Trainingsbilder.  """
        if not isinstance(imgs, np.ndarray): imgs = np.array(imgs)
        r, c = 5, 5
        fig, axs = plt.subplots(r, c)
        cnt = 0
        try:
            for i in range(r):
                for j in range(c):
                    axs[i,j].imshow(imgs[cnt, :,:], cmap='gray')
                    axs[i,j].axis('off')
                    cnt += 1
        except IndexError:
            pass
        fig.savefig("genImages/" + name + ".png")
        plt.close()

Da alle benötigten Komponenten implementiert sind, kann das Training starten. Dazu werden die Trainingsdaten geladen und die GAN Klasse instanziert. Die GAN Klasse speichert dann eine Visualisierung der Trainingsdaten als Bild ab, bevor das Training gestartet wird. Wir trainieren das GAN für 70000 Episoden und erzeugen in jeder Episode 64 Bilder. Eine Visualisierung der generierten Bilder, sowie die aktuellen Modelle werden alle 5000 Episoden abgespeichert.

In [None]:
#############################################################
#####                Training des GANs                  #####

# Laden der Vorbearbeiteten Bilder
trainData = np.load('./processedImages/trainData.npy')

# Initialisierung des GAN Modells
gan = GAN(imgCols=len(trainData[0][0]), imgRows=len(trainData[0]), imgChannels=1, loadModel=False)

# Plot der vorab bearbeiteten Trainings- und Testdaten
gan.print_input_images(trainData, "trainData")

# Training des GAN
gan.train(trainData=trainData, epochs=70000, batch_size=64, sample_interval=5000)

### Erkennung von Anomalien
Nach erfolgreichem Training können Generator und Diskriminator zur Erkennung von beschädigten Schrauben eingesetzt werden. Dazu importieren wir zunächst die benötigten Module und implementieren einige Hilfsfunktionen.

In [None]:
# Setzen von PlaidML als Backend
import os
os.environ["KERAS_BACKEND"] = "plaidml.keras.backend"

# Import der benötigten Module
from keras.models import Sequential, Model, load_model
from keras.layers import Input, Reshape, Dense, Dropout, MaxPooling2D, Conv2D, Flatten
from keras.layers import Conv2DTranspose, LeakyReLU, Activation, BatchNormalization, ZeroPadding2D
from keras.optimizers import Adam, RMSprop, SGD
from keras.utils.generic_utils import Progbar

from keras import backend as K
from keras import initializers

import numpy as np

import trainModels
from trainModels import generator, discriminator

from preProcessImages import preProcessImages

import matplotlib.pyplot as plt
from PIL import Image
import cv2

def genImages(batch_size=32, latentDim=128):
    """ Lädt den trainierten Generator und generier batch_size an Testbildern """
    g = load_model('./savedModels/generator')
    noise = np.random.uniform(0, 1, (batch_size, latentDim))
    return g.predict(noise)

def anomalyLossFunc(yTrue, yPred):
    """ Wendet die Loss Funktion aus AnoGAN an """
    return K.sum(K.abs(yTrue - yPred))

def featureExtractor():
    """ Kompilliert und gibt ein Modell zur Feature Extraction ausgehend vom Diskriminator zurück """
    d = load_model('./savedModels/discriminator')
    intermidiateModel = Model(inputs=d.layers[0].input, outputs=d.layers[-5].output)
    intermidiateModel.compile(loss='binary_crossentropy', optimizer='rmsprop')
    return intermidiateModel

def anomalyDetector(latentDim=128):
    """ Setzt Feature Extractor und Generator zusammen, um das Modell zur Anomalieerkennung zu erhalten """
    g = load_model('./savedModels/generator')
    intermidiateModel = featureExtractor()
    intermidiateModel.trainable = False
    #g = Model(inputs=g.layers[1].input, outputs=g.layers[-1].output)
    g.trainable = False
    # 
    aInput = Input(shape=(latentDim,))
    gInput = Dense((latentDim), trainable=True)(aInput)
    #gInput = Activation('sigmoid')(gInput)
    # 
    G_out = g(gInput)
    D_out= intermidiateModel(G_out)    
    model = Model(inputs=aInput, outputs=[G_out, D_out])
    model.compile(loss=anomalyLossFunc, loss_weights= [0.90, 0.10], optimizer='adam')
    #
    return model

def getAnomalyScore(model, x, nIter=500, batchSize=64, latentDim=128):
    """ Berechnet den Anomalie Score eines Bildes und findet Bildregionen die zum Modell passen """
    z = np.random.uniform(-1, 1, (batchSize, latentDim))
    intermidiateModel = featureExtractor()
    d_x = intermidiateModel.predict(x)
    loss = model.fit(z, [x, d_x], batch_size=batchSize, epochs=nIter, verbose=0)
    similar_data, _ = model.predict(z)
    loss = loss.history['loss'][-1]
    return loss, similar_data

Anschließend öffnen wir die Testbilder, bearbeiten diese vor und laden die trainieren Modelle. Dabei wird auf Basis von Generator und Diskriminator ein neues Modell trainiert, welches verschiedenen Bildbereichen einen Anomalie Score zuweist.

Die Einschätzung, ob es sich bei bestimmten Bildbereichen um Anomalien handelt, wird anschließend mittels Matplotlib visualisiert.

In [None]:
if __name__ == "__main__":
    """ Trainiert einen AnoGAN Anomalie Detektor basierend auf Generator und Diskriminator """
    # Öfnnen und Vorbearbeiten eines Testbildes
    testImage = cv2.imread('./screw/test/manipulated_front/003.png')
    Image.fromarray(testImage).show()
    testImage = preProcessImages([testImage], scaleFactor=32)
    testImage = np.squeeze(testImage, axis=0)
    Image.fromarray(testImage).show()
    #
    # Instanzierung des Modells
    model = anomalyDetector()
    score, similarities = getAnomalyScore(model, testImage.reshape(1, 32, 32, 1), batchSize=1)
    #
    # Visualisierung der gefundenen Bildbereiche
    plt.imshow(testImage.reshape(32,32), cmap=plt.cm.gray)
    residual  = testImage.reshape(32,32) - similarities.reshape(32, 32)
    plt.imshow(residual, cmap='Reds', alpha=.5)
    plt.show()