# GAN - Teil 2 - Keras kann auch Ziffern schreiben

## Worum geht es in diesem Teil
Nachdem ich im ersten Teil den grundlegenden Trick der GAN beschrieben habe, möchte ich hier ein einfaches GAN bauen, dass in der Lage ist, die handschriftlichen Ziffern aus der MNIST Datenbank täuschend echt nachzumachen.
Ich verwende für diesen „Zaubertrank“ nur die elementaren Zutaten aus der Speisekammer der neuronalen Netze um mich auf die GAN Spezifika konzentrieren zu können. Nichts desto Trotz ist das Ergebnis schon recht beeindruckend. Wenn ich hier von Zaubertrank und Speisekammer rede, so geschieht das nicht ganz ohne Grund. In der Literatur wird gerne der Ausdruck "Alchemie der GAN" verwendet, der darauf hinweisen soll, dass man viel Erfahrung und Gespür beim Bau von GAN's benötigt. Das liegt daran, dass wir mit unseren neuronalen Netzen mittels Gradientenverfahren nicht einem festen Minima entgegenschreiten, sondern wir suchen ein Gleichgewicht zwischen G(z) und D(x). Dadurch verschieben sich die Minima in den Netzten nach jedem Iterationsschritt. Die Aufgabe beim Bau von GAN's ist es also seine Netzte so zu bauen, in dem das Gleichgewicht leicht zu finden ist. Man braucht ein Netz wie eine tiefe Schüssel, in der eine kleine Kugel automatisch dem tiefsten Punkt und damit seinem Gleichgewicht zustrebt. Das andere Extrem ist ein Netz wie ein Bleistift, den man auf der Spitze ausbalancieren möchte, was bekanntlich schnell mal frustrieren kann. 
Hängen wir uns also unsere Druidenmäntel um und greifen zu unseren goldenen Sicheln 😊


## Die lästigen Vorbereitungen
Wie immer sammle ich alle nötigen Importstatements in einem Block 


In [1]:
#tensorflow
import tensorflow as tf
from tensorflow.python.client import device_lib
from keras.backend.tensorflow_backend import set_session

import keras
from keras.layers import Input
from keras.models import Model, Sequential
from keras.layers.core import Dense, Dropout
from keras.layers.advanced_activations import LeakyReLU
from keras.datasets import mnist
from keras.optimizers import Adam, RMSprop
from keras import initializers

config = tf.ConfigProto()
config.gpu_options.allow_growth = True  # dynamically grow the memory used on the GPU
config.log_device_placement = True  # to log device placement (on which device the operation ran)
                                    # (nothing gets printed in Jupyter, only if you run it standalone)
sess = tf.Session(config=config)
set_session(sess)  # set this TensorFlow session as the default session for Keras
print("TensorFlow Version:\t{}".format(tf.__version__))
print("Keras Version:\t\t{}".format(keras.__version__))
print("Found GPU & CPU devices:\n{}".format(device_lib.list_local_devices()))


import numpy as np
import matplotlib.pyplot as plt

# ein hübsches Tool für Progerss Bars
from tqdm import tqdm

# Für das Rauschen brauchen wir Zufallszahlen
np.random.seed(911972)


Using TensorFlow backend.


TensorFlow Version:	1.10.0
Keras Version:		2.2.4
Found GPU & CPU devices:
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 9164342101682752304
, name: "/device:GPU:0"
device_type: "GPU"
memory_limit: 4960052838
locality {
  bus_id: 1
  links {
  }
}
incarnation: 11323770166586016644
physical_device_desc: "device: 0, name: GeForce GTX 1060, pci bus id: 0000:02:00.0, compute capability: 6.1"
]


## Daten vorbereiten

* Zuerst besorge ich mir die Testdaten auf dem üblichen Weg. 
* Da ich hier wirklich die einfachsten Netze verwenden möchte (also simple Dense Netze), sammle ich alle Pixelinformationen nicht in einer zwei dimensionalen 28 x 28 Matrix, sondern in einem 28 x 28 = 784 Elemente großen Vektor.
* Ein erster Erfahrungswert ist es, den Tangens Hyperbolicus als finale Aktivierungsfunktion zu verwenden. Deshalb normiere ich meine Daten auf das Intervall von [-1, 1].
* Die Größe des Input Vektors für den Generator setzte ich Zufällig auf 97
* Die Optimierung der Hyperparameter ist die wesentliche Fleißarbeit. Somit sammle ich sie hier in einem Block zusammen.


In [2]:
(real_images, __), (__, __) = mnist.load_data()
print('1. Rohdaten:')
print(real_images[0, 14, 10:20])

real_images = real_images.reshape(60000, 784)
print('2. Zum Vektor aufgebogen:')
print(real_images[0, 14*28 +10 : 14*28 + 20])

real_images = real_images.astype('float32')  / 255 * 2 - 1
print('3. in das Interval [-1, 1] normiert:')
print(real_images[0, 14*28 +10 : 14*28 + 20])


noise_vector_size = 97

# Da ich für alle Netzte einen Optimizer brauche, der ein wenig sanfter als der Default eingestellt ist, monfiguriere ich ihn einmal
#optimizer= Adam(lr=0.0002, beta_1=0.5)
optimizer= RMSprop(lr=0.0008, clipvalue=1.0, decay=1e-8)

# dropout ist wichtig bei GAN
dropout_rate = 0.2

# die steigung der LeakyReLu im negativen Bereich
leaky_faktor = 0.2

1. Rohdaten:
[  0   0   0  81 240 253 253 119  25   0]
2. Zum Vektor aufgebogen:
[  0   0   0  81 240 253 253 119  25   0]
3. in das Interval [-1, 1] normiert:
[-1.         -1.         -1.         -0.36470586  0.88235295  0.9843137
  0.9843137  -0.06666666 -0.8039216  -1.        ]


## Der Generator
Im Prinzip ist der Generator das einfachste Netz, das man bauen kann. Eine kleine Besonderheit hat es aber dennoch. Ich verwende hier ‚LeakyReLU‘ als Ansatzfunktion. Seit einiger Zeit setzt sich ReLU als Allzweckwaffe unter den Ansatzfunktionen der Hidden - Layer durch. Allerdings hat sie eine kleine Schwäche. Dadurch, dass sie den negativen Wertebereich auf Null abbildet, lässt sie Knoten schnell absterben. Ein einmal abgestorbener Knoten wird nicht mehr aktiviert, da auf ihn kein Fehler mehr aufgeteilt wird. Das wirkt sich negativ auf das „tiefe“ propagieren von Fehlern aus. Mit der LeakyReLu wird dieses Problem repariert, indem man den negativen Wertebereich nicht ganz auf 0 abbildet. 

Als Aktivierungsfunktion des letzten Layers wähle ich wie bereits erwähnt den tanh als „magische“ Zutat.


In [3]:
generator = Sequential()
generator.add(Dense(256, input_dim=noise_vector_size, kernel_initializer=initializers.RandomNormal(stddev=0.02)))
generator.add(LeakyReLU(leaky_faktor))

generator.add(Dense(512))
generator.add(LeakyReLU(leaky_faktor))

generator.add(Dense(1024))
generator.add(LeakyReLU(leaky_faktor))

generator.add(Dense(784, activation='tanh'))
generator.compile(loss='binary_crossentropy', optimizer=optimizer)
generator.summary()


_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 256)               25088     
_________________________________________________________________
leaky_re_lu_1 (LeakyReLU)    (None, 256)               0         
_________________________________________________________________
dense_2 (Dense)              (None, 512)               131584    
_________________________________________________________________
leaky_re_lu_2 (LeakyReLU)    (None, 512)               0         
_________________________________________________________________
dense_3 (Dense)              (None, 1024)              525312    
_________________________________________________________________
leaky_re_lu_3 (LeakyReLU)    (None, 1024)              0         
_________________________________________________________________
dense_4 (Dense)              (None, 784)               803600    
Total para

## Der Diskriminator
Der Diskriminator ist ähnlich schlicht aufgebaut, wie der Generator. Die Input Dimension ist 28 x 28, also jeweils ein Bild. Die Output Dimension ist ein Skalar zwischen Null und Eins.
Der Diskriminator verfügt anders als der Generator über Dropout Layer, um auch hier den Zufall mit einzubinden. Der Zufall verhindert im GAN, dass sich die Netze zu schnell einschnüren und in einen dünn besiedelten Zustand gleiten. Das ist bei GAN’s sehr schlecht, da die „Kreativität“ in der Vielfalt der Möglichkeiten liegt. Somit müssen möglichst viele Gewichte aktiviert sein um eine möglichst breite Varianz zu bekommen. Der Diskriminator bekommt seine Vielfalt übrigens nicht durch Dropout Layer, sondern durch das Rauschen des Input Vektors z.


In [4]:
discriminator = Sequential()
discriminator.add(Dense(1024, input_dim=784, kernel_initializer=initializers.RandomNormal(stddev=0.02)))
discriminator.add(LeakyReLU(leaky_faktor))
discriminator.add(Dropout(dropout_rate))

discriminator.add(Dense(512))
discriminator.add(LeakyReLU(leaky_faktor))
discriminator.add(Dropout(dropout_rate))

discriminator.add(Dense(256))
discriminator.add(LeakyReLU(leaky_faktor))
discriminator.add(Dropout(dropout_rate))

discriminator.add(Dense(1, activation='sigmoid'))
discriminator.compile(loss='binary_crossentropy', optimizer=optimizer)
discriminator.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_5 (Dense)              (None, 1024)              803840    
_________________________________________________________________
leaky_re_lu_4 (LeakyReLU)    (None, 1024)              0         
_________________________________________________________________
dropout_1 (Dropout)          (None, 1024)              0         
_________________________________________________________________
dense_6 (Dense)              (None, 512)               524800    
_________________________________________________________________
leaky_re_lu_5 (LeakyReLU)    (None, 512)               0         
_________________________________________________________________
dropout_2 (Dropout)          (None, 512)               0         
_________________________________________________________________
dense_7 (Dense)              (None, 256)               131328    
__________

## Das GAN
Um den Generator trainieren zu können, muss man das GAN zusammensetzen.  Dazu nutzt man bei Keras das funktionale API. Damit kann man einem Model weitere Layer hinzufügen. So wird hier der Input Layer auf den Generator und dieser auf den Diskriminator geschichtet. Danach ruft man den Model Konstruktor auf, um das GAN zu bekommen.
Übrigens spiegelt sich in der funktionalen Schreibweise von Python die theoretische Herleitung der GAN’s wieder D(G(z)) .


In [5]:
# der Diskriminator wird hier gleich eingefroren
discriminator.trainable = False

# der verrauschte Input Vektor
z = Input(shape=(noise_vector_size,))

# Das GAN D(G(z))
gan_core = discriminator(generator(z))

# Um ein eigenständiges Netz zu erhalten, baut man sich ein neues Model
gan = Model(inputs = z, outputs = gan_core)
gan.compile(loss = 'binary_crossentropy', optimizer = optimizer)
gan.summary()


_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         (None, 97)                0         
_________________________________________________________________
sequential_1 (Sequential)    (None, 784)               1485584   
_________________________________________________________________
sequential_2 (Sequential)    (None, 1)                 1460225   
Total params: 2,945,809
Trainable params: 1,485,584
Non-trainable params: 1,460,225
_________________________________________________________________


In [None]:
epochs = 5000
batch_size = 128
batch_count = real_images.shape[0] / batch_size

for e in range(1, epochs+1):
    print('-'*15, 'Epoch %d' % e, '-'*15)
    for _ in tqdm(range(int(batch_count))):
        # Get a random set of input noise and images
        noise = np.random.normal(0, 0.1, size=[batch_size, noise_vector_size])
        image_batch = real_images[np.random.randint(0, real_images.shape[0], size=batch_size)]

        # Generate fake MNIST images
        generated_images = generator.predict(noise)
        X = np.concatenate([image_batch, generated_images])

        # Labels for generated and real data
        y_dis = np.zeros(2*batch_size)
        # One-sided label smoothing
        y_dis[:batch_size] = 0.9

        # Train discriminator
        discriminator.trainable = True
        discriminator.train_on_batch(X, y_dis)

        # Train generator
        noise = np.random.normal(0, 1, size=[batch_size, noise_vector_size])
        y_gen = np.ones(batch_size)
        discriminator.trainable = False
        gan.train_on_batch(noise, y_gen)

    if e == 1 or e % 20 == 0:
            examples = 100
            dim=(10, 10)
            figsize=(10, 10)
            noise = np.random.normal(0, 1, size=[examples, noise_vector_size])
            generated_images = generator.predict(noise)
            generated_images = generated_images.reshape(examples, 28, 28)

            plt.figure(figsize=figsize)
            for i in range(generated_images.shape[0]):
                plt.subplot(dim[0], dim[1], i+1)
                plt.imshow(generated_images[i], interpolation='nearest', cmap='gray_r')
                plt.axis('off')
            plt.tight_layout()
            plt.savefig('output/gan_generated_image_epoch_%d.png' % e)


--------------- Epoch 1 ---------------


100%|██████████| 937/937 [00:27<00:00, 33.54it/s] 


--------------- Epoch 2 ---------------


100%|██████████| 937/937 [00:20<00:00, 46.69it/s]


--------------- Epoch 3 ---------------


100%|██████████| 937/937 [00:18<00:00, 51.36it/s]


--------------- Epoch 4 ---------------


100%|██████████| 937/937 [00:20<00:00, 52.59it/s]


--------------- Epoch 5 ---------------


100%|██████████| 937/937 [00:17<00:00, 52.10it/s]


--------------- Epoch 6 ---------------


100%|██████████| 937/937 [00:18<00:00, 49.49it/s]


--------------- Epoch 7 ---------------


100%|██████████| 937/937 [00:20<00:00, 45.70it/s]


--------------- Epoch 8 ---------------


100%|██████████| 937/937 [00:19<00:00, 49.16it/s]


--------------- Epoch 9 ---------------


100%|██████████| 937/937 [00:19<00:00, 48.83it/s]


--------------- Epoch 10 ---------------


100%|██████████| 937/937 [00:20<00:00, 45.71it/s]


--------------- Epoch 11 ---------------


100%|██████████| 937/937 [00:20<00:00, 44.97it/s]


--------------- Epoch 12 ---------------


100%|██████████| 937/937 [00:19<00:00, 54.92it/s]


--------------- Epoch 13 ---------------


100%|██████████| 937/937 [00:17<00:00, 53.55it/s]


--------------- Epoch 14 ---------------


100%|██████████| 937/937 [00:17<00:00, 54.64it/s]


--------------- Epoch 15 ---------------


100%|██████████| 937/937 [00:16<00:00, 60.97it/s]


--------------- Epoch 16 ---------------


100%|██████████| 937/937 [00:15<00:00, 59.13it/s]


--------------- Epoch 17 ---------------


100%|██████████| 937/937 [00:17<00:00, 55.04it/s]


--------------- Epoch 18 ---------------


100%|██████████| 937/937 [00:17<00:00, 56.72it/s]


--------------- Epoch 19 ---------------


100%|██████████| 937/937 [00:16<00:00, 58.14it/s]


--------------- Epoch 20 ---------------


100%|██████████| 937/937 [00:16<00:00, 55.42it/s]


--------------- Epoch 21 ---------------


100%|██████████| 937/937 [00:17<00:00, 53.22it/s]


--------------- Epoch 22 ---------------


100%|██████████| 937/937 [00:17<00:00, 53.88it/s]


--------------- Epoch 23 ---------------


100%|██████████| 937/937 [00:17<00:00, 50.93it/s]


--------------- Epoch 24 ---------------


100%|██████████| 937/937 [00:18<00:00, 51.64it/s]


--------------- Epoch 25 ---------------


100%|██████████| 937/937 [00:19<00:00, 48.38it/s]


--------------- Epoch 26 ---------------


100%|██████████| 937/937 [00:18<00:00, 51.22it/s]


--------------- Epoch 27 ---------------


100%|██████████| 937/937 [00:19<00:00, 53.74it/s]


--------------- Epoch 28 ---------------


100%|██████████| 937/937 [00:18<00:00, 51.27it/s]


--------------- Epoch 29 ---------------


100%|██████████| 937/937 [00:27<00:00, 33.91it/s]


--------------- Epoch 30 ---------------


 66%|██████▌   | 618/937 [00:13<00:06, 51.08it/s]