<h1>Getting Started</h1>

Worum wird es in diesem Kapitel gehen? Wir werden die Kernkomponenten der NNs und Keras kennenlernen und verschiedene Ansätze zu verschiednen Arten von Problemen sehen. Beispiele werden sein:
1. Filmreviews klassifizieren: binäre Klassifikation
2. News nach Themen sortieren: Multiklassen-Klassifikation
3. Die Preise von Häusern voraussagen: Regression<br>
Die wichtigesten Objekte, aus denen das NN gebaut wird, sind die Schichten, die Daten und Ziele, die Verlustfunktion und der Optimierer:
<img src="./imgs/Funktionsweise_NN.JPG">
Wir werden diese noch einmal kurz anschauen:<br><br>
<b>Schichten</b><br>
In den meisten Fällen besteht ein NN aus einem azyklischen Graphen von Schichten, welche meistens linear aufgeschichtet sind. Das bedeutet, es gibt einen einzigen Input, der zu einem einzigen Output führt. Es gibt aber mehr Architekturen, z.B. Two-Branch-Netzwerke, Multihead-Netzwerke, Inception-Blöcke, die später besprochen werden. Die Wahl der Topologie ist sehr wichtig, denn sie definiert den <i>Hypothesenraum</i>, also alle Möglichkeiten, wie die Daten dargestellt werden können.<br><br>
<b>Verlustfunktionen und Optimierer</b><br>
Sobald die Architektur des Netzwerks definiert ist, müssen diese beiden gewählt werden. Die Verlustfunktion ist der Wert, der während des Trainings minimiert werden musst. Sie ist eine Funktion der vorhergesagten Ziel ^Y und der echten Ziele Y. Der Optimierer bestimmt, auf welche Weise das Netzwerk aufgrund der Verlustfunktion verändert wird. Ein NN kann mehrere Verlustfunktionen besitzen, wenn es mehrere Outputs besitzt. Für übliche Probleme wie Regression oder Klassifizierung gibt es Leitlinien zur Auswahl der Verlustfunktion.<br><br>
<b>Keras</b><br>
Ist ein Framework für Python, das verschiedene Backends wie TensorFlow, Theano und CNTK nutzen kann. Diese können wiederrum CPU und GPUs nutzen.

<h1>Entwicklung in Keras</h1><br>
Die üblichen Schritte in der Entwicklung eines NN sind<br>
1. das Definieren der Trainingsdaten und Ziele und deren Vorbereitung zur Verarbeitung,<br>
2. das Definieren der Topologie des NN,<br>
3. Wahl der Verlustfunktion, Optimierer und zu beobachtenden Metriken und<br>
4. das Trainieren durch den Aufruf von <code>.fit()</code>.<br>


In [1]:
from keras import models
from keras import layers

model = models.Sequential() #  Sequential: adding layers one after another
# there is another, less useful way of doing so
model.add(layers.Dense(32, activation = 'relu', input_shape = (784, )))
model.add(layers.Dense(32, activation='relu', input_shape=(784, )))


from keras import optimizers
model.compile(
    optimizer = optimizers.RMSprop(lr = 0.001),
    loss = 'mse',
    metrics = ['accuracy']
)

# model.fit(input_tensor, target_tensor, batch_size=128, epochs=10)

Using TensorFlow backend.


<h1>Der IMBD-Datensatz</h1><br>
- 50 000 Reviews der Internet Movie Database, 25 000 als gut bewertet, alle weiteren als schlecht<br>
- es ist bereits in Keras vorhanden

In [2]:
from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words = 100)
# num_words: how many of the most commonly used words included (so that vectors are managebly small)
print(len(test_labels))
print(len(train_data))
print(len(train_data[0]))

Downloading data from https://s3.amazonaws.com/text-datasets/imdb.npz
25000
25000
218


Warum wurden die Daten in Trainingsdaten und Testdaten geteilt? Weil ein Modell nicht auf den gleichen Daten trainiert und getestet werden sollte. Das liegt daran, dass "Overfitting" verhindert werden soll. Das bedeutet, dass das Modell die Daten auswendig lernt, das Modell also so spezifisch auf die Trainigsdaten gefittet ist, dass es keine auf weitere Daten übertragbare Abstraktion ist. Das Modell ist also zu sehr auf die Eigenheiten des vorliegenden Datensatzes angepasst. Um zu verhindern, dass die Loss Function anhand auswendig gerlernter Daten ermittelt wird, sondern die Leistungsfähigkeit des Modells auf unbekannte Daten, benutzt man getrennte Test- und Trainigsdaten.

In [3]:
print(train_data[0])
print(train_labels[0])

[1, 14, 22, 16, 43, 2, 2, 2, 2, 65, 2, 2, 66, 2, 4, 2, 36, 2, 5, 25, 2, 43, 2, 2, 50, 2, 2, 9, 35, 2, 2, 5, 2, 4, 2, 2, 2, 2, 2, 2, 39, 4, 2, 2, 2, 17, 2, 38, 13, 2, 4, 2, 50, 16, 6, 2, 2, 19, 14, 22, 4, 2, 2, 2, 4, 22, 71, 87, 12, 16, 43, 2, 38, 76, 15, 13, 2, 4, 22, 17, 2, 17, 12, 16, 2, 18, 2, 5, 62, 2, 12, 8, 2, 8, 2, 5, 4, 2, 2, 16, 2, 66, 2, 33, 4, 2, 12, 16, 38, 2, 5, 25, 2, 51, 36, 2, 48, 25, 2, 33, 6, 22, 12, 2, 28, 77, 52, 5, 14, 2, 16, 82, 2, 8, 4, 2, 2, 2, 15, 2, 4, 2, 7, 2, 5, 2, 36, 71, 43, 2, 2, 26, 2, 2, 46, 7, 4, 2, 2, 13, 2, 88, 4, 2, 15, 2, 98, 32, 2, 56, 26, 2, 6, 2, 2, 18, 4, 2, 22, 21, 2, 2, 26, 2, 5, 2, 30, 2, 18, 51, 36, 28, 2, 92, 25, 2, 4, 2, 65, 16, 38, 2, 88, 12, 16, 2, 5, 16, 2, 2, 2, 32, 15, 16, 2, 19, 2, 32]
1


Die Daten bestehen aus Sequenzen von Worten, die als Zahlen codiert worden sind (0 bis 9999). Die Labels, also die Ziele sind entweder 1 oder 0. 1 steht für eine gute Review und 0 für eine schlechte.

<b>Vorbereitung der Daten</b><br>
Es ist einfach möglich, Listen unterschiedlicher Länge von Integeres in ein neuronales Netz zu leiten.
- die Inputvektoren müssen eine einheitliche Länge haben,
- das kann mit One-Hot-Kodierung erreicht werden
- so wird die Sequenz <code>[3, 5]</code> in einen Vektor der Länge 10 000 umgewandelt, der an den Stellen 3 und Einsen hätte und sonst Nullen

In [4]:
import numpy as np

def vectorizeData(sequences, dimension = 10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

x_train = vectorizeData(train_data)
x_test = vectorizeData(test_data)

y_train = np.asarray(train_labels).astype("float32")
y_test = np.asarray(test_labels).astype("float32")

In [7]:
print(x_train[0])
print(x_test[50])
print(y_train[0])
print(y_test[50])

[0. 1. 1. ... 0. 0. 0.]
[0. 1. 1. ... 0. 0. 0.]
1.0
0.0


Der letzte Schritt bezüglich der Labels ist ebenfalls wichtig. Keras erwartet NumPy-Arrays vom Typ float32.

<b>Der Bau des Netzwerks</b><br>


In [12]:
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(16, activation = 'relu', input_shape = (10000,)))
model.add(layers.Dense(16, activation = 'relu')) # Transformation auf 16 Dimension
model.add(layers.Dense(1, activation = 'sigmoid'))
# letzte Sigmoid-Schicht mit einem Neuron quetscht Werte in [0,1]

Der erste Grundbaustein eines NN ist eine Schicht des Typs <code>Dense</code>.<br>
- das bedeutet, dass jede Einheit mit jeder Einheit der Vorgängerschicht über eine Kante verbunden ist
- der Konstruktor besitzt zwei Argumente: 16, hier die Anzahl der Einheiten in der Schicht und
- activation, die Aktivierungsfunktion der Schicht.<br>

Es gibt nun zwei wichige Fragen, wenn es zu den <code>Dense</code>-Schichten kommt:
1. Wie viele Schichten sollten genutzt werden,
2. wie viele versteckte Enheiten sollte die jeweilige Schicht besitzen?
3. Welche Aktivierungsfunktionen<br>
"Formale" Prinzipien zu Anzahl von Einheiten und Schichten werden später erläutert.<br><br>
<b>Aktivierungsfunktionen</b><br>
Eine Aktivierungsfunktion definiert den Output einer Einheit einer Schicht (Neuron) gegeben seiner Inputs. Sei y der Output, f die Aktivierungsfunktion und x der Input: $$y = f(x)$$Der Wert eines Neurons bestimmt sich durch die gewichtete Summe seiner Inputs:$$y = f(\sum_{i=0}^{n}w_ix_i + b)$$ wenn die vorherige Schicht n Neuronen besitzt. Anhand der gewichteten Summe entscheidet das Neuron dann, welchen Wert es ausgibt. Diese Funktionen sind nötig, weil die Schicht sonst nur eine lineare Transformation der Inputdaten lernen könnte. Der Hypothesenraum der Schicht wäre die Menge aller linearer Transformationen der Inputdaten. Der Hypothesenraum ist zu klein und würde nicht von mehreren Schichten profitieren, da lineare Transformationen von linearen Transformationen den Hypothesenraum nicht erweitern, hier einige Beispiele für f.<br>
Rectified linear unit: $$f(x)=relu(x)=max(0,x)$$
Binary step: $$f(x)=
\begin{cases}
0, x<0\\
1, x\ge 0
\end{cases}$$
Sigmoid: sie ist nützlich für binäre Klassifkation als allerletztes Outputneuron, sie presst Werte zwischen 0 und 1 und kann daher als eine Wahrscheinlichkeit interpretiert werden, sodass anhand des Kriterium > 0.5 entschieden werden kann, wie die Observation klassifiziert wird.
$$f(x)=sig(x)={{e^x}\over{1+e^x}}$$
So eignen sich für Regressionen am besten die linearen Aktivierungsfunktionen, für Multiklassen-Klassifizierung die Softmax und für die binäre Klassifizierung die Sigmoid am besten. Relu ist die beliebteste, wenn

In [15]:
# nun noch den Optimierer, Verlustfunktion und Metriken festlegen
model.compile(
    optimizer = 'rmsprop',
    loss = 'binary_crossentropy', # best for binary classification together with sigmoid in last neuron
    metrics = ['accuracy']
)
# sie müssen nicht als Strings übergeben werden, es ist auch mäglich sie aufzurufen, zu konfigurieren und dann zu übergeben
from keras import optimizers

model.compile(
    optimizer = optimizers.RMSprop(lr = 0.001),
    loss = 'binary_crossentropy',
    metrics = ['accuracy']
)

<b>Der Validierungsdatensatz</b><br>
Du hast bereits deine Daten in einen Trainingsdatensatz und in einen Testdatensatz unterteilt. Nun wird der Trainingsdatensatz hälftig weiter unterteilt in einen Validierungsdatensatz und den Trainingsdatensatz. Der Validierungsdatensatz dient während des Trainings, um zu abzuschätzen, ob das Modell bessere Voraussagen tätigt als vorher: Ein Batch wird gelernt, das Modell wird mithilfe der Validierungsdaten getestet. Wenn nun mehr Werte richtig vorausgesagt worden sind als vorher, dann bewegen sich die Parameter in die richtige Richtung. Am Testdatensatz wird die Voraussagekraft außerhalb des Trainingsprozesses gemessen.

In [24]:
x_val = x_train[:10000] # Beo 9999 und davor
partial_x_train = x_train[10000:] # 10000 und danach
y_val = y_train[:10000]
partial_y_train = y_train[10000:]

history = model.fit(
    partial_x_train,
    partial_y_train,
    epochs = 20,
    batch_size = 512,
    validation_data = (x_val, y_val)
)

Train on 15000 samples, validate on 10000 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


model.fit() gibt ein Objekts des Typs History zurück, das Metriken über den Verlauf des Trainings hinweg enthält. Dieser ist ein Dictionary/assoziatives Array, in dem jedes Element Daten über die Metriken in jeder Trainigsepoche haben.

In [27]:
historyDict = history.history
print(historyDict.keys())
print(historyDict['val_loss'])
print(len(historyDict['val_loss'])) # 20 Epochen, 20 Werte

dict_keys(['val_loss', 'val_acc', 'loss', 'acc'])
[0.6377085701942444, 0.6090554194450378, 0.6079496955871582, 0.5763984783172608, 0.5833783117294311, 0.5701023338317871, 0.5712036338806152, 0.5693908110618592, 0.5705283778190613, 0.5749170949935913, 0.5729542663574219, 0.5902904415130615, 0.5675434779167176, 0.569089871788025, 0.5679305442810059, 0.5682731781959534, 0.578122270488739, 0.5751478478431702, 0.5734334106445312, 0.5769134291648865]
20


In [None]:
import matplotlib.pyplot as plot
# HIER WEITER
# Fragen: 
    # woran wird der Loss ermittelt? Validationsset
    # genau Funktionen der drei Sets
lossVals = historyDict['loss']
accurav
epochs = range(1, len(historyDict['val_loss']) + 1) # 1 bis 20
# plotte die Akkuratheit, bo heißt blue dot
plot.plot(epochs, loss_values, 'bo', label =' Training loss')
# plotte die den Wert der Verlustfunktion, b heißt blue
plot.plot(epochs, val_loss_values, 'b', label='Validation loss')
plot.title('Training and validation loss')
plot.xlabel('Epochs')
plot.ylabel('Loss')
plot.legend()
plt.show()