# Tensorflow Tutorial

## Basics 

### Allgemeine Infos und Grundlagen

In [1]:
# Tensorflow nach der Installation importieren und Version überprüfen
import tensorflow as tf 
print(tf.__version__)

%load_ext tensorboard

2.14.0


![Achsen / Dimensionen](https://miro.medium.com/v2/resize:fit:640/format:webp/1*T3Brxoh34F5L9fUxze0K5g.png)

Der Aufbau und die Generierung von Modellen laufen bei Keras nach dem folgendem Prinzip ab:
* Laden von Daten
* Definition des Modells mit keras.layers
* Vorbereitung für das Training mit model.compile()
* Modell trainieren mit model.fit()
* Modell evaluieren mit model.evaluate()

Zusätzlicher nützlicher Code

In [None]:
# im Falle von nerviger Protokollanzeige
# mit TFF_CPP_MIN_LOG_LEVEL kann die Menge der Protokollausgaben von TensorFlow, die auf der C++-Ebene erzeugt werden, gesteuert werden
# der Wert '2' gibt an, dass nur Fehlermeldungen angezeigt werden sollen
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']=2

# ruft eine Liste der verfügbaren GPUs ab
physical_devices = tf.config.list_physical_devices('GPU')
# aktiviert das dynamische Wachstum des GPU-Speichers
tf.config.experimental.set_memory_growth(physical_devices[0], True)

### Initialisierung von Tensoren

Grafik: Grundlegende Darstellung der Achsen

In [None]:
# Erstellen eines 1D Tensors
x = tf.constant(4)
print(x)

tf.Tensor(4, shape=(), dtype=int32)


In [None]:
# Erstellen eines 2D Tensors
x = tf.constant([[1,2,3], [4,5,6]])
print(x)

tf.Tensor(
[[1 2 3]
 [4 5 6]], shape=(2, 3), dtype=int32)


In [None]:
# Bei der Erstellung des Tensors werden bereits shape und Datentyp angegeben 
# --> 2D Tensor als Gleitkommazahl
x = tf.constant(4, shape=(1,1), dtype=tf.float32)
print(x)

tf.Tensor([[4.]], shape=(1, 1), dtype=float32)


In [None]:
x = tf.ones(3,3)
y = tf.zeros(2,3)
z = tf.eye(3)
print(x, '\n')
print(y, '\n')
print(z, '\n')

tf.Tensor([1 1 1], shape=(3,), dtype=int32) 

tf.Tensor([0 0], shape=(2,), dtype=int32) 

tf.Tensor(
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]], shape=(3, 3), dtype=float32) 



In [None]:
x = tf.random.normal((3,3), mean=0, stddev=1)
y = tf.random.uniform((1,3), minval=-1, maxval=1)
z = tf.range(9)
print(x, '\n')
print(y, '\n')
print(z, '\n')

tf.Tensor(
[[-0.25618824 -2.0683844   0.0726684 ]
 [-0.25428015  1.2770005   1.1926554 ]
 [-0.86744565 -0.93437    -1.0531281 ]], shape=(3, 3), dtype=float32) 

tf.Tensor([[-0.8148029   0.27122068  0.43896222]], shape=(1, 3), dtype=float32) 

tf.Tensor([0 1 2 3 4 5 6 7 8], shape=(9,), dtype=int32) 



In [None]:
# Datentyp eines Tensors ändern
x = tf.range(start=1, limit=10, delta=2)
x = tf.cast(x, dtype=tf.float32)
print(x)

tf.Tensor([1. 3. 5. 7. 9.], shape=(5,), dtype=float32)


### Mathematische Operationen

In [None]:
x = tf.constant([1,2,3])
y = tf.constant([9,8,7])

print(x)
print(y)

tf.Tensor([1 2 3], shape=(3,), dtype=int32)
tf.Tensor([9 8 7], shape=(3,), dtype=int32)


In [None]:
# Addition
z = tf.add(x,y)
print(z)
z = x + y
print(z)
print()

# Subtraktion 
z = tf.subtract(x,y)
print(z)
z = x - y
print(z)
print()

# Multiplikation 
z = tf.multiply(x,y)
print(z)
z = x * y
print(z)
print()

# Division 
z = tf.divide(x,y)
print(z)
z = x / y
print(z)
print()

tf.Tensor([10 10 10], shape=(3,), dtype=int32)
tf.Tensor([10 10 10], shape=(3,), dtype=int32)

tf.Tensor([-8 -6 -4], shape=(3,), dtype=int32)
tf.Tensor([-8 -6 -4], shape=(3,), dtype=int32)

tf.Tensor([ 9 16 21], shape=(3,), dtype=int32)
tf.Tensor([ 9 16 21], shape=(3,), dtype=int32)

tf.Tensor([0.11111111 0.25       0.42857143], shape=(3,), dtype=float64)
tf.Tensor([0.11111111 0.25       0.42857143], shape=(3,), dtype=float64)



In [None]:
# dot-product
# Tensordot führt ein Punktprodukt (elementweise Multiplikation, gefolgt von Addition) entlang der durch den Achsenparameter definierten Achsen durch
z = tf.tensordot(x,y, axes=1)
print(z)
z = tf.reduce_sum(x*y, axis=0)
print(z)
print()

tf.Tensor(46, shape=(), dtype=int32)
tf.Tensor(46, shape=(), dtype=int32)



In [None]:
# Erstellung Matrix
x = tf.random.normal((2,3))
y = tf.random.normal((3,4))
print(x)
print(y)

tf.Tensor(
[[-1.2232184   0.00343027 -1.5028036 ]
 [ 2.4965363   0.3136101  -0.32030284]], shape=(2, 3), dtype=float32)
tf.Tensor(
[[-0.8048734   0.08965924 -0.9190173   1.3195467 ]
 [ 0.48136947 -1.2613939  -1.0283977   2.51552   ]
 [-1.010696    0.36193788 -0.1555632   0.10241306]], shape=(3, 4), dtype=float32)


In [None]:
#Matrixmultiplikation
z = tf.matmul(x,y)
print(z)
z = x @ y
print(z)

tf.Tensor(
[[ 2.505065   -0.6579213   1.3544123  -1.7593716 ]
 [-1.5347044  -0.28767806 -2.5670488   4.050386  ]], shape=(2, 4), dtype=float32)
tf.Tensor(
[[ 2.505065   -0.6579213   1.3544123  -1.7593716 ]
 [-1.5347044  -0.28767806 -2.5670488   4.050386  ]], shape=(2, 4), dtype=float32)


### Indexing von Tensoren

In [None]:
# Vector 
x = tf.constant([1,2,3,4,5,6,7,8,9])
# Ausgabe aller Werte
print( x[:])
# Ausgabe des ersten Wertes (Index 0)
print(x[0])
# Ausgabe der Werte von Index 1 bis Ende
print(x[1:])
# Ausgabe der Werte von Index 1 bis exclusive 3
print(x[1:3])
# Ausgabe der Werte vor Index 5
print(x[:5])
# überspringt jedes zweite Element
print(x[::2])
# Ausgabe in umgekehrter Richtung
print(x[::-1])


tf.Tensor([1 2 3 4 5 6 7 8 9], shape=(9,), dtype=int32)
tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor([2 3 4 5 6 7 8 9], shape=(8,), dtype=int32)
tf.Tensor([2 3], shape=(2,), dtype=int32)
tf.Tensor([1 2 3 4 5], shape=(5,), dtype=int32)
tf.Tensor([1 3 5 7 9], shape=(5,), dtype=int32)
tf.Tensor([9 8 7 6 5 4 3 2 1], shape=(9,), dtype=int32)


In [None]:
# Matrix 
x = tf.constant([[1,2],
                [3,4],
                [5,6]])
print(x[0]) # gleich zu
print(x[0,:])
print()
print(x[0:2]) # gleich zu
print(x[0:2,:])

tf.Tensor([1 2], shape=(2,), dtype=int32)
tf.Tensor([1 2], shape=(2,), dtype=int32)

tf.Tensor(
[[1 2]
 [3 4]], shape=(2, 2), dtype=int32)
tf.Tensor(
[[1 2]
 [3 4]], shape=(2, 2), dtype=int32)


In [None]:
# Extrahieren bestimmter Indexen (Vector)
x = tf.constant([1,2,3,4,5,6,7,8,9])

indicies = tf.constant([3,6])
x_ind = tf.gather(x, indicies)
print(x_ind)

tf.Tensor([4 7], shape=(2,), dtype=int32)


In [None]:
# Extrahieren bestimmter Indexen (Matrix)
x = tf.constant([[1,2],
                [3,4],
                [5,6]])

indicies = tf.constant([0,2])
x_ind = tf.gather(x, indicies)
print(x_ind)

tf.Tensor(
[[1 2]
 [5 6]], shape=(2, 2), dtype=int32)


### Reshaping

In [None]:
x = tf.range(9)
print(x)

tf.Tensor([0 1 2 3 4 5 6 7 8], shape=(9,), dtype=int32)


In [None]:
# wandelt den Vector in eine 2D Matrix 3x3 um
x = tf.reshape(x,(3,3))
print(x)

tf.Tensor(
[[0 1 2]
 [3 4 5]
 [6 7 8]], shape=(3, 3), dtype=int32)


In [None]:
# vertauscht die Achsen (Zeile und Spalte)
x = tf.transpose(x, perm=[1,0])
print(x)

tf.Tensor(
[[0 3 6]
 [1 4 7]
 [2 5 8]], shape=(3, 3), dtype=int32)


## Basic Neural Network

Ein Basic Neural Network bezieht sich im Allgemeinen auf ein einfaches, feedforward neuronales Netzwerk ohne spezielle Strukturen oder Schichten, die für spezifische Aufgaben optimiert sind. Ein solches Netzwerk könnte als Grundlage oder Ausgangspunkt für tiefere neuronale Netzwerke dienen, die speziell für bestimmte Anwendungen entwickelt sind.

Ein einfaches, grundlegendes neuronales Netzwerk besteht aus drei Arten von Schichten:

* Eingangsschicht (Input Layer): 
Diese Schicht besteht aus Neuronen, die die Merkmale oder Attribute der Eingabedaten repräsentieren. Jedes Neuron entspricht einem Merkmal.

* Verdeckte Schichten (Hidden Layers): 
Diese Schichten, auch als verdeckte Schichten bezeichnet, enthalten Neuronen, die Gewichtungen und Aktivierungsfunktionen verwenden, um komplexe nichtlineare Abbildungen der Eingabedaten zu erstellen. Die Anzahl der verdeckten Schichten und die Anzahl der Neuronen in jeder Schicht können variieren.

* Ausgangsschicht (Output Layer): 
Die Ausgangsschicht gibt die Vorhersagen des Modells aus. Die Anzahl der Neuronen in dieser Schicht hängt von der Art der Aufgabe ab (z.B. binäre Klassifikation, Mehrklassenklassifikation, Regression).

Ein einfaches neuronales Netzwerk verwendet eine sogenannte "feedforward"-Struktur, was bedeutet, dass die Informationen nur in eine Richtung durch das Netzwerk fließen - von der Eingangsschicht über die verdeckten Schichten zur Ausgangsschicht. Es gibt keine Rückkopplungsschleifen, wie sie in rekurrenten neuronalen Netzwerken (RNNs) vorkommen.

Diese Grundstruktur kann durch Hinzufügen von mehr verdeckten Schichten, Neuronen, Anpassen der Aktivierungsfunktionen und Implementieren von speziellen Techniken (wie Regularisierung oder Dropout) komplexere Modelle erstellen. Im Laufe der Zeit wurden verschiedene Arten von neuronalen Netzwerken entwickelt, um unterschiedliche Anwendungen zu unterstützen, darunter Convolutional Neural Networks (CNNs) für die Bildverarbeitung und Rekurrente Neuronale Netzwerke (RNNs) für die Verarbeitung von Sequenzdaten.

### verwendete Module

In [None]:
import tensorflow as tf
from tensorflow import keras
from keras import layers
from keras.datasets import mnist

### Vorbereitung der Daten

In [None]:
# Datensatz laden und in Trainings- und Testdaten separieren
(X_train, y_train), (X_test, y_test) = mnist.load_data()
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(60000, 28, 28)
(10000, 28, 28)
(60000,)
(10000,)


In [None]:
# Daten in 2D Array umwandeln und Struktur abflachen
# '-1' bedeuted, dass die Dimension so angepasst wird, dass die Gesamtzahl der Elemente unverändert bleibt
# Dimension 2 und 3 werden zu einer Dimension verflacht (28*28)
# Das Ganze wird durch 255 (max. Grauwert) geteilt, um mit Zahlen zwischen o und 1 zu arbeiten (Normalisierung)
X_train = X_train.reshape(-1, 28*28).astype('float32') / 255.0
X_test = X_test.reshape(-1, 28*28).astype('float32') / 255.0
print(X_train.shape)
print(X_test.shape)


(60000, 784)
(10000, 784)


### Sequentielle API

sehr bequem, aber nicht sehr flexibel (ein Input, ein Output)

Bei diesem Verfahren werden die Schichten dem Modell sequenziell hinzugefügt.
Die Reihenfolge, in der die Schichten hinzugefügt werden, gibt die Struktur des Modells vor. 

In [None]:
# Definieren eines sequentiellen Models mit 2 Schichten
model = keras.Sequential(
    [
        #definiert die Eingangsschicht des neuronalen Netzwerks
        keras.Input(shape=(28*28)),
        layers.Dense(512, activation='relu', name='layer1'),
        layers.Dense(256, activation='relu', name='layer2'),
        layers.Dense(10, name='output')
    ],
    name='seqential_model'
)

# Modell kann auch wie folgt erstellt werden:
# model = keras.Sequential()
# model.add(layers.Dense(512, activation='relu'))
# model.add(layers.Dense(256, activation='relu'))
# model.add(layers.Dense(10))

# kann bei komplexeren Modellen auch zum debuggen verwendet werden
print(model.summary())

Model: "seqential_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 layer1 (Dense)              (None, 512)               401920    
                                                                 
 layer2 (Dense)              (None, 256)               131328    
                                                                 
 output (Dense)              (None, 10)                2570      
                                                                 
Total params: 535818 (2.04 MB)
Trainable params: 535818 (2.04 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
None


Erklärung Dense 

Dense = "vollständig verbundene Schicht" = "fully connected layer"

Die Dense-Schicht ist eine grundlegende und häufig verwendete Art von Schicht in neuronalen Netzwerken. 
In dieser Schicht sind alle Neuronen bzw. Knoten der vorherigen Schicht mit jedem Neuronen der aktuellen Schicht verbunden. 
Jedes Neuron in einer Dense-Schicht empfängt Eingaben von allen Neuronen der vorherigen Schicht und gibt Ausgaben an alle Neuronen der nächsten Schicht weiter.

Erklärung Logits

Um die Logits in Wahrscheinlichkeiten umzuwandeln, wird oft die Softmax-Funktion verwendet. 
Die Softmax-Funktion normalisiert die Logits, indem sie sie in Wahrscheinlichkeiten umwandelt, sodass sie zwischen 0 und 1 liegen und sich zu 1 summiert. 
Dies ermöglicht die Interpretation der Ausgabe als Wahrscheinlichkeiten, wobei jede Zahl die Wahrscheinlichkeit darstellt, dass die Eingabe zu einer bestimmten Klasse gehört.

In [None]:
# Vorbereitung für das Training
model.compile(
    # Verlustfunktion
    # Sparse Categorical Crossentropy-Verlustfunktion wird verwendet, um Klassifizierungsprobleme mit nicht-einem-hot-kodierten (sparse) Zielvariablen zu behandeln, 
    # insbesondere wenn die Vorhersagen als Logits vorliegen (bevor sie in Wahrscheinlichkeiten umgewandelt werden)
    # from_logits=True spart die Softmax Aktivierungsfunktion in der letzten Schicht
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    # Optimierer
    # Der Optimierer steuert, wie die Modellparameter (Gewichte) anhand des Verlustes und der Gradienten aktualisiert werden.
    optimizer=keras.optimizers.Adam(learning_rate=0.001),
    # Metriken
    # definiert die Metriken, die während des Trainings und der Auswertung des Modells überwacht werden sollen
    metrics=['accuracy']
)

Welche Verlustfunktion (oder auch Kostenfunktion) is zu verwenden?

categorical_crossentropy oder SparseCategoricalCrossentropy
* Für Multiklassen-Klassifizierungsprobleme 
* z.B. Was ist auf dem Bild zu sehen?
* SparseCC wird verwendet, wenn die Zielvariablen als Ganzzahlen vorliegen und nicht One-Hot-kodiert

binary_crossentropy
* für binäre Klassifizizierungsprobleme
* z.B. Hund oder Katze?

MeanSquaredError / MSE
* für Regressionsprobleme


In [None]:
# Model trainieren
# batch_size legt die Anzahl der Beispiele fest, die gleichzeitig durch das Netzwerk propagiert werden, bevor ein Gradientenabstiegsschritt erfolgt.
# epochs gibt an, wie oft das Modell über den gesamten Satz an Trainingsdaten trainiert werden soll.
#verbose steuert den Anzeigemodus während des Trainings für eine Detailansicht der Fortschrittsanzeige (wie z.B. Verlust und Genauigkeit) für jede Epoche.
model.fit(X_train, y_train, batch_size=42, epochs=5, verbose=2)

# Model evaluieren
# evaluate wird verwendet, um die Leistung des trainierten Modells anhand von Testdaten zu bewerten. 
model.evaluate(X_test, y_test, batch_size=42, verbose=2)

Epoch 1/5
1429/1429 - 6s - loss: 0.1884 - accuracy: 0.9430 - 6s/epoch - 4ms/step
Epoch 2/5
1429/1429 - 6s - loss: 0.0773 - accuracy: 0.9759 - 6s/epoch - 4ms/step
Epoch 3/5
1429/1429 - 6s - loss: 0.0526 - accuracy: 0.9828 - 6s/epoch - 4ms/step
Epoch 4/5
1429/1429 - 6s - loss: 0.0386 - accuracy: 0.9878 - 6s/epoch - 4ms/step
Epoch 5/5
1429/1429 - 6s - loss: 0.0311 - accuracy: 0.9896 - 6s/epoch - 4ms/step
239/239 - 0s - loss: 0.0715 - accuracy: 0.9813 - 418ms/epoch - 2ms/step


[0.07151065766811371, 0.9812999963760376]

Das Modell kann mit verschiedenen Methoden evaluiert werden. 

Methode 1 - validation_split
* model.fit(X_train, y_train, batch_size=42, epochs=5, validation_split=0.3)
* hier wird der Trainingsdatensatz in 70% Trainings- und 30% Validierungsdaten geteilt
* Der Nachteil von validation_split ist, dass die Daten nicht durchgemischt werden. Das kann z.B. mit einem aufruf von np.random.shuffle() gemacht werden


Methode 2 - validation_data
* model.fit(X_train, y_train, batch_size=42, epochs=5, validation_data=(input_validation_data, output_validation_data))
* die Validierungsdaten werden vorher manuell angelegt

Methode 3 - evaluate()
* model.evaluate(X_test, y_test)
* die Evaluation wird nach dem Training ausgeführt und sollte mit Daten erfolgen, die das Modell noch nicht kennt
* dabei werden die Loss- und Accuracy-Metriken ausgegeben

### Funktionale API

etwas mehr flexibel (multiple Inputs, multiple Outputs)

Mit dieser Form der Modellerstellung können Modelle mit mehreren Eingängen und mehreren Ausgängen, sogenannte azyklische Graphen, geschaffen werden, was beim Sequential-Modell nicht möglich ist. 

In [None]:
# Definition eines funktionalen Models mit 2 Schichten
inputs = keras.Input(shape=(28*28), name='inputs')
layer1 = layers.Dense(512, activation='relu', name='layer1')(inputs)
layer2 = layers.Dense(256, activation='relu', name='layer2')(layer1)
outputs = layers.Dense(10, activation='softmax', name='outputs')(layer2)

model = keras.Model(inputs=inputs, outputs=outputs, name="functional_model")

print(model.summary())


Model: "functional_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 inputs (InputLayer)         [(None, 784)]             0         
                                                                 
 layer1 (Dense)              (None, 512)               401920    
                                                                 
 layer2 (Dense)              (None, 256)               131328    
                                                                 
 outputs (Dense)             (None, 10)                2570      
                                                                 
Total params: 535818 (2.04 MB)
Trainable params: 535818 (2.04 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
None


In [None]:
# Vorbereitung für das Training
model.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=False), # hier kann 'False' verwendet werden, da die Softmax Aktivierungsfunktion in der output Schicht definiert ist
    metrics=['accuracy']
)

# Model trainieren
model.fit(X_train, y_train, batch_size=42, epochs=5, verbose=2)

# Model evaluieren
model.evaluate(X_test, y_test, batch_size=42, verbose=2)

Epoch 1/5
1429/1429 - 6s - loss: 0.0130 - accuracy: 0.9961 - 6s/epoch - 4ms/step
Epoch 2/5
1429/1429 - 6s - loss: 0.0090 - accuracy: 0.9973 - 6s/epoch - 4ms/step
Epoch 3/5
1429/1429 - 5s - loss: 0.0058 - accuracy: 0.9983 - 5s/epoch - 4ms/step
Epoch 4/5
1429/1429 - 5s - loss: 0.0037 - accuracy: 0.9988 - 5s/epoch - 4ms/step
Epoch 5/5
1429/1429 - 5s - loss: 0.0026 - accuracy: 0.9993 - 5s/epoch - 4ms/step
239/239 - 0s - loss: 0.0999 - accuracy: 0.9843 - 409ms/epoch - 2ms/step


[0.0999363511800766, 0.9843000173568726]

### Extrahieren von Layer Features für Debugging

In [None]:
# Ausgabe eines Layers per Index
model = keras.Model(inputs=model.inputs, 
                    outputs=[model.layers[-2].output])

feature = model.predict(X_train)
print(feature.shape)

# Asugabe eines Layers per Layername
model = keras.Model(inputs=model.inputs, 
                    outputs=[model.get_layer('layer2').output])

feature = model.predict(X_train)
print(feature.shape)

model = keras.Model(inputs=model.inputs, 
                    outputs=[layer.output for layer in model.layers])

features = model.predict(X_train)
for feature in features:
    print(feature.shape)

(60000, 256)
(60000, 256)
(60000, 784)
(60000, 512)
(60000, 256)


## Convolutional Neural Network - CNN

Ein Convolutional Neural Network (CNN oder ConvNet) ist eine spezielle Art von künstlichem neuronalen Netzwerk, das besonders gut für die Verarbeitung von strukturierten Gitterdaten geeignet ist, wie sie in Bildern und Videos vorkommen. CNNs haben in der Bildverarbeitung, Mustererkennung und anderen Aufgaben, bei denen räumliche Strukturen wichtig sind, große Erfolge erzielt.

Hier sind einige der wichtigsten Eigenschaften von Convolutional Neural Networks:

* Convolutional Layers (Faltungsschichten): 
CNNs verwenden spezielle Schichten, die als Convolutional Layers bezeichnet werden. Diese Schichten führen Faltungsoperationen auf den Eingabedaten aus, um lokale Muster und Merkmale zu erkennen.

* Pooling Layers (Pooling-Schichten): 
Nach den Convolutional Layers folgen oft Pooling Layers, die dazu dienen, die räumliche Dimension der Daten zu reduzieren. Max-Pooling ist eine häufige Pooling-Methode, bei der der maximalste Wert in einem bestimmten Bereich ausgewählt wird.

* Aktivierungsfunktionen: 
Wie in traditionellen neuronalen Netzwerken verwenden CNNs Aktivierungsfunktionen wie ReLU (Rectified Linear Unit), um Nichtlinearitäten einzuführen und die Expressivität des Modells zu erhöhen.

* Fully Connected Layers (Vollständig verbundene Schichten): 
Nach den Convolutional- und Pooling-Layers können Fully Connected Layers (Dense Layers) hinzugefügt werden, um die extrahierten Merkmale in eine Ausgabe umzuwandeln, die für die spezifische Aufgabe des Modells relevant ist.

* Gewichtete Verbindungen und Filter: 
In CNNs werden Gewichtungen (Filter) gemeinsam genutzt, um lokale Muster zu erkennen, was die Anzahl der lernbaren Parameter im Vergleich zu vollständig verbundenen Netzwerken reduziert.

CNNs sind besonders effektiv bei der Verarbeitung von Bildern, da sie die räumlichen Hierarchien und Merkmale von Bildern auf natürliche Weise erfassen können. Sie werden in zahlreichen Anwendungen eingesetzt, darunter Bilderkennung, Gesichtserkennung, Objekterkennung, Segmentierung und mehr.

### verwendete Module

In [2]:
import tensorflow as tf
from tensorflow import keras
from keras import layers, regularizers
from keras.datasets import cifar10

### Vorbereitung der Daten

In [3]:
# Datensatz laden und in Trainings- und Testdaten separieren
(X_train, y_train), (X_test, y_test) = cifar10.load_data()
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(50000, 32, 32, 3)
(10000, 32, 32, 3)
(50000, 1)
(10000, 1)


In [4]:
# Daten normalisieren
# beim Convolutional Model vorerst kein Flattening
X_train = X_train.astype('float32') / 255.0
X_test = X_test.astype('float32') / 255.0
print(X_train.shape)
print(X_test.shape)

(50000, 32, 32, 3)
(10000, 32, 32, 3)


### Definition und Training des Modells

#### Definition eines einfachen sequentiellen Modells

In [5]:
# Definition eines sequentiellen Modells 
model = keras.Sequential(
    [
        # definiert die Eingangsschicht des neuronalen Netzwerks mit einer Bildgröße von 32x32 Pixeln und 3 Farbkanälen (RGB)
        keras.Input(shape=(32,32,3)),
        # Fügt eine Convolutional-Schicht mit 32 Filtern, einer Filtergröße von 3x3, der Aktivierungsfunktion 'relu' und der Padding-Methode 'valid' hinzu
        layers.Conv2D(32, 3, padding='valid',activation='relu'),
        # Fügt eine Max-Pooling-Schicht mit einer Pooling-Größe von 2x2 hinzu
        layers.MaxPooling2D(pool_size=(2,2)),
        # weitere Convolutional-Schicht mit 64 Filtern
        layers.Conv2D(64, 3, activation='relu'),
        # Standard-Pooling-Größe von 2x2
        layers.MaxPooling2D(),
        # weitere Convolutional-Schicht mit 128 Filtern
        layers.Conv2D(128, 3, activation='relu'),
        # Flacht die Ausgabe der vorherigen Schicht zu einem eindimensionalen Vektor für die Fully-Connected-Schichten
        layers.Flatten(),
        # Dense-Schicht mit 64 Neuronen
        layers.Dense(64, activation='relu'),
        # 10 Neuronen für die Ausgabe zur Klassifizierung in 10 Klassen
        layers.Dense(10)
    ],
    name='conv_seqential_model'
)

# kann bei komplexeren Modellen auch zum debuggen verwendet werden {mit abgeänderter Layer generierung}
# model = keras.Sequential()
# {model.add(layers.Dense(512, activation='relu'))}
print(model.summary())

Model: "conv_seqential_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d (Conv2D)             (None, 30, 30, 32)        896       
                                                                 
 max_pooling2d (MaxPooling2  (None, 15, 15, 32)        0         
 D)                                                              
                                                                 
 conv2d_1 (Conv2D)           (None, 13, 13, 64)        18496     
                                                                 
 max_pooling2d_1 (MaxPoolin  (None, 6, 6, 64)          0         
 g2D)                                                            
                                                                 
 conv2d_2 (Conv2D)           (None, 4, 4, 128)         73856     
                                                                 
 flatten (Flatten)           (None, 2048)     

Erklärung der Schichten und Parameter

Conv2D-Schichten: 

* Diese Schichten führen Faltungen auf den Eingangsbildern durch, um Merkmale zu extrahieren. 
Die Schichten verwenden verschiedene Filter (32, 64 und 128), die jeweils mit einer Größe von 3x3 auf die Eingangsbilder angewendet werden. 
Die Aktivierungsfunktion 'relu' wird verwendet, um Nichtlinearität hinzuzufügen.


MaxPooling2D-Schichten: 

* Diese Schichten reduzieren die Dimensionalität der Daten, indem sie die maximalen Werte aus kleineren Fenstern extrahieren. 
Hier werden zwei Max-Pooling-Schichten mit verschiedenen Pooling-Größen verwendet.


padding

* ist eine Einstellung, die angibt, wie mit den Bildrändern umgegangen wird, wenn eine Faltung auf das Eingangsbild angewendet wird.


padding='valid'

* Wenn padding='valid' verwendet wird, bedeutet das, dass keine zusätzliche Füllung (Padding) am Rand des Bildes hinzugefügt wird, bevor die Faltung angewendet wird. 
Mit diesem Setting führt die Faltung dazu, dass die Ausgabegröße kleiner ist als die Eingabegröße. 
Wenn das Filterkernel (Faltungskern) über den Rand des Bildes hinausragt, werden nur die Bereiche des Bildes verwendet, die komplett vom Filter abgedeckt werden können.


padding='same'

* Wenn padding='same' verwendet wird, bedeutet das, dass die Eingabe mit zusätzlichen Nullen (Padding) an den Rändern versehen wird, um sicherzustellen, dass die Ausgabegröße der Faltung dieselbe ist wie die Eingabegröße.
Mit dieser Einstellung wird sichergestellt, dass die Filteroperationen auch auf die Pixel am Rand des Bildes angewendet werden können, 
indem zusätzliche Pixel hinzugefügt werden, um die Randbedingungen zu erfüllen. 
Das Padding wird so berechnet, dass die Ausgabegröße der Faltung dieselben Dimensionen hat wie die Eingabegröße.

In [6]:
# Vorbereitung für das Training
model.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=keras.optimizers.Adam(learning_rate=0.0003),
    metrics=['accuracy']
)

# Trainieren des Models
model.fit(X_train, y_train, batch_size=64, epochs=10, verbose=2)
# Evaluieren des Models
model.evaluate(X_test, y_test, batch_size=64, verbose=2)

Epoch 1/10
782/782 - 16s - loss: 1.6838 - accuracy: 0.3850 - 16s/epoch - 21ms/step
Epoch 2/10
782/782 - 16s - loss: 1.3528 - accuracy: 0.5163 - 16s/epoch - 20ms/step
Epoch 3/10
782/782 - 16s - loss: 1.2190 - accuracy: 0.5712 - 16s/epoch - 21ms/step
Epoch 4/10
782/782 - 16s - loss: 1.1274 - accuracy: 0.6049 - 16s/epoch - 20ms/step
Epoch 5/10
782/782 - 16s - loss: 1.0516 - accuracy: 0.6342 - 16s/epoch - 20ms/step
Epoch 6/10
782/782 - 15s - loss: 0.9878 - accuracy: 0.6558 - 15s/epoch - 20ms/step
Epoch 7/10
782/782 - 16s - loss: 0.9370 - accuracy: 0.6738 - 16s/epoch - 20ms/step
Epoch 8/10
782/782 - 16s - loss: 0.8903 - accuracy: 0.6883 - 16s/epoch - 20ms/step
Epoch 9/10
782/782 - 16s - loss: 0.8504 - accuracy: 0.7049 - 16s/epoch - 20ms/step
Epoch 10/10
782/782 - 16s - loss: 0.8145 - accuracy: 0.7207 - 16s/epoch - 20ms/step
157/157 - 1s - loss: 0.8873 - accuracy: 0.6942 - 993ms/epoch - 6ms/step


[0.8873369097709656, 0.6941999793052673]

#### Definition eines Models mit BatchNormalization und Regularisierung

In [14]:
def my_model():
    inputs = keras.Input(shape=(32,32,3))
    x = layers.Conv2D(32, 3, padding='same', kernel_regularizer=regularizers.L2(0.01))(inputs)
    x = layers.BatchNormalization()(x)
    x = keras.activations.relu(x)
    x = layers.MaxPooling2D()(x)
    x = layers.Conv2D(64, 3, padding='same', kernel_regularizer=regularizers.L2(0.01))(x)
    x = layers.BatchNormalization()(x)
    x = keras.activations.relu(x)
    x = layers.MaxPooling2D()(x)
    x = layers.Conv2D(128, 3, padding='same', kernel_regularizer=regularizers.L2(0.01))(x)
    x = layers.BatchNormalization()(x)
    x = keras.activations.relu(x)
    x = layers.Flatten()(x)
    x = layers.Dense(64, activation='relu', kernel_regularizer=regularizers.L2(0.01))(x)
    x = layers.Dropout(0.5)(x)
    outputs = layers.Dense(10)(x)
    model = keras.Model(inputs=inputs, outputs=outputs)
    
    return model

model = my_model()

print(model.summary())

Model: "model_5"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_7 (InputLayer)        [(None, 32, 32, 3)]       0         
                                                                 
 conv2d_18 (Conv2D)          (None, 32, 32, 32)        896       
                                                                 
 batch_normalization_15 (Ba  (None, 32, 32, 32)        128       
 tchNormalization)                                               
                                                                 
 tf.nn.relu_15 (TFOpLambda)  (None, 32, 32, 32)        0         
                                                                 
 max_pooling2d_12 (MaxPooli  (None, 16, 16, 32)        0         
 ng2D)                                                           
                                                                 
 conv2d_19 (Conv2D)          (None, 16, 16, 64)        1849

 Die Batch-Normalisierung (Batch Normalization, kurz BN) ist eine Technik, die zur Verbesserung der Konvergenz und Stabilität des Trainings beiträgt, insbesondere bei tiefen neuronalen Netzwerken. 
 Hier sind die Hauptfunktionen der Batch-Normalization:

1. Normalisierung:

* Die Batch-Normalization normalisiert die Aktivierungen einer Schicht, indem der Mittelwert der Aktivierungen subtrahiert und das Ergebnis durch die Standardabweichung geteilt wird.
* Dies hilft, die Aktivierungen auf eine ähnliche Skala zu bringen und das Training zu beschleunigen.


2. Skalierung und Verschiebung:

* Zusätzlich zur Normalisierung fügt die Batch-Normalization zwei lernbare Parameter hinzu: einen für die Skalierung und einen für die Verschiebung.
* Diese Parameter ermöglichen es dem Modell, die normalisierten Aktivierungen zu skalieren und zu verschieben, um die Flexibilität des Modells beizubehalten.


3. Regularisierungseffekt:

* Batch-Normalization wirkt als eine Art Regularisierung, da der Mini-Batch-Mittelwert und die Standardabweichung während des Trainings verwendet werden.
* Dies kann helfen, Overfitting zu reduzieren.

In [15]:
# Vorbereitung für das Training
model.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=keras.optimizers.Adam(learning_rate=0.0003),
    metrics=['accuracy']
)

# Trainieren des Models
model.fit(X_train, y_train, batch_size=64, epochs=10, verbose=2)
# Evaluieren des Models
model.evaluate(X_test, y_test, batch_size=64, verbose=2)

Epoch 1/10
782/782 - 41s - loss: 3.0448 - accuracy: 0.3448 - 41s/epoch - 53ms/step
Epoch 2/10
782/782 - 38s - loss: 1.9550 - accuracy: 0.4506 - 38s/epoch - 49ms/step
Epoch 3/10
782/782 - 37s - loss: 1.6590 - accuracy: 0.5014 - 37s/epoch - 47ms/step
Epoch 4/10
782/782 - 37s - loss: 1.5239 - accuracy: 0.5323 - 37s/epoch - 48ms/step
Epoch 5/10
782/782 - 39s - loss: 1.4539 - accuracy: 0.5517 - 39s/epoch - 49ms/step
Epoch 6/10
782/782 - 39s - loss: 1.4095 - accuracy: 0.5603 - 39s/epoch - 50ms/step
Epoch 7/10
782/782 - 39s - loss: 1.3791 - accuracy: 0.5730 - 39s/epoch - 50ms/step
Epoch 8/10
782/782 - 39s - loss: 1.3531 - accuracy: 0.5797 - 39s/epoch - 49ms/step
Epoch 9/10
782/782 - 39s - loss: 1.3302 - accuracy: 0.5901 - 39s/epoch - 50ms/step
Epoch 10/10
782/782 - 40s - loss: 1.3125 - accuracy: 0.5946 - 40s/epoch - 51ms/step
157/157 - 2s - loss: 1.2359 - accuracy: 0.6335 - 2s/epoch - 13ms/step


[1.2359070777893066, 0.6334999799728394]

## Recurrent Neural Network - RNN

Ein Recurrent Neural Network (RNN) ist ein Typ künstlicher neuronaler Netzwerke, der für die Verarbeitung von sequenziellen Daten entwickelt wurde. Im Gegensatz zu traditionellen neuronalen Netzwerken, die keine spezifische Struktur für die Verarbeitung von Sequenzen haben, sind RNNs darauf ausgelegt, zeitabhängige Informationen in den Daten zu erfassen.

Hier sind einige Schlüsselmerkmale von Rekurrenten Neuralen Netzwerken:

* Rekurrente Schichten (Recurrent Layers): 
Die Hauptkomponente eines RNNs ist die rekurrente Schicht. Diese Schicht ermöglicht es dem Netzwerk, Informationen aus vorherigen Zeitschritten zu speichern und in den aktuellen Schritt zu übertragen. Dadurch können RNNs zeitabhängige Muster in den Daten modellieren.

* Gewichtete Rückkopplung (Weighted Feedback): 
Rekurrente Schichten verwenden gewichtete Rückkopplung, um Informationen aus vorherigen Zeitschritten zu berücksichtigen. Dies ermöglicht dem Netzwerk, sich an vorherige Zustände zu "erinnern" und diese Informationen bei Bedarf zu verwenden.

* Aktivierungsfunktionen: 
Wie in anderen neuronalen Netzwerken auch verwenden RNNs Aktivierungsfunktionen wie Tanh oder ReLU, um Nichtlinearitäten einzuführen und die Ausdrucksfähigkeit des Modells zu erhöhen.

* Zeitreihendaten: 
RNNs sind besonders geeignet für die Verarbeitung von Zeitreihendaten, bei denen die Reihenfolge der Daten von Bedeutung ist, wie z. B. in Sprachverarbeitung, maschinellem Übersetzen, Textgenerierung und Aktienpreisvorhersagen.

Obwohl RNNs dazu neigen, gut mit Sequenzdaten umzugehen, haben sie Schwierigkeiten, lange Abhängigkeiten zu erfassen, was als das "Vanishing Gradient Problem" bekannt ist. Um dieses Problem zu überwinden, wurden fortgeschrittenere Varianten von RNNs entwickelt, darunter Long Short-Term Memory Networks (LSTM) und Gated Recurrent Units (GRU), die speziell darauf abzielen, langfristige Abhängigkeiten zu erfassen.

### verwendete Module

In [16]:
import tensorflow as tf
from tensorflow import keras
from keras import layers
from keras.datasets import mnist

### Vorbereitung der Daten

In [20]:
# Datensatz laden und in Trainings- und Testdaten separieren
(X_train, y_train), (X_test, y_test) = mnist.load_data()
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(60000, 28, 28)
(10000, 28, 28)
(60000,)
(10000,)


In [19]:
# Daten normalisieren
# beim Recurrent Model vorerst kein Flattening
X_train = X_train.astype('float32') / 255.0
X_test = X_test.astype('float32') / 255.0
print(X_train.shape)
print(X_test.shape)

(60000, 28, 28)
(10000, 28, 28)


### Definition und Training des Modells

#### Definition eines einfachen RNN Modells

In [28]:
model = keras.Sequential(name='RNN_model')
#Der None-Wert in der ersten Dimension bedeutet, dass das Netzwerk mit Sequenzen unterschiedlicher Länge umgehen kann (typisch für RNNs).
model.add(keras.Input(shape=(None, 28)))
model.add(layers.SimpleRNN(256, return_sequences=True, activation='tanh'))
model.add(layers.SimpleRNN(256, activation='tanh'))
model.add(layers.Dense(10))

print(model.summary())

Model: "RNN_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_4 (SimpleRNN)    (None, None, 256)         72960     
                                                                 
 simple_rnn_5 (SimpleRNN)    (None, 256)               131328    
                                                                 
 dense_16 (Dense)            (None, 10)                2570      
                                                                 
Total params: 206858 (808.04 KB)
Trainable params: 206858 (808.04 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
None


Rekurrente Schicht (layers.SimpleRNN):

* Die erste rekurrente Schicht hat 256 Einheiten (Neuronen) und verwendet die Tangens hyperbolicus (tanh)-Aktivierungsfunktion.
* return_sequences=True bedeutet, dass die Schicht eine Sequenz von Ausgaben für jeden Zeitschritt zurückgibt, anstatt nur die letzte Ausgabe der Sequenz.
* Diese Einstellung ist typisch, wenn Sie mehrere aufeinander folgende rekurrente Schichten haben, da Sie normalerweise die Sequenzinformationen für die nächste Schicht beibehalten möchten.
* Die zweite rekurrente Schicht hat ebenfalls 256 Einheiten und verwendet tanh als Aktivierungsfunktion.
* Im Gegensatz zur ersten Schicht hat diese return_sequences standardmäßig auf False, was bedeutet, dass nur die letzte Ausgabe der Sequenz zurückgegeben wird.

In [27]:
model.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=keras.optimizers.Adam(learning_rate=0.001),
    metrics=['accuracy']
)

model.fit(X_train, y_train, batch_size=64, epochs=10, verbose=2)
model.evaluate(X_test, y_test, batch_size=64, verbose=2)

Epoch 1/10


938/938 - 19s - loss: 0.6176 - accuracy: 0.7918 - 19s/epoch - 20ms/step
Epoch 2/10
938/938 - 18s - loss: 0.3265 - accuracy: 0.9005 - 18s/epoch - 19ms/step
Epoch 3/10
938/938 - 18s - loss: 0.3136 - accuracy: 0.9057 - 18s/epoch - 19ms/step
Epoch 4/10
938/938 - 20s - loss: 0.2662 - accuracy: 0.9206 - 20s/epoch - 21ms/step
Epoch 5/10
938/938 - 20s - loss: 0.2232 - accuracy: 0.9362 - 20s/epoch - 22ms/step
Epoch 6/10
938/938 - 21s - loss: 0.2100 - accuracy: 0.9392 - 21s/epoch - 22ms/step
Epoch 7/10
938/938 - 20s - loss: 0.2284 - accuracy: 0.9328 - 20s/epoch - 21ms/step
Epoch 8/10
938/938 - 20s - loss: 0.1998 - accuracy: 0.9412 - 20s/epoch - 21ms/step
Epoch 9/10
938/938 - 20s - loss: 0.2230 - accuracy: 0.9349 - 20s/epoch - 21ms/step
Epoch 10/10
938/938 - 20s - loss: 0.2019 - accuracy: 0.9415 - 20s/epoch - 21ms/step
157/157 - 1s - loss: 0.1997 - accuracy: 0.9413 - 1s/epoch - 9ms/step


[0.1996881365776062, 0.9412999749183655]

#### Definition eines einfachen RNN Modells mit GRU

In [30]:
model = keras.Sequential(name='GRU_model')
model.add(keras.Input(shape=(None, 28)))
model.add(layers.GRU(256, return_sequences=True, activation='tanh'))
model.add(layers.GRU(256, activation='tanh'))
model.add(layers.Dense(10))

print(model.summary())

Model: "GRU_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 gru_1 (GRU)                 (None, None, 256)         219648    
                                                                 
 gru_2 (GRU)                 (None, 256)               394752    
                                                                 
 dense_17 (Dense)            (None, 10)                2570      
                                                                 
Total params: 616970 (2.35 MB)
Trainable params: 616970 (2.35 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
None


Dieser Code basiert auf auf Gated Recurrent Units (GRUs).
GRUs sind eine spezielle Form von rekurrenten neuronalen Netzwerken, die dazu entwickelt wurden, das Problem des "Vanishing Gradient" bei langen Abhängigkeiten zu mildern, ähnlich wie Long Short-Term Memory Networks (LSTM).

Schlüsselmerkmale von GRUs sind:

Gating-Mechanismus: <br>
GRUs verwenden einen Gating-Mechanismus, um zu steuern, welche Informationen in den verdeckten Zustand übernommen werden und welche verworfen werden sollen. Dieser Mechanismus besteht aus zwei Toren: <br>
dem "Reset Gate" und dem "Update Gate". <br>
Das "Reset Gate" entscheidet, welche Informationen aus dem vorherigen Zustand verworfen werden sollen. <br>
Das "Update Gate" entscheidet, welche neuen Informationen in den Zustand aufgenommen werden sollen.

Verdeckter Zustand (Hidden State): <br>
    Ähnlich wie bei LSTM hat auch GRU einen verdeckten Zustand, der Informationen über mehrere Zeitschritte hinweg speichert. Der Gating-Mechanismus steuert, wie dieser Zustand aktualisiert wird.

Einfachere Struktur: <br>
    Im Vergleich zu LSTM ist die Struktur von GRU simpler. Es gibt nur einen Zustand, und die Gating-Mechanismen sind weniger komplex. Dies kann zu einer einfachen Implementierung und schnelleren Trainingszeiten führen.

In [31]:
model.compile(
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=keras.optimizers.Adam(learning_rate=0.001),
    metrics=['accuracy']
)

model.fit(X_train, y_train, batch_size=64, epochs=10, verbose=2)
model.evaluate(X_test, y_test, batch_size=64, verbose=2)

Epoch 1/10
938/938 - 80s - loss: 0.2365 - accuracy: 0.9233 - 80s/epoch - 86ms/step
Epoch 2/10
938/938 - 80s - loss: 0.0756 - accuracy: 0.9766 - 80s/epoch - 85ms/step
Epoch 3/10
938/938 - 83s - loss: 0.0574 - accuracy: 0.9825 - 83s/epoch - 89ms/step
Epoch 4/10
938/938 - 84s - loss: 0.0464 - accuracy: 0.9851 - 84s/epoch - 89ms/step
Epoch 5/10
938/938 - 82s - loss: 0.0408 - accuracy: 0.9869 - 82s/epoch - 87ms/step
Epoch 6/10
938/938 - 82s - loss: 0.0374 - accuracy: 0.9880 - 82s/epoch - 88ms/step
Epoch 7/10
938/938 - 83s - loss: 0.0344 - accuracy: 0.9886 - 83s/epoch - 89ms/step
Epoch 8/10
938/938 - 83s - loss: 0.0331 - accuracy: 0.9891 - 83s/epoch - 89ms/step
Epoch 9/10
938/938 - 83s - loss: 0.0305 - accuracy: 0.9902 - 83s/epoch - 89ms/step
Epoch 10/10
938/938 - 84s - loss: 0.0301 - accuracy: 0.9902 - 84s/epoch - 89ms/step
157/157 - 4s - loss: 0.0496 - accuracy: 0.9854 - 4s/epoch - 23ms/step


[0.04961291328072548, 0.9854000210762024]

#### Definition eines bidirektionalen RNN Modells mit LSTM

In [None]:
model = keras.Sequential(name='bidirectional_model')
model.add(keras.Input(shape=(None, 28)))
model.add(layers.Bidirectional(layers.LSTM(256, return_sequences=True, activation='tanh')))
model.add(layers.GRU(256, activation='tanh'))
model.add(layers.Dense(10))

print(model.summary())

Dieser Code verwendet eine bidirektionale Schicht, um sowohl vorwärts als auch rückwärts durch eine LSTM-Schicht zu gehen und Informationen von beiden Richtungen zu erfassen.

LSTM steht für "Long Short-Term Memory" und dient ebenso zur Überwindung des "Vanishing Gradient" Problems.

Schlüsselmerkmale des LSTM sind:

Langzeitabhängigkeiten: <br>
LSTMs sind darauf ausgerichtet, lange Abhängigkeiten zwischen den Zeitschritten in einer Sequenz zu erfassen. Dies ermöglicht es ihnen, Informationen über einen längeren Zeitraum zu speichern und zu verwenden, was besonders wichtig ist, wenn die Sequenzen, die sie verarbeiten, lang sind.

Zelle (Cell): <br>
Die grundlegende Einheit eines LSTM-Netzwerks ist die LSTM-Zelle. Diese Zelle hat interne Zustände, die aktualisiert und modifiziert werden können. Die Zellzustände ermöglichen es dem LSTM, Informationen über mehrere Zeitschritte hinweg zu speichern.

Eingangstore (Input Gate), Vergessenstore (Forget Gate) und Ausgangstore (Output Gate): <br>
LSTMs verwenden spezielle Tore, um zu steuern, welche Informationen in den Zellzustand eingegeben, vergessen oder aus diesem ausgegeben werden sollen. Jedes Tor ist mit einer Sigmoid-Aktivierungsfunktion versehen, die Werte zwischen 0 und 1 ausgibt und somit den Grad der Informationseingabe oder -ausgabe steuert.

Aktivierungsfunktionen: <br> 
In einer LSTM-Zelle werden normalerweise die Tangens hyperbolicus (tanh)-Aktivierungsfunktion und die Sigmoid-Aktivierungsfunktionen verwendet.

## Keras Callbacks

## Speichern und Laden von Modellen

### Speichern als h5-Datei

In [None]:
# Speichern des Models
model.save('Model_name.h5')

# Laden des Models
model = keras.load_model('Model_name.h5')

# Model verwenden und Vorhersage treffen
result = model.predict([5,5])

### Speichern als SavedModel-Format

Beim SavedModel-Format wird die Modelldefinition in das angegebene Unterverzeichnis exportiert. 

Das SavedModel-Format ermöglicht die Benutzung des Modells in TensorFlow Lite, TensorFlow Serving, TensorFlow Hub oder sogar in TensorFlow.js, nachdem es konvertiert wurde.  

In [None]:
# Speichern des Models
tf.saved_model.save(model, 'Model_name')

### Struktur und Parameter seperat speichern

Die Struktur eines Modells kann seperat von den Parametern gespeichert werden, wenn man z.B. die Modellstruktur visualisieren will. Dabei sind Gewichtungen udn Bias wenig nützlich und deshalb bietet Keras eine Möglichkeit zur seperaten Speicherung von Struktur und Parameter. 

In [None]:
# Gewichte speichern (h5-Datei)
model.save_weights('Model_name')


# Struktur des Modells als JSON speichern
json_str = model.to_json()

with open('Model_name.json', 'w') as json_file:
    json_file.write(json_str)


# Modell mit struktur und Parameter laden
with open('Model_name.json', 'r') as f:
    json_file_content = f.read()

model = keras.model_from_json(json_file_content)
model.load_weights('Model_name.h5')


# Für YAML einfach json durch yaml ersetzen

### Keras-Modelle für TensorFlow.js exportieren

In [None]:
# Vorraussetzung: pip install tensorflowjs
import tensorflowjs as tfjs

tfjs.converters.save_keras_model(model, './Model_name')