# LSTM (Long Short Term Memory)

Ein **Long Short-Term Memory** (LSTM) Netzwerk ist eine spezielle Art eines rekurrenten neuronalen Netzwerks (RNN), die entwickelt wurde, um Abhängigkeiten in Sequenzen besser zu modellieren. LSTMs sind besonders effektiv, wenn es darum geht, sich über längere Zeiträume an Informationen zu erinnern, und werden häufig in Anwendungen wie Sprachverarbeitung, Zeitreihenanalyse und Übersetzungen verwendet.

### Grundlegendes Konzept

LSTMs bestehen aus einer Folge von "Zellen" oder "Zuständen", die Informationen durch die Zeit weitergeben und entscheiden, was sie behalten und was sie verwerfen. Dies wird durch drei zentrale "Gates" gesteuert, die zusammenarbeiten, um die Information zu steuern:

1. **Forget Gate (Vergessens-Tor)**: Entscheidet, welche Informationen aus dem vorherigen Zustand vergessen werden sollen.
2. **Input Gate (Eingangs-Tor)**: Bestimmt, welche neuen Informationen in den Zellzustand eingefügt werden sollen.
3. **Output Gate (Ausgangs-Tor)**: Entscheidet, welche Informationen für den nächsten Zeitschritt ausgegeben werden.

### Details der LSTM-Mechanik

1. **Vergessen und Merken**:
   - Zuerst entscheidet das **Forget Gate**, welche Informationen aus dem vorherigen Zellzustand $C_{t-1}$ verworfen werden sollen. Dazu wird der vorherige Zustand und die aktuelle Eingabe durch eine Sigmoid-Aktivierung geleitet, die Werte zwischen 0 (vollständiges Vergessen) und 1 (vollständiges Behalten) liefert.

2. **Aktualisieren des Zellzustands**:
   - Das **Input Gate** entscheidet, welche neuen Informationen hinzukommen. Es nutzt eine Sigmoid-Aktivierung, um festzulegen, welche Werte geändert werden, und eine tanh-Aktivierung, die die neuen möglichen Werte berechnet.
   - Diese Werte werden kombiniert, um den Zellzustand zu aktualisieren: $C_t = f_t * C_{t-1} + i_t * \tilde{C}_t$, wobei $f_t$ das Forget Gate und $i_t * \tilde{C}_t$ die neuen Informationen darstellt.

3. **Ausgabe und Weitergabe**:
   - Das **Output Gate** verwendet ebenfalls Sigmoid- und tanh-Aktivierungen, um den Zellzustand $C_t$ so zu transformieren, dass nur relevante Informationen nach außen weitergegeben werden.

### Beispiel in Python

Hier ist eine vereinfachte Implementierung eines LSTM in Python mit NumPy, die die Kernoperationen für ein einzelnes Zeitschritt beschreibt. In der Praxis verwenden Deep-Learning-Frameworks wie PyTorch oder TensorFlow bereits optimierte LSTM-Module.

In [1]:
import numpy as np

# Sigmoid und Tanh Funktionen
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def tanh(x):
    return np.tanh(x)

# Beispiel LSTM Schritt
def lstm_step(x_t, h_prev, C_prev, Wf, Wi, Wo, Wc, bf, bi, bo, bc):
    # Vergessens-Tor
    f_t = sigmoid(np.dot(Wf, np.hstack([h_prev, x_t])) + bf)
    # Eingangs-Tor
    i_t = sigmoid(np.dot(Wi, np.hstack([h_prev, x_t])) + bi)
    # Neues Zellgedächtnis
    C_tilda = tanh(np.dot(Wc, np.hstack([h_prev, x_t])) + bc)
    # Zellzustand aktualisieren
    C_t = f_t * C_prev + i_t * C_tilda
    # Ausgangs-Tor
    o_t = sigmoid(np.dot(Wo, np.hstack([h_prev, x_t])) + bo)
    # Ausgabe (neuer versteckter Zustand)
    h_t = o_t * tanh(C_t)
    
    return h_t, C_t

# Beispielhafte Initialisierung von Eingabevektor x_t, vorherigem Zustand h_prev und Zellzustand C_prev
x_t = np.array([0.5, 0.1])  # Aktueller Eingabevektor
h_prev = np.array([0.1, 0.2])  # Vorheriger versteckter Zustand
C_prev = np.array([0.0, 0.0])  # Vorheriger Zellzustand

# Beispielhafte Initialisierung von Gewichten und Biases
Wf = np.random.rand(2, 4)  # Vergessens-Tor-Gewichte
Wi = np.random.rand(2, 4)  # Eingangs-Tor-Gewichte
Wo = np.random.rand(2, 4)  # Ausgangs-Tor-Gewichte
Wc = np.random.rand(2, 4)  # Zell-Gewichte
bf = np.random.rand(2)  # Vergessens-Tor-Bias
bi = np.random.rand(2)  # Eingangs-Tor-Bias
bo = np.random.rand(2)  # Ausgangs-Tor-Bias
bc = np.random.rand(2)  # Zell-Bias

# Berechne den nächsten Schritt
h_t, C_t = lstm_step(x_t, h_prev, C_prev, Wf, Wi, Wo, Wc, bf, bi, bo, bc)

# Ergebnisse anzeigen
print("Neuer versteckter Zustand (h_t):", h_t)
print("Neuer Zellzustand (C_t):", C_t)

Neuer versteckter Zustand (h_t): [0.390636   0.44603029]
Neuer Zellzustand (C_t): [0.5570813  0.67245129]


### Zusammenfassung
- **LSTMs speichern und vergessen Informationen kontrolliert** durch die Kombination von Vergessens-, Eingangs- und Ausgangs-Toren.
- **Langfristige und kurzfristige Abhängigkeiten** können durch die Fähigkeit des LSTMs, Zustände über viele Zeitschritte hinweg zu speichern, modelliert werden.
  
Diese Eigenschaften machen LSTMs ideal für sequenzielle Daten, bei denen es wichtig ist, Kontext über lange Sequenzen hinweg zu bewahren.

In [2]:
import numpy as np

# Sigmoid- und Tanh-Funktionen
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def tanh(x):
    return np.tanh(x)

# LSTM-Zellschritt-Funktion
def lstm_step(x_t, h_prev, C_prev, Wf, Wi, Wo, Wc, bf, bi, bo, bc):
    # Vergessens-Tor
    f_t = sigmoid(np.dot(Wf, np.hstack([h_prev, x_t])) + bf)
    # Eingangs-Tor
    i_t = sigmoid(np.dot(Wi, np.hstack([h_prev, x_t])) + bi)
    # Neues Zellgedächtnis
    C_tilda = tanh(np.dot(Wc, np.hstack([h_prev, x_t])) + bc)
    # Zellzustand aktualisieren
    C_t = f_t * C_prev + i_t * C_tilda
    # Ausgangs-Tor
    o_t = sigmoid(np.dot(Wo, np.hstack([h_prev, x_t])) + bo)
    # Ausgabe (neuer versteckter Zustand)
    h_t = o_t * tanh(C_t)
    
    return h_t, C_t

# Initialisierung des Zustands
hidden_size = 2  # Verdeckter Zustand (klein gehalten für einfaches Verständnis)
h_prev = np.zeros(hidden_size)  # Anfangs versteckter Zustand
C_prev = np.zeros(hidden_size)  # Anfangs Zellzustand

# Beispielhafte Initialisierung von Gewichten und Biases
Wf = np.random.rand(hidden_size, hidden_size + 1)  # Vergessens-Tor-Gewichte
Wi = np.random.rand(hidden_size, hidden_size + 1)  # Eingangs-Tor-Gewichte
Wo = np.random.rand(hidden_size, hidden_size + 1)  # Ausgangs-Tor-Gewichte
Wc = np.random.rand(hidden_size, hidden_size + 1)  # Zell-Gewichte
bf = np.random.rand(hidden_size)  # Vergessens-Tor-Bias
bi = np.random.rand(hidden_size)  # Eingangs-Tor-Bias
bo = np.random.rand(hidden_size)  # Ausgangs-Tor-Bias
bc = np.random.rand(hidden_size)  # Zell-Bias

# Schleife zur kontinuierlichen Eingabe und Beobachtung des LSTM-Zustands
while True:
    # Eingabe des Benutzers
    user_input = input("Gib eine Zahl ein (oder 'stop' zum Beenden): ")
    if user_input.lower() == 'stop':
        print("Simulation beendet.")
        break
    
    # Konvertiere Eingabe in einen float (0 wenn Eingabe ungültig ist)
    try:
        x_t = np.array([float(user_input)])
    except ValueError:
        print("Ungültige Eingabe. Bitte eine Zahl eingeben.")
        continue

    # Führe einen LSTM-Schritt aus
    h_prev, C_prev = lstm_step(x_t, h_prev, C_prev, Wf, Wi, Wo, Wc, bf, bi, bo, bc)
    
    # Ausgabe des aktuellen Zustands
    print(f"Neuer versteckter Zustand (h_t): {h_prev}")
    print(f"Neuer Zellzustand (C_t): {C_prev}")


Gib eine Zahl ein (oder 'stop' zum Beenden):  12


Neuer versteckter Zustand (h_t): [0.74110926 0.7248048 ]
Neuer Zellzustand (C_t): [0.99996321 0.91868246]


Gib eine Zahl ein (oder 'stop' zum Beenden):  29


Neuer versteckter Zustand (h_t): [0.96391331 0.95767777]
Neuer Zellzustand (C_t): [1.99996321 1.91710103]


Gib eine Zahl ein (oder 'stop' zum Beenden):  7


Neuer versteckter Zustand (h_t): [0.95661454 0.99098427]
Neuer Zellzustand (C_t): [2.99668197 2.85288585]


Gib eine Zahl ein (oder 'stop' zum Beenden):  11


Neuer versteckter Zustand (h_t): [0.9866432  0.99879423]
Neuer Zellzustand (C_t): [3.99648543 3.82422194]


Gib eine Zahl ein (oder 'stop' zum Beenden):  18


Neuer versteckter Zustand (h_t): [0.99808146 0.99986408]
Neuer Zellzustand (C_t): [4.99648436 4.81702745]


Gib eine Zahl ein (oder 'stop' zum Beenden):  99


Neuer versteckter Zustand (h_t): [0.99998762 0.99998228]
Neuer Zellzustand (C_t): [5.99648436 5.81702744]


Gib eine Zahl ein (oder 'stop' zum Beenden):  stop


Simulation beendet.


### Erklärung des Codes:

1. **LSTM-Zellschritt**: Wir haben eine Funktion `lstm_step`, die einen Zeitschritt des LSTMs durchführt, indem sie die Gates anwendet und die versteckten Zustände sowie Zellzustände aktualisiert.
  
2. **User-Eingabe**: Der Code wartet auf eine Zahl, die als Eingabe durch `input()` abgefragt wird. Der Wert wird dann als aktueller Eingabevektor `x_t` für das LSTM verwendet. Wenn der Benutzer "stop" eingibt, wird die Schleife beendet.

3. **Speicherung und Vergessen**: Nach jeder Eingabe wird der Zustand ausgegeben, sodass du sehen kannst, wie der `C_t`-Zellzustand auf neue Eingaben reagiert und alte Werte mit der Zeit verblassen.

### Interpretation der Zustandsänderungen

- Beobachte, wie `C_prev` nach mehreren Eingaben entweder eine Kombination aus alten und neuen Informationen enthält oder sich langsam stabilisiert, je nachdem, wie stark der **Forget Gate** den Wert „verblassen“ lässt.
- Der `h_prev` gibt den **aktuellen versteckten Zustand** an, der auch von den neuen Eingaben beeinflusst wird und die Ausgabe des LSTMs für diesen Zeitschritt ist.