# 📘 Text-Generierung in Markov-Ketten

In dieser Übung lernen Sie, wie man Markov-Ketten in Python umsetzen und Vorhersagen für zukünftige Zustände machen kann.


## Beispiel: Wettermodell

Angenommen, das Wetter kann **sonnig** oder **regnerisch** sein. Die Übergangswahrscheinlichkeiten lauten:

- Wenn es heute sonnig ist, ist es morgen mit 90 % wieder sonnig, mit 10 % regnet es.
- Wenn es heute regnet, ist es morgen mit 80 % wieder regnerisch, mit 20 % sonnig.

Die Übergangsmatrix kann mit dem Package `numpy` (kurz `np`) erstellt werden:


In [94]:
# Library numpy importieren (einmal ausführen reicht)
import numpy as np

Mit folgendem Befehl kann man einen Text aus einer .txt-Datei laden und in eine Variable speichern. Danach erstellen wir eine Liste aller Wörter:

In [95]:
text = "Liebe Klasse, ich bin sicher, dass Sie die Aufgaben super lösen werden! Ich wünsche Ihnen viel Erfolg und ich freue mich auf Ihre Ergebnisse."

words = text.split()

Nun können wir folgende Funktion definieren, um eine Übergangsmatrix zu erstellen, die die Wahrscheinlichkeiten der Übergänge zwischen den Wörtern darstellt:

In [96]:


def build_transition_matrix(words):
    # Erstelle eine Liste einzigartiger Wörter
    unique_words = list(set(words))
    unique_words.sort()  # für konsistente Reihenfolge

    n = len(unique_words)
    counts = np.zeros((n, n), dtype=int)
    for i in range(len(words) - 1):
        curr_idx = unique_words.index(words[i])
        next_idx = unique_words.index(words[i + 1])
        counts[curr_idx, next_idx] += 1
    P = np.zeros_like(counts, dtype=float)
    for i, row in enumerate(counts):
        s = row.sum()
        if s > 0:
            P[i] = row / s
    return P, unique_words

P, unique_words = build_transition_matrix(words)

In [103]:
def generate_word_sequence(P, unique_words, start_word, length=100):
    current_idx = unique_words.index(start_word) if start_word in unique_words else 0
    generated = [start_word]
    for _ in range(length):
        probs = P[current_idx]
        if probs.sum() == 0:
            break
        next_idx = np.random.choice(len(unique_words), p=probs)
        next_word = unique_words[next_idx]
        generated.append(next_word)
        current_idx = next_idx
    return " ".join(generated)

print(generate_word_sequence(P, unique_words, "glücklich", length=10))


glücklich mein Freund! Wenn's dann um mich her und freue mich


Wenn wir die Zelle oberhalb mehrmals laufen lassen, sehen wir, dass jedes Mal ein ähnlicher Text generiert wird. Dies liegt daran, dass der ursprünliche Text relativ kurz ist und die Übergangswahrscheinlichkeiten stark von den vorhandenen Wörtern abhängen. Wir können jedoch auch längere Texte verwenden, um vielfältigere Ergebnisse zu erzielen, z.B. indem wir folgenden Text aus Goethes "Werther" einlesen:

In [98]:
with open("Data/werther.txt", "r", encoding="utf-8") as f:
    text = f.read()
print(text[:500])  # Zeige die ersten 500 Zeichen als Vorschau

# Text in eine Liste von Wörtern umwandeln
words = text.split()

Eine wunderbare Heiterkeit hat meine ganze Seele eingenommen, gleich den süßen Frühlingsmorgen, die ich mit ganzem Herzen genieße. Ich bin allein und freue mich meines Lebens in dieser Gegend, die für solche Seelen geschaffen ist wie die meine. Ich bin so glücklich, mein Bester, so ganz in dem Gefühle von ruhigem Dasein versunken, daß meine Kunst darunter leidet. Ich könnte jetzt nicht zeichnen, nicht einen Strich, und bin nie ein größerer Maler gewesen als in diesen Augenblicken. Wenn das liebe


# Aufgabe

Führen Sie die Schritte von oben erneut für den längeren Text aus.words
- Verwenden Sie die Funktionen `build_transition_matrix`, um die Übergangsmatrix zu erstellen
- Verwenden Sie die Funktion `generate_word_sequence`, um eine Wortsequenz zu generieren

Führen Sie Ihren Code mehrmals aus, um zu schauen, was dabei herauskommt, und verwenden Sie unterschiedliche Startwörter (diese müssen im Text vorkommen!)

In [107]:
P, unique_words = build_transition_matrix(words)
start_word = "glücklich"
generated_text = generate_word_sequence(P, unique_words, start_word, length=10)
print(generated_text)


glücklich aber ich dann um mich oft und fühle die Gegenwart


# Challenge
Fügen Sie ihren eigenen Text in die Variable `text` ein und generieren Sie eine Wortfolge. Sie dürfen dafür auch die Date `Data/Werther.txt` überschreiben und den obigen Code verwenden.