# üìò Text-Generierung in Markov-Ketten

In dieser √úbung lernen Sie, wie man Markov-Ketten in Python umsetzen und Vorhersagen f√ºr zuk√ºnftige Zust√§nde machen kann.


## Beispiel: Wettermodell

Angenommen, das Wetter kann **sonnig** oder **regnerisch** sein. Die √úbergangswahrscheinlichkeiten lauten:

- Wenn es heute sonnig ist, ist es morgen mit 90‚ÄØ% wieder sonnig, mit 10‚ÄØ% regnet es.
- Wenn es heute regnet, ist es morgen mit 80‚ÄØ% wieder regnerisch, mit 20‚ÄØ% sonnig.

Die √úbergangsmatrix kann mit dem Package `numpy` (kurz `np`) erstellt werden:


In [94]:
# Library numpy importieren (einmal ausf√ºhren reicht)
import numpy as np

Mit folgendem Befehl kann man einen Text aus einer .txt-Datei laden und in eine Variable speichern. Danach erstellen wir eine Liste aller W√∂rter:

In [95]:
text = "Liebe Klasse, ich bin sicher, dass Sie die Aufgaben super l√∂sen werden! Ich w√ºnsche Ihnen viel Erfolg und ich freue mich auf Ihre Ergebnisse."

words = text.split()

Nun k√∂nnen wir folgende Funktion definieren, um eine √úbergangsmatrix zu erstellen, die die Wahrscheinlichkeiten der √úberg√§nge zwischen den W√∂rtern darstellt:

In [96]:


def build_transition_matrix(words):
    # Erstelle eine Liste einzigartiger W√∂rter
    unique_words = list(set(words))
    unique_words.sort()  # f√ºr konsistente Reihenfolge

    n = len(unique_words)
    counts = np.zeros((n, n), dtype=int)
    for i in range(len(words) - 1):
        curr_idx = unique_words.index(words[i])
        next_idx = unique_words.index(words[i + 1])
        counts[curr_idx, next_idx] += 1
    P = np.zeros_like(counts, dtype=float)
    for i, row in enumerate(counts):
        s = row.sum()
        if s > 0:
            P[i] = row / s
    return P, unique_words

P, unique_words = build_transition_matrix(words)

In [103]:
def generate_word_sequence(P, unique_words, start_word, length=100):
    current_idx = unique_words.index(start_word) if start_word in unique_words else 0
    generated = [start_word]
    for _ in range(length):
        probs = P[current_idx]
        if probs.sum() == 0:
            break
        next_idx = np.random.choice(len(unique_words), p=probs)
        next_word = unique_words[next_idx]
        generated.append(next_word)
        current_idx = next_idx
    return " ".join(generated)

print(generate_word_sequence(P, unique_words, "gl√ºcklich", length=10))


gl√ºcklich mein Freund! Wenn's dann um mich her und freue mich


Wenn wir die Zelle oberhalb mehrmals laufen lassen, sehen wir, dass jedes Mal ein √§hnlicher Text generiert wird. Dies liegt daran, dass der urspr√ºnliche Text relativ kurz ist und die √úbergangswahrscheinlichkeiten stark von den vorhandenen W√∂rtern abh√§ngen. Wir k√∂nnen jedoch auch l√§ngere Texte verwenden, um vielf√§ltigere Ergebnisse zu erzielen, z.B. indem wir folgenden Text aus Goethes "Werther" einlesen:

In [98]:
with open("Data/werther.txt", "r", encoding="utf-8") as f:
    text = f.read()
print(text[:500])  # Zeige die ersten 500 Zeichen als Vorschau

# Text in eine Liste von W√∂rtern umwandeln
words = text.split()

Eine wunderbare Heiterkeit hat meine ganze Seele eingenommen, gleich den s√º√üen Fr√ºhlingsmorgen, die ich mit ganzem Herzen genie√üe. Ich bin allein und freue mich meines Lebens in dieser Gegend, die f√ºr solche Seelen geschaffen ist wie die meine. Ich bin so gl√ºcklich, mein Bester, so ganz in dem Gef√ºhle von ruhigem Dasein versunken, da√ü meine Kunst darunter leidet. Ich k√∂nnte jetzt nicht zeichnen, nicht einen Strich, und bin nie ein gr√∂√üerer Maler gewesen als in diesen Augenblicken. Wenn das liebe


# Aufgabe

F√ºhren Sie die Schritte von oben erneut f√ºr den l√§ngeren Text aus.words
- Verwenden Sie die Funktionen `build_transition_matrix`, um die √úbergangsmatrix zu erstellen
- Verwenden Sie die Funktion `generate_word_sequence`, um eine Wortsequenz zu generieren

F√ºhren Sie Ihren Code mehrmals aus, um zu schauen, was dabei herauskommt, und verwenden Sie unterschiedliche Startw√∂rter (diese m√ºssen im Text vorkommen!)

In [107]:
P, unique_words = build_transition_matrix(words)
start_word = "gl√ºcklich"
generated_text = generate_word_sequence(P, unique_words, start_word, length=10)
print(generated_text)


gl√ºcklich aber ich dann um mich oft und f√ºhle die Gegenwart


# Challenge
F√ºgen Sie ihren eigenen Text in die Variable `text` ein und generieren Sie eine Wortfolge. Sie d√ºrfen daf√ºr auch die Date `Data/Werther.txt` √ºberschreiben und den obigen Code verwenden.