<a href="https://colab.research.google.com/github/ollihansen90/Mathe-SH/blob/main/MCMC_Namensgenerator_MCMC_MatheSH.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Markov-Ketten-Namensgenerator 🎲
In diesem kurzen Projekt möchten wir gerne einen Generator für Namen programmieren. Der Generator soll hinterher Namen ausgeben, die syntaktisch korrekt sind. Mögliche Ergebnisse könnten so aussehen:
- Emma Boot
- Mr. Malfred Eye Maria Stra
- Sirius Pokeby
- Albus Worth-Grangellux Bloxam
- Lord Woody Bryce
- Sir Marjorkissan Youdley

## 🤔 Fragen? 🤔
Solltet ihr Fragen zum Code oder Probleme mit Colab haben, schickt uns gerne eine Mail:
- h.hansen@uni-luebeck.de
- friederike.meissner@student.uni-luebeck.de
- dustin.haschke@student.uni-luebeck.de
- mika.kohlhammer@student.uni-luebeck.de

## Syntaktisch sinnvolle Namen ☕
Was sind zunächst syntaktisch sinnvolle Namen? "Syntax" bezeichnet die Kombination von Zeichen in zusammengesetzten Systemen. Für Namen sind die Zeichen offensichtlich Buchstaben. Ein sehr einfaches Beispiel für die Syntax in der Deutschen Sprache ist der Buchstabe "c". In den meisten Fällen steht er nur vor einen "h"  oder "k", jedoch beispielsweise niemals vor einem zweiten "c" (von Eigennamen wie "Capuccino" mal abgesehen).

Anders sieht es im Italienischen aus: Auf ein "c" kann ein "c" (Capu**cc**ino), ein "i" (Cu**ci**na, "Küche"), ein "h" (Zuc**ch**ini), ein "q" (Acqua, "Wasser"), und weitere Buchstaben folgen! Deutsch und Italienisch sind syntaktisch also offensichtlich verschieden.

Mit diesem Umstand könnte man jetzt relativ einen einfachen Klassifikator programmieren, der Deutsche und Italienische Texte unterscheiden kann, indem man auf das "c" achtet. Das soll hier heute aber nicht gemacht werden (vielleicht ein späteres Projekt).

## Namenssyntax über Statistik bestimmen 📊
Wie können wir jetzt die Syntax von Namen bestimmen? Ganz einfach: Wir nehmen uns einen Haufen Namen und sehen uns einfach an, welche Buchstaben auf welche anderen Buchstaben folgen können! Hierfür haben wir zwei Datensätze gefunden, in denen die Namen (fast) aller Figuren aus Harry Potter enthalten sind. Im folgenden Codeblock werden sie heruntergeladen und in die Variable `data` gespeichert.

### Aufgabe:
Erweitere den Codeblock so, dass in einer neuen Variable `DATA` die Namen in Großbuchstaben stehen.

*Hinweis:* Einen String kann man umwandeln, indem man einfach die `upper`-Methode aufruft: `name.upper()` wandelt alle Buchstaben in Großbuchstaben um.



In [None]:
!wget -qnc https://raw.githubusercontent.com/ollihansen90/Mathe-SH/refs/heads/main/data/harrypotternames.txt

with open("harrypotternames.txt", "r") as file:
    data = [line.strip().replace("Mr ", "Mr. ").replace("Mrs ", "Mrs. ").replace('"', '') for line in file.readlines()]

print(len(data))



## Liste aller möglichen Buchstaben im Datensatz 🗂️
Im ersten Schritt möchten wir gerne herausfinden, welche Buchstaben in unserem Datensatz enthalten sind.

### Aufgabe:
Schreibe eine Funktion `initialisiere`, die die Daten `DATA` erhält und ein Dictionary zurückgibt, dessen Keys die einzelnen Buchstaben enthalten. Zusätzlich soll es einen Start-Token `<` und einen End-Token `>` geben, sodass jeder Name folgendermaßen aussehen würde: `<HARRY POTTER>`.

Die zugehörigen Values des Dictionarys sollen jeweils die Liste der möglichen Nachfolger sein.

Beispiel: `model["J"]` ist die Liste `['S', 'Y', '.', 'I', 'U', 'O', 'A', 'E']
`, das heißt, auf ein "J" können nur "I", "A", "O", und so weiter folgen.

In [None]:
def initialisiere(data):
    out = dict()

    return out

model = initialisiere(DATA)
print(model["<"])

## Namen generieren mit Monte-Carlo-Verfahren 🎲
Jetzt sind wir tatsächlich schon fast fertig! Wir wissen bereits, dass auf ein "J" nur Wörter aus der Liste `['S', 'Y', '.', 'I', 'U', 'O', 'A', 'E']` folgen können. Der Name "JUERGEN" wäre hier also möglich, ein unsinniger Name wie "JGNCRSN" allerdings nicht.

Im Folgenden möchten wir eine Funktion `generiere_namen` schreiben, die unser Modell `model` erhält und einen syntaktisch sinnvollen Namen ausgibt. Hierfür soll einfach mit dem Start-Token `<` begonnen und zufällig einer der möglichen Nachfolger gezogen werden. Der End-Token `>` soll die Funktion enden lassen.

Diesen Algorithmus nennt man "Markov-Chain-Monte-Carlo-Verfahren". Was wir hier haben, ist eine sogenannte Markov-Kette (engl. Markov-Chain). Bei einer Markov-Kette handelt es sich einfach um eine Aneinanderhängung zufälliger Zustände mit bedingten Wahrscheinlichkeiten (also quasi: Wie groß ist die Wahrscheinlichkeit, ein "C" zu ziehen, wenn der vorherige Buchstabe ein "S" war?). Mit Hilfe des Monte-Carlo-Verfahrens durchlaufen wir den sogenannten "Phasenraum" des Modells. Das bedeutet einfach, dass wir einen zufälligen Schritt von einem Zustand (also von einem Buchstaben) zum nächsten (Buchstaben) machen. So generieren wir zufällige Namen.

### Aufgabe:
Implementiere die oben genannte Funktion. Generiere anschließend 10 zufällige Namen.

In [None]:
import random
random.seed(1)

def generiere_namen(model):
    name = "<"

    return name.replace("<", "").replace(">", "")

for _ in range(10):
    print(generiere_namen(model))

## Algorithmus verbessern 💪
Offensichtlich kommt immernoch völliger Blödsinn raus. Die Syntax ist jetzt zwar die gleiche wir bei den "echten" Namen, allerdings klingen die Namen noch sehr befremdlich.

Eine mögliche Lösung wäre, dass wir uns nochmal genauer die bedingten Wahrscheinlichkeiten ansehen. Aktuell wählen wir einen zufälligen Nachfolgebuchstaben für einen beliebigen Vorgänger, allerdings sind die Nachfolger nicht gleichverteilt! Auf ein "J" folgen offenbar zwar sowohl ein "O" und ein "Y", das "O" ist allerdings sehr viel häufiger. Das möchten wir jetzt anpassen.

### Aufgabe:
Erweitere die Funktion `initialisiere` so, dass die Ausgabe zwar noch weiterhin ein Dictionary ist, jetzt die Values aber *ebenfalls* Dictionarys sind. In den Dictionarys stehen jetzt die absoluten Häufigkeiten der Nachfolgebuchstaben für einen beliebigen Buchstaben.

Beispiel: `model["J"]` ist `{'I': 4, 'A': 5, 'O': 15, '.': 2, 'Y': 2, 'U': 3, 'E': 3, 'S': 1}`, das heißt beispielsweise, dass in unserem Datensatz 15 mal ein "O" auf ein "J" folgte.

In [None]:
def initialisiere(data):
    out = dict()

    return out

model = initialisiere(DATA)
print(model["J"])

## Neuer angepasster Generator 🤖
Der alte Generator würde jetzt weiterhin Unsinn produzieren, weil er die bedingten Wahrscheinlichkeiten (die für Markov-Ketten so entscheidend sind) nicht beachtet. Genau das wollen wir jetzt ändern.

### Aufgabe:
Schreibe eine Funktion `ziehe`, die ein Dictionary erhält und der bedingten Wahrscheinlichkeit folgend einen zufälligen Buchstaben zieht. Erweitere anschließend `generiere_namen` um die `ziehe`-Funktion. Generiere anschließend wieder 10 zufällige Namen.

*Hinweis:* Das mit den bedingten Wahrscheinlichkeiten ist zunächst keine leichte Aufgabe. Am einfachsten ist es, zunächst die (bedingte) Summe aller Buchstaben zu berechnen und anschließend eine Zufallszahl `z` zwischen 0 und der Summe zu ziehen. Anschließend durchläuft man schrittweise die Einträge des Dictionarys und zieht jeweils die absolute Häufigkeit von der Zufallszahl `z` ab, bis wir einen Wert kleiner als 0 erhalten. Der Buchstabe, für den wir die 0 unterschritten haben, wird dann ausgegeben.

In [None]:
def ziehe(dictionary):
    pass

def generiere_namen(model):
    name = "<"

    return name.replace("<", "").replace(">", "")

random.seed(10)
for _ in range(10):
    print(generiere_namen(model))

## Besseres Modell durch n-Grams 🔤 🔗
Die Ergebnisse sehen ein klitzekleines bisschen besser aus, sind aber leider immernoch völliger Unfug. Offensichtlich ist es nicht ausreichend, einen Buchstaben nur durch seinen Vorgänger zu generieren. Hier sollen n-Grams helfen.

Ein n-Gram ist ein Modell, bei dem der `n+1`-ste von den vorherigen `n` Buchstaben vorhergesagt wird. Ein 3-Gram (häufig auch Tri-Gram) generiert also einen Buchstaben basierend auf seinen drei Vorgängern.

### Aufgabe:
Erweitere die Funktion `initialisiere` um einen weiteren Übergabeparameter `tokenlaenge`, mit dem wir festlegen können, wie viele Buchstaben benötigt werden, um den Nachfolgebuchstaben zu generieren.

*Hinweis:* Der Start-Token ist jetzt nicht mehr einfach nur `<`, sondern muss auf die Tokenlänge erweitert werden. Ein Name wird für ein Tri-Gram also folgendermaßen kodiert: `<<<HARRY POTTER>`.


In [None]:
def initialisiere(data, tokenlaenge=1):
    out = dict()

    return out

model = initialisiere(DATA, tokenlaenge=3)

## Namen generieren ✍️
Das soll es schon gewesen sein! Jetzt möchten wir unser Modell testen.

### Aufgabe:
Erweitere die Funktion `generiere_namen` so, dass sie mit variabler Tokenlänge umgehen kann. Generiere 10 Namen mit Tokenlänge 2, 3, 4, 5,... Was fällt auf?

In [None]:
def generiere_namen(model, start=""):
    name = "<"

    return name.replace("<", "").replace(">", "")

model = initialisiere(DATA, tokenlaenge=3)
random.seed(0)
for _ in range(10):
    print(generiere_namen(model, start=""))