<a href="https://colab.research.google.com/github/MSimonFRA-UAS/JuniorUni/blob/main/BigramSprachModell.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [114]:
from typing import List
import numpy as np
from collections import Counter

In [116]:
class BigramSprachModell(object):
    """
    Eine Klasse, welche ein Bigram Sprachmodell implementiert

    Attribute:
        bigram_anz: Eine Liste von Dictionaries. Das i-te Dictionary enthaelt die Haeufigkeiten fuer Worte, welche auf das i-te Wort folgen.
        D.h., falls an der Stelle i = 42 das Wort "und" gespeichert wird, speichert bigram_anz[42] ein Dictionary von Haeufigkeiten, wie etwa {dann: 125, danach: 23. ...}
        fuer alle Worte, die je nach "und" auftreten.
        vorh_wort_anz: Eine Liste von Haeufigkeiten fuer jedes Wort, welches als "vorheriges" Wort auftritt.
        anz: Eine Liste von Haeufigkeiten jedes Worts im Vokabular.
    """
    def __init__(self, bigram_anz: dict, vorh_wort_anz: dict, anz: dict):
        self.bigram_anz = bigram_anz
        self.vorh_wort_anz = vorh_wort_anz
        self.anz = anz
        self.total_anz = sum([anz[wort] for wort in anz.keys()])

    def get_vokabular(self):
        """
        :Ausgabe: Das Vokabular des Trainingstexts
        """
        return self.anz.keys()

    def get_wkt(self, vorh_wort: str, wort: str) -> float:
        """
        Berechnet die Wahrscheinlichkeit P(naechstes Wort = wort | vorheriges Wort = vorh_wort)
        :param vorh_wort: vorheriges Wort
        :param wort: das naechste Wort
        :Ausgabe: Die bedingte Wahrscheinlichkeit
        """
        anz_nach_vorh_wort = self.bigram_anz[vorh_wort]
        if wort in anz_nach_vorh_wort:
            naechstes_wort_in_kontext_anz = anz_nach_vorh_wort[wort]
        else:
            naechstes_wort_in_kontext_anz = 0
        return naechstes_wort_in_kontext_anz / self.vorh_wort_anz[vorh_wort]


def trainiere_bigram_modell(train_seqs: List[List[str]]) -> BigramSprachModell:
    bigram_anz = {}
    anz = {}
    vorh_wort_anz = {}
    for train_seq in train_seqs:
        for i in range(1, len(train_seq)):
            vorh_wort = train_seq[i-1]
            wort = train_seq[i]
            if vorh_wort not in bigram_anz:
                bigram_anz[vorh_wort] = {}
            if wort in bigram_anz[vorh_wort]:
                bigram_anz[vorh_wort][wort] += 1
            else:
                bigram_anz[vorh_wort][wort] = 1
            if vorh_wort not in vorh_wort_anz:
                vorh_wort_anz[vorh_wort] = 1
            else:
                vorh_wort_anz[vorh_wort] += 1
            if wort not in anz:
                anz[wort] = 1
            else:
                anz[wort] += 1
    return BigramSprachModell(bigram_anz, vorh_wort_anz, anz), bigram_anz, vorh_wort_anz, anz

In [93]:
BEGIN_SYMBOL = "<S>"
END_SYMBOL = "</S>"


def read_wikitext(path: str) -> List[List[str]]:
    """
    Liest a Wikitext file at the given path.
    :param path: Pfad des einzulesenden Datensatzes
    :Ausgabe: Eine geschachtelte Liste List[List[str]]: Die erste Liste ist eine Liste von Zeilen, die zweite Liste ist eine Liste der Worte (Strings) in dieser Zeile.
    """
    print("Trainingsdaten werden eingelesen aus der Datei " + path)
    f = open(path)
    lines = []
    for line in f:
        if len(line.strip()) > 0:
            this_line = [BEGIN_SYMBOL]
            split_line = line.split(" ")
            for word in split_line:
                if len(word.strip()) > 0:
                    this_line.append(word.strip())
            this_line.append(END_SYMBOL)
            lines.append(this_line)
    print("%i Zeilen wurden eingelesen." % len(lines))
    return lines

In [203]:
train = read_wikitext("wiki.valid.tokens")

Trainingsdaten werden eingelesen aus der Datei wiki.valid.tokens
4883 Zeilen wurden eingelesen.


In [204]:
train[-1]

['<S>',
 'In',
 'der',
 'Generaldebatte',
 'über',
 'die',
 'Politik',
 'seiner',
 'Regierung',
 'kündigte',
 'Mas',
 'am',
 '25.',
 'September',
 '2012',
 'im',
 'Regionalparlament',
 'an',
 ',',
 'Neuwahlen',
 'für',
 'den',
 '25.',
 'November',
 '2012',
 'anzuberaumen',
 '.',
 '</S>']

In [205]:
lm, bigram_anzahl, vorh_wort_anzahl, anzahl = trainiere_bigram_modell(train)

In [207]:
bigram_anzahl['November']

{'2009': 3,
 '1854': 1,
 '1933': 1,
 '2016': 1,
 '1875': 1,
 '1992': 1,
 'wurde': 1,
 '1962': 3,
 '1955': 1,
 '1846': 1,
 '1968': 1,
 '2011': 2,
 '2013': 1,
 '1706': 1,
 '1827': 1,
 '1997': 1,
 'statt': 1,
 '1918': 2,
 '1936': 1,
 'und': 1,
 '1998': 2,
 '1924': 1,
 '2006': 1,
 '1904': 1,
 '1848': 1,
 '1914': 1,
 '2015': 1,
 '1912': 1,
 '2010': 2,
 '1980': 2,
 '1981': 1,
 'nahezu': 1,
 '1438': 1,
 '2000': 1,
 '1919': 1,
 '2017': 1,
 '1946': 1,
 '1872': 1,
 '1944': 2,
 '2012': 3,
 '2004': 1,
 '2005': 1,
 '1925': 1}

In [208]:
vorh_wort_anzahl['November']

55

In [209]:
def vorhersage(lm, kontext_wort: str, anz_worte = 5):
    """
    Gibt top anz_worte naechsten Worte nach dem kontext_wort aus
    :param lm: Sprachmodell
    :param kontext_wort: Kontextwort
    :param anz_worte: Laenge der Liste mit Worten mit den hoechsten Wahrscheinlichkeiten
    """
    counter = Counter()
    for wort in lm.get_vokabular():
        counter[wort] = lm.get_wkt(kontext_wort, wort)
    result = ""
    for (wort, count) in counter.most_common(anz_worte):
        result += "(" + wort + ", " + repr(counter[wort]) + "), "
    print("Top 5 Worte und Wahrscheinlichkeiten fuer Wort nach \"" + kontext_wort + "\": " + result[:-2])

In [211]:
vorhersage(lm, "November")

Top 5 Worte und Wahrscheinlichkeiten fuer Wort nach "November": (2009, 0.05454545454545454), (1962, 0.05454545454545454), (2012, 0.05454545454545454), (2011, 0.03636363636363636), (2010, 0.03636363636363636)


In [183]:
def sample_word(lm, context_word: str):
    """
    :param lm:
    :param context_word:
    :return: A randomly-sampled word to follow context_word according to the probabilities from lm.get_probability.
    Hint: you'll want to use something like
    import random
    random.uniform(0, 1)
    to get a random number, then follow the scheme described in the video for how to turn that random number
    into a random word.
    """
    import random
    sample = random.uniform(0, 1)
    prob_sum = 0
    latest_word = ""
    for word in lm.get_vokabular():
        latest_word = word
        prob = lm.get_wkt(context_word, word)
        prob_sum += prob
        if prob_sum > sample:
            return word
    return latest_word

In [184]:
def sample_sentence(lm, context_word: str):
    """
    :param lm:
    :param context_word: An initial word to seed the sentence with
    :return: Up to 10 words as a continuation of context_word by repeatedly sampling the next word
    """
    sentence = [context_word]
    for i in range(0, 10):
        next_word = sample_word(lm, context_word)
        context_word = next_word
        sentence.append(next_word)
        if next_word == END_SYMBOL:
            return sentence
    return sentence

In [201]:
 print(repr(sample_sentence(lm, "Uni")))

['Uni', 'Berklee', 'weltweit', 'Hits', 'auch', 'in', 'der', 'Fahrzeugbeschreibung', 'erwähnt', '.', '</S>']
