# Opgave 4.2: een eenvoudig taalmodel

In deze korte opgave gaan we werken aan een eenvoudig n-gram taalmodel. Hoewel deze techniek heden ten dage grotendeels is vervangen door recurrente neurale netwerken (waar de volgende opgave over gaat), is het toch nog wel inzichtelijk om te zien hoe je met een dergelijke eenvoudige architectuur verrassende effecten kunt bereiken.

Zoals tijdens het theoretisch gedeelte is toegelicht, zijn n-gram taalmodellen getraind om op basis van een input van een bepaalde hoeveelheid lettertekens (met een lengte van `n_gram`) het volgende letterteken te voorspellen. Tijdens het trainen van zo'n model wordt letter voor letter door een corpus gelopen en bijgehouden hoe vaak welke volgende letter voorkomt. Het getrainde model bestaat dat feitelijk uit een dictionary waarin de *key*s bestaan uit de mogelijke lettercombinaties uit het corpus en de *value*s uit wéér een dictionary met de daaropvolgende letters en hoe vaak die voorkomen. Het proces wordt hieronder grafisch geïllustreerdm waarbij de lengte van de `n_gram` gelijk is aan twee:

![De werking van het trainen van een N-gram](./imgs/n-gram.png)

In de cel hieronder is het staketsel van de klasse `NGramModel` gegeven. In dit initalisatie van een object van deze klasse moet meegegeven worden hoe groot de `n_gram` moet zijn, waarmee hij door een corpus moet lopen. Verder heeft deze klassen de volgende methoden:

* `fit(corpus)`: hier wordt het model getraind volgens de methode die hierboven kort is beschreven.
* `predict_proba(key)`: retourneert een dictionary de mogelijke volgende letters met hun waarschijnlijkheid, gegeven de `key`.
* `predict(seed, length)`: retourneert een stuk tekst met lenge `length` waarvan het begin gelijk is aan `seed`.

Maak de klasse `NGramModel` af. Check de tweede cel hieronder om te zien hoe hij gebruikt moet kunnen worden, inclusief een verwachte output.

__Tips :__ de methode `predict` maakt gebruik van de methode `predict_proba(key)`. Je kunt hierin ook gebruik maken van [`numpy.random.choice`[(https://numpy.org/doc/stable/reference/random/generated/numpy.random.choice.html), die een optionele parameter `p` heeft die een waarschijnlijkheidsdistributie bevat. Let er ook op dat het mogelijk is dat `seed` niet in de getrainde data voorkomt (dus dat `predict_proba(seed)` een `None` teruggeeft.

In [93]:
import numpy as np
from collections import defaultdict, Counter

class NGramModel:
    """An n-gram language model.

    Attributes
    ----------
        model (defaultdict[str, Counter]): The model that is trained on the corpus.
        n (int): The size of the n-gram.

    """
    model: defaultdict[str, Counter]
    n: int
    
    def __init__(self, n: int = 2) -> None:
        """Initializes the model.
        
        :param n: The size of the n-gram.
        """
        self.model = defaultdict(Counter)
        self.n = n
        
    def fit(self, corpus: str) -> None:
        """Train the model on the given corpus.
        
        :param corpus: The text to train the model on.
        """
        for i in range(len(corpus) - self.n):
            input = corpus[i:i + self.n]
            output = corpus[i + self.n]
            
            self.model[input][output] += 1
        
    def predic_proba(self, key: str) -> dict | None:
        """Predict the next letter given the key.
        
        :param key: The key to predict the next letter for.
        :return: A dictionary with the possible next letters and their probabilities.
        """
        if key not in self.model:
            return None
        
        predictions = {}

        total = sum(self.model[key].values())
        for letter, count in self.model[key].items():
            predictions[letter] = count / total
            
        return predictions

    def predict(self, seed: str, length: int) -> str:
        res = seed
        while len(res) < length:
            predictions = self.predic_proba(seed)
            if predictions is None:
                break

            res += np.random.choice(list(predictions.keys()), p=list(predictions.values()))
            seed = res[-self.n:]

        return res

In [99]:
with open('data/wiki.txt','r', encoding="utf8") as f:
    data = ''.join([line.strip().lower() for line in f.readlines()])

model = NGramModel(4)
model.fit(data)
print(model.predict('afge', 300))

afgeleidt tot het gedoseerdere mogelijkheid tussen belangrijken. wanneer mogelijk, gebreideld het genmutatie van specifieke vorm van het kanker brengen;huidkankers, ook wel elektrische stralingen voorbeeldeling met namente en met zoudende chemicaliën is de organisation fouten (atoomherstoring. bij p
