# IN2110 obligatorisk innlevering 1b

Oppgaven har to deler, logistisk regresjon for å klassifisere språk basert på IPA lydskrift, og Named Entity Recognition med HMM. Det er en god idé å lese gjennom hele oppgavesettet før du setter i gang. 

Dersom du har spørsmål så kan du:

* gå på gruppetime,
* spørre på Discourse
* eller sende epost til in2110-hjelp@ifi.uio.no dersom alternativene over av en eller annen grunn ikke passer for spørsmålet ditt.

### Oppsett
Når du har klonet dette github-repoet som denne notebooken ligger i, har du tilgang til datene og hjelpefilene som ligger i denne mappa. Hvis du ønsker å kopiere denne mappa, "1b", over til et annet sted, så skulle det gå bra. Bare pass på at du følger med på om det er oppdateringer her i repoet som gir ut obligen. Når du har aktivert in2110-miljøet med conda, så har du tilgang til pakkene som trengs for å kjøre denne notebooken. Vi har forberedt en notebook med all prekoden, der du også kan fylle ut din kode og kjøre prosessene.

### Innlevering

Innleveringen skal helst bestå av denne Jupyter notebook fylt ut med både kode og tilhørende forklaringer. Vi understreker at innlevering av koden alene __ikke er nok__ for å bestå oppgaven -- vi forventer at notebooken også skal inneholde _beskrivelser_ (på norsk eller engelsk) av hva dere har gjort og _begrunnelser_ for valgene dere har tatt underveis. Bruk helst hele setninger, og matematiske formler om nødvendig. Evalueringstallene bør presenteres i tabeller. Det å  forklare med egne ord (samt begreper vi har gått gjennom på forelesningene) hva dere har implementert og reflektere over hvorvidt løsningen dere har lagt  besvarer oppgaven er en viktig del av læringsprosessen -- ta det på alvor! 

# Del 1: Logistisk regresjon


I den første delen av innleveringen skal vi bruke logistisk regresjon til å utvikle en enkel _språkidentifikator_, dvs. et lite system som skal predikere hvilket språk et ord hører til. Mer spesifikk skal systemet ta ordets _fonetiske transkripsjon_ som input og returnere _navnet på språket_ som ordet mest sannsynlig tilhører.  Systemet skal for eksempel kunne ta transkripsjonen [bʊndɛsvɛɾfaszʊŋ] som input og returnere ``tysk''. 

## Data

For å trene modellen (dvs. finne ut verdier for vektene og skjæringspunktene basert på data) skal vi ta i bruk eksisterende lister over ord med deres fonetiske transkripsjon i såkalt _IPA_-format (IPA står for _[International Phonetic Alphabet](https://upload.wikimedia.org/wikipedia/commons/8/8e/IPA_chart_2018.pdf)_).  Dere trenger ikke å kunne lese eller skrive slike fonetiske transkripsjoner i denne oppgaven. Det viktigste er å forstå at disse transkripsjonene beskriver språklydene som utgjør ordet, samt andre egenskaper slik som lengde, tone, trykk og intonasjon. Fonetiske transkripsjoner forteller oss hvordan et ord bør uttales.

In [1]:
import oblig1b_utils 
train_data, test_data = oblig1b_utils.extract_wordlist()

Reading cached file from ./langid_data.csv
Treningsett: 689238 eksempler, testsett: 76583 eksempler


Data vi skal bruke er lagt i to `DataFrame` tabeller: et treningsett med 90 % av ordene og et testsett med de resterende 10 %. Ordene fra de forskjellige språkene er blandet i disse to tabellene. `DataFrame` er en datastruktur fra Python-biblioteket [`pandas`](https://pandas.pydata.org) og representerer en slags tabell med kolonner og rader. Biblioteket `pandas` gjør det lett å visualisere og manipulere slike tabeller:

In [2]:
print("Statistikk over språkene i treningsett:")
print(train_data.språk.value_counts())
print("Første 30 ord:")
print(train_data[:30])

Statistikk over språkene i treningsett:
språk
tysk            45064
engelsk         45047
rumensk         45010
islandsk        45008
finsk           45002
fransk          45000
japansk         45000
spansk          45000
arabisk         44960
vietnamesisk    44959
koreansk        44931
kantonesisk     44919
swahilisk       43459
mandarin        40345
malayisk        25454
svensk          19009
norsk            9133
farsi            7289
khmer            2957
patwa            1692
Name: count, dtype: int64
Første 30 ord:
                                   ord  \
619361                        فللمعارف   
239761                     atudanganye   
69819              đẹp như trong tranh   
386616                            sota   
282192                            서뻑서뻑   
166501                    transmitting   
24063                       وبالبواقيل   
486787                     empesterait   
744700               nhí nha nhí nhoẻn   
383563                       急性散在性脳脊髄炎   
180721     

## Klassen

Her er skjelettet for `LanguageIdentifier`-klassen  som skal implementeres:

In [3]:
import sklearn.linear_model
class LanguageIdentifier:
    """Logistisk regresjonsmodell som tar IPA transkripsjoner av ord som input, 
    og predikerer hvilke språkene disse ordene hører til."""
    
    def __init__(self):
        """Initialiser modellen"""      
        # selve regresjonsmodellen (som brukes all CPU-er på maskinen for trening)
        self.model = sklearn.linear_model.LogisticRegression(solver="liblinear", multi_class='ovr')
    
    def train(self, transcriptions, languages):
        """Gitt en rekke med IPA transkripsjoner og en rekke med språknavn, tren
        den logistisk regresjonsmodellen. De to rekkene må ha samme lendgen"""
        
        raise NotImplementedError()
    
    def predict(self, transcriptions):
        """Gitt en rekke med IPA transkripsjoner, finn ut det mest sansynnlige språket
        for hver transkripsjon. Rekken som returneres må ha samme lengden som rekken i input"""
        
        raise NotImplementedError()
        
    def _extract_unique_symbols(self, transcriptions, min_nb_occurrences=10):
        """Gitt en rekke med IPA fonetiske transkripsjoner, ektraher en liste med alle IPA 
        symboler som finnes i transkripsjonene og forekommer minst min_nb_occurrences."""
        raise NotImplementedError()
        
    def _extract_feats(self, transcriptions):
        """Gitt en rekke med IPA transkripsjoner, ekstraher en matrise av størrelse |T|x|F|,
        hvor |T| er antall transkripsjoner, og |F| er antall features brukt i modellen."""
        
        raise NotImplementedError()

    def evaluate(self, transcriptions, languages):  
        """Gitt en rekke med IPA transkripsjoner og en rekke med språknavn, evaluer hvor godt
        modellen fungerer ved å beregne:
        1) accuracy
        2) precision, recall og F1 for hvert språk
        3) micro- og macro-averaged F1.
        """
        
        # See API fra sklearn.metrics for å finne ut hvordan dette kan gjøres! 
        raise NotImplementedError()

## Trening 
Vi skal benytte oss av en logistisk regresjonsmodell, mer spesifikk klassen [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) fra `scikit-learn`. Men for å kunne bruke modellen må vi naturligvis først estimere parametrene basert på treningsdata. 
 Hva slags trekk (_features_) skal vi bruke i modellen vår? I denne oppgaven skal vi gjøre det enkelt for oss selv, og kun ta i betrakning forekomst av bestemte IPA-symboler som identifiserer ordlyder i den fonetiske transkripsjonen av ordet. _NB_: hvis du kan litt fonetikk fra før vil dere kanskje stusse på denne overforenklingen, da IPA-symboler brukes til å kode en god del andre egenskaper knyttet til talelyder slik som lengde, tone, trykk og intonasjon. Men i denne oppgaven skal vi gå den enkle veien og bruke alle symbolene i disse transkripsjonene uten å skille mellom ulike typer.

Trekkene vil ha binære verdier (1 hvis transkripsjonen inneholder symbolet og 0 ellers) og kan sees som en slags ``bag-of-sounds'', siden de vil fortelle oss hvilke ordlyder som forekommer i ordet, men ikke i hvilken rekkefølge.

__Opgave 1.1:__ Det første skrittet er å lage en liste over alle IPA-symboler som finnes i treningsettet. Metoden `_extract_unique_symbols` skal ta de fonetiske transkripsjonene fra treningssettet som input, og returnere en liste med alle fonetiske symboler (altså tegn) som finnes i disse transkripsjonene og forekommer minst 10 ganger. Implementer denne metoden. Antall symboler kan variere litt avhengig av den tilfeldige inndelingen mellom treningsettet og testsettet, men bør ligge på rundt 155 unike symboler.

In [9]:
def _extract_unique_symbols(self, transcriptions, min_nb_occurrences=10):
    """Gitt en rekke med IPA fonetiske transkripsjoner, ektraher en liste med alle IPA 
    symboler som finnes i transkripsjonene og forekommer minst min_nb_occurrences."""

    symbols = {}
    for word in transcriptions:
        for symbol in word:
            if symbol not in symbols:
                symbols[symbol] = 0
            symbols[symbol] += 1
    
    result = [symbol for symbol, n in symbols.items() if n > min_nb_occurrences]
    return result
    
# her kobler vi metoden vi har implementert til klassen
LanguageIdentifier._extract_unique_symbols = _extract_unique_symbols 



__Oppgave 1.2__: Deretter må vi implementere metoden `_extract_feats` som tar en liste fonetiske transkripsjoner og returnerer en matrise $X$ hvor hver rad tilsvarer en transkripsjon og hver kolonne representerer et bestemt trekk. La oss si vi har $m$ unike fonetiske symboler (ekstrahert med metoden ovenfor), og får en liste med $n$ fonetiske transkripsjoner $T = \{t_i \text{ hvor } 0 < i < n\}$. Metoden `_extract_feats(transcriptions)` må returnere en matrise $X$ av dimensjon $(n,m)$, hvor hver matrisecelle $X_{ij}$ er definert slik: 

$$
X_{ij}  =  \begin{cases} 1 \text{  hvis symbolet } j \text{ forekommer i transkripsjonen } t_i \\
0 \text{  ellers} \end{cases} 
$$

Tips: den enkleste fremgangsmåten kan være å starte med å lage en tom matrise slik som `X = np.zeros(n,m)` og deretter endre cellene hvor `X[i,j]` skal ha 1 som verdi i stedet for 0. 

In [20]:
import numpy as np

def _extract_feats(self, transcriptions):
    """Gitt en rekke med IPA transkripsjoner, ekstraher en matrise av størrelse |T|x|F|,
    hvor |T| er antall transkripsjoner, og |F| er antall features brukt i modellen."""
    
    unique_symbols = _extract_unique_symbols(self, transcriptions)
    m = len(unique_symbols)
    n = len(transcriptions)
    
    print(n)
    print(m)
    
    X = np.zeros((n, m))
    
    for i in range(n):
        for j in range(m):
            if unique_symbols[j] in transcriptions[i]:
                X[i][j] = 1

LanguageIdentifier._extract_feats = _extract_feats
model = LanguageIdentifier()
transcriptions = train_data.IPA.values
model._extract_feats(transcriptions)

689238
157


__Oppgave 1.3__: Vi er nå klare til for å implementere funksjonen `train`. Metoden tar to lister som input, en liste fonetiske transkripsjoner og en liste med språknavn (de to listene må ha samme lengde). Metoden skal trene den logistiske regresjonsmodellen `self.model` ved å kalle `fit(X, y)`, hvor `X` er en matrise med alle trekk ekstrahert med metoden `_extract_feats`, og `y` er outputklassene. 

Merk at `scikit-learn` krever at outputklassene `y` må være en liste med heltall (og ikke strenger). Det betyr at dere må lage en mapping mellom språknavn og heltall (f.eks. ved å si at "norsk" er 0, "arabisk" er 1, "finsk" er 2, osv.). Når dere har både matrisen `X` og output `y` er det bare å kalle metoden `fit(X, y)` for å trene modellen. Trening kan ta noen minutter avhengig av maskinen deres.

In [None]:
def train(self, transcriptions, languages):
    """Gitt en rekke med IPA transkripsjoner og en rekke med språknavn, tren
    den logistisk regresjonsmodellen. De to rekkene må ha samme lendgen"""
        
    # Implementer metoden her!

LanguageIdentifier.train = train

Vi er nå klare til å trene modellen (kan ta noen minutter):

In [None]:
model = LanguageIdentifier()
transcriptions = train_data.IPA.values
languages = train_data.språk.values
model.train(transcriptions, languages)


## Prediksjon og evaluering

Når modellen er trent kan vi anvende den på nye fonetiske transkripsjoner. 

__Oppgave 1.4__: Implementer metoden `predict`. Metoden tar som input en liste fonetiske transkripsjoner og predikerer det mest sannsynlige språket for hver transkripsjon. Listen som returneres må ha samme lengde som inputlisten. Husk at `scikit-learn` opererer med outputklasser representert som heltall, så dere må forvandle disse tallene tilbake til språknavnene.  

In [None]:
def predict(self, transcriptions):
    """Gitt en rekke med IPA transkripsjoner, finn ut det mest sansynnlige språket
    for hver transkripsjon. Rekken som returneres må ha samme lengden som rekken i input"""
        
    # Implementer metoden her!

LanguageIdentifier.predict = predict

Deretter kan dere se hvordan modellen fungerer i praksis:

In [None]:
# Vi kan nå teste modellen på nye data
predicted_langs = model.predict(["konstituˈθjon", "ɡrʉnlɔʋ", "stjourtnar̥skrauːɪn", "perusˌtuslɑki"])
print("Mest sansynnlige språk for ordene:", predicted_langs)

(Svarene bør være spansk, norsk, islandsk og finsk).

__Oppgave 1.5__: Til slutt kan vi gjennomføre en grundigere evaluering av modellen basert på testsettet. Implementer metoden `evaluate`. Metoden skal beregne og skrive ut de følgende evalueringsmålene:
* accuracy (den bør ligge rund 93 % hvis dere har gjort alt riktig.)
* precision, recall og $F_1$ for hvert språk
* micro- og macro-averaged F1.    
    
For å beregne disse stallene kan dere bruke metodene fra [`sklearn.metrics`](https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics).

In [None]:
def evaluate(self, transcriptions, languages):  
    """Gitt en rekke med IPA transkripsjoner og en rekke med språknavn, evaluer hvor godt
    modellen fungerer ved å beregne:
    1) accuracy
    2) precision, recall og F1 for hvert språk
    3) micro- og macro-averaged F1.
    """
     # Implementer metoden her!

LanguageIdentifier.evaluate = evaluate
 
# Vi kan nå evaluere hvor godt modellen fungerer på testsett
model.evaluate(test_data.IPA.values, test_data.språk.values)

## Analyse av modellen

Hva har modellen egentlig lært? En stor fordel med logistisk regresjon er at modellene er relativt enkle å tolke: Hvis en vekt $w_i$ i modellen har stor positiv verdi betyr det at sannsynnlighet for outputklassen _øker_ sammen med trekket $x_i$.  Likeledes betyr en negativ verdi at sannsynlighet for outputklassen _reduseres_ med større verdier av $x_i$. Og jo større vektet er (positiv eller negativ), jo større er effekten. 

Vi kan inspisere modellen vår for å finne ut hvilke språklyder som har størst effekt på prediksjonene. I `scikit-learn` er modellvektene lagret i variabelen `coef_` (merk underscoren ved slutten). Siden modellen vår er multiklasse (med 20 unike språk) og inneholder $m \approx 155$ trekk er vektene i `coef_` en matrise av dimensjon $(20,m)$. 

__Oppgave 1.6a__: Finn ut hvilket fonetisk symbol som bidrar mest til å øke sannsynnligheten for at et ord er klassifisert som norsk. Sjekk om det gir mening ved å telle hvor ofte symbolet forekommer i et norsk ord vs. ikke-norsk ord.

__Oppgave 1.6b__: Finn ut hvilket fonetisk symbol som bidrar mest til å redusere sannsynnligheten for at et ord er klassifisert som norsk.

Søk gjerne på nettet for å finnes ut hva disse fonetiske symbolene egentlig står for hvis du er interessert!


# Del 2: sekvensmodellering

Vi skal nå jobbe på en viktig anvendelse av sekvensmodeller, nemlig å gjenkjenne navngitte entiteter (_Named Entity Recognition_ eller NER på engelsk). For å gjøre det så enkelt som mulig vil vi bruke en _Hidden Markov Model_ som sekvensmodell. Hvert ord skal assosieres med en bestemte klasse, og vi skal ta i bruk såkalt BIO-annotering (også kalt IOB i boken til Jurafsky og Martin) for å spesifisere hvilke som ord hører til en navngitt entitet. 

_NB_: I praksis er ikke HMM den mest hensiktsmessige sekvensmodellen for å gjenkjenne navngitte enheter. Andre modeller slik som _transformers_ vil være bedre egnet til denne oppgaven, med disse modellene er betydelige mer kompliserte å trene. 


### Data 
Vi skal trene modellen med dataene i `norne_train.txt`. Filen inneholder tokeniserte setninger (en per linje) hvor de navngitte entitetene er markert med XML-tags, som f.eks:

```xml
De første 43 minuttene hadde <ORG>Rosenborg</ORG> all makt og 
tilnærmet full kontroll på <LOC>Fredrikstad Stadion</LOC> .
```
I eksempelet over har vi 2 navngitte enheter, _Rosenborg_ (en organisasjon) og _Fredrikstad Stadion_ (et sted).

Vi har allerede implementert en funksjon `preprocess` som tar en tekst som input (som f.eks. setningene i trening- eller testsett) og ekstraherer lister over setninger og navngitte entiteter i disse setningene:

In [None]:
import oblig1b_utils
oblig1b_utils.preprocess("De første 43 minuttene hadde <ORG>Rosenborg</ORG> all makt og " +
                         "tilnærmet full kontroll på <LOC>Fredrikstad Stadion</LOC> .")

De navngitte entitetene er spesifisert som tupler $(i, j, tag)$ hvor $i$ er indeksen for starten av entiteten, $j$ er indeksen for slutten, og $tag$ er entitetstypen, som f.eks. ORG eller LOC. Indekstallene er på ordnivå:

### Klassen

Her er skjelettet for `NamedEntityRecogniser`-klassen  som skal implementeres:

In [None]:
import oblig1b_utils

class NamedEntityRecogniser:
    """Gjenkjenning av navngitte enheter ved bruk av HMM"""
    
    def __init__(self):
        """Intialiserer alle variablene som er nødvendig for å representere og 
        estimere  sekvensmodellen (en Hidden Markov Model) som brukes til å 
        gjenkjenne de navngitte enhetene"""
        
        # alle labellene som forekommer i treningsettet
        self.labels = set()

        # alle token som forekommer i treningsettet
        self.vocab = set()

        # hvor mange ganger en label (f.eks. B-ORG) forekommer i treningsettet
        self.label_counts = {}  

        # hvor mange overgang fra label_1 til label2 forekommer i treningsettet
        self.transition_counts = {}
        
        # hvor mange "utslipp" fra label til token forekommer i treningsettet
        # (Merk at vi legger et spesielt symbol for ord som aldri forekommer
        # i treningsettet, men kan forekomme i testsettet)
        self.emission_counts = {("O", "<UNK>"):1}
                
        # Sansynnlighet P(label_2 | label_1)
        self.transition_probs = {}
        
        # Sansynnlighet P(token | label)
        self.emission_probs = {}
    
    
    def fit(self, tagged_text):
        """Estimerer tallene og sansynnlighetene for HMM, basert på (tokenisert)
        tekst hvor navngitte enhetene er markert med XML tags (se norne.txt)"""
        
        # Ekstrahere setninger og navngitte enheter markert i hver setning
        sentences, all_spans = oblig1b_utils.preprocess(tagged_text)
                
        for sentence, spans in zip(sentences, all_spans):
     
            # Ekstrahere labelsekvenser, med BIO marking
            label_sequence = get_BIO_sequence(spans, len(sentence))
                                              
            # Oppdatere tallene 
            self._add_counts(sentence, label_sequence)
            
        # Beregne sansynnlighetene (transition og emission) ut fra tallene
        self._fill_probs()
                   
        
    def _add_counts(self, sentence, label_sequence):
        """Oppdaterer variablene self.vocab, self.labels, self.label_counts, 
        self.transition_counts og  self.emission_counts, basert på setningen og 
        sekvenslabellen assosiert med dem. 
        Merk at setningen og label_sequence har samme lengde."""
        
        raise NotImplementedError()
        
    def _fill_probs(self, alpha_smoothing=1E-6):
        """Beregne sannsynlihetsfordelinger self.transition_probs og
        self.emission_probs basert på tallene som er samlet inn i 
        self.label_counts, self.transition_counts og self.emission_counts.
        
        Når det gjeler self.emission_probs bør vi legge Laplace smoothing, med en
        verdi for alpha som er alpha_smoothing."""
        
        raise NotImplementedError()
            
    
    def _beam_search(self, sentence):
        """Kjører beam-search på setningen (liste over tokens) og
        returnerer to outputs: 
        1) en labelsekvens (som har samme lengde som setningen)
        2) sansynnlighet for hele sekvensen """

        raise NotImplementedError()

                
    def label(self, text):
        """Gitt en tokenisert tekst, finner ut navngitte enheter og markere disse
        med XML tags. """
        sentences, _ = oblig1b_utils.preprocess(text)
        spans = []
        for sentence in sentences:
            sentence = [token if token in self.vocab else "<UNK>" for token in sentence]
            label_sequence, _ = self._beam_search(sentence)
            spans.append(oblig1b_utils.get_spans(label_sequence))
        
        return oblig1b_utils.postprocess(sentences, spans)

### BIO-markering


For å trene en HMM må hvert ord kobles til en merkelapp (_label_). En vanlig måte å gjøre dette er å bruke en såkalt BIO-markering, hvor hvert ord markeres som:
* 'O' (hvis ordet ikke tilhører en navngitt entitet)
* 'B-X' (hvis ordet er det første ordet i en navngitt entitet av type 'X')
* 'I-X' (hvis ordet tilhører en entitet av type 'X', men ikke er det første ordet)

__Oppgave 2.1__: Implementer funksjonen _get_BIO_sequence_ som tar som input en liste med ``text spans'' og setningslengden og gir tilbake en rekke (av samme lengde som setningen) med BIO-markeringer.

In [None]:
    
def get_BIO_sequence(spans, sentence_length):
    """Gitt en liste over "spans", representert som tuples (start, end, tag),
    og en setningslengde, produserer en sekvens med BIO (også kalt IOB) labeller
    for setningen. 
    Eksempel: hvis spans=[(1,3,'ORG')] og sentence_length=6 bør resultatet være
    ['O', 'B-ORG', 'I-ORG', 'O', 'O', 'O']"""
    
    # Implementer metoden her!


### Telling

Som vi så i forelesningen er Hidden Markov Models definert med en vokabular (som tilsvarer ``observasjonene''), et sett mulig merkelapp (de skjulte tilstandene), og to sannsynlighetsfordelinger:
* Den første fordelingen er kalt transisjonsmodell og definert som $P(label_t | label_{t-1})$. Transisjonsmodellen forteller oss hvor sannsynlig det er at $label_{t-1}$ (assosiert med ord $w_{t-1}$) følges av $label_t$ (assosiert med ord $w_t$). 
* Den andre fordelingen er emisjonsmodellen, definert som $P(w_t | label_t)$. Emisjonsmodellen forteller oss hvor sannsynlig det er å observere ordet $w_t$ hvis merkelappen for dette ordet er $label_t$.

For å estimere disse to sannsynlighetsfordelinger må vi telle:
* Alle ordene som forekommer i treningssettet
* Alle BIO-labels som forekommer i treningssettet
* Antall ganger hver BIO-label forekommer i treningssettet
* Antall ganger to BIO-labels følger hverandre i treningssettet
* Antall ganger et ord er observert med en BIO-label i treningssettet

__Oppgave 2.2__: Implementer metoden `_add_counts` som oppdaterer variablene som inneholder disse tallene.  

In [None]:
      
def _add_counts(self, sentence, label_sequence):
    """Oppdaterer variablene self.vocab, self.labels, self.label_counts, 
    self.transition_counts og  self.emission_counts, basert på setningen og 
    sekvenslabellene assosiert med dem. 
    Merk at setningen og label_sequence må ha samme lengde."""
        
    # Implementer metoden her!
    
NamedEntityRecogniser._add_counts = _add_counts

### Sannsynligheterfordelinger

Med hjelp av disse tallene kan vi nå estimere transisjonsmodellen og emisjonsmodellen. For emisjonsmodellen bør dere legge til _Laplace smoothing_ for å gjøre modellen mer robust, da treningssettet er relativt lite. La oss si at $C(label)$ er antall ganger BIO-merkelappen $label$ ble observert, og $C(label, token)$ antall ganger ordet $token$ ble observert sammen med $label$.  Ved hjelp av Laplace smoothing definerer vi sannsynligheten $P(token | label)$ slik:

$$
P(token | label) = \frac{C(label, token) + \alpha}{C(label) + \alpha V}
$$

hvor $V$ er størrelsen på vokabularet. 

__Oppgave 2.3__: Implementer metoden `_fill_probs` som beregner transisjonsmodellen og emisjonsmodellen.  

In [None]:
def _fill_probs(self, alpha_smoothing=1E-6):
    """Beregne sannsynlihetsfordelinger self.transition_probs og
    self.emission_probs basert på tallene som er samlet inn i 
    self.label_counts, self.transition_counts og self.emission_counts.
        
    Når det gjeler self.emission_probs bør vi legge Laplace smoothing, med en
    verdi for alpha som er alpha_smoothing."""
        
    # Implementer metoden her!
    
NamedEntityRecogniser._fill_probs = _fill_probs            

Og vi kan nå trene modellen:

In [None]:
# Creating and training the model
with open("norne_train.txt") as fd:
    model = NamedEntityRecogniser()
    training_texts = fd.read()
    model.fit(training_texts)


### Dekoding med beam search

Til slutt skal vi implementere metoden `_beam_search` som skal finne den mest sannsynlige label-sekvensen for en setning ved hjelp av beam-search-algoritmen. 

Vi har sett hvordan beam search fungerer i forelesningen. Kort fortalt består et _beam_ av en mengde _hypoteser_, hvor en hypotese representerer her en mulig sekvens av BIO-labeller for setningen. Vi bygger opp disse hypotesene ord etter ord, inntil alle ordene er behandlet. I beam-search begrenser vi antall hypoteser som kan lagres etter hvert steg (=_beam width_) for å unngå en kombinatorisk eksplosjon.

__Oppgave 2.4__: Implementer metoden `_beam_search`. For å gjøre det litt lettere er metoden allerede delvis implementert.

In [None]:
def _beam_search(self, sentence, beam_width=3):
    """Kjører beam search på setningen (liste over tokens), og
    returnerer to outputs: 
    1) en labelsekvens (som har samme lengde som setningen)
    2) sansynnlighet for hele sekvensen """

    # Vi starter med en beam som består av én tom hypotese
    # Hver hypotese i beam består av to elementer:
    # -'labels' er en liste over BIO-labels (en label per ord i setningen)
    # -'prob' er sannsynligheten for denne labelsekvensen
    beam = [{"labels":[], "prob":1.0}]

    for token in sentence:
        # Her må vi lage nye hypoteser som utvider de eksisterende
        # hypotesene i beam med BIO-labeller for token
        # (OBS: antall hypoteser i beam må ikke overstige beam_width)
        raise NotImplementedError() 
        
    # Vi velger hypotesen med høyest sannsynlighet
    best_hypothesis = sorted(beam, key=lambda x : x["prob"])[-1]

    # Og returnerer labelsekvensen og dens sannsynlighet
    return best_hypothesis["labels"], best_hypothesis["prob"]

NamedEntityRecogniser._beam_search = _beam_search            

Når dere har implementert modellen ferdig kan dere teste ut hvordan den fungerer ved å kalle metoden `label`:

In [None]:
# Applying the model to a sample sentence
model.label("Kjell Magne Bondevik var statsminister i Norge .")
# Forventet svar: '<PER>Kjell Magne Bondevik</PER> var statsminister i <GPE>Norge</GPE> .'

### Valgfritt spørsmål (for de modigste)
 
Det er ofte en dårlig idé å gange mange små sannsynligheter, da vi kan havne i numerisk _underflow_. En vanlig løsning er å benytte log-sannsynligheter som kan summeres i stedet for å multipliseres, slik som forklart [her](http://www.cs.columbia.edu/~mcollins/cs4705-fall2018/notes-on-logs.pdf).

__Oppgave 2.5__: Prøv å implementere beam search algoritmen med log-sannsynligheter.  