#### IN2110 Våren 2021 - Obligatorisk innlevering 1b

### Del 1: Logistisk Regresjon

#### a) Forberedelser

I den første delene av av denne innleveringen, bruker vi logistisk regresjon for å utvikle en enkel språkidentifikator.
For å trene denne modellen, skal vi ta i bruk allerede eksisterende lister over ord med deres fonetiske transkripsjoner i såkalt IPA-format.
Vi starter da med å importere filen "logistisk_regresjon.py" og laste ned dataene som skal brukes videre i oppgaven...

In [1]:
import logistisk_regresjon as lr
train, test = lr.extract_wordlist()

Nedlasting av ordisten for norsk... ferdig!
Nedlasting av ordisten for arabisk... ferdig!
Nedlasting av ordisten for finsk... ferdig!
Nedlasting av ordisten for patwa... ferdig!
Nedlasting av ordisten for farsi... ferdig!
Nedlasting av ordisten for tysk... ferdig!
Nedlasting av ordisten for engelsk... ferdig!
Nedlasting av ordisten for rumensk... ferdig!
Nedlasting av ordisten for khmer... ferdig!
Nedlasting av ordisten for fransk... ferdig!
Nedlasting av ordisten for japansk... ferdig!
Nedlasting av ordisten for spansk... ferdig!
Nedlasting av ordisten for svensk... ferdig!
Nedlasting av ordisten for koreansk... ferdig!
Nedlasting av ordisten for swahilisk... ferdig!
Nedlasting av ordisten for vietnamesisk... ferdig!
Nedlasting av ordisten for mandarin... ferdig!
Nedlasting av ordisten for malayisk... ferdig!
Nedlasting av ordisten for kantonesisk... ferdig!
Nedlasting av ordisten for islandsk... ferdig!
Treningsett: 309074 eksempler, testsett: 34342 eksempler


Det "extract_wordlist()" metoden gjør er at den laster ned en rekke filer fra GitHub og samler innholdet av disse i to "DataFrame" objekter. 

In [2]:
test.head(n=20)

Unnamed: 0,ord,IPA,språk
86692,neutrality,njuːtɹˈælɪti,engelsk
78777,vaterlose,ˈvɑːtɐ̯ˌloːze,tysk
11238,فيتفوق,feɪatafawwaq,arabisk
93566,listed,lˈɪstɪd,engelsk
141232,dépannerais,depanəʁɛ,fransk
200095,studium,stˈʉːdɪɵm,svensk
215447,광고지,kwa̠ŋɡo̞d͡ʑi,koreansk
116315,venezuelit,venezuelit,rumensk
295670,nazar,nazar,malayisk
221034,같음,ka̠tʰɯm,koreansk


#### b) Trening av modellen                

I denne delen av oppgaven skal vi trene modellen vår. Vi benytter oss av en logistisk regresjonsmodell. For dette bruker vi:
- "LogisticRegression" (fra scikit-learn)

Trekkene (features) som brukes i denne modellen er de så kalte "IPA"-symboler, som identifiserer ordlyder, i den fonetiske transkripsjonen av ordet. Sist, men ikke minst, vil disse trekkene (features) ha binære verdier (1 og 0)

In [3]:
x = lr.LanguageIdentifier()
transcriptions = train.IPA.values
languages = train.språk.values

(1) Det første skrittet for å kunne løse oppgaven er at vi lager en liste over alle IPA-symboler som finnes i treningsettet. Vi da tar inn alle de fonetiske transkripsjonene fra treningssettet som input i følgende metode, og 
returnerer en liste med alle de fonetiske symboler, altså tegn, som finnes i nettop disse transkripsjoner som vi sendte inn. 

Vi har merket at antall symboler vil variere avhengig av den tilfeldig inndelingen mellom treningssettet og testsettet. Noen ganger får vi 154 og noen ganger får vi 156, men disse ligger da rundt 155 unike symboler.



In [4]:
# print(len(x._extract_unique_symbols(transcriptions)))

(2) Det vi skal gjøre videre er å implementere _extract_features(transcriptions)-metoden som vil da ta samme liste som i forrige metode, altså "transcriptions", og returnere en matrise X hvor hver rad tilsvarer en transkripsjon og 
hver kolonne representerer en bestemt trekk. 

Vi starter med å lage en tom matrise slik som X = np.zeros(n, m) og deretter endre cellene hvor X [i, j] skal ha 1 som verdi dersom symbolet forekommer i transkripsjonen, i stedet for å ha verdien 0. Til slutt, etter at vi implementerer det nødvendig algoritme, returnerer vi matrisen X av dimensjonen (n, m).

    m -> unike fonetiske symboler                  n -> fonetiske transkripsjoner

In [5]:
x._extract_feats(transcriptions)

array([[1, 1, 1, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 1, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

(3) Nå som vi har implementert 2 grunnlegende metoder for vårt oblig, er vi nå klare for å implementere train(transcriptions, languages). Metoden tar to lister som input, en liste fonetiske transkripsjoner og en liste med språknavn (de to listene må selvsagt ha samme lengde for å kunne kjøre programmet riktig). 

Denne metoden vil da trene den "logistiske regresjonsmodellen" (self.model) ved å kalle på fit-metoden. En ting å merke seg er at scikit-learn krever at outputklassen "languages" må være en liste med heltall, og ikke med strenger. Vi må da lage en slags "mapping" mellom språknavn og heltall . 

#### c) Prediksjon og evaluering med modellen 

In [6]:
x.sprak(languages)
x.train(transcriptions, languages)
predicted_langs = x.predict(["konstituˈθjon", "ɡrʉnlɔʋ", "stjourtnar̥skrauːɪn", "bʊndɛsvɛɾfaszʊŋ"])
print("Mest sansynnlige språk for ordene:", predicted_langs)

Mest sansynnlige språk for ordene: ['spansk', 'norsk', 'islandsk', 'tysk']


Til slutt kan vi gjennomføre en grundigere evaluering av modellen basert på testsettet. 
Inplementer metoden evaluete(transcriptions, languages). Metoden skal da beregne og skrive 
ut de følgende evalueringsmålene:
- accuracy 
- precision, recall og F1 for hvert sprak. 
- micro-og macro-averaged F1. 
For å beregne disse tallene kan vi bruke metodene fra sklearn.metrics.

In [7]:
transcriptions_test = test.IPA.values
languages_test = test.språk.values
x.evaluate(transcriptions_test, languages_test)

- Accuracy: 0.9275813872226428 -


- precision, recall og F1 for hvert språk - 

                 precision    recall     F1-(micro)  
norsk              0.828       0.880       0.853
arabisk            0.940       0.964       0.951
finsk              0.996       0.988       0.992
patwa              0.433       0.910       0.587
farsi              0.959       0.948       0.954
tysk               0.929       0.955       0.942
engelsk            0.964       0.965       0.965
rumensk            0.803       0.764       0.783
khmer              0.675       0.933       0.783
fransk             0.913       0.955       0.934
japansk            0.943       0.983       0.962
spansk             0.915       0.934       0.924
svensk             0.952       0.956       0.954
koreansk           0.996       1.000       0.998
swahilisk          0.923       0.811       0.863
vietnamesisk       0.975       0.973       0.974
mandarin           0.976       0.948       0.962
malayisk           0.835       0

Etter å ha kjørt denne delen av koden, får vi en accuracy på 0.927, det vil si en accuracy på 93%. 

#### d) Prediksjon og evaluering med modellen

### Del 2: Sekvensmodeller

I denne delen av obligen, skal vi jobbe med en viktig anvendelse av sekvensmodeller, nemlig det å gjenkjenne
navngitte entiter (Named Entity Recognition). Denne gangen skal vi ta i bruk det så-kalte "Hidden Markov Model". 
Hvert ord skal assosieres med en bestemt klasse og vi skal ta i bruk BIO-annotering. 

In [14]:
import ner as n

In [16]:
n.testing()