In [1]:
import pandas as pd

tweetdata_url = "https://raw.githubusercontent.com/CALDISS-AAU/course_ndms-I/master/datasets/poltweets_sample.csv"
tweets_df = pd.read_csv(tweetdata_url)

tweet = tweets_df.loc[584, 'full_text']

# Introduktion til sprogmodeller

Selvom man kan komme langt med basisfunktioner, så er der stadig mange ulemper:
- Vi er nødt til selv at definere tegnsætning eller stopord (disse kan dog importeres fra andre pakker)
- Vi har ikke en nem måde at konvertere til stamme eller navneform

Der findes mange eksisterende tokenizer-funktioner, som man nemt kan hente fra andre pakker. En meget populær teknik i dag er at gøre brug af sprogmodeller, da man så kan lade disse analysere teksternes opbygning og sætningskonstruktion, og dermed foretage tokenization på baggrund af dette.

Sprogmodeller findes i såkaldte "natural language processing" pakker; altså pakker, der netop er udviklet til at læse og forstå tekst.

Nogen af de mere populære pakker er [`spaCy`](https://spacy.io/) og [`stanza`](https://stanfordnlp.github.io/stanza/). 

Vi gør i denne session brug af `spaCy`, men funktionerne og opbygningen minder meget om `stanza`.

## Hvad er en sprogmodel?

En sprogmodel ("language model") er kort sagt en model til at forudsige ord. Der er tale om modeller, der er trænet til at forstå forskellige sprog, og kan derfor både bruges til at producere tekst på et bestemt sprog eller analysere opbygningen af en tekst.

Lidt forsimplet er en sprogmodel en model, som er trænet til at genkende ordtyper, entiteter og sætningskonstruktion, som derved kan prædiktere disse informationer i tekst på det samme sprog.

## Introduktion til `spaCy` 

"spaCy" indeholder forskellige sprogmodeller - herunder en dansk sprogmodel.

Overordnet virker spaCy ved, at man specificerer en sprogmodel samt nogen "processors", som modellen skal indeholde. 

SpaCy's sprogmodeller indeholder blandt andet:
- Tokenizer (inddeling i enkeltord)
- Lemmatizer (konvertering til navneform)
- Part-Of-Speech tagging (POS-tagging) (identificering af ordtyper)
- Dependency parsing (sætningskonstruktion)
- Named-Entity-Recognition (NER) (udledning af "named entities", fx personer og organisationer)

**Disse processors findes ikke for den danske sprogmodel*

## Brug af spaCy i Python

For at bruge `spaCy` skal vi først importere pakken. Derefter henter vi den danske sprogmodel.

In [2]:
import spacy

#!python -m spacy download da_core_news_sm # download sprogmodel

Når sprogmodellen er hentet, kan vi bruge den ved at indlæse modellen. Som standard indlæses modellen med alle processerne, men det er muligt at aktivere/deaktivere specifikke processer.

Efter modellen er defineret, kan man lade sprogmodellen analysere tekst.

In [3]:
nlp = spacy.load("da_core_news_sm") # Definerer model

doc = nlp(tweet) # Bruger model på tweet



Når modellen anvendes på et stykke tekst, behandler den tekststykket med de forskellige processors, som er en del af sprogmodellen (som standard for dansk: tokenizer, part-of-speech tagging, lemmatizer og dependency parsing).

Outputtet (`doc`) indeholder de forskellige værdier, som er udledt af teksten, som attributes (et attribute for token, et for lemma, et for POS-tag osv.).

Vi kan fx visualisere sætningskonstruktionen med funktionen `displacy`:

In [5]:
spacy.displacy.render(doc, style='dep')

## Lemmatizing

Et ords "lemma" er dets grammatiske stamme (fx "er"->"være", "spiste"->"spise"). SpaCy's sprogmodeller indeholder typisk en indbygget ordbog til at finde stammen for de enkelte ord. Et ords "lemma" er gem under attributtet `.lemma_` for hvert ord:

In [6]:
for word in doc:
    print(word.text, "\t\t", word.lemma_)

Hjemmeværnet 		 Hjemmeværnet
, 		 ,
Politikadetterne 		 Politikadetterne
og 		 og
Forsvaret 		 Forsvaret
klarer 		 klare
ærterne 		 ært
ved 		 vide
grænserne 		 grænse
, 		 ,
så 		 så
Politiet 		 Politiet
kan 		 kunne
kaste 		 kaste
sig 		 sig
over 		 over
at 		 at
gøre 		 gøre
danskere 		 dansker
mere 		 mere
trygge 		 tryg
. 		 .
Sikker 		 Sikker
på 		 på
, 		 ,
at 		 at
@ClausOxfeldt 		 @ClausOxfeldt
bliver 		 blive
lykkelig 		 lykkelig
for 		 for
vort 		 vor
krav 		 krav
. 		 .
Han 		 Han
har 		 have
jo 		 jo
brugt 		 bruge
megen 		 megen
energi 		 energi
på 		 på
at 		 at
give 		 give
DFs 		 DFs
grænseindsats 		 grænseindsats
skylden 		 skyld
for 		 for
mandskabsmangel 		 mandskabsmangel
. 		 .
https://t.co/PgenOdeSwn 		 https://t.co/PgenOdeSwn


## Part-of-speech tags

SpaCy tagger automatisk hvert ord med sin ordklasse ("part-of-speech"-tag/POS-tag). Disse er gemt under attributtet `.pos_` for hvert ord:

In [7]:
for word in doc:
    print(word.text, "\t\t", word.pos_)

Hjemmeværnet 		 NOUN
, 		 PUNCT
Politikadetterne 		 NOUN
og 		 CCONJ
Forsvaret 		 NOUN
klarer 		 VERB
ærterne 		 NOUN
ved 		 ADP
grænserne 		 NOUN
, 		 PUNCT
så 		 SCONJ
Politiet 		 NOUN
kan 		 AUX
kaste 		 VERB
sig 		 PRON
over 		 ADP
at 		 PART
gøre 		 VERB
danskere 		 NOUN
mere 		 ADV
trygge 		 ADJ
. 		 PUNCT
Sikker 		 ADJ
på 		 ADP
, 		 PUNCT
at 		 SCONJ
@ClausOxfeldt 		 NOUN
bliver 		 AUX
lykkelig 		 ADJ
for 		 ADP
vort 		 DET
krav 		 NOUN
. 		 PUNCT
Han 		 PRON
har 		 AUX
jo 		 ADV
brugt 		 VERB
megen 		 ADJ
energi 		 NOUN
på 		 ADP
at 		 PART
give 		 VERB
DFs 		 PROPN
grænseindsats 		 NOUN
skylden 		 NOUN
for 		 ADP
mandskabsmangel 		 NOUN
. 		 PUNCT
https://t.co/PgenOdeSwn 		 NOUN


Part-of-speech tagging virker ved, at modellen i forvejen er trænet på danske tekster, og derfor har "set" de forskellige ord i kontekst før. Som det kan ses, er modellen dog ikke perfekt (fx "trygge" er angivet som navneord (NOUN), selvom der her er tale om et tillægsord (ADJ)).

Part-of-speech tagging tillader fx at isolere visse ord i et stykke tekst:

In [8]:
keep_tags = ['NOUN', 'ADJ', 'PROPN']
keep_words = []

for word in doc:
    if word.pos_ in keep_tags:
        keep_words.append(word)

for word in keep_words:
    print(word.text, "\t\t", word.pos_)

Hjemmeværnet 		 NOUN
Politikadetterne 		 NOUN
Forsvaret 		 NOUN
ærterne 		 NOUN
grænserne 		 NOUN
Politiet 		 NOUN
danskere 		 NOUN
trygge 		 ADJ
Sikker 		 ADJ
@ClausOxfeldt 		 NOUN
lykkelig 		 ADJ
krav 		 NOUN
megen 		 ADJ
energi 		 NOUN
DFs 		 PROPN
grænseindsats 		 NOUN
skylden 		 NOUN
mandskabsmangel 		 NOUN
https://t.co/PgenOdeSwn 		 NOUN


## Named entities

"Named entities" kan groft sagt forstås som "meningsfulde enheder" i teksten. Det kan fx være personer, organisationer eller steder. Ligesom ved part-of-speech tagging, fungerer "named entity recognition" ved, at modellen enten har set disse enheder før eller er bekendt med, hvordan sådanne enheder fremgår i sætningen (hvor er de i sætningskonstruktionen, hvilke ordklasser er de associeret med).

Alle ord i en tekst er ikke en "named entity". Named entities kan tilgås gennem attributtet `ents` for det behandlede stykke tekst (`doc`). Fra dette kan ses, hvilke enheder er udledt, og hvordan de er kategoriseret:

In [9]:
for ent in doc.ents:
    print(ent.text, "\t\t", ent.label_)

Hjemmeværnet 		 ORG
Forsvaret 		 ORG
danskere 		 MISC
DFs 		 ORG


Denne sprogmodel arbejder med fire named entity tags:
- LOC: Steder
- ORG: Organisationer
- PER: Personer
- MISC: Andet

Af ovenstående ses, at modellen identificerer "Politiet" som en organisation, hvilket er meget passende. Derudover genkender den "politikadetter", "danskere" og "DFs" som meningsfulde enheder, men har ikke et tag til dem.

Igen ses at modellen ikke er perfekt, da "Hjemmeværnet" og "Forsvaret" er meningsfulde enheder, som kunne klassificeres som organisationer. Derudover identificerer modellen heller ikke "@ClausOxfeldt", hvilket højst sandsynligt skyldes @'et i navnet.

## ØVELSE 3: Brug af sprogmodel

1. Udvælg en enkelt kommentar fra reddit datasættet. Kommentarteksten findes i kolonnen "comment_body" (fx `comment = reddit_df.loc[200, 'comment_body']`)

2. Analysér kommentaren med spaCy sprogmodellen (omdan kommentaren til et `doc` objekt). Husk at installér og indlæs sprogmodellen først:

```python
import spacy

!python -m spacy download da_core_news_sm
nlp = spacy.load("da_core_news_sm")
```

3. Er der named entities i kommentaren? (`doc.ents`) I så fald hvilke?

**Bonus**

- Lav en liste, der kun indeholder ord fra kommentaren med ordklassen "NOUN"