In [47]:
from pathlib import Path

import srsly
import spacy
from spacy import displacy

In [None]:
# Installer en norsk modell for spaCy
!spacy download nb_core_news_sm #nb_core_news_md #nb_core_news_lg

# Span_ruler patterns 

Se SpaCys [dokumentasjon](https://spacy.io/usage/rule-based-matching#spanruler) for mer informasjon.



## Test mønstrene på teksteksempler

In [3]:
# Last inn en norsk modell som er blitt installert, en av "nb_core_news_sm", "nb_core_news_md" eller "nb_core_news_lg
nlp = spacy.load("nb_core_news_sm")
# Last inn mønstre fra patterns.jsonl
patterns = srsly.read_jsonl("patterns.jsonl")
# Legg til en span_ruler-komponent i pipelinen
ruler = nlp.add_pipe("span_ruler")
# Legg til mønstrene
ruler.add_patterns(patterns)

### 1 tekst om gangen

In [31]:
# Definer et teksteksempel
text = "Dette ble beskrevet i Navn [2019; s.20-21] og {Navnesen} et al. (2018, s.20)."


In [32]:
# Kjør teksten gjennom pipelinen
doc = nlp(text)

In [33]:
# Se på annotasjonene
for token in doc:
    print(
        token.text,
        # token.pos_,
        # token.dep_,
        # token.ent_type_,
        token.is_punct,
        # token.is_alpha,
        # token.is_digit,
    )

Dette False
ble False
beskrevet False
i False
Navn False
[ True
2019 False
; True
s.20-21 False
] True
og False
{ True
Navnesen False
} True
et False
al False
. True
( True
2018 False
, True
s.20 False
) True
. True


In [34]:
doc.spans


{'ruler': [(2018, s.20)]}

### Flere tekster samtidig

In [37]:
# Last inn en fil med eksempler
texts = Path("citation_examples.txt").read_text().splitlines()
docs = list(nlp.pipe(texts))

In [None]:
# Undersøk python-objektene
for doc in docs:
    print(doc.text)
    print(doc.spans["ruler"])
    print()

In [46]:
# Visualiser annotasjonene med displacy

for doc in docs:
    # default spans_key er "sc", men "span_ruler" bruker "ruler"
    displacy.render(
        doc,
        style="span",
        options=dict(spans_key="ruler", colors={"CITATION": "#5f9100"}),
        jupyter=True,
    )


Available keys: ['ruler']
