In [2]:
import pandas as pd

import spacy
from spacy import displacy

In [3]:
# Load the Norwegian model
nlp = spacy.load("nb_core_news_md")

In [9]:
def preprocess(text):
    # Tokenize the text
    doc = nlp(text)

    # TODO: Remove () and text inside them (e.g. (UFF))

    # Remove stop words and punctuation
    tokens = [token.text for token in doc if  not token.is_punct]
    
    sentence = ' '.join(tokens)

    return sentence

test = ("Akershus fylkeskommune vil spesielt trekke frem utvalgets tiltaks-pyramide unngå, flytte og forbedre (UFF) som et tydelig rammeverk for prioritering av strategier og tiltak. Dette vil bidra til at flere trekker i samme retning i praktisk klimaarbeid og prioriteringer i klimapolitikken.")

test = preprocess(test)
print(test)
doc = nlp(test)



for token in doc:
    print(token.text, token.pos_, token.dep_, token.ent_type_)

Akershus fylkeskommune vil spesielt trekke frem utvalgets tiltaks-pyramide unngå flytte og forbedre UFF som et tydelig rammeverk for prioritering av strategier og tiltak Dette vil bidra til at flere trekker i samme retning i praktisk klimaarbeid og prioriteringer i klimapolitikken
Akershus PROPN nsubj 
fylkeskommune NOUN flat:name 
vil AUX aux 
spesielt ADJ advmod 
trekke VERB ROOT 
frem ADP compound:prt 
utvalgets NOUN nmod 
tiltaks-pyramide NOUN obj 
unngå VERB advcl 
flytte VERB obj 
og CCONJ cc 
forbedre VERB conj 
UFF PROPN obj DRV
som SCONJ mark 
et DET det 
tydelig ADJ amod 
rammeverk NOUN xcomp 
for ADP case 
prioritering NOUN nmod 
av ADP case 
strategier NOUN nmod 
og CCONJ cc 
tiltak NOUN conj 
Dette PRON nsubj 
vil AUX aux 
bidra VERB ROOT 
til SCONJ mark 
at SCONJ mark 
flere ADJ nsubj 
trekker VERB advcl 
i ADP case 
samme DET det 
retning NOUN obl 
i ADP case 
praktisk ADJ amod 
klimaarbeid NOUN nmod 
og CCONJ cc 
prioriteringer NOUN conj 
i ADP case 
klimapolitikken NOU

In [5]:
# Name entity recognition
# Used to identify named entities in text, like persons, organizations, locations, etc.
relations = []

for ent in doc.ents:
    print(ent.text, ent.label_)
    if ent.label_ == 'ORG':
        relations.append(ent.text)

print(relations)
print("\n")
# Dependency parsing
# Used to find the grammatical structure of a sentence

for chunk in doc.noun_chunks:
    print('\t'.join([chunk.text, chunk.root.text,
        chunk.root.dep_, chunk.root.head.text]))
    
    
displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})

UFF DRV
[]


Akershus fylkeskommune	Akershus	nsubj	trekke
utvalgets	utvalgets	nmod	tiltaks-pyramide
UFF	UFF	obj	forbedre
for prioritering av strategier	prioritering	nmod	rammeverk
Dette	Dette	nsubj	bidra
i praktisk klimaarbeid og prioriteringer i klimapolitikken	klimaarbeid	nmod	retning


In [23]:
# Exteract subject, verb object




test = ("Akershus fylkeskommune vil spesielt trekke frem utvalgets tiltaks-pyramide unngå, flytte og forbedre (UFF) som et tydelig rammeverk for prioritering av strategier og tiltak. Dette vil bidra til at flere trekker i samme retning i praktisk klimaarbeid og prioriteringer i klimapolitikken. Innsatsen for å nå klimamålet innebærer også å investere i grønn teknologi og innovasjon. Dette kan gi økt effektivitet, lavere kostnader og mer tilgjengelige ressurser for alle. Det blir viktig å få innbyggerne med i omstillingsarbeidet, og derfor må gevinstene tydeliggjøres og vises frem. ")

doc = nlp(test)

# Find facts in the text
premises = []

for sent in doc.sents:
    for token in sent:
        if token.pos_ == "VERB":
            for child in token.children:
                if child.dep_ == "nsubj" or child.dep_ == "dobj":
                    print(sent.text)
                    continue
print(premises)

Akershus fylkeskommune vil spesielt trekke frem utvalgets tiltaks-pyramide unngå, flytte og forbedre (UFF) som et tydelig rammeverk for prioritering av strategier og tiltak.
Dette vil bidra til at flere trekker i samme retning i praktisk klimaarbeid og prioriteringer i klimapolitikken.
Dette vil bidra til at flere trekker i samme retning i praktisk klimaarbeid og prioriteringer i klimapolitikken.
Innsatsen for å nå klimamålet innebærer også å investere i grønn teknologi og innovasjon.
Dette kan gi økt effektivitet, lavere kostnader og mer tilgjengelige ressurser for alle.
[]
