In [1]:
from estnltk import Text

In [2]:
from estnltk_neural.taggers import StanzaSyntaxTagger

In [3]:
from estnltk_patches import EntityTagger

In [4]:
from estnltk_patches import SyntaxTree

In [5]:
# stanza = StanzaSyntaxWebTagger(url='https://api.tartunlp.ai/estnltk/tagger/stanza_syntax')
stanza = StanzaSyntaxTagger()

This requires downloading resource 'stanza_syntax_2021-05-29' (size: 1.4G). Proceed with downloading? [Y/n] y


Downloading stanza_syntax_2021-05-29: 1.31GB [46:17, 473kB/s] 


Unpacked resource into subfolder 'stanza_syntax/models_2021-05-29/' of the resources dir.


## I. Simple example how to use stanza

I use here a webtagger as I do not have `estnltk_neural` set up on Apple M1.

In [6]:
text = Text('Kui Arno isaga koolimajja jõudis, olid tunnid juba alanud.')
text.tag_layer('morph_extended')
stanza(text)
display(text['stanza_syntax'])
SyntaxTree(text['stanza_syntax']).drawGraph()

layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,11

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Kui,1,kui,J,J,OrderedDict(),5,mark,_,_
Arno,2,Arno,H,H,"OrderedDict([('sg', 'sg'), ('n', 'n')])",5,advcl,_,_
isaga,3,isa,S,S,"OrderedDict([('sg', 'sg'), ('kom', 'kom')])",5,obl,_,_
koolimajja,4,koolimaja,S,S,"OrderedDict([('adt', 'adt')])",5,obl,_,_
jõudis,5,jõudma,V,V,"OrderedDict([('s', 's')])",10,advcl,_,_
",",6,",",Z,Z,OrderedDict(),5,punct,_,_
olid,7,olema,V,V,"OrderedDict([('sid', 'sid')])",10,cop,_,_
tunnid,8,tund,S,S,"OrderedDict([('pl', 'pl'), ('n', 'n')])",10,nsubj:cop,_,_
juba,9,juba,D,D,OrderedDict(),10,advmod,_,_
alanud,10,alanud,A,A,"OrderedDict([('sg', 'sg'), ('n', 'n')])",0,root,_,_


ImportError: requires pygraphviz http://pygraphviz.github.io/

## II. Small exploration

Lets explore and isolate adverbials for place (see on vist õige termin kohamäärusele)

In [7]:
text = Text('Ats mängis koolis palli')
text.tag_layer('morph_extended')
stanza(text)
text['stanza_syntax']

layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,4

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Ats,1,Ats,H,H,"OrderedDict([('sg', 'sg'), ('n', 'n')])",2,aux,_,_
mängis,2,mängima,V,V,"OrderedDict([('s', 's')])",0,root,_,_
koolis,3,kool,S,S,"OrderedDict([('sg', 'sg'), ('in', 'in')])",2,obl,_,_
palli,4,pall,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",2,obj,_,_


In [8]:
obl_extractor = EntityTagger(deprel='obl', output_layer='entities')

In [9]:
obl_extractor(text)
text['entities']

layer name,attributes,parent,enveloping,ambiguous,span count
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,1

text,entity_type,free_entity,is_valid
['koolis'],,,


In [10]:
text = Text('Esimene laulupidu toimus Vana-Võidu katlamaja rõdul')
text.tag_layer('morph_extended')
stanza(text)
display(text['stanza_syntax'])
obl_extractor(text)
display(text['entities'])
display(text['entities'][0])

layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,6

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Esimene,1,esimene,O,O,"OrderedDict([('sg', 'sg'), ('n', 'n')])",2,acl,_,_
laulupidu,2,laulupidu,S,S,"OrderedDict([('sg', 'sg'), ('n', 'n')])",3,nsubj,_,_
toimus,3,toimuma,V,V,"OrderedDict([('s', 's')])",0,root,_,_
Vana-Võidu,4,Vana-Võit,H,H,"OrderedDict([('sg', 'sg'), ('g', 'g')])",3,xcomp,_,_
katlamaja,5,katlamaja,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",6,nmod,_,_
rõdul,6,rõdu,S,S,"OrderedDict([('sg', 'sg'), ('ad', 'ad')])",4,obl,_,_


layer name,attributes,parent,enveloping,ambiguous,span count
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,1

text,entity_type,free_entity,is_valid
"['katlamaja', 'rõdul']",,,


text,entity_type,free_entity,is_valid
katlamaja rõdul,,,


**Important:** A magic way to iterate through spans of a subtree (entity) 

In [11]:
for span in text['entities'][0]:
    display(text['stanza_syntax'].get(span))
    display(text['morph_analysis'].get(span))
    


text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
katlamaja,5,katlamaja,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",6,nmod,_,_


text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
katlamaja,katlamaja,katlamaja,katla_maja,"['katla', 'maja']",0,,sg g,S


text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
rõdul,6,rõdu,S,S,"OrderedDict([('sg', 'sg'), ('ad', 'ad')])",4,obl,_,_


text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
rõdul,rõdul,rõdu,rõdu,['rõdu'],l,,sg ad,S


In [12]:
text = Text('Me läksime jahile Emajõe suursohu')
text.tag_layer('morph_extended')
stanza(text)
text['stanza_syntax']

layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,5

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Me,1,mina,P,P,"OrderedDict([('pl', 'pl'), ('n', 'n')])",2,nsubj,_,_
läksime,2,minema,V,V,"OrderedDict([('sime', 'sime')])",0,root,_,_
jahile,3,jaht,S,S,"OrderedDict([('sg', 'sg'), ('all', 'all')])",2,obl,_,_
Emajõe,4,Emajõgi,H,H,"OrderedDict([('sg', 'sg'), ('g', 'g')])",2,xcomp,_,_
suursohu,5,suursoo,S,S,"OrderedDict([('adt', 'adt')])",4,obj,_,_


## III. First task 

Test the hypothesis thah kohamäärus is obl with noun in kohakääne. See how well this works for a newspaper article.
Make the corresponding tooling. Ideally you go from text corpus to LabelStudio task.
But before that do a lot of exploration so that you can find out all places where kohamäärus is located.

#### imports and initial text processing 

In [13]:
import random
from os import listdir
from collections import Counter
from estnltk.corpus_processing.parse_koondkorpus import parse_tei_corpus

In [14]:
all_files = listdir("Maaleht/ML/maaleht/aja_maaleht_2001") + listdir("Maaleht/ML/maaleht/maaleht_2002") + listdir("Maaleht/ML/maaleht/maaleht_2003") + listdir("Maaleht/ML/maaleht/maaleht_2004")

In [29]:
random.sample(all_files, 5)

['aja_ml_2001_32.tasak.xml',
 'aja_ml_2003_31.xml',
 'aja_ml_2002_46.xml',
 'aja_ml_2001_26.xml',
 'aja_ml_2002_03.xml']

In [None]:
## random.sample result
"""['aja_ml_2001_32.tasak.xml',
 'aja_ml_2003_31.xml',
 'aja_ml_2002_46.xml',
 'aja_ml_2001_26.xml',
 'aja_ml_2002_03.xml']"""

In [15]:
result = parse_tei_corpus('Maaleht/ML/maaleht/aja_maaleht_2001/aja_ml_2001_32.tasak.xml')

In [16]:
result.extend(parse_tei_corpus('Maaleht/ML/maaleht/maaleht_2003/aja_ml_2003_31.xml'))

In [17]:
result.extend(parse_tei_corpus('Maaleht/ML/maaleht/maaleht_2002/aja_ml_2002_46.xml'))

In [18]:
result.extend(parse_tei_corpus('Maaleht/ML/maaleht/aja_maaleht_2001/aja_ml_2001_26.xml'))

In [19]:
result.extend(parse_tei_corpus('Maaleht/ML/maaleht/maaleht_2002/aja_ml_2002_03.xml'))

In [20]:
len(result)

225

In [22]:
sentences = []

for t in result:
    t.tag_layer()
    for sent in t.sentences:
        sent_text = " ".join(sent.text)
        sentences.append(Text(sent_text))

In [23]:
len(sentences)

10023

In [24]:
sentences[0]

text
08.08.2001 Maarius Suviste


#### tagging the sentences with stanza and obl extractor

In [25]:
for sent in sentences:
    sent.tag_layer('morph_extended')
    stanza(sent)

In [29]:
for sent in sentences:
    try:
        obl_extractor(sent)
    except:
        continue

In [34]:
for i, sent in enumerate(sentences):
    try:
        ent = sent.entities
    except:
        print(i)
        continue

1118
2534


#### finding all entities with the 'obl' tag

In [38]:
sentences[8].text, sentences[8].entities

('On õige öelda , et paljud maainimesed räägivad Rüütlist heldimusega , tema aega on ju võrreldud lausa vana hea Rootsi ajaga .',
 Layer(name='entities', attributes=('entity_type', 'free_entity', 'is_valid'), spans=SL[EnvelopingSpan(['Rüütlist', 'heldimusega'], [{'entity_type': None, 'free_entity': None, 'is_valid': None}]),
 EnvelopingSpan(['tema', 'aega'], [{'entity_type': None, 'free_entity': None, 'is_valid': None}]),
 EnvelopingSpan(['lausa', 'vana', 'hea', 'Rootsi', 'ajaga'], [{'entity_type': None, 'free_entity': None, 'is_valid': None}])]))

In [39]:
for span in sentences[8]['entities']:
    print(span.text)

['Rüütlist', 'heldimusega']
['tema', 'aega']
['lausa', 'vana', 'hea', 'Rootsi', 'ajaga']


In [40]:
all_entities = []

for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    for span in sent['entities']:
        all_entities.append(span.text)

In [41]:
len(all_entities)

12033

In [42]:
all_entities_tup = [tuple(ent) for ent in all_entities]

In [43]:
Counter(all_entities_tup).most_common(10)

[(('Eestis',), 77),
 (('ise',), 64),
 (('meil',), 51),
 (('sellest',), 49),
 (('mulle',), 40),
 (('endale',), 37),
 (('talle',), 35),
 (('tööle',), 34),
 (('korda',), 33),
 (('Eesti',), 32)]

In [44]:
for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    ent = sent.entities
    if 'mulle' in ent.text:
        print(sent.text)
        display(sent["stanza_syntax"])
        print("--------------")

Tegelikult on mul väga hea meel , et seda auraha mulle ei antud .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,14

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Tegelikult,1,tegelikult,D,D,OrderedDict(),3,advmod,_,_
on,2,olema,V,V,"OrderedDict([('vad', 'vad')])",3,cop,_,_
mul,3,mina,P,P,"OrderedDict([('sg', 'sg'), ('ad', 'ad')])",0,root,_,_
väga,4,väga,D,D,OrderedDict(),5,advmod,_,_
hea,5,hea,A,A,"OrderedDict([('sg', 'sg'), ('n', 'n')])",6,amod,_,_
meel,6,meel,S,S,"OrderedDict([('sg', 'sg'), ('n', 'n')])",3,nsubj:cop,_,_
",",7,",",Z,Z,OrderedDict(),13,punct,_,_
et,8,et,J,J,OrderedDict(),13,mark,_,_
seda,9,see,P,P,"OrderedDict([('sg', 'sg'), ('p', 'p')])",10,det,_,_
auraha,10,auraha,S,S,"OrderedDict([('sg', 'sg'), ('p', 'p')])",13,obj,_,_


--------------
Sellepärast , et ühed oleksid hakanud siis ütlema , et see medal , mille ma sain , on mulle liiga palju .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,22

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Sellepärast,1,sellepärast,D,D,OrderedDict(),0,root,_,_
",",2,",",Z,Z,OrderedDict(),6,punct,_,_
et,3,et,J,J,OrderedDict(),6,mark,_,_
ühed,4,üks,N,N,"OrderedDict([('pl', 'pl'), ('n', 'n')])",6,nsubj:cop,_,_
oleksid,5,olema,V,V,"OrderedDict([('ksid', 'ksid')])",6,cop,_,_
hakanud,6,hakanud,A,A,OrderedDict(),1,advcl,_,_
siis,7,siis,D,D,OrderedDict(),8,advmod,_,_
ütlema,8,ütlema,V,V,"OrderedDict([('ma', 'ma')])",6,xcomp,_,_
",",9,",",Z,Z,OrderedDict(),21,punct,_,_
et,10,et,J,J,OrderedDict(),21,mark,_,_


--------------
Selle kinkisid mulle soomlastest perekonnatuttavad .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,6

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Selle,1,Selle,H,H,"OrderedDict([('sg', 'sg'), ('n', 'n')])",0,root,_,_
kinkisid,2,kinkima,V,V,"OrderedDict([('sid', 'sid')])",1,conj,_,_
mulle,3,mina,P,P,"OrderedDict([('sg', 'sg'), ('all', 'all')])",2,obl,_,_
soomlastest,4,soomlane,S,S,"OrderedDict([('pl', 'pl'), ('el', 'el')])",5,nmod,_,_
perekonnatuttavad,5,perekonnatuttav,S,S,"OrderedDict([('pl', 'pl'), ('n', 'n')])",2,obj,_,_
.,6,.,Z,Z,OrderedDict(),1,punct,_,_


--------------
Raporteerima tormanud ohvitserid mulle tähelepanu ei pööra , kui kõrget ülemust nagu ilmutist põrnitsema jään .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,16

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Raporteerima,1,raporteerima,V,V,"OrderedDict([('ma', 'ma')])",2,xcomp,_,_
tormanud,2,tormanud,A,A,"OrderedDict([('pl', 'pl'), ('n', 'n')])",3,acl,_,_
ohvitserid,3,ohvitser,S,S,"OrderedDict([('pl', 'pl'), ('n', 'n')])",7,nsubj,_,_
mulle,4,mina,P,P,"OrderedDict([('sg', 'sg'), ('all', 'all')])",7,obl,_,_
tähelepanu,5,tähelepanu,S,S,"OrderedDict([('sg', 'sg'), ('p', 'p')])",7,obj,_,_
ei,6,ei,V,V,"OrderedDict([('neg', 'neg')])",7,aux,_,_
pööra,7,pöörama,V,V,"OrderedDict([('o', 'o')])",0,root,_,_
",",8,",",Z,Z,OrderedDict(),15,punct,_,_
kui,9,kui,J,J,OrderedDict(),15,mark,_,_
kõrget,10,kõrge,A,A,"OrderedDict([('sg', 'sg'), ('p', 'p')])",11,amod,_,_


--------------


AttributeError: 'Text' object has no layer 'entities'

In [45]:
for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    ent = sent.entities
    if 'tööle' in ent.text:
        print(sent.text)
        display(sent["stanza_syntax"])
        print("--------------")

“ Kui ma 60. aastail Estoniasse tööle tulin , oli siin põhiline punane kari , ” ütleb Peeter Kibe .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,20

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
“,1,“,Z,Z,OrderedDict(),8,punct,_,_
Kui,2,kui,D,D,OrderedDict(),8,mark,_,_
ma,3,mina,P,P,"OrderedDict([('sg', 'sg'), ('n', 'n')])",8,nsubj,_,_
60.,4,60.,O,O,"OrderedDict([('?', '?')])",8,advcl,_,_
aastail,5,aasta,S,S,"OrderedDict([('pl', 'pl'), ('ad', 'ad')])",8,obl,_,_
Estoniasse,6,Estonia,H,H,"OrderedDict([('sg', 'sg'), ('ill', 'ill')])",8,advcl,_,_
tööle,7,töö,S,S,"OrderedDict([('sg', 'sg'), ('all', 'all')])",8,obl,_,_
tulin,8,tulema,V,V,"OrderedDict([('sin', 'sin')])",14,csubj:cop,_,_
",",9,",",Z,Z,OrderedDict(),8,punct,_,_
oli,10,olema,V,V,"OrderedDict([('s', 's')])",14,cop,_,_


--------------
Minu jaoks on malev vahelduseks koolmeistritööle , ” kinnitab Sutt , kes 1994. aasta suvel pani oma kooli juures tööle mõnikümmend õpilast .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,23

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Minu,1,mina,P,P,"OrderedDict([('sg', 'sg'), ('g', 'g')])",5,obl,_,_
jaoks,2,jaoks,K,K,OrderedDict(),1,case,_,_
on,3,olema,V,V,"OrderedDict([('b', 'b')])",5,cop,_,_
malev,4,malev,S,S,"OrderedDict([('sg', 'sg'), ('n', 'n')])",5,nsubj:cop,_,_
vahelduseks,5,vaheldus,S,S,"OrderedDict([('sg', 'sg'), ('tr', 'tr')])",0,root,_,_
koolmeistritööle,6,koolmeistritöö,S,S,"OrderedDict([('sg', 'sg'), ('all', 'all')])",5,obl,_,_
",",7,",",Z,Z,OrderedDict(),5,punct,_,_
”,8,”,Z,Z,OrderedDict(),5,punct,_,_
kinnitab,9,kinnitama,V,V,"OrderedDict([('b', 'b')])",5,parataxis,_,_
Sutt,10,Sutt,H,H,"OrderedDict([('sg', 'sg'), ('n', 'n')])",9,xcomp,_,_


--------------
“ Selgitasin firmadele , et lapsed , kes tulevad tööle , on teie tulevased töötajad , andke terekäsi ! ” meenutab direktor .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,23

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
“,1,“,Z,Z,OrderedDict(),2,punct,_,_
Selgitasin,2,selgitama,V,V,"OrderedDict([('sin', 'sin')])",0,root,_,_
firmadele,3,firma,S,S,"OrderedDict([('pl', 'pl'), ('all', 'all')])",2,obl,_,_
",",4,",",Z,Z,OrderedDict(),17,punct,_,_
et,5,et,J,J,OrderedDict(),17,mark,_,_
lapsed,6,laps,S,S,"OrderedDict([('pl', 'pl'), ('n', 'n')])",17,nsubj,_,_
",",7,",",Z,Z,OrderedDict(),9,punct,_,_
kes,8,kes,P,P,"OrderedDict([('sg', 'sg'), ('n', 'n')])",9,nsubj,_,_
tulevad,9,tulema,V,V,"OrderedDict([('vad', 'vad')])",6,acl:relcl,_,_
tööle,10,töö,S,S,"OrderedDict([('sg', 'sg'), ('all', 'all')])",9,obl,_,_


--------------
Ettevõtted said julgust ja nüüd juba tahetakse meid tööle .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,10

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Ettevõtted,1,ettevõte,S,S,"OrderedDict([('pl', 'pl'), ('n', 'n')])",2,nsubj,_,_
said,2,saama,V,V,"OrderedDict([('sid', 'sid')])",0,root,_,_
julgust,3,julgus,S,S,"OrderedDict([('sg', 'sg'), ('p', 'p')])",2,obj,_,_
ja,4,ja,J,J,OrderedDict(),7,cc,_,_
nüüd,5,nüüd,D,D,OrderedDict(),7,advmod,_,_
juba,6,juba,D,D,OrderedDict(),7,advmod,_,_
tahetakse,7,tahtma,V,V,"OrderedDict([('takse', 'takse')])",2,conj,_,_
meid,8,mina,P,P,"OrderedDict([('pl', 'pl'), ('p', 'p')])",7,obj,_,_
tööle,9,töö,S,S,"OrderedDict([('sg', 'sg'), ('all', 'all')])",7,obl,_,_
.,10,.,Z,Z,OrderedDict(),2,punct,_,_


--------------
Teisipäeval avas AS Eesti Põlevkivi Ahtme-Viivikonna raudteelõigu , millel hakkas tööle taasiseseisvunud Eesti seniajani ainus uus raudteeliin .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,18

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Teisipäeval,1,teisipäev,S,S,"OrderedDict([('sg', 'sg'), ('ad', 'ad')])",2,obl,_,_
avas,2,avama,V,V,"OrderedDict([('s', 's')])",0,root,_,_
AS,3,AS,Y,Y,"OrderedDict([('?', '?')])",2,nsubj,_,_
Eesti,4,Eesti,H,H,"OrderedDict([('sg', 'sg'), ('g', 'g')])",5,nmod,_,_
Põlevkivi,5,põlevkivi,S,S,"OrderedDict([('sg', 'sg'), ('n', 'n')])",2,nsubj,_,_
Ahtme-Viivikonna,6,Ahtme-Viivikonna,H,H,"OrderedDict([('sg', 'sg'), ('g', 'g')])",2,xcomp,_,_
raudteelõigu,7,raudteelõik,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",2,obj,_,_
",",8,",",Z,Z,OrderedDict(),10,punct,_,_
millel,9,mis,P,P,"OrderedDict([('sg', 'sg'), ('ad', 'ad')])",10,obl,_,_
hakkas,10,hakkama,V,V,"OrderedDict([('s', 's')])",7,acl:relcl,_,_


--------------
Seepärast ei kibelegi meie ettevõtete juhid noori suveks tööle võtma - see tähendaks lisakulu .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,15

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Seepärast,1,seepärast,D,D,OrderedDict(),3,advmod,_,_
ei,2,ei,V,V,"OrderedDict([('neg', 'neg')])",3,aux,_,_
kibelegi,3,kibelema,V,V,"OrderedDict([('o', 'o')])",0,root,_,_
meie,4,mina,P,P,"OrderedDict([('pl', 'pl'), ('g', 'g')])",5,nmod,_,_
ettevõtete,5,ettevõte,S,S,"OrderedDict([('pl', 'pl'), ('g', 'g')])",6,nmod,_,_
juhid,6,juht,S,S,"OrderedDict([('pl', 'pl'), ('n', 'n')])",3,nsubj,_,_
noori,7,noor,S,S,"OrderedDict([('pl', 'pl'), ('p', 'p')])",10,obj,_,_
suveks,8,suvi,S,S,"OrderedDict([('sg', 'sg'), ('tr', 'tr')])",10,obl,_,_
tööle,9,töö,S,S,"OrderedDict([('sg', 'sg'), ('all', 'all')])",10,obl,_,_
võtma,10,võtma,V,V,"OrderedDict([('ma', 'ma')])",3,xcomp,_,_


--------------
Tööd teeksid ka nooremad kui 12aastased , kuigi seaduse järgi saab noore tööle võtta alles 13aastaselt .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,17

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Tööd,1,töö,S,S,"OrderedDict([('pl', 'pl'), ('n', 'n')])",2,nsubj,_,_
teeksid,2,tegema,V,V,"OrderedDict([('ksid', 'ksid')])",0,root,_,_
ka,3,ka,D,D,OrderedDict(),4,advmod,_,_
nooremad,4,noorem,C,C,"OrderedDict([('pl', 'pl'), ('n', 'n')])",2,xcomp,_,_
kui,5,kui,D,D,OrderedDict(),6,mark,_,_
12aastased,6,12aastane,A,A,"OrderedDict([('pl', 'pl'), ('n', 'n')])",4,advcl,_,_
",",7,",",Z,Z,OrderedDict(),14,punct,_,_
kuigi,8,kuigi,J,J,OrderedDict(),14,mark,_,_
seaduse,9,seadus,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",14,obl,_,_
järgi,10,järgi,K,K,OrderedDict(),9,case,_,_


--------------


AttributeError: 'Text' object has no layer 'entities'

In [46]:
for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    ent = sent.entities
    if 'Eestis' in ent.text:
        print(sent.text)
        display(sent["morph_analysis"])
        print("--------------")

Samuti ei saa teie haigestumise eest maksta Eesti haigekassa , kuna tema maksab Eesti kindlustatute ravimise eest vaid Eestis .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,20

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Samuti,Samuti,samuti,samuti,['samuti'],0,,,D
ei,ei,ei,ei,['ei'],0,,neg,V
saa,saa,saama,saa,['saa'],0,,o,V
teie,teie,sina,sina,['sina'],0,,pl g,P
haigestumise,haigestumise,haigestumine,haigestumine,['haigestumine'],0,,sg g,S
eest,eest,eest,eest,['eest'],0,,,K
maksta,maksta,maksma,maks,['maks'],ta,,da,V
Eesti,Eesti,Eesti,Eesti,['Eesti'],0,,sg g,H
haigekassa,haigekassa,haigekassa,haige_kassa,"['haige', 'kassa']",0,,sg n,S
",",",",",",",","[',']",,,,Z


--------------
Samaväärsetel alustel Eesti kindlustatutega saavad ka ajutiselt Eestis viibivad Soome , Rootsi , Läti või Leedu elanikud vajalikku vältimatut arstiabi .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,21

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Samaväärsetel,Samaväärsetel,samaväärne,sama_väärne,"['sama', 'väärne']",tel,,pl ad,A
alustel,alustel,alus,alus,['alus'],tel,,pl ad,S
,alustel,alune,alune,['alune'],tel,,pl ad,S
Eesti,Eesti,Eesti,Eesti,['Eesti'],0,,sg g,H
kindlustatutega,kindlustatutega,kindlustatu,kindlustatu,['kindlustatu'],tega,,pl kom,S
saavad,saavad,saama,saa,['saa'],vad,,vad,V
ka,ka,ka,ka,['ka'],0,,,D
ajutiselt,ajutiselt,ajutiselt,ajutiselt,['ajutiselt'],0,,,D
Eestis,Eestis,Eesti,Eesti,['Eesti'],s,,sg in,H
viibivad,viibivad,viibima,viibi,['viibi'],vad,,vad,V


--------------
või mõne teise riigi kodaniku pass , milles on Eestis kehtiv elamisluba


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,12

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
või,või,või,või,['või'],0,,,J
mõne,mõne,mõni,mõni,['mõni'],0,,sg g,P
teise,teise,teine,teine,['teine'],0,,sg g,P
,teise,teine,teine,['teine'],0,,sg g,O
riigi,riigi,riik,riik,['riik'],0,,sg g,S
kodaniku,kodaniku,kodanik,kodanik,['kodanik'],0,,sg g,S
pass,pass,pass,pass,['pass'],0,,sg n,S
",",",",",",",","[',']",,,,Z
milles,milles,mis,mis,['mis'],s,,sg in,P
,milles,mis,mis,['mis'],s,,pl in,P


--------------
Kui inimene on haigestunud Eestis , aga tema edasine ravi Eestis ei ole võimalik , kerkib päevakorrale küsimus abi saamisest välismaal .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,22

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Kui,Kui,kui,kui,['kui'],0,,,J
,Kui,kui,kui,['kui'],0,,,D
inimene,inimene,inimene,inimene,['inimene'],0,,sg n,S
on,on,olema,ole,['ole'],0,,b,V
,on,olema,ole,['ole'],0,,vad,V
haigestunud,haigestunud,haigestuma,haigestu,['haigestu'],nud,,nud,V
,haigestunud,haigestunud,haigestunud,['haigestunud'],0,,,A
,haigestunud,haigestunud,haigestunud,['haigestunud'],d,,pl n,A
,haigestunud,haigestunud,haigestunud,['haigestunud'],0,,sg n,A
Eestis,Eestis,Eesti,Eesti,['Eesti'],s,,sg in,H


--------------
Erialaarstid otsustavad , kas soovitud ravi on patsiendile näidustatud ja põhjendatud ; kas Eestis puudub võimalus raviks ja millise välisriigi asutuses on soovitatav patsienti ravida .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,26

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Erialaarstid,Erialaarstid,erialaarst,eri_ala_arst,"['eri', 'ala', 'arst']",d,,pl n,S
otsustavad,otsustavad,otsustama,otsusta,['otsusta'],vad,,vad,V
",",",",",",",","[',']",,,,Z
kas,kas,kas,kas,['kas'],0,,,D
soovitud,soovitud,soovitud,soovitud,['soovitud'],0,,,A
,soovitud,soovima,soovi,['soovi'],tud,,tud,V
,soovitud,soovitud,soovitud,['soovitud'],0,,sg n,A
,soovitud,soovitud,soovitud,['soovitud'],d,,pl n,A
ravi,ravi,ravi,ravi,['ravi'],0,,sg n,S
on,on,olema,ole,['ole'],0,,b,V


--------------
Eestis on mahetootjatel raske oma kaupa kallimalt müüa .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,9

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Eestis,Eestis,Eesti,Eesti,['Eesti'],s,,sg in,H
on,on,olema,ole,['ole'],0,,b,V
,on,olema,ole,['ole'],0,,vad,V
mahetootjatel,mahetootjatel,mahetootja,mahe_tootja,"['mahe', 'tootja']",tel,,pl ad,S
raske,raske,raske,raske,['raske'],0,,sg n,A
oma,oma,oma,oma,['oma'],0,,sg g,P
kaupa,kaupa,kaupa,kaupa,['kaupa'],0,,,K
kallimalt,kallimalt,kallimalt,kallimalt,['kallimalt'],0,,,D
müüa,müüa,müüma,müü,['müü'],a,,da,V
.,.,.,.,['.'],,,,Z


--------------
1. aprillist tegutseb Järvamaal Ühistranspordi Keskus , maavalitsuse ja omavalitsuste osalusega mittetulundusühing , mis on Eestis esimene .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,18

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
1.,1.,1.,1.,['1.'],0,,?,O
aprillist,aprillist,aprill,aprill,['aprill'],st,,sg el,S
tegutseb,tegutseb,tegutsema,tegutse,['tegutse'],b,,b,V
Järvamaal,Järvamaal,Järvamaa,Järva_maa,"['Järva', 'maa']",l,,sg ad,H
Ühistranspordi,Ühistranspordi,ühistransport,ühis_transport,"['ühis', 'transport']",0,,sg g,S
Keskus,Keskus,keskus,keskus,['keskus'],0,,sg n,S
",",",",",",",","[',']",,,,Z
maavalitsuse,maavalitsuse,maavalitsus,maa_valitsus,"['maa', 'valitsus']",0,,sg g,S
ja,ja,ja,ja,['ja'],0,,,J
omavalitsuste,omavalitsuste,omavalitsus,oma_valitsus,"['oma', 'valitsus']",te,,pl g,S


--------------
Miljoni krooni eest Rõuge keskuse lähedale rajatud tehas on Eestis kuues .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,12

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Miljoni,Miljoni,miljon,miljon,['miljon'],0,,sg g,N
krooni,krooni,kroon,kroon,['kroon'],0,,sg g,S
eest,eest,eest,eest,['eest'],0,,,K
Rõuge,Rõuge,Rõuge,Rõuge,['Rõuge'],0,,sg g,H
keskuse,keskuse,keskus,keskus,['keskus'],0,,sg g,S
lähedale,lähedale,lähedale,lähedale,['lähedale'],0,,,K
rajatud,rajatud,rajatud,raja=tud,['rajatud'],0,,,A
,rajatud,rajama,raja,['raja'],tud,,tud,V
,rajatud,rajatud,raja=tud,['rajatud'],0,,sg n,A
,rajatud,rajatud,raja=tud,['rajatud'],d,,pl n,A


--------------
Eestis on nii , et kui sõnnikutoru kusagilt lekkima hakkab , siis on varsti paha haisu terve riik täis .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,20

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Eestis,Eestis,Eesti,Eesti,['Eesti'],s,,sg in,H
on,on,olema,ole,['ole'],0,,b,V
,on,olema,ole,['ole'],0,,vad,V
nii,nii,nii,nii,['nii'],0,,,D
",",",",",",",","[',']",,,,Z
et,et,et,et,['et'],0,,,J
kui,kui,kui,kui,['kui'],0,,,J
,kui,kui,kui,['kui'],0,,,D
sõnnikutoru,sõnnikutoru,sõnnikutoru,sõnniku_toru,"['sõnniku', 'toru']",0,,sg n,S
kusagilt,kusagilt,kusagilt,kusagilt,['kusagilt'],0,,,D


--------------
See on senini Eestis ainulaadne ja esmakordne ettevõtmine .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,9

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
See,See,see,see,['see'],0,,sg n,P
on,on,olema,ole,['ole'],0,,b,V
,on,olema,ole,['ole'],0,,vad,V
senini,senini,senini,senini,['senini'],0,,,D
Eestis,Eestis,Eesti,Eesti,['Eesti'],s,,sg in,H
ainulaadne,ainulaadne,ainulaadne,ainu_laadne,"['ainu', 'laadne']",0,,sg n,A
ja,ja,ja,ja,['ja'],0,,,J
esmakordne,esmakordne,esmakordne,esma_kordne,"['esma', 'kordne']",0,,sg n,A
ettevõtmine,ettevõtmine,ettevõtmine,ette_võtmine,"['ette', 'võtmine']",0,,sg n,S
.,.,.,.,['.'],,,,Z


--------------
Puupäevade raames toimuvad Eestis esimest korda kiviheitevõistlused masinal , mis on valmistatud muistsete eestlaste eeskujul kaks aastat tagasi .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,19

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Puupäevade,Puupäevade,puupäev,puu_päev,"['puu', 'päev']",de,,pl g,S
raames,raames,raames,raames,['raames'],0,,,K
toimuvad,toimuvad,toimuma,toimu,['toimu'],vad,,vad,V
Eestis,Eestis,Eesti,Eesti,['Eesti'],s,,sg in,H
esimest,esimest,esimene,esimene,['esimene'],t,,sg p,O
korda,korda,kord,kord,['kord'],0,,sg p,S
kiviheitevõistlused,kiviheitevõistlused,kiviheitevõistlus,kivi_heite_võistlus,"['kivi', 'heite', 'võistlus']",d,,pl n,S
masinal,masinal,masin,masin,['masin'],l,,sg ad,S
",",",",",",",","[',']",,,,Z
mis,mis,mis,mis,['mis'],0,,sg n,P


--------------
Riiklikul või omavalitsuste tasemel praegu Eestis noorte tööhõive probleemidega ei tegelda .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,12

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Riiklikul,Riiklikul,Riiklik,Riiklik,['Riiklik'],l,,sg ad,H
või,või,või,või,['või'],0,,,J
omavalitsuste,omavalitsuste,omavalitsus,oma_valitsus,"['oma', 'valitsus']",te,,pl g,S
tasemel,tasemel,tase,tase,['tase'],l,,sg ad,S
praegu,praegu,praegu,praegu,['praegu'],0,,,D
Eestis,Eestis,Eesti,Eesti,['Eesti'],s,,sg in,H
noorte,noorte,noor,noor,['noor'],te,,pl g,A
tööhõive,tööhõive,tööhõive,töö_hõive,"['töö', 'hõive']",0,,sg g,S
probleemidega,probleemidega,probleem,probleem,['probleem'],dega,,pl kom,S
ei,ei,ei,ei,['ei'],0,,neg,V


--------------
Kui meteoroloogia ja hüdroloogia instituudis võeti värsked ilmaandmed kokku , selgus , et vähemalt viimasel poolsajandil pole Eestis olnud kuumemat juulit .


layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,22

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Kui,Kui,kui,kui,['kui'],0,,,J
,Kui,kui,kui,['kui'],0,,,D
meteoroloogia,meteoroloogia,meteoroloogia,meteoroloogia,['meteoroloogia'],0,,sg g,S
ja,ja,ja,ja,['ja'],0,,,J
hüdroloogia,hüdroloogia,hüdroloogia,hüdroloogia,['hüdroloogia'],0,,sg g,S
instituudis,instituudis,instituut,instituut,['instituut'],s,,sg in,S
võeti,võeti,võtma,võt,['võt'],ti,,ti,V
värsked,värsked,värske,värske,['värske'],d,,pl n,A
ilmaandmed,ilmaandmed,ilmaandmed,ilma_andmed,"['ilma', 'andmed']",d,,pl n,S
kokku,kokku,kokku,kokku,['kokku'],0,,,D


--------------


AttributeError: 'Text' object has no layer 'entities'

#### finding all entities with 'obl' tag and locative case

In [47]:
sentences[3]

text
"Ei ole vist patt , kui võtta Arnold Rüütli elu viimatised üheksa aastat kokku nii ."

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,16
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,16
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,16
morph_extended,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech, punctuation_type, pronoun_type, letter_case, fin, verb_extension_suffix, subcat",morph_analysis,,True,16
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,16
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,1


In [48]:
sentences[3].morph_analysis[3]

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
patt,patt,patt,patt,['patt'],0,,sg n,S


In [49]:
sentences[3].morph_analysis[3].form[0]

'sg n'

In [50]:
full_cases = [
    ('n', 'nimetav'),
    ('g', 'omastav'),
    ('p', 'osastav'),
    ('ill', 'sisseütlev'),
    ('in', 'seesütlev'),
    ('el', 'seestütlev'),
    ('all', 'alaleütlev'),
    ('ad', 'alalütlev'),
    ('abl', 'alaltütlev'),
    ('tr', 'saav'),
    ('ter', 'rajav'),
    ('es', 'olev'),
    ('ab', 'ilmaütlev'),
    ('kom', 'kaasaütlev')]

In [51]:
cases = [case[0] for case in full_cases]

In [52]:
kohakaanded = ['sg ill', 'sg in', 'sg el', 'sg all', 'sg ad', 'sg abl', 
               'pl ill', 'pl in', 'pl el', 'pl all', 'pl ad', 'pl abl']

Initially leaving in all entities where at least one is locative because in a compound entity other words can be non-locative and the entire phrase can still be locative overall, ie ['kunagises', 'Estonia', 'kolhoosis'] ['sg in', 'sg g', 'sg in']

In [82]:
all_loc_entities = []

for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    for span in sent['entities']:
        loc = False
        forms = [f[0] for f in span.form]
        for f in forms:
            if f in kohakaanded:
                loc = True
        
        if loc:
            all_loc_entities.append(span.text)

In [83]:
len(all_loc_entities)

6958

In [58]:
all_loc_entities_tup = [tuple(ent) for ent in all_loc_entities]

In [59]:
Counter(all_loc_entities_tup).most_common(10)

[(('Eestis',), 77),
 (('meil',), 51),
 (('sellest',), 49),
 (('mulle',), 40),
 (('endale',), 37),
 (('talle',), 35),
 (('tööle',), 34),
 (('mul',), 32),
 (('millest',), 32),
 (('sõnul',), 32)]

In [60]:
for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    ent = sent.entities
    if 'mulle' in ent.text:
        print(sent.text)
        display(sent["stanza_syntax"])
        display(sent["entities"])
        print("--------------")
        break

Tegelikult on mul väga hea meel , et seda auraha mulle ei antud .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,14

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Tegelikult,1,tegelikult,D,D,OrderedDict(),3,advmod,_,_
on,2,olema,V,V,"OrderedDict([('vad', 'vad')])",3,cop,_,_
mul,3,mina,P,P,"OrderedDict([('sg', 'sg'), ('ad', 'ad')])",0,root,_,_
väga,4,väga,D,D,OrderedDict(),5,advmod,_,_
hea,5,hea,A,A,"OrderedDict([('sg', 'sg'), ('n', 'n')])",6,amod,_,_
meel,6,meel,S,S,"OrderedDict([('sg', 'sg'), ('n', 'n')])",3,nsubj:cop,_,_
",",7,",",Z,Z,OrderedDict(),13,punct,_,_
et,8,et,J,J,OrderedDict(),13,mark,_,_
seda,9,see,P,P,"OrderedDict([('sg', 'sg'), ('p', 'p')])",10,det,_,_
auraha,10,auraha,S,S,"OrderedDict([('sg', 'sg'), ('p', 'p')])",13,obj,_,_


layer name,attributes,parent,enveloping,ambiguous,span count
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,1

text,entity_type,free_entity,is_valid
['mulle'],,,


--------------


#### finding all entities with 'obl' tag and 'in', 'ill', 'el' locative case

In [61]:
sisekohakaanded = ['sg ill', 'sg in', 'sg el', 'pl ill', 'pl in', 'pl el']

In [62]:
all_sise_loc_entities = []

for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    for span in sent['entities']:
        loc = False
        forms = [f[0] for f in span.form]
        for f in forms:
            if f in sisekohakaanded:
                loc = True
        
        if loc:
            all_sise_loc_entities.append(span.text)

In [63]:
len(all_sise_loc_entities)

3365

In [64]:
all_sise_loc_entities_tup = [tuple(ent) for ent in all_sise_loc_entities]

In [65]:
Counter(all_sise_loc_entities_tup).most_common(10)

[(('Eestis',), 77),
 (('sellest',), 49),
 (('millest',), 32),
 (('Eestisse',), 23),
 (('vallas',), 18),
 (('milles',), 15),
 (('neist',), 13),
 (('tulevikus',), 11),
 (('Soomes',), 10),
 (('linnas',), 10)]

In [66]:
for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    ent = sent.entities
    if 'ajaleheküljest' in ent.text:
        print(sent.text)
        display(sent["stanza_syntax"])
        display(sent["entities"])
        print("--------------")
        break

Kui kõiki neid ükshaaval üles lugeda , jääks kahest ajaleheküljest väheks .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,12

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Kui,1,kui,J,J,OrderedDict(),6,mark,_,_
kõiki,2,kõik,P,P,"OrderedDict([('pl', 'pl'), ('p', 'p')])",3,det,_,_
neid,3,see,P,P,"OrderedDict([('pl', 'pl'), ('p', 'p')])",6,obj,_,_
ükshaaval,4,ükshaaval,D,D,OrderedDict(),6,advmod,_,_
üles,5,üles,D,D,OrderedDict(),6,compound:prt,_,_
lugeda,6,lugema,V,V,"OrderedDict([('da', 'da')])",8,advcl,_,_
",",7,",",Z,Z,OrderedDict(),6,punct,_,_
jääks,8,jääma,V,V,"OrderedDict([('ks', 'ks')])",0,root,_,_
kahest,9,kaks,N,N,"OrderedDict([('sg', 'sg'), ('el', 'el')])",10,nummod,_,_
ajaleheküljest,10,ajalehekülg,S,S,"OrderedDict([('sg', 'sg'), ('el', 'el')])",8,obl,_,_


layer name,attributes,parent,enveloping,ambiguous,span count
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,1

text,entity_type,free_entity,is_valid
"['kahest', 'ajaleheküljest']",,,


--------------


### Wordnet

#### Wordnet testing, to be changed so it properly takes into account multi-word entities.

In [67]:
from estnltk.wordnet import Wordnet

In [68]:
wn = Wordnet()

In [74]:
[lem[0] for lem in sentences[8]["entities"][0].lemma]

['rüütel', 'heldimus']

In [79]:
wn["rüütel"][0].hypernyms

["Synset('alamaadlik.n.01')"]

In [80]:
wn["rüütel"][0].closure("hypernym")

["Synset('alamaadlik.n.01')",
 "Synset('aristokraat.n.01')",
 "Synset('inimene.n.01')",
 "Synset('elusolend.n.01')",
 "Synset('olend.n.01')",
 "Synset('olev.n.02')"]

In [104]:
all_loc_entities_hypernyms = []
all_loc_entities_highest = []

for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    for span in sent['entities']:
        loc = False
        forms = [f[0] for f in span.form]
        for f in forms:
            if f in kohakaanded:
                loc = True
        
        if loc:
            lemma = [lem[0] for lem in span.lemma]
            try:
                ## takes first word but is INCORRECT, needs to take root of entity, the word with obl tag
                syns = wn[lemma[0]][0]
                hypernym = syns.hypernyms
                highest = syns.closure("hypernym")[-1]
                all_loc_entities_hypernyms.append((i, span.text, hypernym[0]))
                all_loc_entities_highest.append((i, span.text, highest))
            except:
                continue

In [105]:
len(all_loc_entities_hypernyms), len(all_loc_entities_highest)

(3411, 3411)

In [106]:
all_loc_entities_hypernyms[:3]

[(8, ['Rüütlist', 'heldimusega'], "Synset('alamaadlik.n.01')"),
 (16, ['kahest', 'ajaleheküljest'], "Synset('naturaalarv.n.01')"),
 (20, ['vallas'], "Synset('abstraktsioon.n.01')")]

In [107]:
hyp_literals = [ent[2].literal for ent in all_loc_entities_hypernyms]

In [108]:
hyp_literals[:3]

['alamaadlik', 'naturaalarv', 'abstraktsioon']

In [109]:
Counter(hyp_literals).most_common(10)

[('naturaalarv', 146),
 ('kuu', 109),
 ('inimene', 80),
 ('järgarv', 79),
 ('aastaaeg', 70),
 ('omadus', 69),
 ('spektrivärv', 63),
 ('ajavahemik', 54),
 ('koht', 52),
 ('kohustus', 48)]

In [110]:
high_literals = [ent[2].literal for ent in all_loc_entities_highest]

In [111]:
Counter(high_literals).most_common()

[('olev', 1349),
 ('fenomen', 774),
 ('abstraktsioon', 740),
 ('miski', 436),
 ('olemine', 74),
 ('olema', 17),
 ('tegema', 14),
 ('muutuma', 3),
 ('värviline', 2),
 ('omandama', 1),
 ('kiriklik', 1)]

In [112]:
Counter(hyp_literals).most_common(25)

[('naturaalarv', 146),
 ('kuu', 109),
 ('inimene', 80),
 ('järgarv', 79),
 ('aastaaeg', 70),
 ('omadus', 69),
 ('spektrivärv', 63),
 ('ajavahemik', 54),
 ('koht', 52),
 ('kohustus', 48),
 ('abstraktsioon', 43),
 ('elusolend', 43),
 ('osa', 40),
 ('nädalapäev', 39),
 ('keeleüksus', 37),
 ('organ', 34),
 ('aasta', 32),
 ('sotsiaalne grupp', 32),
 ('maa', 31),
 ('kehaosa', 30),
 ('äritegevuskoht', 29),
 ('tegevus', 28),
 ('maa-asula', 28),
 ('mander', 27),
 ('asula', 27)]

In [113]:
loc_time = [ent for ent in all_loc_entities_hypernyms if ent[2].literal in ["kuu", "aastaaeg", "ajavahemik", "koht", "nädalapäev", "aasta", "maa", "maa-asula", "mander", "asula"]]

In [114]:
len(loc_time)

469

In [128]:
sentences[121].stanza_syntax

layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,11

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Lihtsalt,1,lihtsalt,D,D,OrderedDict(),3,advmod,_,_
siin,2,siin,D,D,OrderedDict(),3,advmod,_,_
maal,3,maa,S,S,"OrderedDict([('sg', 'sg'), ('ad', 'ad')])",0,root,_,_
",",4,",",Z,Z,OrderedDict(),7,punct,_,_
saare,5,saar,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",6,nmod,_,_
tingimustes,6,tingimus,S,S,"OrderedDict([('pl', 'pl'), ('in', 'in')])",7,obl,_,_
läheb,7,minema,V,V,"OrderedDict([('b', 'b')])",3,conj,_,_
seda,8,see,P,P,"OrderedDict([('sg', 'sg'), ('p', 'p')])",7,nsubj,_,_
ikka,9,ikka,D,D,OrderedDict(),7,advmod,_,_
vaja,10,vaja,D,D,OrderedDict(),7,compound:prt,_,_


In [134]:
sentences[121]

text
"Lihtsalt siin maal , saare tingimustes läheb seda ikka vaja ."

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,11
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,11
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,11
morph_extended,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech, punctuation_type, pronoun_type, letter_case, fin, verb_extension_suffix, subcat",morph_analysis,,True,11
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,11
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,1


In [141]:
sentences[121].entities

layer name,attributes,parent,enveloping,ambiguous,span count
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,1

text,entity_type,free_entity,is_valid
"['saare', 'tingimustes']",,,


In [116]:
loc_time[:10]

[(121, ['saare', 'tingimustes'], "Synset('maa.n.02')"),
 (181, ['külas'], "Synset('maa-asula.n.01')"),
 (183, ['maast', 'ja', 'ilmast'], "Synset('koht.n.04')"),
 (219, ['puhkusel'], "Synset('ajavahemik.n.01')"),
 (267, ['aastail'], "Synset('aasta.n.02')"),
 (284,
  ['aastate',
   'jooksul',
   'olnud',
   'nii',
   'punase',
   'kui',
   'mustakirju',
   'karja',
   'aretusühistute',
   'nõukogus'],
  "Synset('aasta.n.02')"),
 (324, ['juuli', 'lõpus'], "Synset('kuu.n.01')"),
 (357, ['Euroopa', 'rikkusest'], "Synset('mander.n.01')"),
 (377, ['suvel'], "Synset('aastaaeg.n.01')"),
 (381, ['õppeaasta', 'pikendusele'], "Synset('aasta.n.02')")]

#### Wordnet with one word entities

In [151]:
sentences[0].entities.lemma[0]

Unnamed: 0,lemma
0,08.08.2001


In [155]:
sent['entities']

layer name,attributes,parent,enveloping,ambiguous,span count
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,4

text,entity_type,free_entity,is_valid
"['Lisaks', 'senistele', 'keskkonna', ',', 'ettevõtluse', ',', 'turismi', 'ja', ' ..., type: <class 'list'>, length: 11",,,
"['saarte', 'ja', 'mandri']",,,
"['saarte', 'ja', 'mandri', 'vahelise', 'ühenduse']",,,
['korraldamiseks'],,,


In [168]:
sent['entities'][3].lemma[0]

['korraldamine']

In [169]:
all_loc_entities_hypernyms_one_word = []
all_loc_entities_highest_one_word = []

for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    for span in sent['entities']:
        if len(span) == 1:
            loc = False
            f = span.form[0][0]
            if f in kohakaanded:
                loc = True

            if loc:
                lemma = span.lemma[0][0]
                try:
                    syns = wn[lemma][0]
                    hypernym = syns.hypernyms
                    highest = syns.closure("hypernym")[-1]
                    all_loc_entities_hypernyms_one_word.append((i, span.text, hypernym[0]))
                    all_loc_entities_highest_one_word.append((i, span.text, highest))
                except:
                    continue

In [195]:
one_word_ent = []

for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    for span in sent['entities']:
        if len(span) == 1:
            loc = False
            f = span.form[0][0]
            if f in kohakaanded:
                loc = True
            if loc:
                one_word_ent.append(span)

In [197]:
all_ent = []

for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    for span in sent['entities']:
        loc = False
        f = span.form[0][0]
        if f in kohakaanded:
            loc = True
        if loc:
            all_ent.append(span)

In [198]:
len(all_ent)

4687

In [196]:
len(one_word_ent)

3464

In [170]:
len(all_loc_entities_hypernyms_one_word), len(all_loc_entities_highest_one_word)

(2189, 2189)

In [171]:
hyp_literals_one_word = [ent[2].literal for ent in all_loc_entities_hypernyms_one_word]

In [172]:
high_literals_one_word = [ent[2].literal for ent in all_loc_entities_highest_one_word]

In [177]:
all_loc_entities_hypernyms_one_word[:5]

[(20, ['vallas'], "Synset('abstraktsioon.n.01')"),
 (20, ['perekonnas'], "Synset('hõimlased.n.01')"),
 (22, ['erialal'], "Synset('tegevusala.n.01')"),
 (28, ['maailmas'], "Synset('looduslik objekt.n.01')"),
 (28, ['konfliktis'], "Synset('põhijoon.n.01')")]

In [174]:
Counter(hyp_literals).most_common(25)

[('naturaalarv', 146),
 ('kuu', 109),
 ('inimene', 80),
 ('järgarv', 79),
 ('aastaaeg', 70),
 ('omadus', 69),
 ('spektrivärv', 63),
 ('ajavahemik', 54),
 ('koht', 52),
 ('kohustus', 48),
 ('abstraktsioon', 43),
 ('elusolend', 43),
 ('osa', 40),
 ('nädalapäev', 39),
 ('keeleüksus', 37),
 ('organ', 34),
 ('aasta', 32),
 ('sotsiaalne grupp', 32),
 ('maa', 31),
 ('kehaosa', 30),
 ('äritegevuskoht', 29),
 ('tegevus', 28),
 ('maa-asula', 28),
 ('mander', 27),
 ('asula', 27)]

In [175]:
Counter(high_literals_one_word).most_common()

[('olev', 921),
 ('fenomen', 524),
 ('abstraktsioon', 412),
 ('miski', 277),
 ('olemine', 55)]

In [178]:
loc_time_one_word = [ent for ent in all_loc_entities_hypernyms_one_word if ent[2].literal in ["kuu", "aastaaeg", "ajavahemik", "koht", "nädalapäev", "aasta", "maa", "maa-asula", "mander", "asula"]]

In [179]:
len(loc_time_one_word)

328

In [180]:
loc_time_one_word[:10]

[(181, ['külas'], "Synset('maa-asula.n.01')"),
 (219, ['puhkusel'], "Synset('ajavahemik.n.01')"),
 (267, ['aastail'], "Synset('aasta.n.02')"),
 (377, ['suvel'], "Synset('aastaaeg.n.01')"),
 (395, ['suvel'], "Synset('aastaaeg.n.01')"),
 (395, ['sügisel'], "Synset('aastaaeg.n.01')"),
 (434, ['suvelgi'], "Synset('aastaaeg.n.01')"),
 (439, ['hommikul'], "Synset('ajavahemik.n.01')"),
 (459, ['sügisel'], "Synset('aastaaeg.n.01')"),
 (463, ['muldadel'], "Synset('maa.n.02')")]

In [184]:
sentences[267].stanza_syntax

layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,20

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
“,1,“,Z,Z,OrderedDict(),8,punct,_,_
Kui,2,kui,D,D,OrderedDict(),8,mark,_,_
ma,3,mina,P,P,"OrderedDict([('sg', 'sg'), ('n', 'n')])",8,nsubj,_,_
60.,4,60.,O,O,"OrderedDict([('?', '?')])",8,advcl,_,_
aastail,5,aasta,S,S,"OrderedDict([('pl', 'pl'), ('ad', 'ad')])",8,obl,_,_
Estoniasse,6,Estonia,H,H,"OrderedDict([('sg', 'sg'), ('ill', 'ill')])",8,advcl,_,_
tööle,7,töö,S,S,"OrderedDict([('sg', 'sg'), ('all', 'all')])",8,obl,_,_
tulin,8,tulema,V,V,"OrderedDict([('sin', 'sin')])",14,csubj:cop,_,_
",",9,",",Z,Z,OrderedDict(),8,punct,_,_
oli,10,olema,V,V,"OrderedDict([('s', 's')])",14,cop,_,_


In [186]:
Counter([ent[1][0] for ent in loc_time_one_word]).most_common(20)

[('suvel', 17),
 ('sügisel', 15),
 ('linnas', 10),
 ('õhtul', 9),
 ('maale', 9),
 ('hetkel', 8),
 ('kevadel', 8),
 ('talvel', 8),
 ('jaanuarist', 8),
 ('külas', 7),
 ('Hommikul', 7),
 ('maal', 7),
 ('augustis', 7),
 ('Suvel', 7),
 ('hommikul', 6),
 ('augustil', 6),
 ('Teisipäeval', 6),
 ('aastas', 6),
 ('maast', 6),
 ('Euroopas', 5)]

In [188]:
len(loc_time_one_word), len(Counter([ent[1][0] for ent in loc_time_one_word]))

(328, 121)

In [187]:
for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    ent = sent.entities
    if 'suvel' in ent.text:
        print(sent.text)
        display(sent["stanza_syntax"])
        display(sent["entities"])
        print("--------------")
        break

Ainult väga hea tahtmise korral ning sitke eestvedaja abil saavad lapsed suvel tööd


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,13

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Ainult,1,ainult,D,D,OrderedDict(),2,advmod,_,_
väga,2,väga,D,D,OrderedDict(),3,advmod,_,_
hea,3,hea,A,A,"OrderedDict([('sg', 'sg'), ('g', 'g')])",4,amod,_,_
tahtmise,4,tahtmine,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",10,obl,_,_
korral,5,korral,K,K,OrderedDict(),4,case,_,_
ning,6,ning,J,J,OrderedDict(),8,cc,_,_
sitke,7,sitke,A,A,"OrderedDict([('sg', 'sg'), ('n', 'n')])",8,amod,_,_
eestvedaja,8,eestvedaja,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",4,conj,_,_
abil,9,abil,K,K,OrderedDict(),8,case,_,_
saavad,10,saama,V,V,"OrderedDict([('vad', 'vad')])",0,root,_,_


layer name,attributes,parent,enveloping,ambiguous,span count
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,2

text,entity_type,free_entity,is_valid
"['Ainult', 'väga', 'hea', 'tahtmise', 'korral', 'ning', 'sitke', 'eestvedaja', 'abil']",,,
['suvel'],,,


--------------


### Removing location and time adverbs

In [206]:
one_word_loc = [loc for loc in all_loc_entities if len(loc) == 1]

In [208]:
one_word_loc[:10]

[['vallas'],
 ['perekonnas'],
 ['põllunduskoolis'],
 ['erialal'],
 ['maailmas'],
 ['konfliktis'],
 ['gümnaasiumis'],
 ['kellele'],
 ['minul'],
 ['sellest']]

In [213]:
one_word_loc = [loc[0] for loc in one_word_loc]

In [214]:
Counter(one_word_loc).most_common(10)

[('Eestis', 77),
 ('meil', 51),
 ('sellest', 49),
 ('mulle', 40),
 ('endale', 37),
 ('talle', 35),
 ('tööle', 34),
 ('mul', 32),
 ('millest', 32),
 ('sõnul', 32)]

In [211]:
one_word_loc_time_wn = [ent[1][0] for ent in loc_time_one_word]

In [212]:
one_word_loc_time_wn[:3]

['külas', 'puhkusel', 'aastail']

In [218]:
Counter(one_word_loc_time_wn).most_common(10)

[('suvel', 17),
 ('sügisel', 15),
 ('linnas', 10),
 ('õhtul', 9),
 ('maale', 9),
 ('hetkel', 8),
 ('kevadel', 8),
 ('talvel', 8),
 ('jaanuarist', 8),
 ('külas', 7)]

In [215]:
one_word_loc_wo_loc = []

for loc in one_word_loc:
    if loc not in one_word_loc_time_wn:
        one_word_loc_wo_loc.append(loc)

In [216]:
len(one_word_loc_wo_loc)

3136

In [217]:
Counter(one_word_loc_wo_loc).most_common(10)

[('Eestis', 77),
 ('meil', 51),
 ('sellest', 49),
 ('mulle', 40),
 ('endale', 37),
 ('talle', 35),
 ('tööle', 34),
 ('mul', 32),
 ('millest', 32),
 ('sõnul', 32)]

In [219]:
Counter(one_word_loc_wo_loc).most_common(20)

[('Eestis', 77),
 ('meil', 51),
 ('sellest', 49),
 ('mulle', 40),
 ('endale', 37),
 ('talle', 35),
 ('tööle', 34),
 ('mul', 32),
 ('millest', 32),
 ('sõnul', 32),
 ('neile', 28),
 ('tal', 27),
 ('Eestisse', 23),
 ('meile', 23),
 ('teile', 21),
 ('kellele', 20),
 ('vallas', 18),
 ('neil', 17),
 ('Meil', 17),
 ('milles', 15)]

In [234]:
asesonad = set()
asesonad_lemma = set()

for sentence in sentences:
    for word in sentence.stanza_syntax:
        pos = word["upostag"]
        if pos == "P":
            asesonad.add(word.text)
            asesonad_lemma.add(word.lemma)

In [235]:
len(asesonad), len(asesonad_lemma)

(602, 55)

In [237]:
one_word_loc_wo_loc[:3]

['vallas', 'perekonnas', 'põllunduskoolis']

In [238]:
without_loc_pron = []

for ent in one_word_loc_wo_loc:
    if ent not in asesonad:
        without_loc_pron.append(ent)

In [241]:
len(without_loc_pron)

2360

In [243]:
Counter(without_loc_pron).most_common(20)

[('Eestis', 77),
 ('tööle', 34),
 ('sõnul', 32),
 ('Eestisse', 23),
 ('vallas', 18),
 ('turul', 15),
 ('tulevikus', 11),
 ('Soomes', 10),
 ('vallast', 9),
 ('käest', 9),
 ('maailmas', 8),
 ('ELis', 8),
 ('kodus', 8),
 ('Venemaale', 8),
 ('metsas', 8),
 ('silmas', 7),
 ('elus', 7),
 ('talus', 7),
 ('Eestile', 7),
 ('seaduses', 7)]

In [245]:
len(set(one_word_loc))

1915

In [244]:
len(set(without_loc_pron))

1649

In [246]:
len(set(one_word_loc_time_wn))

121

#### Eemaldan elusolendid nimekirjast Wordneti abil

one_word_loc_wo_loc -> ühesõnalised "obl" tagiga entityd, mis on kohakäändes, aga millest on eemaldatud entityd, mille ülemmõiste Wordneti järgi oli mõni kohale või ajale viitav sõna; see on selleks, et näha, mis tüüpi sõnad muud "obl" märgendiga sõnad on

In [255]:
len(loc_time_one_word), len(set([ent[1][0] for ent in loc_time_one_word]))

(328, 121)

In [256]:
loc_time_one_word[0]

(181, ['külas'], "Synset('maa-asula.n.01')")

In [258]:
len(one_word_loc_wo_loc), len(set(one_word_loc_wo_loc))

(3136, 1794)

In [257]:
one_word_loc_wo_loc[0]

'vallas'

In [296]:
len(without_loc_pron)

2360

In [297]:
without_loc_pron[:3]

['vallas', 'perekonnas', 'põllunduskoolis']

In [259]:
all_loc_entities_hypernyms_one_word[:3]

[(20, ['vallas'], "Synset('abstraktsioon.n.01')"),
 (20, ['perekonnas'], "Synset('hõimlased.n.01')"),
 (22, ['erialal'], "Synset('tegevusala.n.01')")]

In [261]:
all_loc_entities_hypernyms_one_word[0][2].literal

'abstraktsioon'

In [262]:
all_wn_literals = [ent[2].literal for ent in all_loc_entities_hypernyms_one_word]

In [265]:
literals_counter = Counter(all_wn_literals)

In [267]:
common_literals = [lit for lit in literals_counter.most_common() if lit[1] >= 5]

In [268]:
len(common_literals)

110

In [269]:
common_literals

[('kuu', 70),
 ('aastaaeg', 68),
 ('spektrivärv', 56),
 ('inimene', 55),
 ('ajavahemik', 45),
 ('kohustus', 43),
 ('elusolend', 37),
 ('keeleüksus', 36),
 ('abstraktsioon', 34),
 ('koht', 30),
 ('äritegevuskoht', 29),
 ('nädalapäev', 28),
 ('tegevus', 26),
 ('kehaosa', 26),
 ('maa', 25),
 ('aeg', 23),
 ('organ', 22),
 ('asula', 22),
 ('sotsiaalne grupp', 19),
 ('maa-asula', 18),
 ('rahvusriik', 18),
 ('joon', 18),
 ('liige', 18),
 ('aasta', 16),
 ('tegevusala', 15),
 ('piirkond', 15),
 ('eluruum', 15),
 ('üritus', 14),
 ('ministeerium', 14),
 ('mees', 14),
 ('farm', 13),
 ('suhtlus', 13),
 ('inimtegevus', 13),
 ('naturaalarv', 12),
 ('äri', 12),
 ('floora', 12),
 ('järgarv', 12),
 ('eeskiri', 11),
 ('looduslik objekt', 10),
 ('looduslik fenomen', 10),
 ('maapind', 10),
 ('ala', 10),
 ('seisund', 10),
 ('osa', 10),
 ('nägemiselund', 9),
 ('põhjus', 9),
 ('sõidutee', 9),
 ('aparaat', 9),
 ('asukoht', 9),
 ('reisija', 9),
 ('kate', 9),
 ('organisatsioon', 9),
 ('näit', 9),
 ('asjahuviline

In [277]:
elusolend_literal = ["inimene", "elusolend", "sotsiaalne grupp", "mees", "reisija", "järglane", "baltimaalane", "haige", "metsloom", "naine"]

In [276]:
[ent for ent in all_loc_entities_hypernyms_one_word if ent[2].literal == "sotsiaalne grupp"]

[(1529, ['sootsiumist'], "Synset('sotsiaalne grupp.n.01')"),
 (1535, ['rahvale'], "Synset('sotsiaalne grupp.n.01')"),
 (1794, ['peredest'], "Synset('sotsiaalne grupp.n.01')"),
 (2650, ['seisusesse'], "Synset('sotsiaalne grupp.n.01')"),
 (2767, ['rahvale'], "Synset('sotsiaalne grupp.n.01')"),
 (2799, ['rahvale'], "Synset('sotsiaalne grupp.n.01')"),
 (2918, ['ühiskonnale'], "Synset('sotsiaalne grupp.n.01')"),
 (3398, ['rahval'], "Synset('sotsiaalne grupp.n.01')"),
 (3934, ['erasektorisse'], "Synset('sotsiaalne grupp.n.01')"),
 (4874, ['rahval'], "Synset('sotsiaalne grupp.n.01')"),
 (4921, ['rahvale'], "Synset('sotsiaalne grupp.n.01')"),
 (5140, ['karjas'], "Synset('sotsiaalne grupp.n.01')"),
 (5674, ['perel'], "Synset('sotsiaalne grupp.n.01')"),
 (7455, ['karjas'], "Synset('sotsiaalne grupp.n.01')"),
 (7599, ['ühiskonnas'], "Synset('sotsiaalne grupp.n.01')"),
 (8764, ['karjast'], "Synset('sotsiaalne grupp.n.01')"),
 (9542, ['peredes'], "Synset('sotsiaalne grupp.n.01')"),
 (9544, ['Peres'

In [280]:
all_loc_entities_hypernyms_one_word[0]

(20, ['vallas'], "Synset('abstraktsioon.n.01')")

In [286]:
wn_pers = [ent for ent in all_loc_entities_hypernyms_one_word if ent[2].literal in elusolend_literal]

In [287]:
wn_pers[:3]

[(64, ['lugejatele'], "Synset('inimene.n.01')"),
 (157, ['eestlastele'], "Synset('baltimaalane.n.01')"),
 (244, ['patsiendile'], "Synset('haige.n.01')")]

In [289]:
wn_pers_words = [ent[1][0] for ent in wn_pers]

In [288]:
one_word_loc_wo_loc[:3]

['vallas', 'perekonnas', 'põllunduskoolis']

In [298]:
loc_wo_pers = [word for word in without_loc_pron if word not in wn_pers_words]

In [299]:
len(loc_wo_pers)

2203

In [300]:
loc_wo_person_counter = Counter(loc_wo_pers)

In [301]:
loc_wo_person_counter.most_common()

[('Eestis', 77),
 ('tööle', 34),
 ('sõnul', 32),
 ('Eestisse', 23),
 ('vallas', 18),
 ('turul', 15),
 ('tulevikus', 11),
 ('Soomes', 10),
 ('vallast', 9),
 ('käest', 9),
 ('maailmas', 8),
 ('ELis', 8),
 ('kodus', 8),
 ('Venemaale', 8),
 ('metsas', 8),
 ('silmas', 7),
 ('elus', 7),
 ('talus', 7),
 ('Eestile', 7),
 ('seaduses', 7),
 ('välismaal', 6),
 ('riigile', 6),
 ('Soomest', 6),
 ('taotlejale', 6),
 ('laudas', 5),
 ('päevas', 5),
 ('ametisse', 5),
 ('kasutusele', 5),
 ('kodust', 5),
 ('tavalisest', 5),
 ('põllule', 5),
 ('tööl', 5),
 ('EList', 5),
 ('turult', 5),
 ('lähiajal', 5),
 ('turule', 5),
 ('kokkuleppele', 4),
 ('välismaale', 4),
 ('järjekorras', 4),
 ('poolel', 4),
 ('koolis', 4),
 ('komisjonile', 4),
 ('tänapäeval', 4),
 ('käes', 4),
 ('Internetis', 4),
 ('saatesse', 4),
 ('rahast', 4),
 ('rukkikasvatajatele', 4),
 ('kaasomandisse', 4),
 ('ülikoolis', 4),
 ('kotist', 4),
 ('Tartus', 4),
 ('laval', 4),
 ('ajal', 4),
 ('korras', 4),
 ('senisest', 4),
 ('võimule', 4),
 ('poli

In [313]:
wn["tulevik"][0].hypernyms[0].literal

'aeg'

In [314]:
wn["maailm"][0].hypernyms[0].literal

'looduslik objekt'

In [323]:
wn["taotleja"][0].hypernyms[0].literal

'asjahuviline'

In [308]:
for i, sent in enumerate(sentences):
    if i in [1118, 2534]:
        continue
    ent = sent.entities
    if 'tulevikus' in ent.text:
        print(sent.text)
        display(sent["stanza_syntax"])
        display(sent["entities"])
        print("--------------")
        break

Põllumajandusministeeriumi keskkonnabüroo juhataja Eike Lepmets ütles , et maheviljeluse õpet on võimalik talupidajatele anda tulevikus keskkonnaprojektide kaudu .


layer name,attributes,parent,enveloping,ambiguous,span count
stanza_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_analysis,,False,18

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc
Põllumajandusministeeriumi,1,põllumajandusministeerium,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",2,nmod,_,_
keskkonnabüroo,2,keskkonnabüroo,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",3,nmod,_,_
juhataja,3,juhataja,S,S,"OrderedDict([('sg', 'sg'), ('n', 'n')])",6,nsubj,_,_
Eike,4,Eike,H,H,"OrderedDict([('sg', 'sg'), ('n', 'n')])",3,appos,_,_
Lepmets,5,Lepmets,H,H,"OrderedDict([('sg', 'sg'), ('n', 'n')])",4,xcomp,_,_
ütles,6,ütlema,V,V,"OrderedDict([('s', 's')])",0,root,_,_
",",7,",",Z,Z,OrderedDict(),12,punct,_,_
et,8,et,J,J,OrderedDict(),12,mark,_,_
maheviljeluse,9,maheviljelus,S,S,"OrderedDict([('sg', 'sg'), ('g', 'g')])",10,nmod,_,_
õpet,10,õpe,S,S,"OrderedDict([('sg', 'sg'), ('p', 'p')])",14,obj,_,_


layer name,attributes,parent,enveloping,ambiguous,span count
entities,"entity_type, free_entity, is_valid",,morph_analysis,False,3

text,entity_type,free_entity,is_valid
['talupidajatele'],,,
['tulevikus'],,,
"['keskkonnaprojektide', 'kaudu']",,,


--------------


### Kõik kohamäärused (obl tag ja kohakääne) ilma elusolenditeta

In [324]:
all_loc_entities[:3]

[['Rüütlist', 'heldimusega'],
 ['1970.', 'aastatel'],
 ['kahest', 'ajaleheküljest']]

In [326]:
all_loc_entities_one_word = [ent[0] for ent in all_loc_entities if len(ent) == 1]

In [328]:
len(all_loc_entities_one_word), all_loc_entities_one_word[0]

(3464, 'vallas')

In [329]:
all_loc_one_word_without_pron = []

for ent in all_loc_entities_one_word:
    if ent not in asesonad:
        all_loc_one_word_without_pron.append(ent)

In [331]:
len(all_loc_one_word_without_pron), all_loc_one_word_without_pron[0]

(2688, 'vallas')

In [332]:
wn_pers_words[0]

'lugejatele'

In [333]:
all_loc_wo_pers = [word for word in all_loc_one_word_without_pron if word not in wn_pers_words]

In [334]:
len(all_loc_wo_pers), all_loc_wo_pers[0]

(2531, 'vallas')

In [336]:
len(all_loc_wo_pers), len(loc_wo_pers)

(2531, 2203)

In [335]:
Counter(all_loc_wo_pers).most_common(25)

[('Eestis', 77),
 ('tööle', 34),
 ('sõnul', 32),
 ('Eestisse', 23),
 ('vallas', 18),
 ('suvel', 17),
 ('sügisel', 15),
 ('turul', 15),
 ('tulevikus', 11),
 ('Soomes', 10),
 ('linnas', 10),
 ('vallast', 9),
 ('õhtul', 9),
 ('maale', 9),
 ('käest', 9),
 ('maailmas', 8),
 ('ELis', 8),
 ('hetkel', 8),
 ('kodus', 8),
 ('Venemaale', 8),
 ('kevadel', 8),
 ('talvel', 8),
 ('metsas', 8),
 ('jaanuarist', 8),
 ('silmas', 7)]

In [339]:
len(set(all_loc_wo_pers)), len(set(loc_wo_pers))

(1668, 1547)

## Näitelaused