Use [RISE](https://github.com/damianavila/RISE) to display the slides.

```bash
pip install RISE
```

<H1 style="text-align: center;">
EstNLTK - Pythoni teegid 
</H1>

<H1 style="text-align: center;">    
eestikeelsete tekstide automaattöötluseks
</H1>

<H4 style="text-align: center;">
Keeletehnoloogia infovahetuspäev 2020
</H4>

<H4 style="text-align: center;">
Dage Särg, Sven Laur 
</H4>

<H4 style="text-align: center;">
dage.sarg@ut.ee, sven.laur@ut.ee
</H4>

<img src="pildid2/why1.svg">

<img src="pildid2/why2.svg">

<img src="pildid2/try.svg">

In [1]:
from estnltk import Text
# Morf analüüs eesti keele puhul baassamm 
t = Text('Mida ubadest teha? Oad võib salatisse panna.').tag_layer()
t.morph_analysis

layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,9

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Mida,Mida,mis,mis,['mis'],da,,pl p,P
,Mida,mis,mis,['mis'],da,,sg p,P
ubadest,ubadest,uba,uba,['uba'],dest,,pl el,S
teha,teha,tegema,tege,['tege'],a,,da,V
?,?,?,?,['?'],,,,Z
Oad,Oad,uba,uba,['uba'],d,,pl n,S
võib,võib,võima,või,['või'],b,,b,V
salatisse,salatisse,salat,salat,['salat'],sse,,sg ill,S
panna,panna,panema,pane,['pane'],a,,da,V
.,.,.,.,['.'],,,,Z


<img src="pildid2/morf1.svg">

<img src="pildid2/morf2.svg">

In [2]:
t = Text('Põgeneja peeti tee lõpus kinni.').tag_layer()
t.morph_analysis

layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,6

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Põgeneja,Põgeneja,põgeneja,põgeneja,['põgeneja'],0,,sg n,S
peeti,peeti,pidama,pida,['pida'],ti,,ti,V
tee,tee,tee,tee,['tee'],0,,sg g,S
lõpus,lõpus,lõpp,lõpp,['lõpp'],s,,sg in,S
kinni,kinni,kinni,kinni,['kinni'],0,,,D
.,.,.,.,['.'],,,,Z


## Wordnet

* Andmebaas, mis sisaldab semantiliselt seotud mõisteid

* 2018 ~139 000 sõna


In [3]:
# Wordneti kasutamiseks tuleb importida vastav moodul ja luua Wordneti objekt:
from estnltk.wordnet import Wordnet

wn = Wordnet()
toit = wn['toit']
toit[2].definition

'aine, mida süüakse või omandatakse muul moel kehasse, et hoida alal elu, saada energiat jne'

In [4]:
toidud = toit[2].closure('hyponym')
toidud[700:710]

["Synset('juustupitsa.n.01')",
 "Synset('pepperonipitsa.n.01')",
 "Synset('pelmeen.n.01')",
 "Synset('peatoidus.n.02')",
 "Synset('tsepeliin.n.01')",
 "Synset('maius.n.01')",
 "Synset('šerbett.n.01')",
 "Synset('kompvek.n.01')",
 "Synset('piparmündikomm.n.01')",
 "Synset('nätsukomm.n.01')"]

In [5]:
len(toidud)

1616

## Nimeüksuste tuvastamine (NER - Named Entity Recognition)

EstNLTK sisaldab automaatset nimeüksuste tuvastajat. 

Programm võimaldab tuvastada 3 liiki nimeüksuseid:

* isikunimesid ( lühend: PER );

* asukohanimesid ( lühend: LOC );

* organisatsiooninimesid ( lühend: ORG )

In [6]:
from estnltk.taggers import NerTagger
ner_tagger = NerTagger()
t = Text(''' Eesti President on Kersti Kaljulaid. Eesti Energia on \ 
Eesti riigile kuuluv rahvusvaheline energiaettevõte. ''').tag_layer()

# Lisame nimeüksuste märgenduse
ner_tagger.tag(t)
# Väljastab tuvastatud nimeüksused
t.ner

layer name,attributes,parent,enveloping,ambiguous,span count
ner,nertag,,words,False,4

text,nertag
['Eesti'],LOC
"['Kersti', 'Kaljulaid']",PER
"['Eesti', 'Energia']",ORG
"['Eesti', 'riigile']",LOC


<img src="pildid2/uudis.svg">

## Ajaväljendite tuvastamine

In [7]:
from estnltk.taggers import TimexTagger
text3 = Text('EKA sisearhitektuuri osakond ja RMK avavad neljapäeval \
kell 16.00 RMK Tallinna kontoris (Toompuiestee 24) näituse')
tagger = TimexTagger()
text3.tag_layer()

# Märgendame ajaväljendid
tagger.tag( text3 )
text3.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,1

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval
"['neljapäeval', 'kell', '16.00']",t1,TIME,2020-12-10T16:00,True,,,,,,,


## Verbiahelate (sündmuste) tuvastamine

In [8]:
from estnltk.taggers import VerbChainDetector
vc_detector = VerbChainDetector()

text = Text('Kas Juku alustas kodutööga? Ei alustanud.')
text.tag_layer(['words', 'sentences', 'morph_analysis', 'clauses'])

# Tuvastame verbiahelad
vc_detector.tag( text )
text.verb_chains

layer name,attributes,parent,enveloping,ambiguous,span count
verb_chains,"pattern, roots, word_ids, mood, polarity, tense, voice, remaining_verbs",,words,False,2

text,pattern,roots,word_ids,mood,polarity,tense,voice,remaining_verbs
['alustas'],['verb'],['alusta'],[2],indic,POS,imperfect,personal,False
"['Ei', 'alustanud']","['ei', 'verb']","['ei', 'alusta']","[5, 6]",indic,NEG,imperfect,personal,False
