Use [RISE](https://github.com/damianavila/RISE) to display the slides.

```bash
pip install RISE
```

<H1 style="text-align: center;">
EstNLTK - Pythoni teegid 
</H1>

<H1 style="text-align: center;">    
eestikeelsete tekstide automaattöötluseks
</H1>

<H4 style="text-align: center;">
https://github.com/estnltk/estnltk
</H4>

<H4 style="text-align: center;">
Dage Särg, dage.sarg@ut.ee
</H4>

<img src="pildid2/wh1.svg">

<img src="pildid2/whyy2.svg">

<img src="pildid2/oad2.svg">

In [1]:
from estnltk import Text
t = Text('Mida ubadest teha? Oad võib salatisse panna.').tag_layer()
t.morph_analysis

layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,9

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Mida,Mida,mis,mis,['mis'],da,,pl p,P
,Mida,mis,mis,['mis'],da,,sg p,P
ubadest,ubadest,uba,uba,['uba'],dest,,pl el,S
teha,teha,tegema,tege,['tege'],a,,da,V
?,?,?,?,['?'],,,,Z
Oad,Oad,uba,uba,['uba'],d,,pl n,S
võib,võib,võima,või,['või'],b,,b,V
salatisse,salatisse,salat,salat,['salat'],sse,,sg ill,S
panna,panna,panema,pane,['pane'],a,,da,V
.,.,.,.,['.'],,,,Z


<img src="pildid2/morff1.svg">

<img src="pildid2/morff2.svg">

In [2]:
t = Text('Põgeneja peeti tee lõpus kinni.').tag_layer()
t.morph_analysis

layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,6

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Põgeneja,Põgeneja,põgeneja,põgeneja,['põgeneja'],0,,sg n,S
peeti,peeti,pidama,pida,['pida'],ti,,ti,V
tee,tee,tee,tee,['tee'],0,,sg g,S
lõpus,lõpus,lõpp,lõpp,['lõpp'],s,,sg in,S
kinni,kinni,kinni,kinni,['kinni'],0,,,D
.,.,.,.,['.'],,,,Z


## Wordnet

* Andmebaas, mis sisaldab semantiliselt seotud mõisteid

* 2018 ~139 000 sõna


In [3]:
from estnltk.wordnet import Wordnet
wn = Wordnet()
toit = wn['toit']
toit[0].definition

'ettevalmistatud (keedetud, küpsetatud, grillitud, lõigutud vm) toiduained lauale panemiseks ja söömiseks; valmisained, mida süüakse kõhu täitmiseks'

In [4]:
toidud = toit[0].closure('hyponym')
toidud[700:710]

["Synset('hapukapsasalat.n.01')",
 "Synset('garneering.n.01')",
 "Synset('dipp.n.01')",
 "Synset('tzatziki.n.01')",
 "Synset('kaste.n.01')",
 "Synset('vinegrett.n.01')",
 "Synset('seenekaste.n.01')",
 "Synset('salatikaste.n.01')",
 "Synset('Tuhande saare salatikaste.n.01')",
 "Synset('Vene salatikaste.n.01')"]

In [5]:
len(toidud)

942

## Nimeüksuste tuvastamine (NER - Named Entity Recognition)

EstNLTK sisaldab automaatset nimeüksuste tuvastajat, mis võimaldab tuvastada 3 liiki nimeüksuseid:
* isikunimesid ( lühend: PER );

* asukohanimesid ( lühend: LOC );

* organisatsiooninimesid ( lühend: ORG )

In [6]:
from estnltk.taggers import NerTagger
ner_tagger = NerTagger()
t = Text('Martin Helme kandideeris Selverisse müüjaks.').tag_layer()
ner_tagger.tag(t)
t.ner

layer name,attributes,parent,enveloping,ambiguous,span count
ner,nertag,,words,False,2

text,nertag
"['Martin', 'Helme']",PER
['Selverisse'],ORG


<img src="pildid2/uudis2.svg">

### Ajaväljendite tuvastamine

In [7]:
from estnltk.taggers import TimexTagger
text3 = Text('Neljapäeval kell 16.00 avame näituse.').tag_layer()
tagger = TimexTagger()
tagger.tag(text3)
text3.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,1

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval
"['Neljapäeval', 'kell', '16.00']",t1,TIME,2020-12-10T16:00,True,,,,,,,


### Verbiahelate (sündmuste) tuvastamine

In [8]:
from estnltk.taggers import VerbChainDetector
text = Text('Peaministrit ei umbusaldatud, aga puudu jäi vähe.')
text.tag_layer(['words', 'sentences', 'morph_analysis', 'clauses'])
vc_detector = VerbChainDetector()
vc_detector.tag(text)
text.verb_chains

layer name,attributes,parent,enveloping,ambiguous,span count
verb_chains,"pattern, roots, word_ids, mood, polarity, tense, voice, remaining_verbs",,words,False,2

text,pattern,roots,word_ids,mood,polarity,tense,voice,remaining_verbs
"['ei', 'umbusaldatud']","['ei', 'verb']","['ei', 'umb_usalda']","[1, 2]",indic,NEG,imperfect,impersonal,False
['jäi'],['verb'],['jää'],[6],indic,POS,imperfect,personal,False


### Veel võimalusi EstNLTK-s

* Fraasigrammatikad - täpne viis kirjeldada olulisi fraase
* Süntaktiline analüüs - sõnadevahelised seosed lauses
* Tehisnärvivõrgud - musta kasti meetodid tekstianalüüsiks
* ...

#### EstNLTK kasutamine
* Veebis - Google colab: https://tinyurl.com/estnltk-colab
* Installimine läbi Anaconda: https://github.com/estnltk/estnltk/tree/devel_1.6#version-16

* Juhendid: https://github.com/estnltk/estnltk/tree/devel_1.6/tutorials

#### EstNLTK lähtekood ja arendus: 
* https://github.com/estnltk/estnltk/tree/devel_1.6

#### Küsimused ja kommentaarid:
* Video autor: Dage Särg, dage.sarg@ut.ee
* EstNLTK projektijuht: Sven Laur, sven.laur@ut.ee