Use [RISE](https://github.com/damianavila/RISE) to display the slides.

```bash
pip install RISE
```

<H1 style="text-align: center;">
Tekstitöötluse põhietapid
</H1>

<H4 style="text-align: center;">
Dage Särg
</H4>

<H4 style="text-align: center;">
Automaatne info eraldamine eestikeelsest tekstist. 08.10.2020
</H4>

<H4 style="text-align: center;">
Notebook: https://tinyurl.com/nlp-notebook
</H4>

### Colab 101:

Google Colaboratory on veebipõhine keskkond, kus on mugav jooksutada Pythoni koodi ning jagada seda ka teistega.
Enda arvutisse midagi installida pole tarvis, piisab, kui omad Google kontot ja logid veebibrauseri kaudu sisse.

Colabi kasutamiseks:
* Ava käesolev notebook oma arvutis (https://tinyurl.com/nlp-notebook) 
* Logi oma google'i kontoga sisse (kui pole veel loginud)
* Salvesta käesolev märkmik enda Google Drive kettale, valides _File_ menüüst -> _Save a copy in Drive_.
* Ja saadki asuda katsetama.

<img src="pildid/põhietapid.png">

<img src="pildid/seg2.png">

## 1. Teksti segmenteerimine

In [1]:
from estnltk import Text
# Teksti töötlemiseks peame tegema stringi Text objektiks
text = Text("Festivalil osales üle 30 000 muusikahuvilise.")
text

text
Festivalil osales üle 30 000 muusikahuvilise.


In [2]:
# tag_layer() meetod märgib peale standardsed analüüsikihid,
# mida on vaja pea kõigi keeletöötlusülesannete juures
text.tag_layer()

text
Festivalil osales üle 30 000 muusikahuvilise.

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,7
compound_tokens,"type, normalized",,tokens,False,1
words,normalized_form,,,True,6
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,6


In [3]:
text.text

'Festivalil osales üle 30 000 muusikahuvilise.'

In [4]:
# Tokens e sõned - mitte alati lingvistiliselt motiveeritud
text.tokens

layer name,attributes,parent,enveloping,ambiguous,span count
tokens,,,,False,7

text
Festivalil
osales
üle
30
000
muusikahuvilise
.


In [5]:
# Words e sõnad - mõned tokenid ühendatakse edasiseks töötluseks kokku
text.words

layer name,attributes,parent,enveloping,ambiguous,span count
words,normalized_form,,,True,6

text,normalized_form
Festivalil,
osales,
üle,
30 000,30000.0
muusikahuvilise,
.,


<img src="pildid/seg3.png">

In [6]:
# On võimalik märgendada ka osalauseid
text = Text('Nendel, kes minu ja Oudekki kaotusele loodavad, \
on ettekujutus, et rahval polegi hääli.')

text.tag_layer(['clauses'])
text.clauses

layer name,attributes,parent,enveloping,ambiguous,span count
clauses,clause_type,,words,False,3

text,clause_type
"['Nendel', 'on', 'ettekujutus', ',']",regular
"[',', 'kes', 'minu', 'ja', 'Oudekki', 'kaotusele', 'loodavad', ',']",embedded
"['et', 'rahval', 'polegi', 'hääli', '.']",regular


<img src="pildid/seg4.png">

In [7]:
# Laused - punkt ei toimi alati eraldajana
text = Text('Tartu Rattaralli toimub 29. mail 2020. \
Tartu Rattaralli stardi- ja finišipaik \
on traditsiooniliselt Tartu kesklinnas, Turu tänaval.')
text.tag_layer()
text.sentences

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,2

text
"['Tartu', 'Rattaralli', 'toimub', '29.', 'mail', '2020.']"
"['Tartu', 'Rattaralli', 'stardi-', 'ja', 'finišipaik', 'on', 'traditsiooniliselt ..., type: <class 'list'>, length: 13"


In [8]:
# Tekst koosneb lausetest, mis koosnevad omakorda sõnadest
for sentence in text.sentences:
    print(' Lause: ', sentence.enclosing_text)
    for word in sentence:
        # Väljastame sõna ja sõnaliigi
        print( word.text, word.morph_analysis.partofspeech[0] )
    print()

 Lause:  Tartu Rattaralli toimub 29. mail 2020.
Tartu H
Rattaralli S
toimub V
29. O
mail S
2020. O

 Lause:  Tartu Rattaralli stardi- ja finišipaik on traditsiooniliselt Tartu kesklinnas, Turu tänaval.
Tartu H
Rattaralli S
stardi- S
ja J
finišipaik S
on V
traditsiooniliselt D
Tartu H
kesklinnas S
, Z
Turu H
tänaval S
. Z



## 2. Lemmatiseerimine

<img src="pildid/oad.png">

In [9]:
# Morf analüüs eesti keele puhul baassamm 
t = Text('Mida ubadest teha? Oad võib salatisse panna.').tag_layer()
t.lemma

Unnamed: 0,lemma
0.0,mis
,mis
1.0,uba
2.0,tegema
3.0,?
4.0,uba
5.0,võima
6.0,salat
7.0,panema
8.0,.


<img src="pildid/k2rbes.png">

<img src="pildid/morf1.png">

<img src="pildid/morf2.png">

In [10]:
# Morf analüüs eesti keele puhul baassamm 
t = Text('Mida ubadest teha? Oad võib salatisse panna.').tag_layer()
t.morph_analysis

layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,9

text,normalized_text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Mida,Mida,mis,mis,['mis'],da,,pl p,P
,Mida,mis,mis,['mis'],da,,sg p,P
ubadest,ubadest,uba,uba,['uba'],dest,,pl el,S
teha,teha,tegema,tege,['tege'],a,,da,V
?,?,?,?,['?'],,,,Z
Oad,Oad,uba,uba,['uba'],d,,pl n,S
võib,võib,võima,või,['või'],b,,b,V
salatisse,salatisse,salat,salat,['salat'],sse,,sg ill,S
panna,panna,panema,pane,['pane'],a,,da,V
.,.,.,.,['.'],,,,Z


In [11]:
# Võime vaadata ka vaid parajasti huvitavaid atribuute, mitte kogu analüüsi
t.morph_analysis['text', 'lemma', 'partofspeech']

Unnamed: 0,text,lemma,partofspeech
0.0,Mida,mis,P
,Mida,mis,P
1.0,ubadest,uba,S
2.0,teha,tegema,V
3.0,?,?,Z
4.0,Oad,uba,S
5.0,võib,võima,V
6.0,salatisse,salat,S
7.0,panna,panema,V
8.0,.,.,Z


#### Näide: leiame kõik tekstis olevad nimisõnad

In [12]:
my_text = Text('Nagu nimigi reedab, on nurgasaag kõige \
tõhusam tööriist erinevate puitdetailide lõikamiseks, \
kus eesmärgiks on saavutada täpne lõikenurk ning oluline on \
lõikenurga seadistamise võimalus. Näiteks pildiraamide \
meisterdamisel, kus on oluline, et detailide lõikenurgad \
oleksid kõik täpselt 45 kraadi. Sellisel juhul on nurgasaag \
täiuslikuks tööriistaks, sest tagab täpsuse ja lõike korratavuse. \
Üldiselt on valdav osa nurgasaage seadistatavad 45-kraadise \
lõikenurga alla vähemalt ühes suunas. Lisaks võimaldavad mõned \
saed veel ka saetera kaldenurga seadistamist, mis tuleb kasuks \
keerukamate detailide lõikamisel. Nurgasaag on väga tõhus ka \
kitsamate, kuni 30 cm laiuste puulaudade või muude puitdetailide \
ristlõigete tegemiseks ehk järkamiseks, mida tuleb palju ette näiteks \
puitkonstruktsioonide ehitamisel või ka näiteks terrassilaudade \
või puitparketi paigaldamisel.')
my_text.tag_layer()

text
"Nagu nimigi reedab, on nurgasaag kõige tõhusam tööriist erinevate puitdetailide lõikamiseks, kus eesmärgiks on saavutada täpne lõikenurk ning oluline on lõikenurga seadistamise võimalus. Näiteks pildiraamide meisterdamisel, kus on oluline, et detailide lõikenurgad oleksid kõik täpselt 45 kraadi. Sellisel juhul on nurgasaag täiuslikuks tööriistaks, sest tagab täpsuse ja lõike korratavuse. Üldiselt on valdav osa nurgasaage seadistatavad 45-kraadise lõikenurga alla vähemalt ühes suunas. Lisaks võimaldavad mõned saed veel ka saetera kaldenurga seadistamist, mis tuleb kasuks keerukamate detailide lõikamisel. Nurgasaag on väga tõhus ka kitsamate, kuni 30 cm laiuste puulaudade või muude puitdetailide ristlõigete tegemiseks ehk järkamiseks, mida tuleb palju ette näiteks puitkonstruktsioonide ehitamisel või ka näiteks terrassilaudade või puitparketi paigaldamisel."

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,6
tokens,,,,False,124
compound_tokens,"type, normalized",,tokens,False,1
words,normalized_form,,,True,122
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,122


In [13]:
noun_lemmas = []
for lemmas, postags in zip(my_text.lemma, my_text.partofspeech):
    if 'S' in postags: # text.lemma ja partofspeech on listid, kuna analüüse võib olla mitu
        noun_lemmas += lemmas
noun_lemmas  

from collections import Counter
Counter(noun_lemmas).most_common()

[('nurgasaag', 4),
 ('lõikenurk', 4),
 ('näide', 3),
 ('tööriist', 2),
 ('puitdetail', 2),
 ('lõikamine', 2),
 ('seadistamine', 2),
 ('detail', 2),
 ('nimi', 1),
 ('eesmärk', 1),
 ('võimalus', 1),
 ('pildiraam', 1),
 ('meisterdamine', 1),
 ('kraad', 1),
 ('juht', 1),
 ('täpsus', 1),
 ('lõige', 1),
 ('korratavus', 1),
 ('osa', 1),
 ('suund', 1),
 ('lisa', 1),
 ('saag', 1),
 ('saetera', 1),
 ('kaldenurk', 1),
 ('kasu', 1),
 ('laius', 1),
 ('puulaud', 1),
 ('ristlõige', 1),
 ('tegemine', 1),
 ('järkamine', 1),
 ('puitkonstruktsioon', 1),
 ('ehitamine', 1),
 ('terrassilaud', 1),
 ('puitparkett', 1),
 ('paigaldamine', 1)]

#### Näide: leiame kõik infinitiivset verbi sisaldavad laused:

In [14]:
infinitive_sentences = []
for sent in my_text.sentences: # vaatame teksti lause kaupa
    for form in sent.form: # vaatame läbi kõik lause sõnade vormiinfod
        if 'da' in form:
            a = sent.enclosing_text # lause tekst stringina
            infinitive_sentences.append(a)
            break
infinitive_sentences

['Nagu nimigi reedab, on nurgasaag kõige tõhusam tööriist erinevate puitdetailide lõikamiseks, kus eesmärgiks on saavutada täpne lõikenurk ning oluline on lõikenurga seadistamise võimalus.']

### 4. Süntaktiline analüüs

<img src="pildid/synt1.png">

<img src="pildid/synt2.png">

<img src="pildid/synt3.png">

<img src="pildid/synt4.png">

<img src="pildid/synt5.png">

<img src="pildid/synt6.png">

## Märgendajad e taggerid
#### võimaldavad vajadusel lisada kihte, mida läheb vaja mingis konkreetses analüüsitöövoos

In [15]:
# süntaksi tagger
from estnltk.taggers import MaltParserTagger
maltparser_tagger = MaltParserTagger()
maltparser_tagger

name,output layer,output attributes,input layers
MaltParserTagger,maltparser_syntax,"('id', 'lemma', 'upostag', 'xpostag', 'feats', 'head', 'deprel', 'deps', 'misc', 'parent_span', 'children')","('words', 'sentences', 'conll_morph')"

0,1
add_parent_and_children,True
syntax_dependency_retagger,"SyntaxDependencyRetagger(('maltparser_syntax',)->maltparser_syntax)"


In [16]:
from estnltk.taggers import ConllMorphTagger
conllmorph_tagger = ConllMorphTagger()
conllmorph_tagger

name,output layer,output attributes,input layers
ConllMorphTagger,conll_morph,"('id', 'form', 'lemma', 'upostag', 'xpostag', 'feats', 'head', 'deprel', 'deps', 'misc')","('sentences', 'morph_extended')"


In [17]:
# Lisame default_layers kihid
text = Text('Poe ees õlut joonud mehed häirisid kohalikke, aga ükskõikne politsei ei teinud midagi.').tag_layer(['sentences', 'words', 'morph_extended'])

# Lisame conll_morph kihi
conllmorph_tagger.tag(text)

text
"Poe ees õlut joonud mehed häirisid kohalikke, aga ükskõikne politsei ei teinud midagi."

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,15
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,15
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,15
morph_extended,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech, punctuation_type, pronoun_type, letter_case, fin, verb_extension_suffix, subcat",morph_analysis,,True,15
conll_morph,"id, form, lemma, upostag, xpostag, feats, head, deprel, deps, misc",morph_extended,,True,15


In [18]:
# Lõpuks MaltParseri kiht
maltparser_tagger.tag(text)
text.maltparser_syntax

layer name,attributes,parent,enveloping,ambiguous,span count
maltparser_syntax,"id, lemma, upostag, xpostag, feats, head, deprel, deps, misc, parent_span, children",,,False,15

text,id,lemma,upostag,xpostag,feats,head,deprel,deps,misc,parent_span,children
Poe,1,pood,S,S,"OrderedDict([('sg', ''), ('gen', '')])",2,@P>,,,"Span('ees', [{'id': 2, 'lemma': 'ees', 'upostag': 'K', 'xpostag': 'Kt', 'feats': ..., type: <class 'estnltk.layer.span.Span'>",()
ees,2,ees,K,Kt,,4,@ADVL,,,"Span('joonud', [{'id': 4, 'lemma': 'joo=nud', 'upostag': 'A', 'xpostag': 'A', 'f ..., type: <class 'estnltk.layer.span.Span'>","(""Span('Poe', [{'id': 1, 'lemma': 'pood', 'upostag': 'S', 'xpostag': 'S', 'feats ..., type: <class 'tuple'>, length: 1"
õlut,3,õlu,S,S,"OrderedDict([('sg', ''), ('part', '')])",4,@OBJ,,,"Span('joonud', [{'id': 4, 'lemma': 'joo=nud', 'upostag': 'A', 'xpostag': 'A', 'f ..., type: <class 'estnltk.layer.span.Span'>",()
joonud,4,joo=nud,A,A,"OrderedDict([('partic', '')])",5,@AN>,,,"Span('mehed', [{'id': 5, 'lemma': 'mees', 'upostag': 'S', 'xpostag': 'S', 'feats ..., type: <class 'estnltk.layer.span.Span'>","(""Span('ees', [{'id': 2, 'lemma': 'ees', 'upostag': 'K', 'xpostag': 'Kt', 'feats ..., type: <class 'tuple'>, length: 2"
mehed,5,mees,S,S,"OrderedDict([('pl', ''), ('nom', '')])",6,@SUBJ,,,"Span('häirisid', [{'id': 6, 'lemma': 'häiri', 'upostag': 'V', 'xpostag': 'V', 'f ..., type: <class 'estnltk.layer.span.Span'>","(""Span('joonud', [{'id': 4, 'lemma': 'joo=nud', 'upostag': 'A', 'xpostag': 'A', ..., type: <class 'tuple'>, length: 1"
häirisid,6,häiri,V,V,"OrderedDict([('indic', ''), ('impf', ''), ('ps3', ''), ('pl', '')])",0,ROOT,,,,"(""Span('mehed', [{'id': 5, 'lemma': 'mees', 'upostag': 'S', 'xpostag': 'S', 'fea ..., type: <class 'tuple'>, length: 1"
kohalikke,7,kohalik,A,A,"OrderedDict([('pl', ''), ('part', '')])",0,ROOT,,,,"(""Span(',', [{'id': 8, 'lemma': ',', 'upostag': 'Z', 'xpostag': 'Z', 'feats': Or ..., type: <class 'tuple'>, length: 2"
",",8,",",Z,Z,"OrderedDict([('Com', '')])",7,@Punc,,,"Span('kohalikke', [{'id': 7, 'lemma': 'kohalik', 'upostag': 'A', 'xpostag': 'A', ..., type: <class 'estnltk.layer.span.Span'>",()
aga,9,aga,J,Jc,,13,@J,,,"Span('teinud', [{'id': 13, 'lemma': 'tege', 'upostag': 'V', 'xpostag': 'V', 'fea ..., type: <class 'estnltk.layer.span.Span'>",()
ükskõikne,10,üks_kõikne,A,A,"OrderedDict([('sg', ''), ('nom', '')])",11,@AN>,,,"Span('politsei', [{'id': 11, 'lemma': 'politsei', 'upostag': 'S', 'xpostag': 'S' ..., type: <class 'estnltk.layer.span.Span'>",()


## 5. Semantiline analüüs

### Ajaväljendite tuvastamine

In [19]:
text3 = Text('EKA sisearhitektuuri osakond ja RMK \
avavad neljapäeval kell 16.00 \
RMK Tallinna kontoris (Toompuiestee 24) näituse')

In [20]:
# Märgendame ajaväljendid
from estnltk.taggers import TimexTagger

tagger = TimexTagger()
text3.tag_layer()
tagger.tag( text3 )

text
EKA sisearhitektuuri osakond ja RMK avavad neljapäeval kell 16.00 RMK Tallinna kontoris (Toompuiestee 24) näituse

0,1
document_creation_time,2020-10-08T16:12

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,19
compound_tokens,"type, normalized",,tokens,False,1
words,normalized_form,,,True,17
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,17
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,1


In [21]:
text3.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,1

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval
"['neljapäeval', 'kell', '16.00']",t1,TIME,2020-10-08T16:00,True,,,,,,,


In [22]:
# Soovi korral võime määratleda teksti loomise aja
text3 = Text('EKA sisearhitektuuri osakond ja RMK \
avavad neljapäeval kell 16.00 \
RMK Tallinna kontoris (Toompuiestee 24) näituse').tag_layer()
text3.meta['document_creation_time'] = '2019-10-27'
tagger.tag(text3)

text
EKA sisearhitektuuri osakond ja RMK avavad neljapäeval kell 16.00 RMK Tallinna kontoris (Toompuiestee 24) näituse

0,1
document_creation_time,2019-10-27

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,19
compound_tokens,"type, normalized",,tokens,False,1
words,normalized_form,,,True,17
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,17
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,1


In [23]:
text3.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,1

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval
"['neljapäeval', 'kell', '16.00']",t1,TIME,2019-10-31T16:00,True,,,,,,,


### Aadresside tuvastamine

In [24]:
# Toimub kahes etapis
from estnltk.taggers import AddressPartTagger, AddressGrammarTagger
address_token_tagger = AddressPartTagger(output_layer='address_tokens')
address_tagger = AddressGrammarTagger(output_layer='addresses', 
                                      input_layer='address_tokens')

In [25]:
text = Text("Ootame teid 2. novembril külla \
aadressil Aia 6, Tartu.").tag_layer(['words'])

In [26]:
# Esiteks märgime peale võimalikud aadresside komponendid
address_token_tagger.tag(text)["address_tokens"]

layer name,attributes,parent,enveloping,ambiguous,span count
address_tokens,"grammar_symbol, type",,,True,6

text,grammar_symbol,type
Ootame teid,RANDOM_TEXT,
2,MAJA,
novembril külla aadressil,RANDOM_TEXT,
Aia,TÄNAV,tänav
6,MAJA,
Tartu,ASULA,asula
,TÄNAV,tänav


In [27]:
# Teiseks leiame aadressid sealt, kus sobivad komponendid järjest esinevad
address_tagger.tag(text)['addresses']

layer name,attributes,parent,enveloping,ambiguous,span count
addresses,"grammar_symbol, TÄNAV, MAJA, ASULA, MAAKOND, INDEKS",,address_tokens,True,1

text,grammar_symbol,TÄNAV,MAJA,ASULA,MAAKOND,INDEKS
"['Aia', '6', 'Tartu']",ADDRESS,Aia,6,Tartu,,


<img src="pildid/verb.png">

In [28]:
from estnltk.taggers import VerbChainDetector
vc_detector = VerbChainDetector()

In [29]:
from estnltk import Text
# Loome teksti
text = Text('Kas Juku alustas kodutööga? Minuteada ei alustanud.')
# Lisame verbiahelate tuvastamiseks vajalikud sisendkihid
text.tag_layer(['words', 'sentences', 'morph_analysis', 'clauses'])

text
Kas Juku alustas kodutööga? Minuteada ei alustanud.

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,2
tokens,,,,False,9
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,9
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,9
clauses,clause_type,,words,False,2


In [30]:
# Tuvastame verbiahelad
vc_detector.tag( text )

# Väljastame verbiahelad (vastavad tekstid)
text.verb_chains

layer name,attributes,parent,enveloping,ambiguous,span count
verb_chains,"pattern, roots, word_ids, mood, polarity, tense, voice, remaining_verbs",,words,False,2

text,pattern,roots,word_ids,mood,polarity,tense,voice,remaining_verbs
['alustas'],['verb'],['alusta'],[2],indic,POS,imperfect,personal,False
"['ei', 'alustanud']","['ei', 'verb']","['ei', 'alusta']","[6, 7]",indic,NEG,imperfect,personal,False


## 4. Oma märgendajate kirjutamine

### PhraseTagger
#### võimaldab märgendada kihis järjest esinevaid elemente mingi atribuudi alusel

Proovime kirjutada taggerit, mis märgendaks lihtsaid nimisõnafraase.

In [31]:
from estnltk.taggers import PhraseTagger

# Kasutame fraaside esmaseks määratlemiseks sõnaliike
phrase_list = [
               { '_phrase_': ('A', 'S')},
               { '_phrase_':  ('C', 'S')},
               { '_phrase_':  ('U', 'S')}
              ]

In [32]:
# Defineerime taggeri, mis phrase_list muutujas olevaid fraasitüüpe märgendaks
phrase_tagger = PhraseTagger(output_layer='noun_phrases',
                      input_layer='morph_analysis',
                      input_attribute='partofspeech',
                      vocabulary=phrase_list,
                      key='_phrase_')

In [33]:
# Rakendame kirjutatud taggerit morfanalüüsitud tekstile
t = Text('Viimasedki pardid lendasid soojemale maale, \
kui jää läks liiga paksuks jõest toidu hankimiseks.').tag_layer()
phrase_tagger.tag(t)

text
"Viimasedki pardid lendasid soojemale maale, kui jää läks liiga paksuks jõest toidu hankimiseks."

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,15
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,15
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,15
noun_phrases,,,morph_analysis,False,3


In [34]:
# Leiame nimisõnafraasid
# Puuduvad algvormid
# Paremate tulemuste jaoks peaks arvesse võtma rohkem kui sõnaliike
t.noun_phrases

layer name,attributes,parent,enveloping,ambiguous,span count
noun_phrases,,,morph_analysis,False,3

text
"['Viimasedki', 'pardid']"
"['soojemale', 'maale']"
"['paksuks', 'jõest']"


In [35]:
# Dekoraator võimaldab lisada oma uuele kihile atribuute - lisame lemmad
def decorator(span, annotation):
    annotation['lemmas'] = ' '.join([l[0] for l in span.lemma])
    return True

In [36]:
# Uus phrase_tagger, mis paneb uude kihti ka fraasid algvormis
phrase_tagger2 = PhraseTagger(output_layer='noun_phrases2',
                      input_layer='morph_analysis',
                      input_attribute='partofspeech',
                      vocabulary=phrase_list,
                      key='_phrase_',
                      output_attributes = ['lemmas'],
                      decorator = decorator)

In [37]:
# Olemas ilusad algvormis fraasid
# Vaja oleks ka sõna vormiinfot arvestada
phrase_tagger2.tag(t)
t.noun_phrases2

layer name,attributes,parent,enveloping,ambiguous,span count
noun_phrases2,lemmas,,morph_analysis,False,3

text,lemmas
"['Viimasedki', 'pardid']",viimane part
"['soojemale', 'maale']",soojem maa
"['paksuks', 'jõest']",paks jõgi


In [38]:
# Täiendame dekoraatorit - arvestame ka vormide ühilduvust
def decorator2(span, annotation):
    annotation['lemmas'] = ' '.join([l[0] for l in span.lemma])
    
    ninataga_sg = ['sg ter', 'sg ab', 'sg kom', 'sg es']
    ninataga_pl = ['pl ter', 'pl ab', 'pl kom', 'pl es']
    # Omadussõna ja nimisõna samas vormis -> OK
    if span[0].form == span[1].form:
        return True
    # Omadussõna ainsuse omastavas ja nimisõna 4 viimases käändes ainsuses -> OK
    elif span[0].form[0] == 'sg g' and span[1].form[0] in ninataga_sg:
        return True
    # Omadussõna mitm omastavas ja nimisõna 4 viimases käändes mitm -> OK
    elif span[0].form[0] == 'pl g' and span[1].form[0] in ninataga_pl:
        return True
    # Kõik muud juhud -> ei sobi fraas
    else: 
        return False

In [39]:
phrase_tagger3 = PhraseTagger(output_layer='noun_phrases3',
                      input_layer='morph_analysis',
                      input_attribute='partofspeech',
                      vocabulary=phrase_list,
                      key='_phrase_',
                      output_attributes = ['lemmas'],
                      decorator = decorator2)

In [40]:
# Märgendame kolmanda nimisõnafraaside kihi
phrase_tagger3.tag(t)

text
"Viimasedki pardid lendasid soojemale maale, kui jää läks liiga paksuks jõest toidu hankimiseks."

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,15
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,15
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,15
noun_phrases,,,morph_analysis,False,3
noun_phrases2,lemmas,,morph_analysis,False,3
noun_phrases3,lemmas,,morph_analysis,False,2


In [41]:
# Tulemused vastavad ootustele
 t.noun_phrases3

layer name,attributes,parent,enveloping,ambiguous,span count
noun_phrases3,lemmas,,morph_analysis,False,2

text,lemmas
"['Viimasedki', 'pardid']",viimane part
"['soojemale', 'maale']",soojem maa


In [42]:
# Fraase on lihtne stringidena kätte saada
for i in t.noun_phrases3:
    print(i.lemmas)

viimane part
soojem maa


In [43]:
# Näide: leiame, millised nimisõnafraasid esinevad kõige sagedamini eesti vanasõnades

In [44]:
with open("data/proverbs.txt", "r", encoding = 'utf8') as fin:
    # Failis on iga vanasõna eraldi real - saame listi vanasõnadest
    proverbs = fin.readlines()

In [45]:
from collections import Counter
from tqdm import tqdm

# Loendur fraaside kokkulugemiseks
noun_phrases_counts = Counter()

for text in tqdm(proverbs): # vaatame vanasõnade listi järjest läbi
    t = Text(text).tag_layer() # teeme vanasõna Text objektiks ja analüüsime
    phrase_tagger3.tag(t) # märgime peale nimisõnafraasid oma parima taggeriga
    if len(t.noun_phrases3) > 0: 
        for p in t.noun_phrases3: # suurendame loendurit vastava fraasi kohal
            noun_phrases_counts[p.lemmas] += 1

100%|██████████| 1000/1000 [00:07<00:00, 131.93it/s]


In [46]:
# Saamegi kätte sagedasemad nimisõnafraasid
noun_phrases_counts.most_common(10)

[('tühi kõht', 11),
 ('vana koer', 11),
 ('vaene mees', 7),
 ('vana mees', 5),
 ('vaene inimene', 5),
 ('vana naine', 5),
 ('suur koer', 4),
 ('vana hobune', 4),
 ('tühi jutt', 4),
 ('noor koer', 3)]

### Nimeüksuste tuvastamine (NER - Named Entity Recognition)

EstNLTK sisaldab automaatset nimeüksuste tuvastajat. 

Programm võimaldab tuvastada 3 liiki nimeüksuseid:

* isikunimesid ( lühend: PER );

* asukohanimesid ( lühend: LOC );

* organisatsiooninimesid ( lühend: ORG )

In [47]:
from estnltk.taggers import NerTagger
ner_tagger = NerTagger()

# Milliseid kihte ner_tagger vajab?
ner_tagger.input_layers

('morph_analysis',)

In [48]:
from estnltk import Text
# tekitame näidisteksti
t = Text(''' Eesti President on Kersti Kaljulaid. Eesti Energia on \ 
Eesti riigile kuuluv rahvusvaheline energiaettevõte. ''')

# lisame tekstile vajamineva 'morph_analysis' kihi
t.tag_layer('morph_analysis')

# lisame nimeüksuste märgenduse
ner_tagger.tag(t)

text
Eesti President on Kersti Kaljulaid. Eesti Energia on \ Eesti riigile kuuluv rahvusvaheline energiaettevõte.

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,2
tokens,,,,False,16
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,16
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,16
ner,nertag,,words,False,4


In [49]:
# väljastab tuvastatud nimeüksused
t.ner

layer name,attributes,parent,enveloping,ambiguous,span count
ner,nertag,,words,False,4

text,nertag
['Eesti'],LOC
"['Kersti', 'Kaljulaid']",PER
"['Eesti', 'Energia']",ORG
"['Eesti', 'riigile']",LOC


### Oma nimeüksuste lisamine

1) Leiame võimalikult suure hulga näiteid vastavast nimeüksusest
 
2) Märgendame ümber olemasoleva korpuse - anname seal esinevatele vastavatele nimeüksustele soovitud märgendid

3) Treenime nimeüksuste tuvastaja ümbermärgendatud korpuse peal

4) Märgendame oma nimeüksusi

### Oma nimeüksuste lisamine - kuidas luua leksikone?
1) Spetsiifilised allikad - nt eesnimede loetelu, ametite loetelu

2) Wordnet

3) Suurel korpusel treenitud sõnavektorid - nt word2vec


<img src="pildid/baas1.png">

<img src="pildid/baas2.png">

<img src="pildid/baas3.png">

<img src="pildid/baas7.png">

<img src="pildid/baas4.png">

In [50]:
# Wordneti kasutamiseks tuleb importida vastav moodul ja luua Wordneti objekt:
from estnltk.wordnet import Wordnet

wn = Wordnet()
toit = wn['toit']
toit

["Synset('toit.n.01')", "Synset('toit.n.02')", "Synset('toit.n.03')"]

In [51]:
toit[0].definition

'ettevalmistatud (keedetud, küpsetatud, grillitud, lõigutud vm) toiduained lauale panemiseks ja söömiseks; valmisained, mida süüakse kõhu täitmiseks'

In [52]:
toit[2].definition

'aine, mida süüakse või omandatakse muul moel kehasse, et hoida alal elu, saada energiat jne'

In [53]:
toidud = toit[2].closure('hyponym')

In [54]:
toidud[:20]

["Synset('sööt.n.01')",
 "Synset('söödavili.n.01')",
 "Synset('loomne sööt.n.01')",
 "Synset('kalajahu.n.01')",
 "Synset('loomajahu.n.01')",
 "Synset('verejahu.n.01')",
 "Synset('rohukuivis.n.01')",
 "Synset('mahlakas sööt.n.01')",
 "Synset('silo.n.01')",
 "Synset('märgsilo.n.01')",
 "Synset('kuivsilo.n.01')",
 "Synset('mesikasilo.n.01')",
 "Synset('kuivsööt.n.01')",
 "Synset('rohujahu.n.01')",
 "Synset('elussööt.n.01')",
 "Synset('haljassööt.n.01')",
 "Synset('rohusööt.n.01')",
 "Synset('kalasööt.n.01')",
 "Synset('õngesööt.n.01')",
 "Synset('koresööt.n.01')"]

In [55]:
len(toidud)

1616

In [56]:
toidud[1000].lemmas

['kohupiimakotlett', 'sõrnik']

<img src="pildid/välised.png">

<img src="pildid/ressursid1.png">

<img src="pildid/vahe.png">