Use [RISE](https://github.com/damianavila/RISE) to display the slides.

```bash
pip install RISE
```

<H1 style="text-align: center;">
EstNLTK õpituba
</H1>

<H4 style="text-align: center;">
Dage Särg, Sven Laur
</H4>

<H4 style="text-align: center;">
Keeletehnoloogia konverents 5.11.2019
</H4>

## 0. Installimine
EstNLTK-d on kõige parem installida läbi Anaconda, mille saab alla laadida siit https://www.anaconda.com/distribution/ (Python 3.7 versioon).

Seejärel avage terminaliaken ning looge ja aktiveerige conda keskkond, mis kasutab Python 3.6:
```bash
conda create -n estnltk python=3.6 -y
conda activate estnltk
```
Installige loodud keskkonda EstNLTK 1.6 ning jupyter:
```bash
conda install -c estnltk -c conda-forge estnltk
conda install jupyter
```
Liikuge käsureal kausta, kuhu laadisite alla õpitoa materjalid ning käivitage notebook:
```bash
jupyter notebook EstNLTK
```

### Olulisemad käsud, milleta Notebookis läbi ei saa:
**Shift+Enter**: jooksuta lahter ja liigu järgmise juurde

### Shortcutid command mode'is (st kursorit pole lahtris!) 

**a**: uus lahter üles (_above_)

**b**: uus lahter alla (_below_)

**dd**: kustuta lahter (_delete_)

## Plaan:
1. Teksti segmenteerimine
2. Morfoloogiline analüüs & ühestamine
3. Standardmärgendajad e taggerid
4. Oma märgendajate kirjutamine
5. ...

## 1. Teksti segmenteerimine

In [1]:
from estnltk import Text
text = Text("Festivalil osales üle 30 000 muusikahuvilise.")
text

text
Festivalil osales üle 30 000 muusikahuvilise.


In [2]:
text.tag_layer()

text
Festivalil osales üle 30 000 muusikahuvilise.

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
tokens,,,,False,7
compound_tokens,"type, normalized",,tokens,False,1
words,normalized_form,,,True,6
morph_analysis,"lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,6


In [3]:
text.tokens

layer name,attributes,parent,enveloping,ambiguous,span count
tokens,,,,False,7

text
Festivalil
osales
üle
30
000
muusikahuvilise
.


In [4]:
text.words

layer name,attributes,parent,enveloping,ambiguous,span count
words,normalized_form,,,True,6

text,normalized_form
Festivalil,
osales,
üle,
30 000,30000.0
muusikahuvilise,
.,


In [5]:
text = Text('Tartu Rattaralli toimub 29. mail 2020. \
Tartu Rattaralli stardi- ja finišipaik \
on traditsiooniliselt Tartu kesklinnas, Turu tänaval.')
text.tag_layer()
text.sentences

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,2

text
"['Tartu', 'Rattaralli', 'toimub', '29.', 'mail', '2020.']"
"['Tartu', 'Rattaralli', 'stardi-', 'ja', 'finišipaik', 'on', 'traditsiooniliselt ..., type: <class 'list'>, length: 13"


In [6]:
for sentence in text.sentences:
    print(' Lause: ', sentence.enclosing_text)
    for word in sentence:
        # Output first lemma and partofspeech of the word
        print( word.text, word.morph_analysis.partofspeech[0] )
    print()

 Lause:  Tartu Rattaralli toimub 29. mail 2020.
Tartu H
Rattaralli S
toimub V
29. O
mail S
2020. O

 Lause:  Tartu Rattaralli stardi- ja finišipaik on traditsiooniliselt Tartu kesklinnas, Turu tänaval.
Tartu H
Rattaralli S
stardi- S
ja J
finišipaik S
on V
traditsiooniliselt D
Tartu H
kesklinnas S
, Z
Turu H
tänaval S
. Z



In [7]:
text = Text('Nendel, kes minu ja Oudekki kaotusele loodavad, \
on ettekujutus, et rahval polegi hääli.')

text.tag_layer(['clauses'])
text.clauses

layer name,attributes,parent,enveloping,ambiguous,span count
clauses,clause_type,,words,False,3

text,clause_type
"['Nendel', 'on', 'ettekujutus', ',']",regular
"[',', 'kes', 'minu', 'ja', 'Oudekki', 'kaotusele', 'loodavad', ',']",embedded
"['et', 'rahval', 'polegi', 'hääli', '.']",regular


## 2. Morfoloogiline analüüs & ühestamine

<img src="oad.png">

In [8]:
t = Text('Mida ubadest teha? Oad võib salatisse panna.').tag_layer()
t.morph_analysis

layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,9

text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Mida,mis,mis,['mis'],da,,pl p,P
,mis,mis,['mis'],da,,sg p,P
ubadest,uba,uba,['uba'],dest,,pl el,S
teha,tegema,tege,['tege'],a,,da,V
?,?,?,['?'],,,,Z
Oad,uba,uba,['uba'],d,,pl n,S
võib,võima,või,['või'],b,,b,V
salatisse,salat,salat,['salat'],sse,,sg ill,S
panna,panema,pane,['pane'],a,,da,V
.,.,.,['.'],,,,Z


### Morfoloogiline ühestamine

<img src="k2rbes.png">

In [9]:
t = Text('Mees oli kärbes.').tag_layer()
t.morph_analysis

layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,4

text,lemma,root,root_tokens,ending,clitic,form,partofspeech
Mees,mees,mees,['mees'],0,,sg n,S
oli,olema,ole,['ole'],i,,s,V
kärbes,kärbes,kärbes,['kärbes'],0,,sg n,S
.,.,.,['.'],,,,Z


In [10]:
# Morfanalüsaatori parameetrite muutmiseks peame kasutama resolverit
from estnltk.resolve_layer_dag import make_resolver

resolver = make_resolver(
                 disambiguate=False,
                 guess=True,
                 propername=True,
                 phonetic=False,
                 compound=True)

In [11]:
text = Text("Mees oli kärbes.")
text.tag_layer(resolver=resolver)['morph_analysis']

layer name,attributes,parent,enveloping,ambiguous,span count
morph_analysis,"lemma, root, root_tokens, ending, clitic, form, partofspeech, _ignore",words,,True,4

text,lemma,root,root_tokens,ending,clitic,form,partofspeech,_ignore
Mees,Mees,Mees,['Mees'],0,,sg n,H,False
,Mee,Mee,['Mee'],s,,sg in,H,False
,Mesi,Mesi,['Mesi'],s,,sg in,H,False
,mees,mees,['mees'],0,,sg n,S,False
,mesi,mesi,['mesi'],s,,sg in,S,False
oli,olema,ole,['ole'],i,,s,V,False
kärbes,kärbes,kärbes,['kärbes'],0,,sg n,S,False
.,.,.,['.'],,,,Z,False


#### Näide: leiame kõik tekstis olevad nimisõnad

In [12]:
my_text = Text('Nagu nimigi reedab, on nurgasaag kõige \
tõhusam tööriist erinevate puitdetailide lõikamiseks, \
kus eesmärgiks on saavutada täpne lõikenurk ning oluline on \
lõikenurga seadistamise võimalus. Näiteks pildiraamide \
meisterdamisel, kus on oluline, et detailide lõikenurgad \
oleksid kõik täpselt 45 kraadi. Sellisel juhul on nurgasaag \
täiuslikuks tööriistaks, sest tagab täpsuse ja lõike korratavuse. \
Üldiselt on valdav osa nurgasaage seadistatavad 45-kraadise \
lõikenurga alla vähemalt ühes suunas. Lisaks võimaldavad mõned \
saed veel ka saetera kaldenurga seadistamist, mis tuleb kasuks \
keerukamate detailide lõikamisel. Nurgasaag on väga tõhus ka \
kitsamate, kuni 30 cm laiuste puulaudade või muude puitdetailide \
ristlõigete tegemiseks ehk järkamiseks, mida tuleb palju ette näiteks \
puitkonstruktsioonide ehitamisel või ka näiteks terrassilaudade \
või puitparketi paigaldamisel.')
my_text.tag_layer()

text
"Nagu nimigi reedab, on nurgasaag kõige tõhusam tööriist erinevate puitdetailide lõikamiseks, kus eesmärgiks on saavutada täpne lõikenurk ning oluline on lõikenurga seadistamise võimalus. Näiteks pildiraamide meisterdamisel, kus on oluline, et detailide lõikenurgad oleksid kõik täpselt 45 kraadi. Sellisel juhul on nurgasaag täiuslikuks tööriistaks, sest tagab täpsuse ja lõike korratavuse. Üldiselt on valdav osa nurgasaage seadistatavad 45-kraadise lõikenurga alla vähemalt ühes suunas. Lisaks võimaldavad mõned saed veel ka saetera kaldenurga seadistamist, mis tuleb kasuks keerukamate detailide lõikamisel. Nurgasaag on väga tõhus ka kitsamate, kuni 30 cm laiuste puulaudade või muude puitdetailide ristlõigete tegemiseks ehk järkamiseks, mida tuleb palju ette näiteks puitkonstruktsioonide ehitamisel või ka näiteks terrassilaudade või puitparketi paigaldamisel."

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,6
tokens,,,,False,124
compound_tokens,"type, normalized",,tokens,False,1
words,normalized_form,,,True,122
morph_analysis,"lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,122


In [13]:
noun_lemmas = []
for lemma, postag in zip(my_text.lemma, my_text.partofspeech):
    if 'S' in postag:
        noun_lemmas += lemma
noun_lemmas        

['nimi',
 'nurgasaag',
 'tööriist',
 'puitdetail',
 'lõikamine',
 'eesmärk',
 'lõikenurk',
 'lõikenurk',
 'seadistamine',
 'võimalus',
 'näide',
 'pildiraam',
 'meisterdamine',
 'detail',
 'lõikenurk',
 'kraad',
 'juht',
 'nurgasaag',
 'tööriist',
 'täpsus',
 'lõige',
 'korratavus',
 'osa',
 'nurgasaag',
 'lõikenurk',
 'suund',
 'lisa',
 'saag',
 'saetera',
 'kaldenurk',
 'seadistamine',
 'kasu',
 'detail',
 'lõikamine',
 'nurgasaag',
 'laius',
 'puulaud',
 'puitdetail',
 'ristlõige',
 'tegemine',
 'järkamine',
 'näide',
 'puitkonstruktsioon',
 'ehitamine',
 'näide',
 'terrassilaud',
 'puitparkett',
 'paigaldamine']

#### Näide: leiame kõik infinitiivset verbi sisaldavad laused:

In [14]:
infinitive_sentences = []
for sent in my_text.sentences:
    for form in sent.form:
        if 'da' in form:
            a = sent.enclosing_text
            infinitive_sentences.append(a)
            break
infinitive_sentences

['Nagu nimigi reedab, on nurgasaag kõige tõhusam tööriist erinevate puitdetailide lõikamiseks, kus eesmärgiks on saavutada täpne lõikenurk ning oluline on lõikenurga seadistamise võimalus.']

## 3. Märgendajad e taggerid

### Ajaväljendite tuvastamine

In [15]:
text3 = Text('EKA sisearhitektuuri osakond ja RMK \
avavad neljapäeval kell 16.00 \
RMK Tallinna kontoris (Toompuiestee 24) näituse')

In [16]:
# teksti loomise aeg
text3.meta['document_creation_time'] = '2019-10-02'

# märgendame ajaväljendid
from estnltk.taggers import TimexTagger

tagger = TimexTagger()
text3.analyse('morphology')
tagger.tag( text3 )

text
EKA sisearhitektuuri osakond ja RMK avavad neljapäeval kell 16.00 RMK Tallinna kontoris (Toompuiestee 24) näituse

0,1
document_creation_time,2019-10-02

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,1
words,normalized_form,,,True,17
morph_analysis,"lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,17
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,1


In [17]:
text3.timexes

layer name,attributes,parent,enveloping,ambiguous,span count
timexes,"tid, type, value, temporal_function, anchor_time_id, mod, quant, freq, begin_point, end_point, part_of_interval",,words,False,1

text,tid,type,value,temporal_function,anchor_time_id,mod,quant,freq,begin_point,end_point,part_of_interval
"['neljapäeval', 'kell', '16.00']",t1,TIME,2019-10-03T16:00,True,,,,,,,


### Aadresside tuvastamine

In [18]:
from estnltk.taggers import AddressPartTagger, AddressGrammarTagger
address_token_tagger = AddressPartTagger(output_layer='address_tokens')
address_tagger = AddressGrammarTagger(output_layer='addresses', input_layer='address_tokens')

In [19]:
text = Text("Ootame teid 2. novembril külla \
aadressil Aia 6, Tartu.").tag_layer(['words'])

In [20]:
address_token_tagger.tag(text)["address_tokens"]

layer name,attributes,parent,enveloping,ambiguous,span count
address_tokens,"grammar_symbol, type",,,True,6

text,grammar_symbol,type
Ootame teid,RANDOM_TEXT,
2,MAJA,
novembril külla aadressil,RANDOM_TEXT,
Aia,TÄNAV,tänav
6,MAJA,
Tartu,ASULA,asula
,TÄNAV,tänav


In [21]:
address_tagger.tag(text)['addresses']

layer name,attributes,parent,enveloping,ambiguous,span count
addresses,"grammar_symbol, TÄNAV, MAJA, ASULA, MAAKOND, INDEKS",,address_tokens,True,1

text,grammar_symbol,TÄNAV,MAJA,ASULA,MAAKOND,INDEKS
"['Aia', '6', 'Tartu']",ADDRESS,Aia,6,Tartu,,


## 4. Oma märgendajate kirjutamine

### RegexTagger

In [22]:
zip_code_voc = [
        {'regex_type': 'zip_code',
         '_regex_pattern_': r'[^0-9][0-9]{5}[^0-9]',
         '_group_': 0,
         '_priority_': 1,
         '_validator_': lambda m: True,
         'value': lambda m: m.group(0)}]

In [23]:
from estnltk.taggers import RegexTagger

zip_code_tagger = RegexTagger(output_layer='zip_code',
                               vocabulary=zip_code_voc,
                               ambiguous=True,
                               output_attributes=('regex_type', 'value'))

In [24]:
text = Text("Palun saata avaldused aadressil Aia 6, 51090 Tartu. Küsimuste korral helistada 55123987.")
zip_code_tagger.tag(text)

text
"Palun saata avaldused aadressil Aia 6, 51090 Tartu. Küsimuste korral helistada 55123987."

layer name,attributes,parent,enveloping,ambiguous,span count
zip_code,"regex_type, value",,,True,1


In [25]:
text.zip_code

layer name,attributes,parent,enveloping,ambiguous,span count
zip_code,"regex_type, value",,,True,1

text,regex_type,value
51090,zip_code,51090


### PhraseTagger

In [26]:
from estnltk.taggers import PhraseTagger

phrase_list = [
               { '_phrase_': ('A', 'S')},
               { '_phrase_':  ('C', 'S')},
               { '_phrase_':  ('U', 'S')}
              ]


def decorator(span, annotation):
    annotation['lemmas'] = ' '.join([l[0] for l in span.lemma])
    return True

In [27]:
phrase_tagger = PhraseTagger(output_layer='noun_phrases',
                      input_layer='morph_analysis',
                      input_attribute='partofspeech',
                      vocabulary=phrase_list,
                      key='_phrase_',
                      output_attributes=(['lemmas']),
                      decorator=decorator)

In [28]:
t = Text('Ilusad haned lendasid külmale põhjamaale sinise ämbriga.').tag_layer()
phrase_tagger.tag(t)
t.noun_phrases

layer name,attributes,parent,enveloping,ambiguous,span count
noun_phrases,lemmas,,morph_analysis,False,3

text,lemmas
"['Ilusad', 'haned']",ilus hani
"['külmale', 'põhjamaale']",külm põhjamaa
"['sinise', 'ämbriga']",sinine ämber


#### Näide: leiame vanasõnadest kõige sagedasemad nimisõna+omadussõna konstruktsioonid

In [29]:
proverbs = []
with open("data/vanasõnad.txt", "r", encoding = 'utf8') as fin:
    proverbs = fin.readlines()

FileNotFoundError: [Errno 2] No such file or directory: 'data/vanasõnad.txt'

In [None]:
from collections import Counter
from tqdm import tqdm

noun_phrases = Counter()
for text in tqdm(proverbs):
    t = Text(text).tag_layer()
    phrase_tagger.tag(t)
    if len(t.noun_phrases) > 0:
        for p in t.noun_phrases:
            noun_phrases[p.lemmas] += 1

In [None]:
noun_phrases.most_common(5)