-
Notifications
You must be signed in to change notification settings - Fork 1
/
LOEMIND
64 lines (39 loc) · 2.02 KB
/
LOEMIND
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
PLAMK
Siin kataloogis elab lõplikel automaatidel põhinev eesti keele
morfoloogiakirjeldus -- selle ehitamiseks ja testimiseks mõeldud
vahendid.
Süsteemi seisuga 1. august 2008 kirjeldab Jaak Pruulmann-Vengerfeldt'i
magistritöö, viide sellele ilmub peale töö kaitsmist.
Lõplikel automaatidel põhineva morfoloogiaanalüsaatori, leksikaalse
teisendaja ehitamiseks on tarvis:
- perl'i (5.10+), cat'i, sed'i, iconv'i
- Xeroxi lõplike automaatide tööriistu (xfst, twolc; vt
http://www.fsmbook.com/)
Testimiseks on veel vaja:
- rm, awk, grep, bash, wc, sort, uniq, wget
- todos / fromdos pakist tofromdos (või mõni muu LF <> CRLF teisenduse
filtrikomplekt)
- analüsaator ESTMORF (ftp://ftp.eki.ee/pub/keeletehnoloogia/estmorf/)
- EKI analüsaator (http://www.eki.ee/tarkvara/analyys/)
- wine kahe eelmise jooksutamiseks
Ehitamiseks vajalikest andmefailidest on esialgu puudu EKI tüvebaas, mille
litsentsitingimused on alles täpsustamisel. Selle põhjal loodud teisendajate
levitamine peaks olema lubatud.
Ehitussüsteemi aluseks on make. Vaikimisi siht "all" ehitab leksikaalse
teisendaja, mis kirjutatakse faili eesti.fst.
Praeguses versioonis on sellega midagi teha vaid Xeroxi tööriistadega,
nende mugavamaks väljakutsumiseks on Makefiles sihid test, testx, xfsti
jms.
Testimiseks vajalikke sisendfaile ja nende kontrollimiseks mõeldud
lisafailide genereerimise reeglid on kirjeldatud alamkataloogis
korpus asuvas Makefiles.
Osa faile on algselt pärit mujalt:
form.exc ja fcodes.ini sisaldusid EKI andmefailides
(http://www.eki.ee/tarkvara/est_morpho_data.zip, litsents
http://www.eki.ee/eki/litsents.html)
tolkija.pl ja morftrtabel.txt on pärit eesti keele süntaksianalüsaatori
materjalidest (http://math.ut.ee/~kaili/grammatika/ ja
http://math.ut.ee/~kaili/grammatika/estmorfcg.tar.gz)
Kogu muu kraam on kasutamiseks LGPLi tingimuste alusel.
rul.txt ja lex_main.txt sisaldavad suures osas Heli Uibo tehtud tööd.
Igasugused täiendavad küsimused võib saata aadressil jjpp@meso.ee.