forked from lex-lingo/lingo
-
Notifications
You must be signed in to change notification settings - Fork 0
/
de.lang
121 lines (113 loc) · 6.42 KB
/
de.lang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
#------------------------------------------------------------------------------------------------------------------------------------
#
# database-Section - Definitionen für Wörterbücher
#
# In der database-Section können alle benötigten Wörterbücher angegeben werden.
# Dabei werden folgende Attribute interpretiert:
#
# Attribut Default Bedeutung
# -----------------------------------------------------------------------------
# id Über diese Kurzbezeichnung kann die Datenquelle an anderer Stelle referenziert werden, z.B. bei Attendees
# als source-Attribut.
#
# name Gibt den Ort der Quelldaten an.
#
# def-wc ? Gibt eine Wortklasse vor die verwendet wird, wenn die Datenquelle über keine adäquate Information zur
# Wortklasse eines Eintrags verfügt.
#
# txt-format KeyValue Gibt an, in welchem Format die Quelldaten je Zeile vorliegen. Dabei wird unterschieden zwischen
# SingleWord = Je Zeile ist nur ein Wort (ohne Projektion) angegeben, z.B.
# "Nasenbär\n"
# KeyValue = Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, z.B.
# "John Vorhauer*Vorhauer, John\n"
# WordClass = Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, die aus mehreren
# Lexikalisierungen bestehen kann, z.B.
# "Essen,essen #v Essen #s Esse #s\n"
# MultiValue = Je Zeile sind mehrere Worte angegeben, die als Äquivalenzklasse interpretiert werden, z.B.
# "Fax;Faxkopie;Telefax\n"
# MultiKey
#
# separator (s.Text) Gibt an, durch welches Zeichen eine Textzeile die Grundform von der Projektion trennt. Der Defaultwert ist
# abhängig vom Text-Format: KeyValue='*', WordClass=',' und MultiValue=';'.
#
# use-lex Gibt an, dass bei Mehrwort-Schlüsseln eine Vorab-Lexikalisierung vorgenommen wird durch Zuhilfenahme der
# Wörterbücher, die mit diesem Attribut angegeben werden, z.B. use-lex='sys-dic'.
# Die Vorab-Lexikalisierung von Mehrwortgruppen ermöglicht die leichte Erkennung von allen möglichen
# Dehnungsvarianten. Bei Mehrwort-Wörterbüchern, die ausschließlich Personennamen enthalten, kann dieser Wert
# entfallen, da er nur die Verarbeitungsgeschwindigkeit vermindert ohne die Erkennungsquote zu erhöhen.
#
# ACHTUNG: Wird mit dem Attribut use-lex ein anderes Wörterbuch referenziert, so sollte dieses VOR der ersten Referenzierung
# definiert sein, da es sonst noch nicht existiert!
#
# lingo language definition
---
language:
name: 'Deutsch'
dictionary:
databases:
# Systemwörterbücher
sys-dic: { name: de/lingo-dic.txt, txt-format: WordClass, separator: '=' }
sys-abk: { name: de/lingo-abk.txt, txt-format: WordClass, separator: '=' }
sys-syn: { name: de/lingo-syn.txt, txt-format: KeyValue, separator: '=', def-wc: y }
sys-mul: { name: de/lingo-mul.txt, txt-format: SingleWord, use-lex: 'sys-dic', def-wc: m }
# Benutzerwörterbücher
usr-dic: { name: de/user-dic.txt, txt-format: WordClass, separator: '=' }
# Testwörterbücher
tst-dic: { name: de/test_dic.txt, txt-format: WordClass } # TEST: Lesen von zwei Quellen
tst-syn: { name: de/test_syn.txt, txt-format: MultiValue, def-wc: 'y' } # TEST: Mehrere Datenquellen
tst-syn2: { name: de/test_syn2.txt, txt-format: MultiValue, def-wc: 'y', use-lex: 'sys-dic' } # TEST: Mehrere Datenquellen
tst-mul: { name: de/test_mul.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwörterbücher
tst-mu2: { name: de/test_mul2.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwörterbücher
tst-sto: { name: de/test_store.txt, txt-format: WordClass } # TEST: korrespondierende Store-Datei nicht vorhanden
tst-cry: { name: de/test_cry.txt, txt-format: WordClass, crypt } # TEST: Verschlüsselung
tst-sgw: { name: de/test_singleword.txt, txt-format: SingleWord } # TEST: SingleWord-Format
compound:
min-word-size: "7"
min-part-size: "3"
max-parts: "5"
min-avg-part-size: "4"
append-wordclass: "+"
skip-sequences: [ xx ]
suffix:
# Suffixliste, Stand: 30-06-2005
# Suffixklasse: s = Substantiv, a = Adjektiv, v = Verb, e = Eigenwort, f = Fugung
# Suffixe je Klasse: "<suffix>['/'<ersetzung>][ <suffix>['/'<ersetzung>]]"
- [s, "e en er ern es n s se sen ses"]
- [a, "este ste ster sten stes ester estes esten e em en er ere eren erer eres es erem"]
- [v, "e/en en/en est/en et/en st/en t/en te/en ten/en eten/en ete/en etest/en s"]
- [e, "s"]
- [f, "s n e en es er ch/che /en"]
attendees:
tokenizer:
regulars:
- _char_: '_baslat_|_lat1sp_|_latexa_|_latexb_|_ipaext_'
- NUMS: '[+-]?(\d{4,}|\d{1,3}(\.\d{3,3})*)(\.|(,\d+)?%?)'
- URLS: '((mailto:|(news|http|https|ftp|ftps)://)\S+|^(www(\.\S+)+)|[^\s.]+([\._]\S+)+@\S+(\.\S+)+)'
- ABRV: '(((_char_)+\.)+)(_char_)+'
- WORD: '(_char_|_digit_|\-)+'
- PUNC: '([!,\.:;?]|\xc2\xa1|\xc2\xbf)'
- OTHR: '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|\xc2\xa2|\xc2\xa3|\xc2\xa4|\xc2\xa5|\xc2\xa6|\xc2\xa7|\xc2\xa8|\xc2\xa9|\xc2\xaa|\xc2\xab|\xc2\xac|\xc2\xae|\xc2\xaf|\xc2\xb0|\xc2\xb1|\xc2\xb2|\xc2\xb3|\xc2\xb4|\xc2\xb5|\xc2\xb6|\xc2\xb7|\xc2\xb8|\xc2\xb9|\xc2\xba|\xc2\xbb|\xc2\xbc|\xc2\xbd|\xc2\xbe|\xc3\x97|\xc3\xb7)'
- HELP: '[^ ]*'
variator:
variations:
- [ ieh, sch ]
- [ fec, see ]
- [ it, st ]
- [ fch, sch ]
- [ fp, sp ]
- [ f, s ]
- [ c, e ]
- [ ffc, sse ]
- [ ff, ss ]
- [ e, c ]
- [ ni, m ]
- [ feh, sch ]
- [ lt, st ]
- [ il, st ]
- [ ftc, ste ]
- [ ft, st ]
- [ fl, st ]
- [ li, h ]
- [ i, s ]
sequencer:
sequences: [ [AS, "2, 1"], [AK, "2, 1"], [AAK, "3, 1 2"], [AAS, "3, 1 2"] ]