de.lang

#------------------------------------------------------------------------------------------------------------------------------------
#
#  database-Section - Definitionen für Wörterbücher
#
#  In der database-Section können alle benötigten Wörterbücher angegeben werden. 
#  Dabei werden folgende Attribute interpretiert:
#
#  Attribut    Default  Bedeutung
#  -----------------------------------------------------------------------------
#  id                   Über diese Kurzbezeichnung kann die Datenquelle an anderer Stelle referenziert werden, z.B. bei Attendees
#                       als source-Attribut.
#
#  name                 Gibt den Ort der Quelldaten an.
#
#  def-wc      ?        Gibt eine Wortklasse vor die verwendet wird, wenn die Datenquelle über keine adäquate Information zur 
#                       Wortklasse eines Eintrags verfügt.
#
#  txt-format  KeyValue Gibt an, in welchem Format die Quelldaten je Zeile vorliegen. Dabei wird unterschieden zwischen
#                          SingleWord  =  Je Zeile ist nur ein Wort (ohne Projektion) angegeben, z.B.
#                                         "Nasenbär\n"
#                          KeyValue    =  Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, z.B.
#                                         "John Vorhauer*Vorhauer, John\n"
#                          WordClass   =  Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, die aus mehreren
#                                         Lexikalisierungen bestehen kann, z.B.
#                                         "Essen,essen #v Essen #s Esse #s\n"
#                          MultiValue  =  Je Zeile sind mehrere Worte angegeben, die als Äquivalenzklasse interpretiert werden, z.B.
#                                         "Fax;Faxkopie;Telefax\n"
#                          MultiKey
#
#  separator   (s.Text)  Gibt an, durch welches Zeichen eine Textzeile die Grundform von der Projektion trennt. Der Defaultwert ist 
#                       abhängig vom Text-Format: KeyValue='*', WordClass=',' und MultiValue=';'.
#
#  use-lex              Gibt an, dass bei Mehrwort-Schlüsseln eine Vorab-Lexikalisierung vorgenommen wird durch Zuhilfenahme der
#                       Wörterbücher, die mit diesem Attribut angegeben werden, z.B. use-lex='sys-dic'. 
#                       Die Vorab-Lexikalisierung von Mehrwortgruppen ermöglicht die leichte Erkennung von allen möglichen 
#                       Dehnungsvarianten. Bei Mehrwort-Wörterbüchern, die ausschließlich Personennamen enthalten, kann dieser Wert
#                       entfallen, da er nur die Verarbeitungsgeschwindigkeit vermindert ohne die Erkennungsquote zu erhöhen.
#
#  ACHTUNG: Wird mit dem Attribut use-lex ein anderes Wörterbuch referenziert, so sollte dieses VOR der ersten Referenzierung 
#           definiert sein, da es sonst noch nicht existiert!
#

#    lingo language definition
--- 
language:
  name: 'Deutsch'

  dictionary:
    databases:
      #    Systemwörterbücher
      sys-dic: { name: de/lingo-dic.txt, txt-format: WordClass, separator: '=' }
      sys-abk: { name: de/lingo-abk.txt, txt-format: WordClass, separator: '=' }
      sys-syn: { name: de/lingo-syn.txt, txt-format: KeyValue, separator: '=', def-wc: y }
      sys-mul: { name: de/lingo-mul.txt, txt-format: SingleWord, use-lex: 'sys-dic', def-wc: m }
      #    Benutzerwörterbücher
      usr-dic: { name: de/user-dic.txt, txt-format: WordClass, separator: '=' }

      #    Testwörterbücher
      tst-dic: { name: de/test_dic.txt, txt-format: WordClass }   #  TEST: Lesen von zwei Quellen
      tst-syn: { name: de/test_syn.txt, txt-format: MultiValue, def-wc: 'y' } # TEST: Mehrere Datenquellen
      tst-syn2: { name: de/test_syn2.txt, txt-format: MultiValue, def-wc: 'y', use-lex: 'sys-dic' } # TEST: Mehrere Datenquellen
      tst-mul: { name: de/test_mul.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwörterbücher
      tst-mu2: { name: de/test_mul2.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwörterbücher
      tst-sto: { name: de/test_store.txt, txt-format: WordClass } #  TEST: korrespondierende Store-Datei nicht vorhanden
      tst-cry: { name: de/test_cry.txt, txt-format: WordClass, crypt } #  TEST: Verschlüsselung
      tst-sgw: { name: de/test_singleword.txt, txt-format: SingleWord } #  TEST: SingleWord-Format

    compound:
      min-word-size: "7"
      min-part-size: "3"
      max-parts: "5"
      min-avg-part-size: "4"
      append-wordclass: "+"
      skip-sequences: [ xx ]
      
    suffix:
      #    Suffixliste, Stand: 30-06-2005
      #    Suffixklasse:   s = Substantiv, a = Adjektiv, v = Verb, e = Eigenwort, f = Fugung
      #    Suffixe je Klasse:   "<suffix>['/'<ersetzung>][ <suffix>['/'<ersetzung>]]"
      - [s, "e en er ern es n s se sen ses"]
      - [a, "este ste ster sten stes ester estes esten e em en er ere eren erer eres es erem"]
      - [v, "e/en en/en est/en et/en st/en t/en te/en ten/en eten/en ete/en etest/en s"]
      - [e, "s"]
      - [f, "s n e en es er ch/che /en"]

  attendees:
    tokenizer:
      regulars:
        - _char_: '_baslat_|_lat1sp_|_latexa_|_latexb_|_ipaext_'
        - NUMS:  '[+-]?(\d{4,}|\d{1,3}(\.\d{3,3})*)(\.|(,\d+)?%?)'
        - URLS:  '((mailto:|(news|http|https|ftp|ftps)://)\S+|^(www(\.\S+)+)|[^\s.]+([\._]\S+)+@\S+(\.\S+)+)'
        - ABRV:  '(((_char_)+\.)+)(_char_)+'
        - WORD:  '(_char_|_digit_|\-)+'
        - PUNC:  '([!,\.:;?]|\xc2\xa1|\xc2\xbf)'
        - OTHR:  '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|\xc2\xa2|\xc2\xa3|\xc2\xa4|\xc2\xa5|\xc2\xa6|\xc2\xa7|\xc2\xa8|\xc2\xa9|\xc2\xaa|\xc2\xab|\xc2\xac|\xc2\xae|\xc2\xaf|\xc2\xb0|\xc2\xb1|\xc2\xb2|\xc2\xb3|\xc2\xb4|\xc2\xb5|\xc2\xb6|\xc2\xb7|\xc2\xb8|\xc2\xb9|\xc2\xba|\xc2\xbb|\xc2\xbc|\xc2\xbd|\xc2\xbe|\xc3\x97|\xc3\xb7)'
        - HELP:  '[^ ]*'

    variator:
      variations:
        - [ ieh, sch ]
        - [ fec, see ]
        - [ it,  st  ]
        - [ fch, sch ]
        - [ fp,  sp  ]
        - [ f,   s   ]
        - [ c,   e   ]
        - [ ffc, sse ]
        - [ ff,  ss  ]
        - [ e,   c   ]
        - [ ni,  m   ]
        - [ feh, sch ]
        - [ lt,  st  ]
        - [ il,  st  ]
        - [ ftc, ste ]
        - [ ft,  st  ]
        - [ fl,  st  ]
        - [ li,  h   ]
        - [ i,   s   ]
        
    sequencer:
      sequences: [ [AS, "2, 1"], [AK, "2, 1"], [AAK, "3, 1 2"], [AAS, "3, 1 2"] ]