# Ukrajinet

## Vorhaben
Wordnets sind eine nützliche lexikalische Ressource für eine Vielzahl von Sprachtechnologieanwendungen.
Ukrainisch ist eine Sprache mit noch wenigen linguistischen Ressourcen und ist noch nicht im [Open Multilingual Wordnet](https://github.com/globalwordnet/OMW) (OMW) enthalten. 

Um ein ukraninisches Wordnet (Ukrajinet) zu realisieren, wird der "merge"-Ansatz (Vossen, 1998) verfolgt – dabei werden sprachspezifische Ressourcen erstellt und dann mit dem [Princeton Wordnet](https://wordnet.princeton.edu/) (PWN) [^1] verknüpft.
Für Urkajinet wird als sprachspezifische Ressource das "Dictionary of physical synonymous terms" (Vakulenko und Vakulenko 2017) als Informationsquelle genutzt.
Die Informationen werden automatisch aus diesem Wörterbuch (und später aus anderen Ressourcen) extrahiert, aber die Begriffe, Synsets und Beziehungen werden manuell kuratiert.
Ukrajinet wird dazu beitragen, die ukrainische Sprache in mehrsprachige Szenarien der natürlichen Sprachverarbeitung einzubinden, die Informationen über lexikalisch-semantische Beziehungen benötigen.

[^1]: zu PWM oder OMW? Warum PMW?

## Grundlegendes & Vokabular

Die Wordnet-Schemata sind wie folgt strukturiert:
| Item | Definition |
|---|---|
| **LexicalResource** | The root element of the resource is the lexical resource |
| **Lexicon** | Each WordNet has a lexicon for each resource, which has a name, an ID and a language. The language is given as a BCP 47 tag . |
| **Lexical Entry** | Each 'word' is termed a lexical entry, it has exactly one lemma, at least one sense and any number of syntactic behaviors. |
| **Lemma** | The lemma has a written form and part-of-speech, which may be one of noun, verb, adjective, adverb, phrase, sentence or unknown. |
| **Sense** | The sense has any number of sense relations and a synset. |
| **Synset** | The synset has an optional definition and any number of sense relations |
| **Definition** | The definition is given in the language of the WordNet it came from as well as the ILI definition (in English). A definition may also have a statement that gives an example |
| **Synset/Sense Relation** | A relation from a given list of relations such as synonym, hypernym, antonym. This list defines the relations used by the Global Wordnet Grid, and all the relations are documented on the Global Wordnet Association website. |
| **Syntactic Behavior** | A syntactic behavior (verb frame) gives the subcategorization frame in plain text, such as ``Sam and Sue %s the movie''. |
| **Meta** | Dublin Core properties may be added to lexicons, lexical entries, senses and synsets. |


Es gibt verschiedene Schemata um diese Struktur maschinenlesbar zu machen.
**XML**: basiert auf dem Lexical Markup Framework (Vossen et al., 2013, LMF)  
```XML
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE LexicalResource SYSTEM "http://globalwordnet.github.io/schemas/WN-LMF.dtd">
<LexicalResource>
    <Lexicon label="Princeton WordNet" language="en">
        <LexicalEntry id="w1">
            <Lemma writtenForm="wordnet" partOfSpeech="n"/>
            <Sense id="106652077-n-1" synset="106652077-n"/>
        </LexicalEntry>
        <Synset id="106652077-n" ili="s35545">
        <Definition
            gloss="any of the..."
            iliDef="any of the..."/>
        <SynsetRelation relType="hypernym" target="106651393-n"/>
        </Synset>
        <Meta publisher="Princeton University"
                rights="http://wordnet.princeton.edu/wordnet/license/"/>
    </Lexicon>
</LexicalResource>
```  
**JSON LD**: Lexicon Model for Ontologies (McCrae et al., 2012, lemon)  
```JSON
{ 
    "@context": [ "http://globalwordnet.github.io/schemas/wn-json-context.json",
    { "@language": "en" } ],
    "@id": "pwn30",
    "label": "Princeton WordNet",
    "language": "en",
    "publisher": "Princeton University",
    "rights": "wordnetlicense:",
    "entry": [{
        "@id" : "w1",
        "lemma": { "writtenForm": "wordnet" },
        "partOfSpeech": "wn:noun",
        "sense": [{
            "@id": "106652077-n-1",
            "synset": {
            "@id": "106652077-n",
            "ili": "s35545",
            "definition": {
                "gloss": "any of the..." ,
                "iliDef": "any of the..."
            },
            "hypernym": ["106651393-n"]
            }
        }]
    }]
}
```

## Musterbeispiel
**Ein Eintrag aus dem deutschsprachigen Wordnet**:  

```XML
<LexicalEntry id="w1"><Lemma writtenForm="Kernspaltung" partOfSpeech="n"/><Sense id="w1_1-n" synset="odenet-1-n"/></LexicalEntry>
<LexicalEntry id="w2"><Lemma writtenForm="Kernfission" partOfSpeech="n"/><Sense id="w2_1-n" synset="odenet-1-n"/></LexicalEntry>
<LexicalEntry id="w3"><Lemma writtenForm="Atomspaltung" partOfSpeech="n"/><Sense id="w3_1-n" synset="odenet-1-n"/></LexicalEntry>
<LexicalEntry id="w4"><Lemma writtenForm="Fission" partOfSpeech="n"/><Sense id="w4_1-n" synset="odenet-1-n"/><Sense id="w4_4905-n" synset="odenet-4905-n"/></LexicalEntry>
```
Der dazugehörige Synset-Eintrag
```XML
<Synset id="odenet-1-n" ili="i107577" partOfSpeech="n" dc:description="a nuclear reaction in which a massive nucleus splits into smaller nuclei with the simultaneous release of energy"><SynsetRelation target='odenet-5437-n' relType='hypernym'/></Synset>
```  

Der ```LexicalEntry``` mit der ```id=w4``` hat ein weiteres Synset angegeben:  

```XML
<Synset id="odenet-4905-n" ili="i107417" partOfSpeech="n" dc:description="(embryology) the repeated division of a fertilised ovum"><SynsetRelation target='odenet-12012-n' relType='holo_part'/></Synset>
```

# AP 1  
(Übernommen aus Antragsformular)  

Die erste Version von Ukrajinet wurde automatisch aus dem „Dictionary of Physical Synonymous Terms“ erzeugt, es wurden automatisch Informationen über syntaktische Kategorien hinzugefügt.
Dazu kamen Links zum OMW, die mithilfe automatischer Übersetzung erzeugt wurden. 
Es enthält ca. 8.500 lexikalische Einträge und 3.345 Synsets aus der Domäne „Physik“. 
573 der Synsets haben multilinguale Links bekommen. 
*Diese gilt es im ersten Schritt zu prüfen **(1.1).***
Dabei ist eine Unterstützung mit automatischen Methoden denkbar, wie der Vergleich der syntaktischen Kategorien oder auch die Einbeziehung weiterer Wordnets. 
*Für die Synsets, die keine multilingualen Links erhalten haben, muss eruiert werden, ob es andere Möglichkeiten gibt, diese Links zu erstellen (wie automatische Übersetzung aus anderen Wordnets) **(1.2)**.*
*Wordnets sind geprägt von semantischen Relationen wie Hyperonymie, Antonymie oder auch Derivation. Hyperonymie ist im „Dictionary of Physical Synonymous Terms“ enthalten, wurde aber im ersten Schritt ignoriert und muss nun hinzugefügt werden **(1.3)**.* 
*Im Fall von Synsets, die einen multilingualen Link enthalten, können semantische Relationen aus anderen Wordnets übernommen werden **(1.4).***
*Weitere Verfahren für weitere Relationen werden entwickelt **(1.5).***
*Im nächsten Schritt müssen Definitionen für die Synsets hinzugefügt werden **(1.6).***
Diese können aus dem “Explanatory Dictionary on Physics” (Vakulenko and Vakulenko 2008) extrahiert werden. 
Dafür müssen Verfahren zur Disambiguierung ambiger Terme entwickelt werden, sodass die Definitionen richtig zugeordnet werden.
*Schließlich benötigen die Synset-Einträge Verwendungsbeispiele, die aus Textkorpora extrahiert werden könnten **(1.7)**.*

Zusammengefasst:  
* 1.1: Multilinguale Links der Synsets prüfen  
* 1.2: Methoden eruieren, um Synsets, die keine multilingualen Links bekommen, trotzdem mit Links zu versehen (bspw. durch automatische Übersetzung aus anderen Wordnets)   
* 1.3: Hyperonymie-Beziehung aus „Dictionary of Physical Synonymous Terms“ zu bestehendem Wordnet hinzufügen  
* 1.4: Übernahme von semantischen Relationen aus anderen Wordnets   
* 1.5: Entwicklung weiterer Methoden für die Erstellung weiterer semantischer Relationen  
* 1.6: Hinzufügen von Definitionen für Synsets  
* 1.7: Hinzufügen von Verwendungsbeispielen der Synset-Einträge  

**Meilenstein 1:** Ukrajinet 1.0 in der Domäne „Physik“, mit Links zu OMW, Relationen zwischen Synsets,
Definitionen und Beispielen

# 1. Physical Dictionary to Machine-readable Dictionary

## Doc to Txt

## Txt to XML

Gegeben ist folgendes Input-Format:
```
абера́ція; спотво́рення; спотво́рювання; [опт.] 
абера́ція; збо́чення; збо́чування
```
