<span style="color:red">Abgegeben von (Name, Vorname):</span> 
Goxhufi, Driton

# WordNet: Ein semantisches Lexikon 

Für dieses Notebook gibt es eine begeleitendes Skript auf Ilias: `skript-wordnet.pdf`

## Über WordNet

[WordNet](https://wordnet.princeton.edu) ist eine manuell erstellte Datenbank, in der (Ketten von) Wortformen (genauer gesagt Lemmata) durch semantische Relationen miteinander verbunden sind. WordNet bildet also ein semantisches Netz.

Die Knoten bilden sogenannte **Synsets**, Mengen von (Ketten von) Lemmata, die in bestimmten Kontexten **synonym** sind.
- Beispiel: {*bank*, *financial institute*}

Semantische Relationen zwischen Synsets:
- Hyponymie (`is-a`): *fly* $\rightarrow$ *travel*
- Troponymie (`is-a`): *walk* $\rightarrow$ *stroll* 
- Meronymie (`part-of`): *leg* $\rightarrow$ *table*
- Folgebeziehung: *snore* $\rightarrow$ *sleep* 
- Antonymie: *increase* $\leftrightarrow$ *decrease*
- derivationelle Beziehung: *destroy* $\leftrightarrow$ *destruction*

Umfang Version 3.1 von 2012 (Quelle [Wikipedia](https://en.wikipedia.org/wiki/WordNet)):
- 155 327 Lemmata
- 175 979 Synsets (~Bedeutungen)
- 207 016 Lemma-Synset-Paare
- durchschn. Lemma-Ambiguität: 1,34
- durchschn. Synset-Umfang: 1,176 

WordNet enthält eigentlich 4 fast getrennte Teilnetze entsprechend der Wortart der Lemmata (Quelle [Jurafsky & Martin](https://web.stanford.edu/~jurafsky/slp3/19.pdf)):
- Nomen: 117 798 (1,23 Bedeutungen/Lemma)
- Verben: 11 529 (2,16 Bedeutungen/Lemma)
- Adjektive: 22 479
- Adverbien: 4 481
 
## Installation in NLTK

WordNet steht für NLTK als Download zur Verfügung:

In [1]:
import nltk
#nltk.download()

Danach kann WordNet als Korpus importiert werden.

In [2]:
from nltk.corpus import wordnet as wn

## Einfache Abfragen

Die Beschreibung des NLTK-Moduls `wordnet` findet sich hier: https://www.nltk.org/api/nltk.corpus.reader.html#module-nltk.corpus.reader.wordnet

Die abrufbaren Objekte sind 
- Synsets via `synsets()` und `synset()`
- Lemmata via `lemmas()` und `lemma()`

### Synsets

Eine **Liste von Synsets** abhängig von den darin enthaltenen Lemmata oder POS-Tags kann über die Methode `synsets()` abgerufen werden.

Argumente von `synsets(name, pos=None, lang='eng', check_exceptions=True)`
- `name`: ein (Teil eines) Lemma-Bezeichners
- `pos=`: ein POS-Tag, z.B. `wn.VERB`, `wn.NOUN`, `wn.ADV`, `wn.ADJ`
- `lang=`: eine Sprachkürzel, z.B. `eng`, `fra`, `jpn`, ... (siehe `wn.langs()`)
- `check_exceptions=True`: weitere morphologische Suche

In [3]:
print(wn.synsets('bank'))

[Synset('bank.n.01'), Synset('depository_financial_institution.n.01'), Synset('bank.n.03'), Synset('bank.n.04'), Synset('bank.n.05'), Synset('bank.n.06'), Synset('bank.n.07'), Synset('savings_bank.n.02'), Synset('bank.n.09'), Synset('bank.n.10'), Synset('bank.v.01'), Synset('bank.v.02'), Synset('bank.v.03'), Synset('bank.v.04'), Synset('bank.v.05'), Synset('deposit.v.02'), Synset('bank.v.07'), Synset('trust.v.01')]


Alternativ kann mit `synset(synsetName)` ein einzelnes Synset aufgrund eines vollständigen Bezeichners abgerufen werden.

In [4]:
wn.synset('bank.n.01')

Synset('bank.n.01')

Es gibt eine Reihe von Methoden, mit deren Hilfe auf Attribute eines Synset-Objekts zugegriffen werden können. 
- `name()`: der Bezeichner des Synsets als String
- `pos()`: das POS-Tag des Synsets
- `lemmas()`: Liste der Lemmata, die zu einem Synset gehören (und deren Wortformen in bestimmten Kontexten synonym sind).
- `definition()`: Definition der Bedeutung des Synsets 
- `examples()`: Liste von Beispielverwendungen des Synsets

In [5]:
print("Name:       " + str(wn.synset('bank.n.01').name()))
print("POS:        " + str(wn.synset('bank.n.01').pos()))
print("Lemmata:    " + str(wn.synset('bank.n.01').lemmas()))
print("Definition: " + str(wn.synset('bank.n.01').definition()))
print("Beispiele:  " + str(wn.synset('bank.n.01').examples()))

Name:       bank.n.01
POS:        n
Lemmata:    [Lemma('bank.n.01.bank')]
Definition: sloping land (especially the slope beside a body of water)
Beispiele:  ['they pulled the canoe up on the bank', 'he sat on the bank of the river and watched the currents']


Man beachte, dass man bei `lemmas()` die oben schon erwähnten Sprach-Codes verwenden kann: `eng`, `fra`, `jpn`, ... (siehe `wn.langs()`)

In [19]:
# bevor das funktioniert hat, musste man die packages von nltk:
# nltk.download() 
# davon zusätzlich noch runterladen.
wn.synset('bank.n.01').lemmas('fra')

[Lemma('bank.n.01.banque'), Lemma('bank.n.01.rive')]

In [20]:
wn.synset('bank.n.01').lemmas(lang='jpn')

[Lemma('bank.n.01.土手'),
 Lemma('bank.n.01.岸'),
 Lemma('bank.n.01.岸べ'),
 Lemma('bank.n.01.岸辺'),
 Lemma('bank.n.01.斜面')]

Die Synsets sind also sprachunabhängig!

### Lemmata [eigentlich Lexeme]

Spiegelbildlich zu `synsets()` und `synset()` gibt es `lemmas(name, pos=None, lang='eng')` und `lemma(name, lang='eng')`.

**ACHTUNG:** NLTK verwendet den Lemma-Begriff so: "The lexical entry for a single morphological form of a sense-disambiguated word." Dies entspricht eigentlich eher dem, was wir im Skript `skript-lexicon.pdf` ein **Lexem** genannt haben. Lexeme sind Lemmata mit einer festgelegten Bedeutung.

In [14]:
print(wn.lemmas('bank'))
print(wn.lemma('bank.n.01.bank'))

[Lemma('bank.n.01.bank'), Lemma('depository_financial_institution.n.01.bank'), Lemma('bank.n.03.bank'), Lemma('bank.n.04.bank'), Lemma('bank.n.05.bank'), Lemma('bank.n.06.bank'), Lemma('bank.n.07.bank'), Lemma('savings_bank.n.02.bank'), Lemma('bank.n.09.bank'), Lemma('bank.n.10.bank'), Lemma('bank.v.01.bank'), Lemma('bank.v.02.bank'), Lemma('bank.v.03.bank'), Lemma('bank.v.04.bank'), Lemma('bank.v.05.bank'), Lemma('deposit.v.02.bank'), Lemma('bank.v.07.bank'), Lemma('trust.v.01.bank')]
Lemma('bank.n.01.bank')


Wie bei `synset()` gibt eine Reihe von Methoden, mit deren Hilfe auf Attribute des Lemma-Objekts zugegriffen werden können. 
- `name()`: der Bezeichner des Synsets als String
- `synsets()`: Liste der Synsets, in denen das Lemma erscheint
- `count()`: Anzahl "in WordNet". Tatsächlich ist dies die Anzahl der Lemma/Lexem-Verwendungen in **SemCor** (siehe unten). 

In [18]:
print("Name:              " + str(wn.lemma('bank.n.01.bank').name()))
print("Synsets:           " + str(wn.lemma('bank.n.01.bank').synset()))
print("Anzahl in SemCor:  " + str(wn.lemma('bank.n.01.bank').count()))
print("Anzahl in SemCor:  " + str(wn.lemma('bank.v.01.bank').count()))

Name:              bank
Synsets:           Synset('bank.n.01')
Anzahl in SemCor:  25
Anzahl in SemCor:  2


Die Anzahl in SemCor (via `count()`) ist beispielsweise wichtig für Verfahren, die Worten automatisch eine Bedeutung zuweisen. 

### <span style="color:red">Aufgaben I</span>

<span style="color:red">A1:</span> Schreiben Sie eine Funktion `mfs_of(lemma,tag)`, die für eine Lemmaform und ein POS-Tag aus $\{n,v,a,r,s\}$ die in SemCor am häufigsten zugewiesenen Synsets ausgibt. 

In [25]:
print("synsets tests:  " + str(wn.lemma('bank.n.01.bank').synset()))

synsets tests:  Synset('bank.n.01')


In [74]:
wn.synsets('bank', pos='n')

[Synset('bank.n.01'),
 Synset('depository_financial_institution.n.01'),
 Synset('bank.n.03'),
 Synset('bank.n.04'),
 Synset('bank.n.05'),
 Synset('bank.n.06'),
 Synset('bank.n.07'),
 Synset('savings_bank.n.02'),
 Synset('bank.n.09'),
 Synset('bank.n.10')]

In [95]:
synset = wn.synsets('bank', pos='n')
print(synset)
sum(lemma.count() for lemma in synset[0].lemmas())

[Synset('bank.n.01'), Synset('depository_financial_institution.n.01'), Synset('bank.n.03'), Synset('bank.n.04'), Synset('bank.n.05'), Synset('bank.n.06'), Synset('bank.n.07'), Synset('savings_bank.n.02'), Synset('bank.n.09'), Synset('bank.n.10')]


25

In [98]:
# Lösung A1

def mfs_of(lemma,tag) :
    mfs = {}
    for i in wn.synsets(lemma, pos=tag):
        mfs[i] = sum(j.count() for j in i.lemmas())    
    print(mfs)
    return max(mfs, key=mfs.get)
    
mfs_of('bank','n')

{Synset('bank.n.01'): 25, Synset('depository_financial_institution.n.01'): 20, Synset('bank.n.03'): 2, Synset('bank.n.04'): 1, Synset('bank.n.05'): 0, Synset('bank.n.06'): 0, Synset('bank.n.07'): 0, Synset('savings_bank.n.02'): 0, Synset('bank.n.09'): 0, Synset('bank.n.10'): 0}


Synset('bank.n.01')

In [115]:
mfs_of('car','n')

{Synset('car.n.01'): 89, Synset('car.n.02'): 2, Synset('car.n.03'): 0, Synset('car.n.04'): 0, Synset('cable_car.n.01'): 0}


Synset('car.n.01')

Glückwunsch! Sie haben soeben eine wichtige Baseline bei der Evaluierung von Disambiguierungsverfahren erstellt. 

Diese Baseline heißt üblicherweise **MFS-Baseline**, weil einfach nur der "most frequent sense" ausgewählt wird.


### Semantische Relationen 

Sowohl für Synsets als auch Lemmata gibt es Funktionen für die Abfrage der semantischen Relationen zwischen diesen Objekten.

#### Hypernymie, Hyponymie, Meronomie, Holonymie (Lemmata & Synsets)

- `hypernyms()`: Liste der Hypernyme (*table* $\rightarrow$ *array*)
- `hyponyms()`: Liste der Hyponyme (*table* $\rightarrow$ *calendar*)
- `member_holonyms()`, `substance_holonyms()`, `part_holonyms()`: Holonymiebeziehungen
- `member_meronyms()`, `substance_meronyms()`, `part_meronyms()`: Meronymiebeziehungen
- `entailments()`: Liste der Implikationen (*snore* $\rightarrow$ *sleep*)
- `causes()`: Liste der Ursachen


In [102]:
syns = wn.synset('war.n.01')

print(syns)
print("Hypernyme:          {}".format(syns.hypernyms()))
print("Hyponyme:           {}".format(syns.hyponyms()))
print("Mitglied-Holonyme:  {}".format(syns.member_holonyms()))
print("Substanz-Holonyme:  {}".format(syns.substance_holonyms()))
print("Teil-Holonyme:      {}".format(syns.part_holonyms()))
print("Implikationen:      {}".format(syns.entailments()))
print("Ursachen:           {}".format(syns.causes()))


Synset('war.n.01')
Hypernyme:          [Synset('military_action.n.01')]
Hyponyme:           [Synset('biological_warfare.n.01'), Synset('chemical_warfare.n.01'), Synset('civil_war.n.01'), Synset('hot_war.n.01'), Synset('information_warfare.n.01'), Synset('jihad.n.01'), Synset('limited_war.n.01'), Synset('psychological_warfare.n.01'), Synset('world_war.n.01')]
Mitglied-Holonyme:  []
Substanz-Holonyme:  []
Teil-Holonyme:      []
Implikationen:      []
Ursachen:           []


#### Antonymie, Related Forms (nur Lemmata)

Für Lemmata gibt es außerdem noch zwei spezielle Relationen:

- `antonyms()`: Liste der Antonyme (*dead* $\rightarrow$ *living*)
- `derivationally_related_forms()`: Liste der Lemmata mit derivationellem Bezug (*decision* $\rightarrow$ *decide*)


In [103]:
lem = wn.lemmas('decision')[0]

print(lem)
print("Antonyme:                  {}".format(lem.antonyms()))
print("mit derivationallem Bezug: {}".format(lem.derivationally_related_forms()))

Lemma('decision.n.01.decision')
Antonyme:                  []
mit derivationallem Bezug: [Lemma('decide.v.01.decide')]


#### Indirekte Beziehungen (nur Synsets)

Die Position im semantischen Graphen kann mit folgenden Funktionen ermittelt werden:

- `max_depth()`: maximaler Hyponymie-Pfad
- `min_depth()`: min Hyponymie-Pfad
- `root_hypernyms(synset)`: Lister der Wurzel-Synsets
- `tree(rel)`: Ausgabe der `rel`-Pfade zu den Wurzel-Synsets

In [113]:
from pprint import pprint
syns = wn.synset('war.n.01')
hyp = lambda s:s.hypernyms()

print(syns)
print("minimale Tiefe: {}".format(syns.min_depth()))
print("maximale Tiefe: {}".format(syns.max_depth()))
print("Wurzel-Synsets: {}".format(syns.root_hypernyms()))
print("Relationspfade zum Wurzel-Synset:")
pprint(syns.tree(hyp))


Synset('war.n.01')
minimale Tiefe: 6
maximale Tiefe: 7
Wurzel-Synsets: [Synset('entity.n.01')]
Relationspfade zum Wurzel-Synset:
[Synset('war.n.01'),
 [Synset('military_action.n.01'),
  [Synset('group_action.n.01'),
   [Synset('act.n.02'),
    [Synset('event.n.01'),
     [Synset('psychological_feature.n.01'),
      [Synset('abstraction.n.06'), [Synset('entity.n.01')]]]]],
   [Synset('event.n.01'),
    [Synset('psychological_feature.n.01'),
     [Synset('abstraction.n.06'), [Synset('entity.n.01')]]]]]]]


#### Gemeinsame Hypernyme (nur Synsets)

NLTK stellt auch Funktionen zur Verfügung, um gemeinsem Hypernyme auszugeben:

- `common_hypernyms(synset)`: Liste der gemeinsamen der Hypernyme
- `lowest_common_hypernyms(synset)`: Liste der nächhsten gemeinsamen Hyponyme


In [114]:
syns1 = wn.synset('bank.n.01')
syns2 = wn.synset('sea.n.01')

print([syns1, syns2])
print("Gemeinsame Hypernyme:              {}".format(syns1.common_hypernyms(syns2)))
print("Die nächsten gemeinsame Hypernyme: {}".format(syns1.lowest_common_hypernyms(syns2)))

[Synset('bank.n.01'), Synset('sea.n.01')]
Gemeinsame Hypernyme:              [Synset('physical_entity.n.01'), Synset('entity.n.01')]
Die nächsten gemeinsame Hypernyme: [Synset('physical_entity.n.01')]


### <span style="color:red">Aufgaben II</span>

<span style="color:red">A2:</span> Schreiben Sie die Funktionen `common_hyponyms(synset1,synset2)` und `highest_common_hyponyms(synset1,synset2)`, die für zwei Synsets alle gemeinsamen Hyponyme bzw. die "höchsten" gemeinsamen Hyponyme ausgibt!

In [125]:
bankhypo = wn.synset('bank.n.01').hyponyms()
bankhypo

[Synset('riverbank.n.01'), Synset('waterside.n.01')]

In [137]:
bank = bankhypo[0].hypernyms()

In [142]:
bank[0].hypernyms()

[Synset('slope.n.01')]

In [220]:
wn.synset('bank.n.01').lowest_common_hypernyms(wn.synset('physical_entity.n.01'))

[Synset('physical_entity.n.01')]

In [122]:
wn.synset('physical_entity.n.01').hyponyms()

[Synset('causal_agent.n.01'),
 Synset('matter.n.03'),
 Synset('object.n.01'),
 Synset('process.n.06'),
 Synset('substance.n.04'),
 Synset('thing.n.12')]

In [183]:
physical_entity = wn.synsets('physical_entity', 'n')[0]
hypos = lambda s:s.hyponyms()

print(list(relative.closure(hypos)))

[Synset('agnate.n.01'), Synset('ancestor.n.01'), Synset('blood_relation.n.01'), Synset('cousin.n.01'), Synset('descendant.n.01'), Synset('enate.n.01'), Synset('in-law.n.01'), Synset('kin.n.01'), Synset('kinsman.n.01'), Synset('kinswoman.n.01'), Synset('kissing_cousin.n.01'), Synset('next_of_kin.n.01'), Synset('offspring.n.01'), Synset('second_cousin.n.01'), Synset('sibling.n.01'), Synset('spouse.n.01'), Synset('ancestress.n.01'), Synset('forebear.n.01'), Synset('forefather.n.01'), Synset('foremother.n.01'), Synset('progenitor.n.01'), Synset('child.n.04'), Synset('scion.n.01'), Synset('brother-in-law.n.01'), Synset('daughter-in-law.n.01'), Synset('father-in-law.n.01'), Synset('mother-in-law.n.01'), Synset('sister-in-law.n.01'), Synset('son-in-law.n.01'), Synset('affine.n.01'), Synset('male_sibling.n.01'), Synset('nephew.n.01'), Synset('uncle.n.01'), Synset('aunt.n.01'), Synset('female_sibling.n.01'), Synset('niece.n.01'), Synset('baby.n.02'), Synset('bastard.n.02'), Synset('child.n.02')

In [211]:
all_common_hypos = common_hyponyms(wn.synset('bank.n.01'), wn.synset('physical_entity.n.01'))
high = 0
print(wn.synset('bank.n.01').max_depth())
print(wn.synset('physical_entity.n.01').max_depth())
print(wn.synset('bank.n.01').min_depth())
print(wn.synset('physical_entity.n.01').min_depth())
for i in all_common_hypos:
    if i.max_depth() > high:
        print(high)
        high = i.max_depth()
        print(i.max_depth())

5
1
5
1
0
6


In [231]:
######################################################################################
##################################### Lösung A2 ######################################
######################################################################################
def common_hyponyms(synset1, synset2):
    common = []
    hypos = lambda s:s.hyponyms()

    hyponyms1 = list(synset1.closure(hypos))
    hyponyms2 = list(synset2.closure(hypos))
    for i in hyponyms1:
        for j in hyponyms2:
            if i == j:
                common.append(i)       
    return common

def highest_common_hyponyms(synset1, synset2):
    #print("maxdepth of synset1 = ", synset1.max_depth())
    #print("maxdepth of synset2 = ", synset2.max_depth())
    common = common_hyponyms(synset1, synset2)
    max_depth = 0
    for i in common:
        if i.max_depth() > max_depth:
            max_depth = i.max_depth()
    highest = []
    for j in common:
        if j.max_depth() == max_depth:
            highest.append(j)
    return highest

In [232]:
# Tests

print(common_hyponyms(wn.synset('bank.n.01'),wn.synset('physical_entity.n.01')))
print(highest_common_hyponyms(wn.synset('bank.n.01'),wn.synset('physical_entity.n.01')))
print(highest_common_hyponyms(wn.synset('bank.n.01'),wn.synset('sea.n.01')))

[Synset('riverbank.n.01'), Synset('waterside.n.01')]
[Synset('riverbank.n.01'), Synset('waterside.n.01')]
[]


In [224]:
wn.synset('riverbank.n.01').max_depth()

6

In [233]:
wn.synset('waterside.n.01').max_depth()

6