<span style="color:red">Abgegeben von (Name, Vorname):</span> 
**Elsherif, Mohamed**

Immer griffbereit:
- Website: https://www.nltk.org/
- Buch: https://www.nltk.org/book/
- Module: https://www.nltk.org/py-modindex.html
- Beispiele: http://www.nltk.org/howto/

<br>
<font size="6"><strong>6. Sitzung: Tokenisierung</strong></font> 
<br>
<br>

Wörter treten gewöhnlich nicht isoliert auf, sondern gruppieren sich zu Chunks, Phrasen (oder Konsitutenten) und Sätzen. 

Bisher sind uns Worte und diese Gruppen im Brown Corpus fein säuberlich getrennt und voranalysiert begegnet, z.B. die Worte und Sätze im Brown Corpus:   

In [1]:
import nltk
from nltk.corpus import brown

brown.tagged_sents()

[[('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'), ('Grand', 'JJ-TL'), ('Jury', 'NN-TL'), ('said', 'VBD'), ('Friday', 'NR'), ('an', 'AT'), ('investigation', 'NN'), ('of', 'IN'), ("Atlanta's", 'NP$'), ('recent', 'JJ'), ('primary', 'NN'), ('election', 'NN'), ('produced', 'VBD'), ('``', '``'), ('no', 'AT'), ('evidence', 'NN'), ("''", "''"), ('that', 'CS'), ('any', 'DTI'), ('irregularities', 'NNS'), ('took', 'VBD'), ('place', 'NN'), ('.', '.')], [('The', 'AT'), ('jury', 'NN'), ('further', 'RBR'), ('said', 'VBD'), ('in', 'IN'), ('term-end', 'NN'), ('presentments', 'NNS'), ('that', 'CS'), ('the', 'AT'), ('City', 'NN-TL'), ('Executive', 'JJ-TL'), ('Committee', 'NN-TL'), (',', ','), ('which', 'WDT'), ('had', 'HVD'), ('over-all', 'JJ'), ('charge', 'NN'), ('of', 'IN'), ('the', 'AT'), ('election', 'NN'), (',', ','), ('``', '``'), ('deserves', 'VBZ'), ('the', 'AT'), ('praise', 'NN'), ('and', 'CC'), ('thanks', 'NNS'), ('of', 'IN'), ('the', 'AT'), ('City', 'NN-TL'), ('of', 'IN-TL'), ('Atlant

Nun haben wir nicht immer das Glück, dass die Daten genau in dem Format vorliegen, das wir für die weitere Verarbeitung benötigen. Stattdessen kann es sein, dass wir zunächst Strings vor uns haben, die wir erst **tokenisieren** müssen:

> On a \\$50,000 mortgage of 30 years at 8%, the monthly payment wouldn't be \\$366.88.

> John Fitzgerald Kennedy wurde am 29. Mai 1917 als zweitältester Sohn von Joseph P. Kennedy und Rose Fitzgerald Kennedy in Brookline, Massachusetts geboren. Er stammte aus einer bedeutenden Familie: Sein Großvater mütterlicherseits war der demokratische Politiker John F. Fitzgerald. Seine jüngeren Brüder Robert – der 1968 ebenfalls einem Attentat zum Opfer fiel – und Edward spielten beide in der amerikanischen Geschichte des 20. Jahrhunderts als Politiker eine wesentliche Rolle.

Zwei Arten der Tokenisierung sind hier für uns relevant: 

- **Wort-Tokenisierung:** Die Identifikation von Worten im laufenden Text – dazu zählen auch Zahlen, Satzzeichen etc.
- **Satz-Tokenisierung:** Die Identifikation von Sätzen im laufenden Text

Daneben gibt es aber viele weitere Arten der Tokenisierung, z.B. nach Zeilen, Tabs, [Themen](https://www.nltk.org/api/nltk.tokenize.texttiling.html?highlight=texttiling) usw.

**Man beachte:** Obwohl die Tokenisierung gerne als trivialer Vorverarbeitungsschritt angesehen wird, können sich die üblichen Tokenisierer überraschend deutlich unterscheiden (siehe [Dridan & Oepen 2012](https://www.aclweb.org/anthology/P12-2074)). Außerdem ist die Tokenisierung bis zu einem bestimmten Grad sprachabhängig.  

# Wort-Tokenisierung

Ziel bei der Wort-Tokenisierung ist die Identifikation von Worten und Satzzeichen im laufenden Text. Für obiges Beispiel würden wir also gerne eine Liste dieser Elemente erhalten:

    ['On', 'a', '$', '50,000', 'mortgage', ...]

Als erstes kommt hier wahrscheinlich die Stringmethode `split()` in den Sinn, mit der sich ein String an den Leerzeichen auftrennen lässt: 

In [2]:
s = "On a $50,000 mortgage of 30 years at 8%, the monthly payment wouldn't be $366.88."
print(s.split())

['On', 'a', '$50,000', 'mortgage', 'of', '30', 'years', 'at', '8%,', 'the', 'monthly', 'payment', "wouldn't", 'be', '$366.88.']


Das ist schon mal eine ganz gute Annäherung. Satzzeichen und Symbole wie `$` und `%` werden aber nicht als eigenständige Elemente erkannt, weil hier keine Leerzeichen als Separatoren verwendet werden.

Statt die Separatoren anzugeben, könnte man auch mit `re.findall()` spezifizieren, was überhaupt ein "Wort" sein soll:

In [3]:
import re
s = "On a $50,000 mortgage of 30 years at 8%, the monthly payment wouldn't be $366.88."

print(re.findall("(\$|\%|[^\%\s]+)",s)) 

['On', 'a', '$', '50,000', 'mortgage', 'of', '30', 'years', 'at', '8', '%', ',', 'the', 'monthly', 'payment', "wouldn't", 'be', '$', '366.88.']


  print(re.findall("(\$|\%|[^\%\s]+)",s))


Damit kommt man in unserem Beispiel bei den Symbolen `$` und `%` weiter, aber die Satzzeichen und Apostrophe bereiten immer noch Probleme, denn `,`, `'` und `.` können auch Bestandteile von Token sein. 

Die Lösung besteht darin, zuerst die fehlenden Separatoren (d.h. Leerzeichen) einzufügen und erst dann die `split()`-Methode anzuwenden. 

In [4]:
s = "On a $50,000 mortgage of 30 years at 8%, the monthly payment wouldn't be $366.88."

s = re.sub('(\S+), ', r'\1 , ' , s)        # comma before whitespace
s = re.sub('\.$', ' .' , s)                # end period
s = re.sub('(\%|\$)',r' \1 ',s)            # percentage and Dollar symbol 
s = re.sub('(n\'t)(\.|\,| )', r' \1\2',s)  # negation contraction

print(s.split())

['On', 'a', '$', '50,000', 'mortgage', 'of', '30', 'years', 'at', '8', '%', ',', 'the', 'monthly', 'payment', 'would', "n't", 'be', '$', '366.88', '.']


  s = re.sub('(\S+), ', r'\1 , ' , s)        # comma before whitespace
  s = re.sub('\.$', ' .' , s)                # end period
  s = re.sub('(\%|\$)',r' \1 ',s)            # percentage and Dollar symbol
  s = re.sub('(n\'t)(\.|\,| )', r' \1\2',s)  # negation contraction


So funktioniert im Prinzip auch der [NLTK-Tokenisierer](https://www.nltk.org/api/nltk.tokenize.treebank.html), der mittels `word_tokenize(string, language='english')` aufgerufen werden kann, wobei natürlich ein paar Substitutionsregeln mehr zum Einsatz kommen. 

In [5]:
nltk.download('punkt')
from nltk.tokenize import word_tokenize
s = "On a $50,000 mortgage of 30 years at 8%, the monthly payment wouldn't be $366.88."
print(word_tokenize(s))

['On', 'a', '$', '50,000', 'mortgage', 'of', '30', 'years', 'at', '8', '%', ',', 'the', 'monthly', 'payment', 'would', "n't", 'be', '$', '366.88', '.']


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/dr.elsherif/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Man beachte, dass es sich empfiehlt, für bestimmte Textsorten angepasste Tokenisierer zu verwenden, z.B. für [Twitter](https://www.nltk.org/api/nltk.tokenize.casual.html?highlight=casual#module-nltk.tokenize.casual).

    https://twitter.com/stevesteranka/status/1597405478321258496 Hey @elonmusk 👋 Is there a timeline for Tesla insurance coming to Florida? I’m currently paying +$350/mo 😢💸🔥

In [6]:
from nltk.tokenize import TweetTokenizer
tknzr = TweetTokenizer()
tknzr.tokenize("Hey @elonmusk 👋 Is there a timeline for Tesla insurance coming to Florida? I’m currently paying +$350/mo 😢💸🔥")

['Hey',
 '@elonmusk',
 '👋',
 'Is',
 'there',
 'a',
 'timeline',
 'for',
 'Tesla',
 'insurance',
 'coming',
 'to',
 'Florida',
 '?',
 'I',
 '’',
 'm',
 'currently',
 'paying',
 '+',
 '$',
 '350',
 '/',
 'mo',
 '😢',
 '💸',
 '🔥']

# Satz-Tokenisierung

Die Wort-Tokenisierung (und insbesondere `word_tokenize()`) setzt in der Regel voraus, dass die Eingabestrings aus einzelnen Sätzen bestehen. Das sieht man daran, dass Punkte immer (und meistens auch nur dann) als Satzzeichen tokenisiert werden, wenn sie am Ende des Strings stehen. 

In [7]:
s1 = "John Fitzgerald Kennedy wurde am 29. Mai 1917 als zweitältester Sohn von Joseph P. Kennedy und Rose Fitzgerald Kennedy in Brookline, Massachusetts geboren." 
s2 = "John Fitzgerald Kennedy wurde am 29. Mai 1917 als zweitältester Sohn von Joseph P."
print(word_tokenize(s1, language='german'))
print(word_tokenize(s2, language='german'))

['John', 'Fitzgerald', 'Kennedy', 'wurde', 'am', '29.', 'Mai', '1917', 'als', 'zweitältester', 'Sohn', 'von', 'Joseph', 'P.', 'Kennedy', 'und', 'Rose', 'Fitzgerald', 'Kennedy', 'in', 'Brookline', ',', 'Massachusetts', 'geboren', '.']
['John', 'Fitzgerald', 'Kennedy', 'wurde', 'am', '29.', 'Mai', '1917', 'als', 'zweitältester', 'Sohn', 'von', 'Joseph', 'P', '.']


`word_tokenize()` erkennt im obigen Beispiel also nicht, dass `P.` eine Abkürzung ist. Die Unterscheidung zwischen Punkten in Abkürzungen und Punkten als Satzzeichen ist aber essentiell für die [Erkennung von Satzgrenzen](https://en.wikipedia.org/wiki/Sentence_boundary_disambiguation), d.h. für die **Satz-Tokenisierung**. 

Da **Abkürzungen** a priori keine festgelegte Form haben, liefern reguläre Ausdrücken alleine nicht immer zufriedenstellenden Ergebnisse. Stattdessen verwendet man üblicherweise **überwachte und unüberwachte Lernverfahren**, die über statistische Verteilungen in rohen oder schon analysierten Textdaten ermitteln, was eine Abkürzung ist und was nicht. 

## Unüberwachte Lernverfahren

Bei unüberwachten Lernverfahren geht es im Prinzip um Inferenzen wie: 

- Tritt `P` statistisch signifikant mit `.` auf? 
- Wenn ja, dann behandle `P.` als Abkürzung. 

NLTK nutzt für die [Satz-Tokenisierung](https://www.nltk.org/api/nltk.tokenize.punkt.html#module-nltk.tokenize.punkt) den [Punkt-Algorithmus (Kiss & Strunk 2006)](https://www.aclweb.org/anthology/J06-4003/), mit dem unter Laborbedingungen über 90% der Satzgrenzen (98% im Englischen) richtig erkannt werden können. Die tatsächliche Performanz hängt jedoch stark von der Sprache, den Test- und Trainingsdaten abhängt. 

NLTK enthält daher ein Werkzeug, um aus rohen Textdaten einen Satz-Tokenisierer zu lernen: 

     my_sent_tokenizer = PunktSentenceTokenizer(trainingData)
     
Dies ist insbesondere nützlich, wenn bestimmte Sprachen oder Textgenres analysiert werden sollen, für die es noch keinen angepassten Satz-Tokenisierer gibt.

Der vorgefertigte [Satz-Tokenisierer im NLTK](https://www.nltk.org/api/nltk.tokenize.html?highlight=sent_tokenizer#nltk.tokenize.sent_tokenize) wird mit `sent_tokenizer(string,language='english')` aufgerufen. Man beachte, dass die Spracheinstellung einen erheblichen Einfluss auf das Ergebnis haben kann:

In [8]:
from nltk.tokenize import sent_tokenize
s = "John Fitzgerald Kennedy wurde am 29. Mai 1917 als zweitältester Sohn von Joseph P. Kennedy und Rose Fitzgerald Kennedy in Brookline, Massachusetts geboren." 
print("Englischer Tokenisierer:\n{}\n".format(sent_tokenize(s,language='english')))
print("Deutscher Tokenisierer:\n{}".format(sent_tokenize(s,language='german')))

Englischer Tokenisierer:
['John Fitzgerald Kennedy wurde am 29.', 'Mai 1917 als zweitältester Sohn von Joseph P. Kennedy und Rose Fitzgerald Kennedy in Brookline, Massachusetts geboren.']

Deutscher Tokenisierer:
['John Fitzgerald Kennedy wurde am 29. Mai 1917 als zweitältester Sohn von Joseph P. Kennedy und Rose Fitzgerald Kennedy in Brookline, Massachusetts geboren.']


Wenn wir auf diese Weise das ganze Eingangsbeispiel nach Sätzen tokenisieren, erhalten wir folgendes Ergebnis:

In [9]:
s = "John Fitzgerald Kennedy wurde am 29. Mai 1917 als zweitältester Sohn von Joseph P. Kennedy und Rose Fitzgerald Kennedy in Brookline, Massachusetts geboren. Er stammte aus einer bedeutenden Familie: Sein Großvater mütterlicherseits war der demokratische Politiker John F. Fitzgerald. Seine jüngeren Brüder Robert – der 1968 ebenfalls einem Attentat zum Opfer fiel – und Edward spielten beide in der amerikanischen Geschichte des 20. Jahrhunderts als Politiker eine wesentliche Rolle." 
print(sent_tokenize(s,language='german'))

['John Fitzgerald Kennedy wurde am 29. Mai 1917 als zweitältester Sohn von Joseph P. Kennedy und Rose Fitzgerald Kennedy in Brookline, Massachusetts geboren.', 'Er stammte aus einer bedeutenden Familie: Sein Großvater mütterlicherseits war der demokratische Politiker John F. Fitzgerald.', 'Seine jüngeren Brüder Robert – der 1968 ebenfalls einem Attentat zum Opfer fiel – und Edward spielten beide in der amerikanischen Geschichte des 20. Jahrhunderts als Politiker eine wesentliche Rolle.']


Es fällt auf, dass die Erkennung von Satzgrenzen bei `:` offensichtlich nicht so gut funktioniert wie beim Punkt.

## Überwachte Lernverfahren

Bei unüberwachten Lernverfahren unterscheiden sich die Inferenzen in einem wichtigen Detail von unüberwachten Lernverfahren: 

- Tritt `P` statistisch signifikant **mit einer Satzgrenze** auf? 
- Wenn ja, dann behandle `P.` **nicht** als Abkürzung. 

D.h. hier verfügen wir während des Lernens über Beispiele, was eine Satzgrenze ist und was nicht.

Die Verfügbarkeit solcher annotierter Daten ist der **Flaschenhals von überwachten Verfahren**, die dafür aber noch einmal besser abschneiden können als unüberwachte Verfahren. Ein Beispiel liefert das [Elephant-System aus Evang et al. (2013)](https://aclanthology.org/D13-1146/), das auf eigenen Testdaten annähernd 100 % der Sätze korrekt tokenisert (Punkt: 98,51 %). Außerdem erledigt Elephant nebenbei die Worttokenisierung, was möglicherweise auch zur besseren Performanz beiträgt.

## Was ist überhaupt ein Satz?

Es fällt übrigens überraschend schwer, genau zu definieren, was ein Satz ist. Es kursieren unterschiedliche Definitionen [(WikiPedia nennt 200!)](https://de.wikipedia.org/wiki/Satz_(Grammatik)) je nach Beschreibungsebene und theoretischem Ansatz. Man kann diese Vielfalt vielleicht grob so zusammenfassen:

- **Orthographisch:** Am Anfang steht ein Großbuchstabe und am Ende ein Satzzeichen (*.?!*).
- **Syntaktisch:** eine bestimmte Abfolge von Phrasentypen → [topologisches Feldermodell](https://de.wikipedia.org/wiki/Feldermodell_des_deutschen_Satzes) (Subject Verb Objekt)
  - "Ein Satz ist eine abgeschlossene Einheit, die nach bestimmten Regeln (den syntaktischen Regeln) gebildet worden ist." ([Duden](https://www.duden.de/sprachwissen/sprachratgeber/Was-ist-ein-Satz))
- **Semantisch:** der Ausdruck mindestens eines abgeschlossenen Gedankens, z.B. eine Aussage über die Welt (*Frösche sind Säugetiere*)
- **Pragmatisch:** der Vollzug eines Handlungsakts → Illuktion, Perlokution  (*Es zieht.*)

In diesem Notebook steht eindeutig der orthographische Satzbegriff im Vordergrund. 

# Byte-pair Encoding

[Byte-pair Encoding (BPE)](https://en.wikipedia.org/wiki/Byte_pair_encoding) ist eine Form der Tokenisierung, die auf Wortgrenzen keine Rücksicht nimmt: Token können sich auch über Wortteile erstrecken und auch Leerzeichen einschließen! 

Das Ziel ist allerdings, dass die resultierenden Token **möglichst groß** sind und **möglichst häufig** in der Eingabe auftreten. Im Grunde handelt es sich also um eine effiziente Art der Kompression.

**Algorithmus:** 
1. Ersetze die häufigsten zwei nebeneinanderliegenden Buchstaben (Byte Pair, Bigramm) durch ein neues Symbol.
2. Wiederhole Schritt (1) bis alle zwei nebeneinanderliegenden Buchstaben nur einmal auftreten.  

**Formales Beispiel:**

    1) aaabdaaabac
    2) ZabdZabac     Z=aa
    3) ZYdZYac       Z=aa Y=ab 
    4) XdXac         Z=aa Y=ab X=ZY 

Der String besteht also aus vier Token: 

    aaab + d + aaab + a + c

Die resultierende Tokenisierung ist also abhängig vom **gesamten** Eingabetext. Bei Sprachdaten kann man beobachten, dass die BPE-Tokenisierung mit der Wort-Tokenisierung konvergiert: 

In [10]:
from nltk import ngrams
from nltk.probability import FreqDist
from nltk.corpus import brown

# text = "John Fitzgerald Kennedy wurde am 29. Mai 1917 als zweitältester Sohn von Joseph P. Kennedy und Rose Fitzgerald Kennedy in Brookline, Massachusetts geboren. Er stammte aus einer bedeutenden Familie: Sein Großvater mütterlicherseits war der demokratische Politiker John F. Fitzgerald. Seine jüngeren Brüder Robert – der 1968 ebenfalls einem Attentat zum Opfer fiel – und Edward spielten beide in der amerikanischen Geschichte des 20. Jahrhunderts als Politiker eine wesentliche Rolle."
text = " ".join(brown.words(categories='news')[:3000])

text_list = list(text)
most_frequent_bigram = FreqDist(ngrams(list(text), 2)).most_common(1)[0]

while most_frequent_bigram[1] > 1:
    i = 0
    while i < len(text_list)-1:
        if text_list[i] == most_frequent_bigram[0][0] and text_list[i+1] == most_frequent_bigram[0][1]:
            text_list[i] = "".join(most_frequent_bigram[0])
            del text_list[i+1]
        i += 1 
    most_frequent_bigram = FreqDist(
        ngrams(list(text_list), 2)).most_common(1)[0]

print("Size of vocabulary: {}".format(len(set(text_list))))
print("Tokenized text: {}".format(text_list))

Size of vocabulary: 1110
Tokenized text: ['The ', 'Fulton County ', 'Gr', 'and J', 'ur', 'y ', 'said ', 'Friday ', 'an ', 'investig', 'ation ', 'of ', "Atlanta's ", 'rec', 'ent ', 'primary ', 'election ', 'pro', 'duced ', '`` ', 'no ', 'ev', 'idence ', "'' ", 'that ', 'any ', 'irregularities ', 'took ', 'place ', '. The jury ', 'f', 'ur', 'ther ', 'said ', 'in ', 'term', '-', 'end ', 'presen', 't', 'ments ', 'that the ', 'City ', 'Executive Committee ', ', which ', 'had ', 'over', '-', 'all ', 'charge ', 'of the ', 'election ', ', `` ', 'des', 'erv', 'es ', 'the ', 'prai', 'se ', 'and ', 'th', 'ank', 's ', 'of the ', 'City ', 'of Atlanta ', "'' ", 'for the ', 'manner ', 'in ', 'which the ', 'election was ', 'con', 'duc', 'ted ', '. The ', 'Sept', 'emb', 'er', '-', 'O', 'c', 'to', 'ber ', 'term ', 'jury ', 'had been ', 'charg', 'ed by ', 'Fulton Superior Court ', 'J', 'ud', 'ge ', 'D', 'ur', 'wood ', 'P', 'y', 'e ', 'to ', 'investig', 'ate ', 'reports ', 'of ', 'possible ', '`` ', 'irre

**Aber:** Die Tokenisierung enthält außerdem sowohl Mehrworteinheinheit als auch Wortbestandteile. Letzteres bei manchen Verfahren wichtig für die Verarbeitung seltener Worte (insb.  [Hapax Legomena](https://de.wikipedia.org/wiki/Hapax_legomenon)).

# Zurück zur Wort-Disambiguierung: Das Lesk-Verfahren

Mit Wort- und Satz-Tokenisierern können wir nun ein weiteres "wissensbasiertes" Wort-Disambiguierungsverfahren implementieren, das auf [Michael Lesk](https://en.wikipedia.org/wiki/Mike_Lesk) zurückgeht. 

![wsd-overview.png](attachment:wsd-overview.png)

Die Idee des sogenannten [**Lesk-Verfahrens**](https://en.wikipedia.org/wiki/Lesk_algorithm) ist recht simpel: Seien $\Sigma_w$ die Bedeutungen eines Wortes $w$ in einem Kontext $K$. Diejenige Bedeutung in $\Sigma_w$, dessen Beschreibung (Glosse, Beispielverwendung) die größte Überschneidung mit $K$ hat, wird als Bedeutung von $w$ in $K$ ausgegeben. Kurz gesagt: 

$$L(w,K) = \arg\max_{\sigma_1,...,\sigma_n \in \Sigma_w)} gloss(\sigma_i) \cap K$$

**Ein Beispiel:** Das Wort *bank* hat im Englischen die Bedeutungen `bank.n.01` und `bank.n.02` mit den folgenden beiden Glossen:

In [11]:
from nltk.corpus import wordnet as wn
print('bank.n.01: ' + wn.synset('bank.n.01').definition())
print('bank.n.02: ' + wn.synset('bank.n.02').definition())

bank.n.01: sloping land (especially the slope beside a body of water)
bank.n.02: a financial institution that accepts deposits and channels the money into lending activities


Wenn $K = $*The water washed away the sandy bank of the river*, dann würde der Lesk-Algorithmus die Bedeutung `bank.n.01` ausgeben, da die Überschneidung zwischen $K$ und `wn.synset('bank.n.01').definition()` **abzüglich Stopwörter** größer ist und *water* enthält. 

## Varianten

Es gibt viele mögliche Varianten des Lesk-Algorithmus. Der Kontext $K$ kann hier z.B. bestehen aus: 
- den Wortformen in $K$
- den Lemmaformen in $K$
- den möglichen Bedeutungen der Wortformen in $K$

Die Bedeutungen in $\Sigma$ können z.B. bestehen aus:
- den Definitionen oder den Beispielen der Synsets, oder beidem
- den Definitionen und Beispielen der durch Bedeutungsrelationen verbundenen Synsets 

Der Grad der Überschneidung (das Scoring) kann z.B. berechnet werden:
- anhand der Kardinalität der Überschneidung ("bag of words")
- anhand der Gewichtung gemeinsamer N-Gramme abhängig von N

Der Ansatz von [Banerjee & Pedersen (2003)](https://www.ijcai.org/Proceedings/03/Papers/116.pdf) verfolgt beispielsweise eine Anreicherung von $K$ und $\Sigma$ mit Informationen aus WordNet.

## <span style="color:red">Aufgaben I</span>

Als nächstes wollen wir den Lesk-Algorithmus implementieren und für die Evaluation wieder die Senseval-Daten für *interest* verwenden. 

D.h. wir brauchen wieder das Dictionary `SV_SENSE_MAP`, um die Synset-Namen bei der Umwandlung der Senseval-Daten zu aktualisieren:

In [12]:
# Copied from https://stackoverflow.com/a/16391584/6452961

# A map of SENSEVAL senses to WordNet 3.0 senses.
# SENSEVAL-2 uses WordNet 1.7, which is no longer installable on most modern
# machines and is not the version that the NLTK comes with.
# As a consequence, we have to manually map the following
# senses to their equivalent(s).
SV_SENSE_MAP = {
    "HARD1": ["difficult.a.01"],    # not easy, requiring great physical or mental
    "HARD2": ["hard.a.02",          # dispassionate
              "difficult.a.01"],
    "HARD3": ["hard.a.03"],         # resisting weight or pressure
    "interest_1": ["interest.n.01"], # readiness to give attention
    "interest_2": ["interest.n.03"], # quality of causing attention to be given to
    "interest_3": ["pastime.n.01"],  # activity, etc. that one gives attention to
    "interest_4": ["sake.n.01"],     # advantage, advancement or favor
    "interest_5": ["interest.n.05"], # a share in a company or business
    "interest_6": ["interest.n.04"], # money paid for the use of money
    "cord": ["line.n.18"],          # something (as a cord or rope) that is long and thin and flexible
    "formation": ["line.n.01","line.n.03"], # a formation of people or things one beside another
    "text": ["line.n.05"],                 # text consisting of a row of words written across a page or computer screen
    "phone": ["telephone_line.n.02"],   # a telephone connection
    "product": ["line.n.22"],       # a particular kind of product or merchandise
    "division": ["line.n.29"],      # a conceptual separation or distinction
    "SERVE12": ["serve.v.02"],       # do duty or hold offices; serve in a specific function
    "SERVE10": ["serve.v.06"], # provide (usually but not necessarily food)
    "SERVE2": ["serve.v.01"],       # serve a purpose, role, or function
    "SERVE6": ["service.v.01"]      # be used by; as of a utility
}

In [13]:
from nltk.corpus import senseval
interestGoldData = [[SV_SENSE_MAP[inst.senses[0]][0],inst.position,inst.context] 
                        for inst in senseval.instances('interest.pos')]
interestTestData = [['', inst[1], inst[2]] for inst in interestGoldData]

print(interestGoldData[0])
print(interestTestData[0])

['interest.n.04', 18, [('yields', 'NNS'), ('on', 'IN'), ('money-market', 'JJ'), ('mutual', 'JJ'), ('funds', 'NNS'), ('continued', 'VBD'), ('to', 'TO'), ('slide', 'VB'), (',', ','), ('amid', 'IN'), ('signs', 'VBZ'), ('that', 'IN'), ('portfolio', 'NN'), ('managers', 'NNS'), ('expect', 'VBP'), ('further', 'JJ'), ('declines', 'NNS'), ('in', 'IN'), ('interest', 'NN'), ('rates', 'NNS'), ('.', '.')]]
['', 18, [('yields', 'NNS'), ('on', 'IN'), ('money-market', 'JJ'), ('mutual', 'JJ'), ('funds', 'NNS'), ('continued', 'VBD'), ('to', 'TO'), ('slide', 'VB'), (',', ','), ('amid', 'IN'), ('signs', 'VBZ'), ('that', 'IN'), ('portfolio', 'NN'), ('managers', 'NNS'), ('expect', 'VBP'), ('further', 'JJ'), ('declines', 'NNS'), ('in', 'IN'), ('interest', 'NN'), ('rates', 'NNS'), ('.', '.')]]


<span style="color:red">A1:</span> Vervollständigen Sie die Funktion `lesk_disambiguate_interest` und implementieren Sie dabei eine Variante des Lesk-Algorithmus! Führen Sie für die Synset-Glossen und Synset-Beispielen ggf. die folgenden **Vorverarbeitungsschritte** aus: 

1. Wort- und Satz-Tokenisierung
2. Entfernung von Stopwörtern (`from nltk.corpus import stopwords`), Satzzeichen etc.
3. Lemmatisierung der übrigen Wortformen (`from nltk.stem import WordNetLemmatizer`)

In [14]:
import string
from nltk.corpus import stopwords
from nltk.corpus import wordnet as wn
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

wnl = WordNetLemmatizer()
punctuation = string.punctuation

def lesk_disambiguate_interest(inst):
    outsyns = inst[0]
    position = inst[1]
    context = inst[2]   # [('yields', 'NNS'), ('on', 'IN'), ('money-market', 'JJ'), ...]

    # Lösung A1
    
    #############################
    #### Während der Vorlesung zu diesem Notebook 6 wurde mir klar, 
    #### dass ich unwissentlich bereits etwas Ähnliches wie den Lesk-Algorithm in Hausaufgabe 5 implementiert hatte!
    
    # Wörter extrahieren, Stoppwörter/Satzzeichen entfernen und lemmatisieren
    context_words = [
        wnl.lemmatize(word.lower()) for word, _ in context 
        if word.lower() not in stopwords.words('english') and word not in punctuation
    ]

    # Target word at the given position
    target_word = wnl.lemmatize(context[position][0].lower()) if position < len(context) else None

    # Alle Synsets von 'Interesse' abrufen
    synsets = wn.synsets(target_word, pos=wn.NOUN) if target_word else []

    max_overlap = 0
    genaue_synset = outsyns  

    for synset in synsets:
        # Definition und Beispiele in einem Text zusammenfassen
        gloss_and_examples = synset.definition() + " " + " ".join(synset.examples())
        tokens = word_tokenize(gloss_and_examples)
        # gloss und Beispiel words vorverarbeiten
        synset_words = [
            wnl.lemmatize(word.lower()) for word in tokens 
            if word.lower() not in stopwords.words('english') and word not in punctuation
        ]

        # overlap berechnen
        overlap = len(set(context_words).intersection(synset_words))

         # best_synset aktualisieren, wenn overlap höher ist
        if overlap > max_overlap:
            max_overlap = overlap
            genaue_synset = synset.name()

    outsyns = genaue_synset 
    ####################################

    return genaue_synset

In [15]:
import string
from nltk.corpus import stopwords
from nltk.corpus import wordnet as wn
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

# Initialize global variables
wnl = WordNetLemmatizer()
punctuation = string.punctuation
stop_words = set(stopwords.words('english'))

# Preprocess synsets globally for efficiency
SYNSET_WORDS = {}
synsets = wn.synsets('interest', pos=wn.NOUN)
for synset in synsets:
    gloss_and_examples = synset.definition() + " " + " ".join(synset.examples())
    tokens = word_tokenize(gloss_and_examples)
    SYNSET_WORDS[synset.name()] = [
        wnl.lemmatize(word.lower())
        for word in tokens
        if word.lower() not in stop_words and word not in punctuation
    ]


def lesk_disambiguate_interest(inst):
    outsyns = inst[0]
    position = inst[1]
    context = inst[2]

    # Extract target words (single word at position and adjacent words for multi-word phrases)
    target_words = [
        wnl.lemmatize(context[pos][0].lower())
        for pos in range(max(0, position - 1), min(len(context), position + 2))
        if context[pos][0].lower() not in stop_words and context[pos][0] not in punctuation
    ]

    # Preprocess context words
    context_words = [
        wnl.lemmatize(word.lower())
        for word, _ in context
        if word.lower() not in stop_words and word not in punctuation
    ]

    max_overlap = 0
    best_synset = outsyns  # Default to the provided outsyns

    # Calculate overlap for each synset
    for synset_name, synset_words in SYNSET_WORDS.items():
        # Calculate overlap with context words
        overlap = len(set(context_words).intersection(synset_words))

        # Update best_synset if overlap is higher
        if overlap > max_overlap:
            max_overlap = overlap
            best_synset = synset_name

    # Return the best synset if found, otherwise None
    return best_synset if max_overlap > 0 else None

In [16]:
# Test für A1 (nicht verändern)
sumTrueDisambiguations = 0
sumFalseDisambiguations = 0

from tqdm import tqdm
for i in tqdm(range(len(interestTestData))):
    if lesk_disambiguate_interest(interestTestData[i]) == interestGoldData[i][0] :
        sumTrueDisambiguations += 1
    else :
        sumFalseDisambiguations += 1

accuracyDisambiguations = sumTrueDisambiguations /(sumTrueDisambiguations + sumFalseDisambiguations)

print("Accuracy: {}".format(accuracyDisambiguations))

100%|████████████████████████████████████| 2368/2368 [00:00<00:00, 14230.53it/s]

Accuracy: 0.171875





Wir stellen (wahrscheinlich) fest, dass die Accuracy deutlich unterhalb der graph-basierten Verfahren des letzten Notebooks liegen. Genauso wie MFS (Most Frequent Sense) und Random wird das Lesk-Verfahren daher gerne als Baseline bei der Wort-Disambiguierung herangezogen. 

### Lesk-Verfahren in NLTK

In NLTK gibt es übrigens eine Funktion [`lesk(context_sentence, ambiguous_word, pos=None, synsets=None)`](https://www.nltk.org/api/nltk.wsd.html?highlight=lesk#nltk.wsd.lesk), die eine sehr simple Implementierung des Lesk-Verfahrens bereitstellt. Probieren wir es aus: 

In [17]:
from tqdm import tqdm
sumTrueDisambiguations = 0
sumFalseDisambiguations = 0

for i in tqdm(range(len(interestTestData))) :
    if nltk.wsd.lesk([word for word,tag in interestTestData[i][2]],'interest',pos='n').name() == interestGoldData[i][0] :
        sumTrueDisambiguations += 1
    else :
        sumFalseDisambiguations += 1

accuracyDisambiguations = sumTrueDisambiguations /(sumTrueDisambiguations + sumFalseDisambiguations)

print("Accuracy: {}".format(accuracyDisambiguations))

100%|████████████████████████████████████| 2368/2368 [00:00<00:00, 31790.39it/s]

Accuracy: 0.19425675675675674



