# Kapitel 4: Wörter in der Sentiment-Analyse

Wir haben schon gesehen, dass in der Sentiment-Analyse Wörter und 
Wortlisten eine große Rolle spielen. Ein wichtiger Teil der Arbeiten ist 
es daher, die Abdeckung zu erweitern, also mehr bewertende Wörter zu 
erkennen. Dies sind vor allem Adjektive wie "schlecht", "schön", 
"schnell" oder "robust". Aber auch Mehrwortlexeme spielen eine 
Rolle, wie "geht schnell kaputt" oder "bringt mich um den 
Verstand". Der Kontext der Wörter kann dabei sehr wichtig sein, wie 
man bei "schnell" und "geht schnell kaputt" sehen kann. 
Um Wörter abgleichen zu können, müssen die Texte zunächst normalisiert werden. Der Rest des Kapitels beschäftigt sich mit der Gewinnung von Wörtern für Wortlisten in der Sentiment-Analyse. Wir zeigen die Option auf, existierende Wortlisten einzubinden, WordNet als Quelle zu nutzen, Wörter aus annotierten Textkorpora zu extrahieren und Wörter aus nicht-annotierten Textkorpora zu extrahieren. 

## Normalisierung der Texte

Eine bessere Erkennung der meinungsausdrückenden Wörter lässt sich 
zunächst damit erreichen, dass die Texte vereinheitlicht werden. Zwei 
wichtige Schritte sind hier zu nennen: Textnormalisierung und 
Lemmatisierung. Bei der Textnormalisierung schreibt man alle Wörter im 
Text (und in den Wortlisten) mit Kleinbuchstaben und löscht alle 
Bindestriche und Sonderzeichen, um sie besser vergleichen zu können. 

Hier ist noch einmal das Beispiel aus dem GermEval 2017 Korpus:


Die normalisierte Version davon ist:

Die Ersetzung von Sonderzeichen wie Emojis, die zum Absturz von 
Python-Programmen führen können, kann z. B. mit diesem Code-Schnipsel 
realisiert werden: 

(https://frageit.de/questions/45715280/ucs2-codec-cant-encode-characters-in-position-6161)

In [None]:
def bmp(s):
    return "".join((i if ord(i) < 10000 else '\ufffd' for i in s))

In einigen Fällen kann es jedoch sinnvoll sein, Emojis zu untersuchen 
und nicht zu ignorieren. Dafür gibt es z. B. das Python-Modul 
*emoji* (https://pypi.org/project/emoji/).

Bei der Lemmatisierung führen wir alle Wörter auf ihre Grundform (Lemma) zurück 
und müssen dann nicht mehr "gutes", "guter", "gute" in die 
Wortlisten aufnehmen, sondern nur noch "gut". Damit geht Information 
über die Satzsyntax allerdings verloren, sodass man genau überlegen 
muss, an welcher Stelle dieser Schritt eingesetzt wird.

Für die Lemmatisierung haben Programme wie TextBlob und spaCy (https://spacy.io/) eigene 
Module, die in den meisten Fällen auf einfachen Wortlisten basieren, die 
den Wörtern ihre Lemmata zuordnen. 

Die lemmatisierte Version ist nun:

## Einbindung eines existierenden Sentiment-Wörterbuchs
 
Eine weitere gute Möglichkeit, mehr lexikalische Einheiten zu erkennen, 
ist, existierende Wortlisten einzubinden. In Forschungsprojekten der 
letzten Jahre sind Listen von Wörtern und Phrasen entstanden, die frei 
zur Verfügung stehen und in neue Systeme eingebunden werden können. 
Auf der IGGSA-Webseite (https://sites.google.com/site/iggsahome/downloads) sind einige dieser Ressourcen gelistet. Hier sollen 
nur ein paar Beispiele genannt werden, denn es kommen ständig neue 
Ressourcen hinzu:

Die "SePL (Sentiment Phrase List)" der Universität Hof wird bei 
Rill et al. (2012) beschrieben. Die Liste kann über die 
Projektwebseite (http://www.opinion-mining.org/SePL-Sentiment-Phrase-List) angefordert werden. Sie enthält über 14.000 Einträge im 
csv-Format, die aus Produktbewertungen mit ihrer Sternewertung 
automatisch erzeugt und zum Teil von Hand korrigiert wurden. 

Ein paar Beispiele aus dieser Liste:

| phrase | opinion value | standard deviation | standard error | phrase type | manual correction |
|--------|---------------|--------------------|----------------|-------------|-------------------|
| abartig | -0.540        | 0.811              | 0.186          | a           |                   |
| abermals bestens gelungen | 0.800 | 0.000 | 0.000  | a | m |
| abgedreht | 0.000 | 0.000  | 0.000 | a | m |

Das "Polarity Lexicon" der Universität Zürich 
(Clematide und Klenner 2010) enthält ca. 8400 Einträge. Diese Einträge sind - mit ihren Polaritätswerten - manuell erzeugt worden.
Zwei Beispiele aus dieser Liste:

Die Basis dieser Wortliste sind literarische Texte, also eine ganz 
andere Textsorte als die Produktbewertungen der SePL. 

Das "Multi-Domain Sentiment Lexicon for German" (https://sites.google.com/site/iggsahome/downloads/OPM.zip?attredirects=0) der Hochschule 
Darmstadt ist aus einem studentischen Projekt entstanden, in dem die 
lexikalischen Daten aus drei verschiedenen Wortlisten kombiniert wurden. 
Es enthält ca. 2900 Einträge im XML-Format. Hier ist ein Auszug:


Bei der Zusammenführung fiel auf, dass die Polaritätswerte der drei Ressourcen sich teilweise ganz wesentlich unterscheiden. Das ist einerseits darauf zurückzuführen, dass bei manuellen Annotationen unterschiedliche Standards angenommen werden, so wie "+, -, 0" oder Fließkommazahlen, und andererseits darauf, dass für ganz unterschiedliche Domänen gearbeitet wurde. So ist z. B. der Terminus "gerecht" im politischen Kontext als stark positiv und im wirtschaftsorientierten Kontext nur leicht positiv annotiert.

Bei der Auswahl einer Wortliste für die Integration ist es wichtig, die thematische 
Domäne zu beachten, denn literarische Texte können ganz andere 
bewertende Wörter enthalten als z. B. Social-Media-Bewertungen. Darüber 
hinaus müssen verschiedene Formate (CSV, Tabellen, XML, ...) in das 
Format überführt werden, das in der eigenen Implementierung gebraucht 
wird. Schulz et al. (2017) beschreiben, wie sie in künftigen Implementierungen die Wörterbücher für spezielle Domänen aufbauen wollen:

*A major improvement for the future would be to create
a domain-dependent sentiment lexicon in order
to capture specific words and phrases which in this
particular context have a stronger polarity than in
others.*

(Deutsch: *Eine wesentliche Verbesserung für die Zukunft wäre die Schaffung eines domänenabhängigen Sentiment-Lexikons, um bestimmte Wörter und Phrasen zu erfassen, die in diesem speziellen Kontext eine stärkere Polarität aufweisen als in anderen.* (eigene Übersetzung))


## Gewinnung von Sentiment-Wörtern mithilfe von WordNet

WordNet ist eine linguistische Ressource, die seit den 90er Jahren 
entwickelt wird (Fellbaum 1998). Die lexikalischen 
Einträge sind in Synonym-Gruppen - sogenannten "Synsets" - 
organisiert. Zwischen den Synsets sind Beziehungen wie Hyponymie und 
Antonymie definiert. Dazu kommen weitere Informationen, wie Definitionen 
und Sprachbeispiele.

Zunächst für die englische Sprache entwickelt, kamen weitere WordNets 
für viele andere Sprachen hinzu (Bond 2012), 
die in einer globalen Initiative miteinander verknüpft wurden 
(Bond 2016). Die Ressource wurde für viele 
sprachtechnologische Anwendungen genutzt, so auch für die Entwicklung 
und Erweiterung von Wörterbüchern zur Sentiment-Analyse. 

Hu und Liu (2004) beschreiben, dass sie eine kleine Menge 
englischer Adjektive von Hand als positiv oder negativ bewertet haben 
und dann für diese Adjektive zunächst die Synonyme aus WordNet gesucht 
haben. Im nächsten Schritt haben sie die Antonyme mit dem jeweils 
gegensätzlichen Wert bewertet und davon wiederum Synonyme gesucht. Das 
Opinion Lexicon (http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html\#lexicon) enthält damit 6800 englische Adjektive, die als positiv 
und negativ klassifiziert sind. 

Baccianella et al. (2010) sind ähnlich vorgegangen, haben 
dann aber die Klassifikation direkt im WordNet aufgenommen, das WordNet 
also erweitert. Dabei haben sie auch die Adjektive in Definitionen für 
die Synsets mit derselben Polarität annotiert wie das Synset selbst.

Naderalvojoud et al. (2017) testen drei verschiedene Sentiment-Lexika im Zusammenhang mit einer Analyse auf der Basis von  "Recurrent Neural Networks" (RNN) und stellen fest, dass das auf WordNet basierte Lexikon SWN am besten funktioniert: 

*Furthermore, while the German SentiSpin lexicon does
not improve the performance of the RNN model
in the positive class, the proposed German SWN
lexicons significantly improve its performance.*

(Deutsch: *Während das deutsche SentiSpin-Lexikon die Leistung des RNN-Modells in der positiven Klasse nicht verbessert, verbessern die vorgeschlagenen deutschen SWN-Lexika ihre Leistung deutlich.* (eigene Übersetzung))


Da auch WordNets für andere Sprachen als das Englische existieren, wie 
z. B. OdeNet (https://github.com/hdaSprachtechnologie/odenet) für die deutsche Sprache, sind diese Methoden übertragbar. 
Der Vorteil davon ist, dass man recht schnell zu einer großen Liste 
klassifizierter Wörter kommt. Es fehlt aber die Anpassung an die Domäne, 
die Gegenstand der Implementierung ist.

Hier sind Synonyme zu "gut" aus OdeNet:

In [None]:
synonyme_gut = ['1a', 'O. K.', 'Seele von Mensch', 'abgemacht', 'akzeptiert', 'alles klar', 'alles paletti', 'angenehm', 'charmant', "d'accord", 'da sage ich nicht nein', 'das ist ein Wort', 'dein Wille geschehe', 'dienlich', 
'eins a', 'einverstanden', 'erbaulich', 'erfreulich', 'ergötzlich', 'erhebend', 'erquicklich', 'ersprießlich', 'es geschehe nach deinen Worten', 'es sei', 'fein', 'fruchtbar', 'förderlich', 'gebongt', 
'gedeihlich', 'gefreut', 'geht in Ordnung', 'geht klar', 'gemacht', 
'genehmigt', 'gewinnbringend', 'glücklich', 'gutmütig', 'günstig', 
'gütig', 'herzensgut', 'herzerfrischend', 'herzerquicklich', 
'hilfreich', 'ich nehme dich beim Wort', 'ist recht', 'lohnend', 'machen wir', 'manierlich', 'menschlich', 'nutzbringend', 'nutzwertig', 
'nützlich', 'o. k.', 'okay', 'okey-dokey', 'opportun', 'pläsierlich', 
'positiv', 'roger', 'sachdienlich', 'schon überredet', 'schön', "so machen wir's", 'so sei es', 'sympathisch', 'tadellos', 'trefflich', 'von Nutzen', 'von Vorteil', 'von guter Qualität', 'vorteilhaft', 'warum nicht', 'wertvoll', 'wohl', 'wohltuend', 'zuträglich']

Synonyme zu "schlecht" aus OdeNet:

In [None]:
synonyme_schlecht = ['(jemand) hätte mehr erwartet', 'Billig...', 'Hinterhof-...', 
'Hintertreppen-...', 'Hobby-...', 'Küchen-...', 'Möchtegern-', 
'Provinz-...', 'Wald- und Wiesen-...', 'am Boden', 'am Tiefpunkt', 
'amateurhaft', 'arg', 'ausbaufähig', 'bedenklich', 'bescheiden', 
'beschissen', 'billig', 'bitter', 'blöd', 'bös', 'bösartig', 'böse', 
'böswillig', 'derb', 'dilettantenhaft', 'dilettantisch', 'drittklassig', 
'dumm', 'dürftig', 'eher nicht', 'eher weniger', 'ernstlich', 'es gibt Entwicklungsbedarf', 'etwas Dummes', 'fadenscheinig', 'fies', 'flach', 
'ganz unten', 'gemein', 'geringwertig', 'gut gemeint, aber schlecht gemacht', 'gut gewollt, aber schlecht gekonnt', 'halbwertig', 'hapern mit', 'hart', 'hobbyhaft', 'im Keller', 'insuffizient', 'kaum', 
'laienhaft', 'lausig', 'leidig', 'lästig', 'mangelhaft', 'mau', 
'medioker', 'mies', 'minderer Güte', 'minderwertig', 'misslich', 
'mäßig', 'nachteilig', 'negativ', 'nicht (besonders) ambitioniert', 
'nicht ausreichend', 'nicht besonders einfallsreich', 'nicht den Erwartungen entsprechen', 'nicht ernst zu nehmen', 'nicht erwünscht', 
'nicht genug', 'nicht in Ordnung', 'nicht rosig', 'nicht so gut', 'nicht so richtig', 'nicht wirklich', 'nicht wünschen', 'nicht wünschenswert', 
'niveaulos', 'ohne Ambition', 'ohne Anspruch', 'ohne Niveau', 'platt', 
'prekär', 'primitiv', 'schlechter Qualität', 'schlimm', 'schmerzlich', 
'schmerzvoll', 'schrecklich', 'schwach', 'schwer', 'schwer zu ertragen', 
'schwerlich', 'schädlich', 'seicht', 'steigerungsfähig', 'störend', 
'stümperhaft', 'unambitioniert', 'unangenehm', 'unbequem', 
'unerfreulich', 'unerquicklich', 'unerwünscht', 'ungenügend', 'ungut', 
'ungünstig', 'unliebsam', 'unmöglich', 'unprofessionell', 
'unqualifiziert', 'unschön', 'unter Soll', 'unwillkommen', 
'unzulänglich', 'unzureichend', 'vermutlich kaum', 'vermutlich nicht', 
'von Nachteil', 'wahrscheinlich kaum', 'wahrscheinlich nicht', 'wenig beneidenswert', 'widrig', 'wie in einem schlechten Film', 'wohl kaum', 
'wohl nicht', 'zu wenig', 'zu wünschen übrig lassen', 'zweiten Ranges', 
'zweitklassig', 'ärgerlich', 'übel']

Es wird deutlich, dass diese Methode geeignet ist, um die Wortlisten der 
allgemeinen Sentiment-Wörter zu erweitern. 




## Gewinnung von Sentiment-Wörtern aus annotierten Korpora

Eine gute Methode, um Sentiment-Wörter zu gewinnen, die in der Domäne 
relevant sind, ist, sie aus einem annotierten Textkorpus automatisch zu 
extrahieren. Wenn man z. B. ein Sentiment-Analyse-Tool entwickeln möchte, 
das Texte aus sozialen Medien zum Thema "Bahn" analysieren soll, 
könnte man die annotierten Daten der GermEval 
Shared Task 2017 (https://sites.google.com/view/germeval2017-absa/data) zugrunde legen. Diese Daten sind frei verfügbar, als tsv- und als xml-Datei. Jeder Text ist u.a. mit der Polarität der 
Meinungsäußerung annotiert. Im ersten Schritt werden die positiven, 
negativen und neutralen Texte in getrennten Dateien gesammelt. Um dafür 
das XML-Format zu verarbeiten, empfiehlt sich die  *ElementTree XML 
API* (https://docs.python.org/3/library/xml.etree.elementtree.html). Für das tsv-Format kann man das  *CSV-Modul* von Python verwenden (https://docs.python.org/3/library/csv.html).

Nach Tokenisierung und Lemmatisierung extrahiert man alle Wörter aus den 
negativen, alle Wörter aus den positiven und alle Wörter aus den 
neutralen Sätzen und subtrahiert die Listen voneinander. Das Ergebnis 
davon ist allerdings noch nicht zufriedenstellend. So beginnt die Liste 
der positiven Wörter, die damit aus dem GermEval-Korpus extrahiert 
wurden, folgendermaßen:

Es scheint also sinnvoll zu sein, in erster Linie Adjektive zu 
extrahieren. Die bereits erwähnten Module TextBlob und spaCyhaben einen 
"Part-of-Speech-Tagger", der die syntaktischen Kategorien der Wörter 
im Text bestimmt. Für die  GermEval-Daten sind einige der auf diese Weise 
extrahierten Adjektive:

Einerseits wird deutlich, dass diese Listen überarbeitet werden müssen, 
bevor man die Wörter ins Sentiment-Wörterbuch übernehmen kann. 
Andererseits wird aber auch deutlich, dass auf diese Weise bewusste oder 
unbewusste Falschschreibungen der Social-Media-AutorInnen auftreten, die speziell für die Textsorte 
"Soziale Medien" sind und in Standard-Wortlisten nicht enthalten 
sind, wie "unzufärläsig" oder "verhungertambahnsteig". Diese sind für eine gute Erkennung äußerst relevant.

## Gewinnung von Wörtern aus nicht annotierten Korpora

Im Internet sind sehr große Mengen an Text in sehr vielen Sprachen 
verfügbar. Dies ist eine enorme Chance, um Wortlisten zu gewinnen. Da 
diese Texte jedoch nicht annotiert sind, versucht man, andere Methoden 
zu finden, um Wörter zu klassifizieren. 

Eine Methode ist die "Pointwise Mutual Information Measure (PMI)". 
Sie basiert darauf zu erkennen, welche Wörter häufig mit bestimmten 
vorklassifizierten Wörtern (wie  "gut" oder "schlecht") auftreten 
und nutzt eine Suchmaschine dafür als Basis.

PMI berechnet sich aus der Wahrscheinlichkeit des gemeinsamen Auftretens 
zweier Terme:

$PMI (term_1, term_2) = log_2 (\frac{Pr(term_1 
\bigwedge term_2)}{Pr(term_1)Pr(term_2)} )$

Dabei ist $Pr (term_1 \bigwedge term_2)$ die Wahrscheinlichkeit, dass 
 $term_1$ und $term_2$ zusammen im Satz auftreten und $Pr (term_1) Pr 
(term_2)$ die Wahrscheinlichkeit, dass $term_1$ und $term_2$ (unabhängig 
voneinander) auftreten. Der Logarithmus in der Formel dient dazu, besser 
darstellbare Zahlen zu bekommen, die weder extrem niedrig noch extrem 
hoch sind.

Mit der Suchmaschine google ergibt sich so ein PMI-Wert für die Wörter 
 "gut" und  "super" von 8,61, für die Wörter "gut" und 
 "kalt" von 1,22. Es wäre also denkbar, aus Texten in der Domäne alle 
Adjektive zu filtern und mit den PMI-Werten für ihre Kombination mit 
 "gut" und "schlecht" ihre Polarität zu bestimmen. 
 
 Eine andere Methode ist die der sogenannten  "Word Embeddings"
(Mikolov 2013). Die grundlegende Idee ist, dass 
semantisch ähnliche Wörter in ähnlichen Kontexten auftreten. Um diese 
Kontexte mit maschinellen Lernverfahren trainieren zu können, werden 
Vektoren aufgestellt. Dabei wird jedes Wort durch einen Vektor 
repräsentiert, der für jedes andere Wort im Korpus einen Zahlenwert 
enthält. Dieser Zahlenwert ist die Wahrscheinlichkeit, mit der das 
aktuelle Wort in einem definierten Kontext mit dem Wort aus dem Korpus 
zusammen auftritt. Nehmen wir zur Illustration des Verfahrens diesen Mini-Textkorpus mit 
vier Sätzen:
- Die schwarze Katze miaut. 
- Die schwarz-weiße Katze frisst.
- Der schwarze Hund miaut.
- Der schwarz-weiße Hund frisst.

Es gibt im Textkorpus 8 verschiedene Wörter:

[die, schwarze, katze, miaut, schwarz-weiße, frisst, der, hund]

Daher bekommt jedes Wort einen Indexwert, der zwischen 1 und 8 liegt:
- die: 1
- schwarze: 2
- katze: 3
- miaut: 4
- schwarz-weiße: 5
- frisst: 6
- der: 7
- hund: 8

Der Satz *Der schwarze Hund miaut* wird als ein Vektor 
repräsentiert, der eine 4x8-Matrix ist:

|   |   |
|-----|-------|
| der |  0 0 0 0 0 0 1 0 |
| schwarze |  0 1 0 0 0 0 0 0 |
| hund |  0 0 0 0 0 0 0 1 |
| miaut |  0 0 0 1 0 0 0 0 |


Nun gilt es zu beachten, dass man diese Methode auf große Textkorpora 
mit mehreren tausend Wörtern anwendet, sodass die Matrix extrem groß 
wird. Mit einem Algorithmus mit dem Namen  "word2vec" (Mikolov 2013) wird der Vektor 
auf weniger Dimensionen reduziert und dabei dennoch der Kontext 
erhalten. Für jedes Wort wird berechnet, welche Wörter am 
wahrscheinlichsten davor und dahinter stehen. Das Kontextfenster kann 
dabei verschoben werden. Meistens ist dieses Fenster fünf Wörter groß, also 
zwei davor und zwei dahinter. Für ein Wort bekommen dann die Wörter ein 
höheres Gewicht, die häufig in diesem Fenster zusammen mit dem Wort 
auftreten. 

Mit dieser Methode kann dann eine Wortliste mit Wörtern aus der Domäne 
erweitert werden, wenn ausreichend Textmaterial vorhanden ist, das aber 
nicht annotiert sein muss. Die Vektoren können aber im Zusammenhang mit annotierten Daten auch direkt für die Sentiment-Analyse mit Deep-Learning-Verfahren genutzt werden.





## Zusammenfassung

Wortlisten sind zentral für die Sentiment-Analyse, egal ob diese statistisch oder regelbasiert ist. Dieses Kapitel hat sich damit befasst, wie Wortlisten genutzt oder aufgestellt werden können. Eine Textnormalisierung ist dafür die Grundvoraussetzung, vor allem wenn wir mit Social-Media-Daten arbeiten. Eine Option, um an Wortlisten zu kommen, ist die Übernahme und ggf. Anpassung eines existierenden Sentiment-Lexikons. Dabei muss beachtet werden, dass die Polaritätswerte der einzelnen Lexika zum Teil erheblich voneinander abweichen und dass die Lexika auf sehr unterschiedlichen Daten basieren. Eine weitere Option ist die Nutzung von WordNet-Einträgen, die in Synonym-Mengen organisiert sind. Domänenspezifische Sentiment-Wörter bekommt man, indem man sie aus Korpora der jeweiligen Domäne extrahiert. Es gibt Methoden, die annotierte Korpora verwenden, aber auch solche, die mit nicht annotierten Korpora arbeiten. 

## Weiterführende Literatur
Existierende Sentiment-Wörterbücher für die deutsche Sprache, die in eine Implementierung eingebunden werden können, sind auf der IGGSA-Webseite https://sites.google.com/site/iggsahome/downloads zu finden. Die Beiträge im Tagungsband der GermEval 2017 zeigen, wie diese in verschiedene Systeme eingebunden worden sind. 
Naderalvojoud et al. (2017) sind einen anderen Weg gegangen, indem sie existierende englischsprachige Sentimentwörterbücher automatisch ins Deutsche übersetzt haben. Hu und Liu (2004) und Baccianella et al. (2010) sind Beispiele für den WordNet-Ansatz. Das Standardwerk für Word Embeddings ist Mikolov (2013). 


## Übungen

### Prüfen Sie Ihr Wissen

- Welche Möglichkeiten der Textnormalisierung gibt es?
- Was sind die Herausforderungen bei der Einbindung existierender Wörterbücher?
- Was ist WordNet und wie kann man die Ressource für die Sentiment-Analyse nutzen?
- Welche Möglichkeiten zur Gewinnung von Sentiment-Wörtern aus annotierten Korpora gibt es?
- Welche Möglichkeiten zur Gewinnung von Sentiment-Wörtern aus nicht annotierten Korpora gibt es?

### Setzen Sie Ihr neues Wissen ein

Vergrößern Sie die Abdeckung Ihres Sentiment-Wörterbuchs durch Normalisierung:
- Reduzieren Sie Ihr Sentiment-Wörterbuch so, dass nur noch Lemmata darin stehen.
- Verändern Sie den Wortlistenvergleich, indem Sie die kleingeschriebenen Lemmata der Wörter im Text und im Wörterbuch miteinander vergleichen. Die Lemmatisierung kann z. B. mit spaCy oder TextBlob geschehen.

Recherchieren Sie Sentiment-Wortlisten für die deutsche Sprache und integrieren Sie die gefundenen Wörter in Ihr Wörterbuch.

Vergrößern Sie Ihr Sentiment-Wörterbuch durch WordNet-Ressourcen:
- Recherchieren Sie die multilingualen WordNets und OdeNet. Sehen Sie sich die Daten an und diskutieren Sie, wie man diese in der Sentiment-Analyse nutzen kann.
- Fügen Sie die Synonyme zu \enquote{gut} und \enquote{schlecht} aus OdeNet in Ihr Wörterbuch der Sentiment-Wörter ein und testen Sie dann die Sätze aus Ihrem Gold-Standard.
- Die Liste enthält auch Mehrwortlexeme. Fügen Sie Ihrem Gold-Standard Sätze mit solchen Mehrwortlexemen hinzu. Sehen Sie Möglichkeiten, mit Mehrwortlexemen umzugehen?

Nehmen Sie den Korpus der GermEval 2017 zur Hand und extrahieren Sie daraus negative und positive Adjektive. Erweitern Sie damit Ihr Lexikon.

Vergrößern Sie Ihr Sentiment-Wörterbuch mit Word Embeddings:
- Für ein kleines Trainingsexperiment nehmen Sie die Installation von Nathan Rooy und passen Sie sie für unser Spielzeugbeispiel von oben an: https://nathanrooy.github.io/posts/2018-03-22/word2vec-from-scratch-with-python-and-numpy/
- Aufgrund der großen Datenmengen, die benötigt werden und der riesigen Vektoren, die dabei entstehen, benutzen wir ein bereits vortrainiertes Modell für unsere Experimente. Die Universität Heidelberg stellt unter https://www.cl.uni-heidelberg.de/english/research/downloads/resource_pages/GermanTwitterEmbeddings/GermanTwitterEmbeddings_data.shtml ein Modell von Word Embeddings zur Verfügung, das auf deutschsprachigen Twitterdaten aus den Jahren 2013 bis 2017 trainiert worden ist. Laden Sie das Modell herunter, entpacken Sie die gz-Datei und importieren Sie sie:






In [None]:
# Zunächst importieren Sie gensim, mit dem man auf das Modell zugreifen kann. Das Limit beim Import des Modells ist notwendig, um Ihren Rechner nicht zu überfordern.

from gensim.models import KeyedVectors

model = 'twitter-de_d100_w5_min10.bin'
model = KeyedVectors.load_word2vec_format(model, binary=True, limit=50000)


Die Ähnlichkeit von Wörtern wird folgendermaßen definiert:

In [None]:
def similar(w, top=10):
    try:
        for w, confidence in model.similar_by_word(w, topn=top):
            yield w, round(confidence, 2)
    except:
        pass

Jetzt können Sie schon Wörter suchen, die in ähnlichen Kontexten wie z. B. das Wort ``blöd'' auftreten. Testen Sie das mit verschiedenen Wörtern und nehmen Sie die Ergebnisse in Ihre Wortlisten auf:

In [None]:
for w, v in similar("blöd", 100):
    if v >= 0.7:
        print (v, w)

Spannend ist es aber auch, dass wir Werte für die Ähnlichkeit von Sätzen bekommen. Das geht folgendermaßen:

In [None]:
similarity_pos = model.wmdistance("Das ist total toll", "Ich bin froh und stolz darauf, ein Mensch geworden zu sein, der Leuten die Bahn aufhält, Senioren beim Aussteigen hilft")

print("Positive Ähnlichkeit: "+"{:.4f}".format(similarity_pos))

similarity_neg = model.wmdistance("Das ist absoluter Mist", "Ich bin froh und stolz darauf, ein Mensch geworden zu sein, der Leuten die Bahn aufhält, Senioren beim Aussteigen hilft")

print("Negative Ähnlichkeit: "+"{:.4f}".format(similarity_neg))


Versuchen Sie, so einen Wert als Feature in Ihr System zum maschinellen Lernen einzubauen und testen Sie, ob sich die Accuracy dadurch verbessert.