# Sentiment-Analyse auf Satzebene

Bisher haben wir uns ganze Dokumente angesehen und eine Entscheidung 
getroffen, ob dieses Dokument eine positive, negative oder neutrale 
Meinungsäußerung enthält. Diese Entscheidung beruht auf dem 
Vorhandensein von Sentiment-Wörtern, Negations- und Verstärkungswörtern 
im Text, ohne dass die syntaktische Struktur beachtet wird. Für kurze 
Texte wie Tweets ist das eine sinnvolle Herangehensweise. Manchmal wird 
man aber komplexere Texte betrachten wollen. Bewertungen von Büchern 
sind oft wesentlich ausführlicher und bestehen aus mehreren Sätzen. 
Andere Anwendungen von Sentiment-Analyse wollen z. B. die Bewertungen von 
politischen Ereignissen durch Politiker analysieren, indem Politikerreden analysiert 
werden. Ein anderes Anwendungsbeispiel ist die Analyse der Bewertungen einer Partei in Zeitungsartikeln. Dies sind komplexe Fälle, bei denen in einem Satz etwas 
Positives und im nächsten Satz etwas Negatives stehen kann. 

Sehen wir uns den Anfang einer Buchrezension auf Amazon an (https://www.amazon.de/product-reviews/B07G4PDB9R):

*Grundsätzlich ist Sebastian Löbners Einführung in die Semantik 
empfehlenswert. In 10 Kapiteln, die noch weiter unterteilt sind, werden 
die grundlegenden Aspekte der Semantik angerissen und vertieft. Am Ende 
der Kapitel gibt es dann noch weiterführende bzw. erläuternde 
Literaturempfehlungen und Übungsaufgaben.*

*Löbner ist Professor für Sprachwissenschaft und das merkt man beim Lesen 
des Buches: er weiß, wovon er spricht, das Thema wird gut vertieft, 
jedoch merkt man es auch an seiner oft umständlichen und komplizierten 
Sprache. Da hilft es dann auch nicht mehr, dass das ganze Buch sehr 
übersichtlich gestaltet ist und man oft veranschaulichende Grafiken und 
Tabellen vorgesetzt bekommt. Wenn der erläuternde Text dazu in 
verschachtelten Sätzen serviert wird und man sich das Ganze mehrere Male 
durchlesen muss, ist es trotzdem schwer zu verstehen. Jedoch sind die 
Grafiken und Tabellen sehr gut und dienen sicherlich dazu, das Thema 
besser zu verstehen.*

*Löbner bringt häufig Beispiele, anhand derer er seine Theorien 
erläutert. Das ist jedoch auch ein Manko des Buches. Oft stehen 
Beispiele für sich selbst und werden nicht explizit erläutert.*

Es gibt darin einige Sätze, die nicht bewertend sind, wie: 

*In 10 Kapiteln, die noch weiter unterteilt sind, werden die 
grundlegenden Aspekte der Semantik angerissen und vertieft.* 

In diesem einen Dokument sind positive und negative
Meinungsäußerungen wie:

*Grundsätzlich ist Sebastian Löbners Einführung 
in die Semantik empfehlenswert.*

und 

*Das ist jedoch auch ein Manko des Buches.* 

Problematisch dabei ist, dass in einem Satz sowohl 
Positives als auch Negatives geäußert werden kann, wie:

*Löbner ist Professor für Sprachwissenschaft und das merkt man beim Lesen 
des Buches: er weiß, wovon er spricht, das Thema wird gut vertieft, 
jedoch merkt man es auch an seiner oft umständlichen und komplizierten 
Sprache.* 

Das zeigt, dass auch die Satzebene nicht ausreicht, um 
die Meinung zu analysieren. Dennoch nehmen wir im Moment an, dass ein 
Satz nur eine Meinungsäußerung enthalten kann.

Um die Aufgabe der Sentiment-Analyse auf Satzebene zu lösen, muss der 
Text zunächst in Sätze unterteilt werden - die Satz-Tokenisierung. Für 
jeden Satz muss dann entschieden werden, ob er eine Meinungsäußerung 
enthält. Schließlich muss analysiert werden, ob diese Meinungsäußerung 
positiv, negativ oder neutral ist. Dabei werden Negationen und Gradpartikeln in die Analyse einbezogen.

## Satz-Tokenisierung

Bei der Satz-Tokenisierung geht es darum, den Text in Sätze aufzuteilen, 
die dann einzeln analysiert werden können. Man könnte jetzt denken, dass 
dieses Problem ganz einfach zu lösen ist, indem man immer am Punkt das 
Ende eines Satzes annimmt. Allerdings gibt es auch in unserem Beispiel 
Abkürzungen wie  "bzw." oder  "z. B.", in denen der Punkt Teil des Tokens 
ist und kein Satzende markiert. Es ist daher erforderlich, Listen von 
Tokens anzulegen, die einen Punkt in der Mitte (wie  "o.ä.") oder am 
Ende (wie  "ca.") haben, um diese als Ausnahmen beachten zu können. 

Heyer et al. (2006) geben darüber hinaus Regeln für die 
Satz-Tokenisierung.

Regeln für den Satzanfang:
- Sätze beginnen niemals mit Kleinbuchstaben.
- Nach einer Überschrift beginnt ein neuer Satz.
- Am Anfang eines Absatzes beginnt ein neuer Satz.
- Groß geschriebene Artikel (wie  "Der",  "Die",  "Den", ...) sprechen für den Satzanfang.
- Beginnt kein neuer Absatz, so steht vor dem neuen Satz ein Satzendezeichen.

Regeln für das Satzende:
- Sätze enden mit einem Satzendezeichen. Solche Satzendezeichen sind Punkt, Fragezeichen und Ausrufezeichen. Nach dem Satzendezeichen muss zusätzlich ein white space (meist ein Leerzeichen, s.u.) stehen. Achtung, Punkte können auch an anderer Stelle stehen, z. B. nach Abkürzungen oder Zahlen.
- Vor einer Überschrift endet ein Satz.
- Am Ende eines Absatzes endet ein Satz.
- Überschriften sollen wie Sätze behandelt werden.

Sprachverarbeitende Module wie spaCy haben oft eine eingebaute 
Satz-Tokenisierung, die auf ähnliche Weise funktioniert. Testen wir doch 
einmal den Satz-Tokenisierer von spaCy:

In [None]:
import spacy
nlp = spacy.load("de_core_news_sm")

loebner_document= '''Grundsätzlich ist Sebastian Löbners Einführung in die Semantik empfehlenswert. In 10 Kapiteln, die noch weiter unterteilt sind, werden  die grundlegenden Aspekte der Semantik angerissen und vertieft. Am Ende der Kapitel gibt es dann noch weiterführende bzw. erläuternde Literaturempfehlungen und Übungsaufgaben. 
Löbner ist Professor für Sprachwissenschaft und das merkt man beim Lesen des Buches: er weiß, wovon er spricht, das Thema wird gut vertieft, jedoch merkt man es auch an seiner oft umständlichen und komplizierten Sprache. Da hilft es dann auch nicht mehr, dass das ganze Buch sehr übersichtlich gestaltet ist und man oft veranschaulichende Grafiken und Tabellen vorgesetzt bekommt. Wenn der erläuternde Text dazu in verschachtelten Sätzen serviert wird und man sich das Ganze mehrere Male durchlesen muss, ist es trotzdem schwer zu verstehen. Jedoch sind die Grafiken und Tabellen sehr gut und dienen sicherlich dazu, das Thema besser zu verstehen.
Löbner bringt häufig Beispiele, anhand derer er seine Theorien erläutert. Das ist jedoch auch ein Manko des Buches. Oft stehen Beispiele für sich selbst und werden nicht explizit erläutert.'''

ana = nlp(loebner_document)

for sent in ana.sents:
    print(str(sent) + "\n")

Der Punkt in der Abkürzung "bzw." wird richtig als Teil des Tokens 
und nicht als Satzendepunkt verstanden. Tatsächlich gibt es im Quellcode von spaCy
eine Datei  "tokenizer_exceptions.py" mit Abkürzungen, in der diese 
Zeile steht:


Es ist möglich, diese Liste zu erweitern.

## Identifikation von Sätzen mit Meinungsäußerungen

Auf der Dokumentebene ist oft schon durch den Kontext gegeben, dass das 
Dokument eine Bewertung enthält. Bei Produktrezensionen ist es sehr 
unwahrscheinlich, objektive (nur beschreibende) Dokumente zu haben. Auf 
der Satzebene ist das jedoch anders, denn nicht jeder Satz in einer 
Rezension enthält auch eine Bewertung. Daher steht am Anfang eine 
Klassifikation von Sätzen als subjektiv oder objektiv. 

Annotierte Daten auf der Satzebene sind sehr viel seltener als die auf 
der Dokumentebene. Wenn man welche hat, kann man die Supervised 
Learning-Verfahren darauf anwenden. Features dafür sind die Anzahl der 
Pronomen, Adjektive und Modalverben oder auch die Anzahl der Wörter, die 
in einem Sentiment-Wörterbuch gesammelt sind; genau wie beim Umgang mit Dokumenten. Eine andere Möglichkeit 
ist die, Sätze auf ihre Ähnlichkeit mit bereits annotierten Sätzen zu 
prüfen. Wenn im Trainingskorpus z. B. steht  "Das Auto finde ich gut." 
und jetzt der Satz "Dieses Telefon finde ich gut." analysiert werden 
muss, kann der neue Satz als ähnlich dem Trainingssatz identifiziert 
 und damit gleich klassifiziert werden.

Ohne annotierte Daten ("unsupervised") sucht man nach bewertenden 
Phrasen im Text. Diese Phrasen werden in einem Lexikon gesammelt. 
Weiterhin untersucht man die Adjektive: Besonders graduierbare Adjektive
(solche mit Steigerungsformen) deuten auf subjektive Sätze hin. Eine 
Auswertung von Hashtags und Emoticons kann hier ebenfalls weiterhelfen. 
Schließlich werden auch die Satzstrukturen untersucht: Konditionalsätze 
(die z. B. mit  "wenn" beginnen) oder Fragesätze beinhalten eher keine 
Meinungsäußerung:

*Wenn ich ein gutes Buch darüber kennen würde, würde ich es sofort kaufen.*

*Kennst Du ein gutes Buch zu diesem Thema?*

Diese Klassifikation ist aber abhängig von der Domäne der Dokumente. 
Gerade in Social Media-Daten können Fragesätze durchaus subjektiv sein:


*RT @Banane0711: @danintown Warum durfte die Bahn am Nordbahnhof ungehindert mehrere Tausend Eidechsen töten?*

*Kann man diesen ganzen Scheiß noch glauben..?*

*#S21 # Bahn #Rückbau - nein, doch, oh - ist nicht barrierefrei. War der Zensor "beantworte die Frage nicht!" pinkeln?*







## Satzanalyse

Wenn die subjektiven Sätze im Dokument identifiziert worden sind, sind 
die Verfahren der Klassifikation zunächst dieselben wie die Verfahren 
zur Klassifikation von Dokumenten. Auf Satzebene wird jedoch der Kontext interessant, in dem sich die Sentiment-Wörter befinden. Dabei gibt es  zwei 
Analysebereiche, die die Genauigkeit der Sentiment-Analyse beeinflussen: 
Gradpartikeln und Negationen. Da Gradpartikeln und Negationen im Zusammenhang mit weiteren Wörtern im Satz interpretiert werden müssen, spricht man hier von semantischer Kompositionalität.

Gradpartikeln stehen zusammen mit Adjektiven und Adverbien und geben die 
Intensität der Bewertung an. Zum Beispiel:

*Ich finde das Produkt sehr schlecht.*

Meistens verstärken sie das Adjektiv oder Adverb, das sie modifizieren. 
Abschwächende Gradpartikeln sind jedoch auch möglich:

*Das ist ein bisschen ungünstig.*

 Für die Erkennung günstig ist, dass sie meistens direkt vor dem 
bewertenden Adjektiv oder Adverb stehen. 

Bei Negationen ist der Normalfall, dass die Polarität umgedreht wird. So 
ist  "nicht gut" eben das Gegenteil von  "gut". Aber Achtung: 
"nicht so gut" ist nur eine abgeschwächte Form von  "gut", nicht 
das Gegenteil.

Negation wird nicht nur durch das Wort "nicht" ausgedrückt, sondern 
kann auch in anderen Formen auftreten. Hier sind einige Beispiele:
- *Mir hat es keinen Spaß gemacht.*
- *Mir macht es nie Spaß.*
- *Niemandem macht das Spaß.*
- *Ich denke nicht, dass mir das Spaß macht.*

Christopher Potts schlägt eine einfache Methode vor, um mit Negationen 
umzugehen, die man auf Gradpartikeln übertragen kann (http://sentiment.christopherpotts.net/lingstruc.html\# negation): Sobald eine 
Negation im Satz auftritt, wird jedem Wort zwischen der Negation und dem 
nächsten Satzzeichen ein *_NEG* angehängt. Dadurch entstehen zwei ganz 
unterschiedliche Tokens  "gut" und  "gut\_NEG", die dann auch 
unterschiedlich analysiert werden können. 

Wir sehen aber schon an den Beispielen mit Negationen, dass diese Methode vor allem für die deutsche Sprache
nicht immer funktioniert: Im letzten Beispiel ist das subjektive Wort 
"Spaß" von der Negation durch ein Komma getrennt. Gerade für Sätze 
mit  "dass" müssen für das Deutsche andere Regeln aufgestellt werden. Ein 
anderes Problem ist die Wortstellung im Deutschen: Die Negation kann 
durchaus hinter dem bewertenden Wort stehen:  *Spaß hat dabei wirklich 
niemand*. Auch Gradpartikeln können an anderer Stelle als direkt vor 
dem bewertenden Wort stehen:  *Das interessiert mich wirklich sehr.*
Auch Schulz et al. (2017) stellen fest, dass für Negationen komplexere Verfahren notwendig sind: 

*Also, instead of just switching the polarity
of a word based on the existence of negation words,
a more fine-grained approach would be meaningful.*

(dt.: *Anstatt nur die Polarität eines Wortes auf Basis der Existenz von Negationswörtern zu wechseln, wäre ein feinkörnigerer Ansatz sinnvoll.* (eigene Übersetzung))

Eine Grammatikanalyse der Sätze gibt die notwendige Information, um den 
Skopus (den Wirkungsbereich) von Negationen und Gradpartikeln zu bestimmen. 

SpaCy\index{spaCy} bietet eine einfachere Dependenzanalyse. Eine Dependenzanalyse geht vom Verb im Satz aus und stellt die Abhängigkeiten der Wörter zueinander in einer Baumstruktur dar. Siehe dazu auch  Carstensen et al. (2009, S. 281f.), mit der die 
Abhängigkeiten der Wörter untereinander im Text analysiert werden. Für 
den Satz "Das Handy ist nicht gut" bekommen wir diese Analyse:


In [None]:
doc = nlp("Das Handy ist nicht gut")
for token in doc:
    print(token.text, token.dep_, token.head.text, token.head.pos_,
            [child for child in token.children])

Die Negation hat hier unter "Head" das Adjektiv "gut" vermerkt, 
sodass wir auch hier herauslesen können, was ihr Skopus ist. 

Wir sind ja bisher so vorgegangen, dass negative Polarität durch negative Werte und positive Polarität durch positive Werte dargestellt werden. Wir berechnen die Polarität eines Satzes daher so, dass wir im Fall von Negationen den Polaritätswert des dazugehörigen Sentimentworts mit -1 multiplizieren und im Fall von verstärkenden Gradpartikeln mit 1,5.


Satzpolarität = $\sum_{i=1}^n KG x Pol(sw_i)$


Dabei ist:
- n: Zahl der Sentimentwörter im Satz
- KG: Kontextgewicht (-1 für Negationen und 1,5 für verstärkende Gradpartikeln)
- Pol(sw_i): Polaritätswert für das Sentimentwort, der im Sentimentwörterbuch steht


Für unseren Satz "Das Handy ist nicht gut" haben wir das Sentimentwort "gut" mit einer Polarität von 0,7 und die Negation "nicht", sodass wir auf eine Polarität für den Satz von -0,7 kommen. Im Satz "Das Handy ist sehr gut" haben wir die Gradpartikel "sehr" und multiplizieren 0,7 mit 1,5, sodass wir auf einen Wert von 1,05 kommen.


## Zusammenfassung

Sobald Dokumente, die Meinungsäußerungen enthalten wie z. B. Rezensionen, komplexer werden als kurze Social-Media-Bemerkungen, muss die Analyse auf die Satzebene gehen und die Sätze eines Dokuments einzeln analysieren. Zunächst müssen dafür die Sätze identifiziert werden, der Text muss in Sätze unterteilt werden - die Satz-Tokenisierung. Nicht jeder Satz in einer komplexen Rezension enthält eine Bewertung. Daher werden die Sätze im nächsten Schritt als subjektive und objektive Sätze klassifiziert, häufig anhand von Schlüsselwörtern und Emojis, aber auch mit der Satzstruktur. Konditionalsätze und Fragesätze müssen gesondert behandelt werden. 
Bei der Analyse subjektiver Sätze sind Lösungen für Gradpartikeln und Negationen notwendig. Für die deutsche Sprache werden komplexere Lösungen notwendig als für die englische, vor allem wegen der möglichen Wortstellungsvariationen, denn vor allem Negationen können sowohl vor als auch hinter dem Wort stehen, das negiert wird.  

## Weiterführende Literatur

Umfassende Informationen zur Satz-Tokenisierungfinden Sie bei Heyer et al. (2006). Der skizzierte Ansatz für Negation, der für englischsprachige Sätze gut funktioniert, findet sich auf der Webseite von Christopher Potts: http://sentiment.christopherpotts.net/lingstruc.html#negation. In Pollard und Sag (1994) wird die HPSG-Analyse vorgestellt. Zu diesem Grammatikformalismus und seiner Umsetzung gibt es seitdem unzählige Publikationen. Die Webseite der internationalen Delph-In-Kooperation gibt hier weitere Hinweise: http://www.delph-in.net. Der Dependenz-Parser von spaCy wird hier beschrieben: https://spacy.io/usage/linguistic-features#dependency-parse. 


## Übungen

### Prüfen Sie Ihr Wissen

- Worum geht es bei der Satz-Tokenisierung und was sind die Herausforderungen für die Arbeit mit der deutschen Sprache?
- Welche Möglichkeiten gibt es, Sätze auf Subjektivität und Objektivität zu prüfen?
- Was sind Gradpartikeln und Negation und wie beeinflussen sie die Sentiment-Analyse?

### Setzen Sie Ihr neues Wissen ein

Erweitern Sie Ihre Sentiment-Analyse so, dass ein Text zunächst in Sätze 
segmentiert wird. Die Polarität der Sätze wird dann einzeln ausgegeben 
und am Ende zusammengezählt. Dies ist eine mögliche Ausgabe der 
Software:

In [None]:
# Definieren Sie hier eine satzbasierte Sentiment-Analyse

def sentiment_analysis_p(document):

sentiment_analysis_p(loebner_document)


Erweitern Sie Ihre Sentiment-Analyse so, dass ein Satz zunächst als 
subjektiv oder objektiv klassifiziert wird, bevor die Polarität bestimmt 
wird.

Verändern Sie Ihr Programm zur Sentiment-Analyse so, dass Negationen und Gradpartikeln beachtet werden:
- Verändern Sie Ihr Programm zur Sentiment-Analyse so, dass beim Auftreten einer Negation die Polarität des nächsten Sentiment-Worts umgedreht wird.
- Finden Sie eine Liste deutscher Negationen im Internet, die Sie verwenden können?
- Fügen Sie dann noch Gradpartikeln wie  "sehr" oder "total" hinzu, die die Polarität erhöhen.
- Testen Sie Ihr Programm mit dem GermEval-Korpus. Was funktioniert und was funktioniert nicht?

Verändern Sie Ihr Programm so, dass eine Dependenzanalyse mit SpaCy 
durchgeführt wird und die Negation die Polarität seiner Head-Konstituente 
umdreht. Machen Sie dasselbe für Gradpartikeln, nur, dass diese die Polarität 
verstärken. Vergleichen Sie das Ergebnis mit dem Ergebnis der Negation ohne Grammatik aus der vorangehenden Übung auf dem GermEval-Korpus.

### Reflexion in Gruppenarbeit

Fügen Sie Sätze mit Negationen und Gradpartikeln in Ihren gemeinsamen Gold-Standard ein und prüfen Sie, ob Ihre Software diese richtig analysiert.