# Sentiment Retrieval - Meinungsäußerungen identifizieren
Im ersten Schritt der automatischen Analyse sollen in unstrukturierten Textdaten  Meinungsäußerungen automatisch identifiziert werden. Nicht alle Textteile enthalten auch Meinungsäußerungen, bei einer Buch- oder Film-Rezension zum Beispiel wird häufig ein großer Teil des Textes das Buch oder den Film zusammenfassen, ohne ihn auch gleich zu bewerten, in Twitter gibt es viele Tweets, die nicht bewerten und in Nachrichtentexten sind nur wenige Bewertungen. Für die Erkennung und Auswertung von Meinungsäußerungen werden zunächst Textteile oder Sätze gesucht, die subjektive Äußerungen enthalten. Werden solche identifiziert, werden sie im zweiten Schritt zusammen mit den Angaben zur Quelle, zum Datum und falls veröffentlicht zum Autor in eine Struktur gebracht und gespeichert, um anschließend nach Sentiments, d. h. nach Stimmungen, Emotionen und Haltungen, analysiert zu werden. 

Beispiele und Testdaten in diesem Buch stammen aus zwei öffentlich verfügbaren Korpora mit deutschen Meinungsäußerungen. Das "Amazon Customer Reviews Dataset" ist eine Sammlung von Bewertungen im Amazon-Portal von 1995 bis 2015. Die deutschen Daten lassen sich unter https://s3.amazonaws.com/amazon-reviews-pds/tsv/amazon_reviews_multilingual_DE_v1_00.tsv.gz herunterladen. Die Datensammlung der "Germeval Task 2017"  (Wojatzki et al. 2017b) enthalten 22.000 Meldungen aus verschiedenen Social-Media-Kanälen zum Thema "Deutsche Bahn". Sie sind hier verfügbar: https://sites.google.com/view/germeval2017-absa/data

## Meinungsäußerungen

Das Ziel der Sentiment-Analyse ist die automatische Analyse von Meinungstexten, um Stimmungen und Haltungen von Nutzern, Kunden, Bürgern, Fans usw. über Produkte, Personen, Organisationen, Ereignisse usw. zu erkennen. Meinungsäußerungen sind subjektive, oft emotionale Aussagen, sie beinhalten oft Sentiments und können unterschiedlich interpretiert werden. Dabei drückt das Sentiment eine persönliche Bewertung oder Haltung aus, die als positiv, negativ oder neutral klassifiziert werden kann. Diese Klassifikation nennen wir "Polarität". 

### Meinungsäußerungen vs. Sachinformation

Um die wesentlichen Eigenschaften der Meinungsäußerungen besser zu verstehen,  ist es hilfreich diese im Vergleich zu den Texten zu betrachten, die Sachinformation beinhalten: Bei Sachinformation handelt es sich um objektive Aussagen über eine Entität, z. B. eine Person, ein Produkt, eine Dienstleistung, ein Ereignis oder einen Prozess. Diese Äußerungen sind belegbar und beinhalten keine Sentiments. Im Kontext von Texten im Social Web ist eine Meinungsäußerung eine Aussage, die die persönliche Meinung, Haltung oder die Emotion des Nutzers kundgibt. Sachinformation im Social-Media-Kontext  ist dagegen ein objektiver Nutzer-Bericht über ein bestimmtes Thema.
(Benamara et al. 2017) zählen Meinungsäußerungen, Sentiments und Haltungen in Computerlinguistik zu den Phänomenen der wertenden Sprache (englisch "Evaluative Language"), die im Allgemeinen als subjektive Aussagen von Meinungsträgern über ein Meinungsobjekt oder –ziel definiert wird (S. 209). Für (Liu 2017) dient Meinung als breiter Begriff, der sowohl ein Sentiment, eine Bewertung, eine Beurteilung oder Einschätzung oder Haltung abdeckt als auch die damit verbundene Information über den Meinungsgegenstand ("Opinion Target") sowie die Person, die die Meinung hat. Der Begriff Sentiment hingegen bedeutet lediglich die zugrundeliegende oder ggf. latente positive oder negative Emotion, die eine Meinung impliziert (Liu 2017, S. 12).

Schauen wir folgendes Beispiel einer Hotel-Bewertung an, die auf Tripadvisor.com veröffentlicht wurde: 


1. Das Hotel ist sehr gut mit dem Flughafenbus X9 in ca. 10-15 Minuten erreichbar. 
2. Die U-Bahnstation befindet sich auch in unmittelbarer Nähe.
3. Angestellte sind sehr nett und hilfsbereit.


Satz 1 enthält eine Mischung aus Sachinformation, bezogen auf den Flughafenbus und die Erreichbarkeit und positiver Meinungsäußerung hinsichtlich der Erreichbarkeit. Seine Polarität wird durch "sehr gut" ausgedrückt. Satz 2 verfügt lediglich über Sachinformation und hat eine neutrale Polarität. Der dritte Satz hingegen enthält ausschließlich eine subjektive Beurteilung hinsichtlich des Hotelpersonals und hat durch  "sehr nett und hilfsbereit" eine positive Polarität. Schon bei den drei Sätzen dieses Bewertungsbeispiels ist gut erkennbar, dass der Anteil der Stimmungs- bzw. Emotionswörter an der Gesamtzahl der Wörter als ein einfacher Indikator für die mögliche Subjektivität eines Textes dienen kann.
Eine komplexere Aufgabe hängt mit dem Vorkommen einer Mischung von Meinungsäußerungen und sachlicher Informationen zusammen, wie am Beispiel der Hotelbewertung. Unabhängig davon, ob im Social-Web, in Online-Medien und -Portalen oder in klassischen Medien wie Zeitungen veröffentlicht, können Texte oft Fakten zusammen mit Meinungsäußerungen aufweisen. Solche Texte können unterschiedlich komplex sein:


- Längere Texte, wie Blogs zu einem bestimmten Thema  oder politische Artikel 
-  Relativ kompakte Texte, wie Bewertungen zu Produkten oder Hotels
-  Kurze Texte, wie Kommentare zu einem Facebook-Beitrag oder Tweets

(Petz et al. 2014) haben verschiedene Texttypen von nutzergenerierten Inhalten analysiert und u.a. die Anteile von subjektiven, objektiven und Mischformen je nach Social-Media-Kanal bestimmt (siehe Tabelle 2.1). Sie zeigen, dass Twitter-Texte den höchsten Anteil an subjektiven Postings enthalten, während Diskussionsforen ungefähr  50 % subjektive Inhalte und etwas über 14 % Mischformen (subjektive und objektive Inhalte) aufweisen. Produktbewertungen dagegen weisen in knapp 25,5 % der Fälle eine Mischung von subjektiven Äußerungen und Sachinformation auf.

| Social media channel | Subjective (%) | Objective (%) | Subjective and objective (%) |
|----------------------|----------------|---------------|------------------------------|
|Microblog (Twitter) | 82.9 |12.8 | 4.3|
|Product review | 71.7 | 2.9 | 25.4|
|Blog | 69.3 | 19.6 | 11.1|
|Social network (Facebook) | 67.3 | 26.1 | 6.6|
|Discussion forum | 50.2 | 35.5 | 14.3|

(Auswertung  der Anteile von subjektiven und objektiven Text-Postings, (Petz et al. 2014, S. 903)

Die Mischung von Meinungsäußerungen und Fakten innerhalb einer einzelnen Textstelle stellt eine Herausforderung für Text- und Web-Mining-Systeme dar, denn je nach Zielsetzung müssen die relevanten Teile gezielt identifiziert und extrahiert werden: Eine Anwendung zur Informationsextraktion sucht nach Sachinformationen im Gegensatz zu einer Anwendung, die eine Sentiment-Analyse durchführt, die auf die Erkennung von Emotions- und Meinungsäußerungen fokussiert ist. 
Subjectivity Detection (Erkennung von Subjektivität) ist daher eine wesentliche Teilaufgabe der Sentiment-Analyse und  in der Praxis keineswegs einfach. Die Genauigkeit bei der Unterscheidung zwischen Fakten und Meinungsäußerungen mithilfe der Erkennung, ob ein Text subjektiv durch die Äußerung von persönlichen Meinungen und Sentiments oder objektiv durch die Beschreibung von Sachinformationen ist, trägt direkt zu der Qualität der Analyse bei. Durch diese Teilaufgabe wird vermieden, dass objektive Texte für die automatische Erkennung von Sentiments fälschlicherweise einbezogen werden, und damit Erkenntnisse hinsichtlich einer neutralen, positiven oder negativen Polarität verfälschen.  

### Arten von Meinungsäußerungen

Eine Meinungsäußerung kann eine reguläre Meinung ausdrücken, z. B.:


- Ich finde das neue Rafik Shami Buch mega!


Sie kann auch zwei oder mehrere Gegenstände miteinander ins Verhältnis setzten, um eine vergleichende Meinung auszudrücken, z. B. bei dieser Aussage:


- Diese Nike-Sneakers sind cooler als meine alten Adidas. 


Insbesondere in der Marketing-Praxis ist es üblich, dass Produkte, Services und Brands miteinander verglichen und bewertet werden, sodass diese Art von subjektiven Äußerungen oft auf Online-Portalen vorkommt. Die Art der Meinungsäußerung wirkt sich auf die Komplexität und die Qualität der Subjektivitäts- sowie der Polaritätsanalyse aus. Basierend auf (Jindal und Liu 2006) sowie (Liu 2007) unterscheiden wir zwischen regulären und vergleichenden Meinungsäußerungen und zwischen direkten und indirekten regulären Meinungsäußerungen.

#### Direkte Meinungen
Direkte Meinungen sind subjektive Äußerungen, die Sentiment-Aussagen zu einem bestimmten Objekt (oder ggf. zu mehreren Objekten) enthalten. Zum Beispiel die Äußerung einer Studierenden-Bewertung für einen Studiengang auf dem Portal studycheck.de: 


- Überall sind mega nette und meistens auch lustige Dozenten! 


Diese Art der Meinungsäußerung gilt als die Art, die am einfachsten automatisch zu erkennen ist. In der Regel arbeitet man hier mit Wörtern als Indikatoren für die Zuordnung der positiven oder negativen Polarität. 

#### Indirekte Meinungsäußerungen
Indirekte Meinungsäußerungen weisen keine explizite und eindeutige Sentiment-Aussage auf, sondern erst durch die Interpretation und den Zusammenhang der Aussage wird eine Meinungsäußerung deutlich. Ein Beispiel dafür ist die folgende Aussage:


- Die Teilnehmer fühlten sich nach dem Seminar deutlich besser qualifiziert, sowie in ihrer Entscheidung bestärkt. 


Eine automatische Erkennung von indirekten Meinungsäußerungen ist daher komplizierter als die von direkten Meinungsäußerungen.  

#### Vergleichende Meinungsäußerungen

Bei einer vergleichenden Meinungsäußerung werden (mindestens) zwei Objekte miteinander verglichen. Die Sentiment-Aussagen können eine Priorisierung oder Reihenfolge beschreiben, indem sie Ähnlichkeiten oder Unterschiede zwischen den besprochenen Objekten aufzeigen. Der Vergleich kann eine subjektive Meinungsäußerung sein, es kann sich aber auch um Sachinformation und damit um eine objektive Äußerung handeln, was für die Aufgabe der Subjektivitätsanalyse eine Herausforderung darstellen kann. Als Beispiel dient hier folgender Satz aus einer Amazon-Rezension:


- Auch die Bedienung über die Lynette funktioniert gut, wenn auch nicht unbedingt besser als bei Apple mit der Krone, aber dennoch gut und macht vor allem Spaß.

Auch die Erkennung der subjektiven Aussagen von vergleichenden Meinungsäußerungen ist komplizierter als die von direkten einfachen Meinungsäußerungen.  

#### Äußerung von Emotionen ohne Meinung

Auch wenn die Äußerung von Emotionen ein deutlicher Indikator für eine Meinung ist, handelt es sich jedoch nicht bei jeder Emotionsäußerung unbedingt um eine Meinungsäußerung. Schauen wir uns folgende Anmerkung an:

- Einige von uns waren glücklich, dass sie die Kletterei geschafft haben.

Hier wird eine Beobachtung geäußert und dabei das Emotionswort "glücklich" verwendet. Jedoch handelt es sich hier nicht um eine Meinungsäußerung. Zur automatischen Erkennung und Kategorisierung von subjektiven Meinungsäußerungen werden in der Regel Wörter und Ausdrücke genutzt, die auf Emotionen wie Freude, Glück, Ärger, Wut usw. hinweisen. Die Aufgabe der präzisen Meinungserkennung wird dadurch erschwert, dass Emotionswörter nicht nur in subjektiven Aussagen verwendet werden.

#### Subjektive Meinungsäußerung vs. verwertbare Meinungsäußerung 
Eine weitere Schwierigkeit für die Meinungserkennung besteht darin, dass nicht jede subjektive Meinungsäußerung auch eine verwertbare Meinungsäußerung ist. Diese Beispielaussagen von Bewertungen auf Tripadvisor  zeigen die Problematik:

1. Nach einer kurzen Sicherheits- und Fahrradtechnik-Unterweisung rasten wir den Berg hinunter.
2. Durch meine sportliche Figur war es unmöglich für mich einen schönen vorgefertigten Anzug zu finden
3.  Heyho, vorab: Ich habe weder Ahnung von Mode noch von Stoffen. Jedoch habe ich mich hier überragend informiert gefühlt und kann mich den Vorrednern anschließen. Termine wurden eingehalten und ich bin vom Anzug total überzeugt. Ich habe mich stets wohl gefühlt und würde mir direkt noch einen anfertigen lassen, wenn ich nicht als Backpacker unterwegs wäre. Alles in allem bin ich super zufrieden. Ich hoffe, dass der Anzug mir auch in Deutschland noch passt, da das Essen hier so verdammt lecker ist - hahah


Die Äußerungen in 1. und 2. können als subjektive Meinungsäußerungen gelesen werden, sind aber kaum nützlich für die Meinungsanalyse. Die positive Bewertung des Essens in Beispiel 3 hat nichts mit dem eigentlichen Bewertungsobjekt (Anzugschneider) zu tun. Irrelevante Textteile sollten nicht berücksichtigt werden, damit die Ergebnisse der Sentiment-Analyse nicht verfälscht werden.

Die Betrachtung der verschiedenen Arten von Meinungsäußerungen oben macht die Notwendigkeit deutlich, die konkrete Art einer Meinungsäußerung zu berücksichtigen, um möglichst präzise Analyseergebnisse zu erzielen. Je nach Art des Textes gibt es unterschiedliche Herausforderungen für die Sentiment-Analyse. Zum Beispiel sind Meinungsäußerungen durch vergleichende Meinungen oft länger und komplexer als direkte Meinungsäußerungen. Die Analyse muss mindestens zwei Objekte und die jeweilige Polarität für jedes Objekt richtig erkennen. Dies ist eine Aufgabe, die einer tiefgehenden Textanalyse für die jeweilige Sprache bedarf, in der die Meinung geäußert wurde.

## Methoden für die Suche nach Meinungsäußerungen

Nehmen wir das folgende Beispiel für die Bewertung eines Films aus dem 
Amazon-Korpus (bei dem die Absätze nummeriert wurden):

**Wie krass ist das denn**

1. Briliantes SciFi-Thriller-Kammerspiel um einen Cyber Guru, der an 
künstlicher Intelligenz bastelt, und einen seiner Unterlinge, der als 
Versuchskaninchen, bzw Testperson herhalten muss. Außerdem gibt's noch 
ein paar künstliche Frauen, mit teils atemberaubenden Talenten und 
Charaktereigenschaften.
2. Was mich völlig faszinierte, ließ meine Frau im Kino einschlafen. 
Familiendurchschnitt in der Wertung also nur Durchschnitt. Von mir volle 
5 Sterne.
3. Die deutsche Tonfassung ist überzeugend flapsig. Aus rein 
sprachlichem Interesse muss ich nun noch die Originalversion sehen. Oder 
kann mir jemand sagen, was Oscar Isaacs Figur im Original sagt, als es 
auf Deutsch heißt: wie krass ist denn das?
4. Hervorragend und überzeugend alle drei Hauptdarsteller. Auch die 
Neben-Roboter sind nicht schlecht. Die Haupt-'Frau' sieht aus wie die 
junge Natalie Portman, und überzeugt komplett.



Schon die Überschrift ist eine Meinungsäußerung, die jedoch positiv oder 
negativ sein kann, denn der Ausdruck "krass" ist hier nicht 
festgelegt und zudem ein Zitat aus dem Film. Im ersten Absatz wird der Film nur beschrieben und nicht 
bewertet. Im zweiten Absatz stehen Bewertungen des Autors und seiner 
Frau, die gegensätzlich sind. Hier muss man auch noch den Kontext 
beachten. Wenn ein Film zum Einschlafen ist, dann ist das klar 
negativ. Wenn aber z. B. ein Beruhigungstee dazu führt, dass man einschläft, 
so ist das eine positive Eigenschaft davon. Anders ist das bei der 
Faszination: Wenn jemand "völlig fasziniert" ist, so ist das in 
jedem Kontext positiv. 

Der dritte Absatz beginnt mit einer klar positiven Bewertung der 
deutschen Tonfassung, also eines speziellen Aspekts dieses Films. Die 
Frage in diesem Absatz zeigt, dass Fragen gesondert behandelt werden 
müssen. 

Im vierten Absatz werden weitere Aspekte (die Darsteller) bewertet. Im 
zweiten Satz kann man sehen, dass eine Negation verwendet wird, sodass 
sich die Polarität von "schlecht" (negativ) umkehrt in  "nicht 
schlecht" (schwach positiv). Man erkennt auch, dass eine Klassifikation nur 
nach negativ - neutral - positiv nicht ausreichend ist, 
denn  "hervorragend" ist deutlich positiver als  "nicht schlecht". 
Um den Vergleich der  "Haupt-Frau" mit der jungen Natalie Portman 
als positive Bewertung zu verstehen, muss man natürlich wissen, wer 
Natalie Portman ist und wie sie in jungen Jahren aussah. Der Reviewer 
nutzt im letzten Satz eine Verstärkung, er ist nicht nur überzeugt, 
sondern "komplett" überzeugt.

Der Zeitstempel dieser Bewertung kann dann relevant sein, wenn man sich 
z. B. Trends ansehen möchte oder Änderungen in den Bewertungen eines 
Produkts. 

Fassen wir zusammen:

1. Meinungsäußerungen können positiv oder negativ sein. Nicht immer ist das ohne Kontext sofort klar.
2. Es gibt weitere Abstufungen, wie stark positiv oder negativ eine Meinungsäußerung ist. 
3. Die Meinung einer Person wird geäußert, wobei das nicht immer die Autorin/der Autor des Beitrags ist, sondern auch über Meinungen anderer Personen geschrieben werden kann.
4. Meinungsäußerungen beziehen sich nicht immer auf die gesamte Entität (das Produkt, den Film etc.), sondern auch auf einzelne Aspekte (wie die deutsche Übersetzung oder die Figuren). 
5. Ausdrücke der Meinungsäußerung können kontextunabhängig sein, wie "faszinierend" oder kontextabhängig, wie "einschlafen". In einigen Fällen wird zur Interpretation Weltwissen benötigt, wie beim Vergleich der Hauptdarstellerin mit einer anderen Schauspielerin.
6. Negation und Verstärker müssen gesondert behandelt werden.
7. Auch Fragen benötigen eine besondere Behandlung.


Nach (Liu 2012, S. 19) kann eine Meinung als Quintupel (ei, aij , sijkl, hk, tl) beschrieben werden. 
Dabei steht ei für die Entität i, also das Produkt oder die Dienstleistung, die bewertet werden. Eine solche Entität kann z. B. ein Buch sein. Der Aspekt j zur Entität i wird mit aij bezeichnet. Ein Aspekt der Entität ist  ein Teil oder eine Eigenschaft, also z. B. bei einem Buch das Cover. Die eigentliche Meinung darüber, das Sentiment, ist sijkl. Die meinende Person mit dem Index k ist mit hk bezeichnet. Der Zeitpunkt der Meinungsäußerung l ist tl.
Die Aufgabe der Sentiment-Analyse ist damit, dieses Quintupel möglichst vollständig aufzustellen.

Für einen Ausschnitt aus unserem Text sieht das so aus:

| Quintuple | Text |
|-----------|------|
| (Film, generell, positiv, Autor, 2015-05-02) | Was mich völlig faszinierte|
| (Film, generell, negativ, Frau, 2015-05-02) | ließ meine Frau im Kino einschlafen|
| (Film, generell, neutral, Autor+Frau, 2015-05-02) | Familiendurchschnitt in der Wertung also nur Durchschnitt | 
| (Film, generell, positiv, Autor, 2015-05-02) | Von mir volle 5 Sterne|
| (Film, übersetzung, positiv, Autor, 2015-05-02) |Die deutsche Tonfassung ist überzeugend flapsig.|
|(Film, Hauptdarsteller, positiv, Autor, 2015-05-02) | Hervorragend und überzeugend alle drei Hauptdarsteller |
| (Film, Neben-Roboter, positiv, Autor, 2015-05-02) |  Auch die Neben-Roboter sind nicht schlecht. |
| (Film, Haupt-'Frau', positiv, Autor, 2015-05-02) | Die Haupt-'Frau' sieht aus wie die junge Natalie Portman, und überzeugt komplett |


Dabei sind emotionale oder subjektive Äußerungen nicht immer auch 
Meinungsäußerungen in unserem Sinne. Hier ist ein Beispiel für eine 
emotionale Äußerung: (Die Beispiele im Text sind wörtliche Zitate, daher sind Rechtschreibfehler und -varianten direkt übernommen worden.)



Danke fur Cd
Eine Lied von See you again ist schön. Und auch traurig. Finde schon schade das Paul Walker nicht mehr da ist.
2015-04-27


Die Wörter "traurig" und  "schade" deuten auf subjektive emotionale Äußerungen hin, die jedoch keine (direkte) Meinung über das Produkt (hier die CD) oder einen Aspekt davon äußern. 


Man sieht, dass schon die Erkennung von Meinungsäußerungen in großen 
Dokumentsammlungen kein einfach zu lösendes Problem ist. Sehen wir uns 
daher zunächst einmal an, mit welchen Methoden die Software-Lösungen TextBlob und NLTK an 
dieses Problem herangehen.

Das Python-Modul TextBlob DE (\url{https://textblob-de.readthedocs.io/en/latest/) enthält eine Reihe von Methoden und Ressourcen, mit denen Texte in deutscher Sprache verarbeitet werden können. Die TextBlob-Sentiment-Analyse nutzt das  "German Polarity Lexicon" (German Polarity Lexicon: http://bics.sentimental.li/index.php/downloads/ 
Authors: Manfred Klenner, Simon Clematide, Martin Wiegand, Ronny Peters Version: 1.1. 2010/08/01) zusammen mit einer kleinen Liste von Negationen, um Wörter in einem Satz 
nachzuschlagen. Nach der Installation des Moduls findet man die Einträge 
dieses Lexikons in der Python-Installation unter 
Lib\site-packages\textblob_de\data. 

Das  "Natural Language Toolkit NLTK" ist ebenfalls eine Menge von Modulen für die Verarbeitung von Sprache. Auch NLTKX hat Sentiment-Module (aktuell nur für die englische Sprache), die Lexika verwenden und die Wörter im Satz zählen, die in diesen Lexika 
stehen (siehe https://www.nltk.org/api/nltk.sentiment.html). Darüber 
hinaus stellt NLTK weitere Module zur Verfügung, mit denen man auf 
annotierten Daten auf Grundlage der Wörter, die darin vorkommen, eine 
Sentiment-Klassifikation trainieren kann.

Die Verwendung der Sentiment-Analyse von TextBlob kann man hier sehen:




In [2]:
from textblob_de import TextBlobDE
testsatz = "Das ist ein sehr gutes Produkt."
TextBlobDE(testsatz).sentiment

Sentiment(polarity=1.0, subjectivity=0.0)

## Zusammenfassung

Für das Sentiment-Retrieval soll im ersten Schritt zwischen subjektiven (Meinungsäußerungen) und objektiven Texten (Sachinformationen) unterschieden werden. Wir können die Meinungsäußerungen nach ihrer Subjektivität (objektiv/neutral – subjektiv) und Polarität (sehr positiv, positiv, neutral, negativ, sehr negativ) kategorisieren. Meinungen können wir nach verschiedenen Arten kategorisieren, von regulären, direkten Meinungen, die einfacher erkannt und analysiert werden können über vergleichende Meinungen, die komplexer für die Analyse sind, bis hin zu subjektiven Meinungen, die jedoch für die Analyse irrelevant sind und deswegen aus der Analyse ausgeschlossen werden müssen.
Die Qualität der Sentiment-Analyse hängt mit der Unterscheidung der Meinungsäußerung zusammen, denn die Qualität der Ergebnisse hängt direkt davon ab, ob z. B. subjektive Meinungen richtig erkannt werden und ob objektive Aussagen, die nicht relevant für die Sentiment-Analyse sind, auch beim Sentiment-Retrieval nicht berücksichtigt werden. 


Meinungsäußerungen können mit Lius Quintupeln beschrieben werden, die 
aus der Entität, dem Aspekt, der Meinung, dem Meinenden und der Zeit 
bestehen. Jedoch ist dies nicht immer direkt mit den Wörtern im Satz 
möglich, wie wir am Beispiel gezeigt haben. Auch gibt es emotionale und 
subjektive Äußerungen, die keine Meinungsäußerungen sind. 

Die direkte Methode, Meinungsäußerungen zu entdecken, ist der 
Abgleich der Wörter in einem Satz mit Wörtern in einem Lexikon. Diese relativ einfache Methode wird z. B. von TextBlob und NLTK verwendet. Die Qualität der Analyse ist dabei stark abhängig von der Qualität des Lexikons. 
Auf die Methode, anhand von annotierten Daten automatisch zu lernen, welche 
Wörter relevant sind, gehen wir zu einem späteren Zeitpunkt in Kapitel 4 noch ein.

Schon das Entdecken von Meinungsäußerungen ist ein komplexer Prozess, 
der auch schon Anwendungen hat. So kann man damit z. B. herausfinden, 
welche Produkte oder Themen intensiv diskutiert werden (siehe im Kapitel 8) oder man kann versuchen, extreme 
Meinungsäußerungen automatisch zu identifizieren (siehe im Kapitel 10). 

## Übungen


1. Prüfen Sie Ihr Wissen:

- Welche Teilaufgaben beinhaltet das Sentiment Retrieval und welche Ziele haben sie jeweils? 
- Wie erklären Sie, dass die Unterscheidung zwischen Sachinformationen und Meinungsäußerungen relevant für die  Genauigkeit und Qualität der Sentiment-Analyse ist?



2. Setzen Sie Ihr neues Wissen ein:

a) Recherchieren Sie auf amazon.de  jeweils zwei Beispiele für die verschiedenen Arten von Meinungsäußerungen unter \ref{sec:meinungsarten} (direkt, indirekt, vergleichende Meinungsäußerung, Emotionsäußerung ohne Meinung), deren Erkennung eine Herausforderung für die Sentiment-Analyse ist. Erklären Sie, worin die Herausforderung jeweils besteht. 
b) Suchen Sie nach sprachlichen Merkmalen in Online-Reviews oder Tweets, die Ihrer Meinung nach für die Bestimmung der Subjektivität und Polarität während des Sentiment-Retrievals berücksichtigt werden sollten.
c) Erstellen Sie eine Sammlung von 10 Meinungsäußerungen und strukturieren Sie sie in einer Tabelle nach den Quintupel-Werten von \cite[S. 19]{Liu:2012}. Speichern Sie diese Daten zur Nutzung für weitere Übungsaufgaben.
d) Installieren Sie NLTK, TextBlob und TextBlob DE. 
e) Testen Sie die Sentiment-Analyse von TextBlob DE mit den Sätzen, die Sie gesammelt haben und mit Sätzen, die Negationen wie \enquote{kein} enthalten. Dokumentieren Sie 
Ihr Ergebnis.
f) Testen Sie die Sentiment-Analyse von NLTK mit englischen 
Sätzen. 
g) Schreiben Sie eine Funktion, die den Nutzer um einen Eingabesatz 
bittet und dann das Ergebnis der Sentiment-Analyse mit TextBlob ausgibt.
h) Schreiben Sie eine Funktion, die auf eine Datei mit Sätzen die 
Sentiment-Analyse mit TextBlob anwendet und ausgibt, ob die Sätze 
Meinungsäußerungen enthalten oder nicht.


3. Reflexion in Gruppenarbeit: 

Diskutieren Sie in Ihrer Übungsgruppe darüber, wie aufwändig und komplex es für einen Menschen selbst ist, Meinungsäußerungen richtig zu erkennen und eindeutig nach ihrer Polarität zu kategorisieren. Fassen Sie anschließend Ihre Diskussionspunkte zusammen und stellen sie anhand von Beispielen anderen Gruppen vor.


## Weiterführende Literatur

Die englischsprachige Literatur zur Subjektivitätserkennung bzw. -analyse (englischsprachig Subjectivity Detection) ist ein aktives Forschungsfeld. Grundlagenliteratur dazu bilden die Arbeiten von (Yu 2003), (Pang und Lee 2004), (Wiebe et al. 2004) sowie (Pang und Lee 2008). Eine sehr gute, aktuelle und umfassende Einführung in die Sentiment-Analyse gibt (Liu 2015). In (Sidarenka 2019, Kapitel 1) findet sich ein umfassender Überblick der Historie der Sentiment-Analyse.

Methoden und die damit einhergehenden Herausforderungen werden ausführlich in (Chaturvedi et al. 2018) behandelt. Verschiedene Methoden der Sentiment-Analyse findet man in den Tagungsbänden von SemEval (Nakov et al. 2016) für die englische Sprache und GermEval (Wojatzki et al. 2017) für die deutsche Sprache.
Einen Überblick über die Analyse der deutschen Sprache gibt (Wolfgruber 2015).  
 (Atalla et al. 2011) haben eine Studie durchgeführt, in der sie verschiedene Ansätze zur Subjektivitätserkennung implementiert und miteinander verglichen haben.

Das Buch zur Einführung in NLTK ist (Bird 2009). TextBlob wird in (Loria 2014) eingeführt.
