# Sentimentanalyse

Sentimentanalyse, auch _Opinion Mining_ genannt, ist das herausfinden der Meinung, die in einem Text zu igendetwas geäußert wird.

Es werden zwei Dimensionen, entlang denen Text klassifiziert werden können, unterschieden: 
 * Objektiv vs. Subjektiv und 
 * Negativ - Neutral - Positiv.

Längere Texte können natürlich mehrere Meinungen zu den gleichen und zu verschiedenen Sachen enthalten. Im folgenden machen wir mal die vereinfachende Annahme, das Texte immer homogen sind. 

Unsere einfache Hypothese ist, dass es Wörter gibt, die eine stark positives oder negatives Sentiment verkörpern, und das es reicht diese Wörter zu finden, um einen Text zu klassifizieren. Diese Annahme ist natürlich nicht ganz korrekt. Eine positive ode negative Meinung hängt natürlich von mehr als nur von einzelnen Wörtern ab: insbesondere  Negation kann die Bedeutung eines Wortes grundlegend ändern. Einige ganz neue Verfahren (Stichwörter: ELMO und BERT) können auch mit der unterschiedliche Bedeutung von Wörtern in Abhängigkeit der umgebenden Wörter umgehen. Wir kommen aber schon ganz weit, wenn wir nur einzelne Wörter verwenden. Verfahren, die nur einzelne Wörter verwenden, ohne ihre Beziehungen zu berücksichtigen, nennt man übrigens _Bag of Word_-Verfahren.

Es gibt nun zwei Möglichkeiten die Idee umzusetzen:
1. Wir trainieren einen Classifier, der aus Beispieltexten lernt, wie viel jedes Wort zum positiven oder negativen Sentiment beiträgt. Der Vorteil dieser Methode ist, dass wie genaue gewichte für eine spezifische Domäne oder Textart lernen können. Der Nachteil ist, dass wir Texte brauchen, die händisch beuurteilt wurden.
2. Wir nutzen allgemeine Listen mit positiven und negativen Wörtern.

## Tools

Für die Sentimentanalyse brauchen wir in Grunde genommen nur Listen mit positiven und negativen Wörtern und eine Funktion, die zählt wie viele positive und negative Wörter es in einem Text gibt. Es gibt aber auch Tools, die das alles ganz unkomplziert für uns erledigen können. Für die Sentimentanalyse können wir die Bibiothek _TextBlob_ nutzen.

Das ist jetzt die dritte Bibliothek für NLP. Was sind die Unterschiede?

* NLTK: Eine Sammlung mit sehr vielen Algorithmen, meistens sprachunabhängig oder für viele Sprachen geeignet. Oft auch viele unterschiedliche Algorithmen für dieselbe Aufgabe. Ein Eldorado für Experte, die experimentieren und selber neue Anwendungen entwickeln wollen.
* TextBlob: eine Auswahl von Algorithmen aus NLTK, die zusammen eine Standard-Analyse eines Textes für einige wenige Sprachen ausführen können. Wenig Vorwissn erforderlich, einfach einzusetzen, aber ohne Möglichkeiten, etwas anzupassen.
* Spacy: von der Idee und Funktionalität sehr ähnlich zu TextBlob, etwas umfangreicher und vorallem mit eigener sehr performante Implementierung.

Weder NLTK noch Spacy enthalten eine fertig eingebaute Sentimentanalyse für Deutsche Texte. TextBlob bietet diese Funktionalität aber. 

## Textanalyse mit TextBlob

Zunächst installieren wir die Deutsche Version von TextBlob:

In [10]:
!pip install -U textblob-de==0.4.3

Requirement already up-to-date: textblob-de==0.4.3 in c:\users\wartena\appdata\local\continuum\anaconda3\lib\site-packages (0.4.3)


In [26]:
!python -m textblob.download_corpora

Finished.


[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\wartena\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\wartena\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\wartena\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\wartena\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to
[nltk_data]     C:\Users\wartena\AppData\Roaming\nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\wartena\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already

Wir nehmen mal drei kurze Texte, und schauen, was TextBlob damit so macht.

In [66]:
text =  '''Wer braucht diese Bücher mit ihren Plattheiten?
Eine Zumutung für Leser mit einem gewissen Anspruch.'''

Dieser Text laden wir jetzt in ein TextBlob-Objekt. Dabei wird dieser Text vollständig analysiert. Anschließend können wir die Analzsen aus dem Objekt auslesen.

In [67]:
import textblob
from textblob_de import TextBlobDE

blob = TextBlobDE(text) 

In [68]:
blob.sentences

[Sentence("Wer braucht diese Bücher mit ihren Plattheiten?"),
 Sentence("Eine Zumutung für Leser mit einem gewissen Anspruch.")]

In [69]:
blob.tokens 

WordList(['Wer', 'braucht', 'diese', 'Bücher', 'mit', 'ihren', 'Plattheiten', '?', 'Eine', 'Zumutung', 'für', 'Leser', 'mit', 'einem', 'gewissen', 'Anspruch', '.'])

In [70]:
blob.tags

[('Wer', 'WP'),
 ('braucht', 'VB'),
 ('diese', 'DT'),
 ('Bücher', 'NN'),
 ('mit', 'IN'),
 ('ihren', 'PRP$'),
 ('Plattheiten', 'NN'),
 ('Eine', 'DT'),
 ('Zumutung', 'NN'),
 ('für', 'IN'),
 ('Leser', 'NN'),
 ('mit', 'IN'),
 ('einem', 'DT'),
 ('gewissen', 'JJ'),
 ('Anspruch', 'NN')]

In [71]:
blob.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

In [72]:
blob.word_counts

defaultdict(int,
            {'wer': 1,
             'braucht': 1,
             'diese': 1,
             'bücher': 1,
             'mit': 2,
             'ihren': 1,
             'plattheiten': 1,
             'eine': 1,
             'zumutung': 1,
             'für': 1,
             'leser': 1,
             'einem': 1,
             'gewissen': 1,
             'anspruch': 1})

In [73]:
blob.words.lemmatize()

WordList(['wer', 'brauchen', 'dies', 'Bücher', 'mit', 'ihren', 'Plattheiten', 'Ein', 'Zumutung', 'für', 'Leser', 'mit', 'ein', 'gewiss', 'Anspruch'])

In [74]:
from textblob_de import PatternParser
blob = TextBlobDE(text1, parser=PatternParser(pprint=True, lemmata=True))
blob.parse()

          WORD   TAG    CHUNK   ROLE   ID     PNP    LEMMA           
                                                                     
           bin   VB     VP      -      -      -      sein            
         etwas   DT     -       -      -      -      etwas           
    enttäuscht   JJ     ADJP    -      -      -      enttäuscht      
          nach   IN     PP      -      -      -      nach            
         allem   DT     -       -      -      -      all             
           was   WDT    NP      -      -      -      was             
           ich   PRP    NP ^    -      -      -      ich             
          über   IN     PP      -      -      PNP    über            
           das   DT     NP      -      -      PNP    das             
          Buch   NN     NP ^    -      -      PNP    buch            
       gelesen   VB     VP      -      -      -      lesen           
           hab   NN     NP      -      -      -      hab             
             .   .  

## Sentiment

In [62]:
text1 = """bin etwas enttäuscht nach allem was ich über das Buch gelesen 
hab. Langatmig und die Protagonisten allesamt dazu. """
blob1 = TextBlobDE(text1) 

In [63]:
blob1.sentiment

Sentiment(polarity=-0.5, subjectivity=0.0)

In [64]:
text2 =  '''Es ist wieder ein hervorragender Roman in einer 
guten und wunderbaren Schreibweise in guter Übersetzung.'''
blob2 = TextBlobDE(text2) 

In [65]:
blob2.sentiment

Sentiment(polarity=1.0, subjectivity=0.0)

In [75]:
text3 =  '''Wer braucht diese Bücher mit ihren Plattheiten?
Eine Zumutung für Leser mit einem gewissen Anspruch.'''
blob3 = TextBlobDE(text3) 

In [76]:
blob3.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

In [77]:
text4 =  '''Schon am Beginn dieses Buches kann man erahnen, dass durch den Tod des befreundeten örtlichen 
Bankiers die Geldprobleme des Hotels schlagend werden und letztlich trotz des Ignorierens der fatalens 
finanziellen Situation der Konklurs und somit der Untergang einer einstigen Institution ihr finales Ende findet.

Sprachlich großartig, teilweise mit viel Wortwitz und spannend geschrieben. Probleme werden geschildert und 
dann bleibt die Spannung über viele Seiten aufrecht, um dann dem Leser die Lösung zu bieten.

Diese ganze Geschichte findet in einer wunderschönen Landschaft statt, die ich auch persönlich kenne und mir 
dadurch noch mehr Freude beim Lesen geboten wurde. Auch beim Ausflug nach Oslo werden Straßen und Gebäude so
punktgenau beschrieben, dass man den Eindruck den beiden Reisenden hinterher zu gehen. '''
blob4 = TextBlobDE(text4) 

In [78]:
blob4.sentiment

Sentiment(polarity=0.21333333333333332, subjectivity=0.36666666666666664)

In [79]:
text5 =  '''Viel gelobtes Werk. Ich fand es ehrlich gesagt etwas langweilig. Dieser kreuzbrave allen nach dem 
Munde redende Junge, die nervtötende Großmutter und der Großvater mit seinen Weisheiten sind schnell beschrieben. 
Dann folgen ewige langatmige Beschreibungen von - meiner Meinung nach - der Handlung wenig dienenden Betrachtungen,
z. B. im Museum in Oslo. Das alles ist allzu wortreich. Und, das fragt man sich zunehmend ungeduldig, worum geht 
es eigentlich. Warum fragt er nicht einfach nach dem Schlüssel zu dieser Tür da oben im Hotel. Warum rebelliert er
nicht, was normal wäre für einen pubertierenden Jungen. Warum reden die angelblich so liebevollen Großeltern nicht
mit dem Kind, als hätten sie da oben in Norwegen noch nie was von Pädagogik oder Erziehung gehört (gerade dort!) 
Und alles wird verkauft als "großelterliche Liebe" - das nervt.

Alles in allem viel zu viel Drumherum, eher quälende Lektüre als wirklich gute Unterhaltung.. '''
blob5 = TextBlobDE(text5) 

In [80]:
blob5.sentiment

Sentiment(polarity=0.23749999999999996, subjectivity=0.125)