# Sentimentanalyse

Sentimentanalyse, auch _Opinion Mining_ genannt, ist das herausfinden der Meinung, die in einem Text zu igendetwas geäußert wird.

Es werden zwei Dimensionen, entlang denen Text klassifiziert werden können, unterschieden: 
 * Objektiv vs. Subjektiv und 
 * Negativ - Neutral - Positiv.

Längere Texte können natürlich mehrere Meinungen zu den gleichen und zu verschiedenen Sachen enthalten. Im folgenden machen wir mal die vereinfachende Annahme, das Texte immer homogen sind. 

Unsere einfache Hypothese ist, dass es Wörter gibt, die eine stark positives oder negatives Sentiment verkörpern, und das es reicht diese Wörter zu finden, um einen Text zu klassifizieren. Diese Annahme ist natürlich nicht ganz korrekt. Eine positive ode negative Meinung hängt natürlich von mehr als nur von einzelnen Wörtern ab: insbesondere  Negation kann die Bedeutung eines Wortes grundlegend ändern. Einige ganz neue Verfahren (Stichwörter: ELMO und BERT) können auch mit der unterschiedliche Bedeutung von Wörtern in Abhängigkeit der umgebenden Wörter umgehen. Wir kommen aber schon ganz weit, wenn wir nur einzelne Wörter verwenden. Verfahren, die nur einzelne Wörter verwenden, ohne ihre Beziehungen zu berücksichtigen, nennt man übrigens _Bag of Word_-Verfahren.

Es gibt nun zwei Möglichkeiten die Idee umzusetzen:
1. Wir trainieren einen Classifier, der aus Beispieltexten lernt, wie viel jedes Wort zum positiven oder negativen Sentiment beiträgt. Der Vorteil dieser Methode ist, dass wie genaue gewichte für eine spezifische Domäne oder Textart lernen können. Der Nachteil ist, dass wir Texte brauchen, die händisch beuurteilt wurden.
2. Wir nutzen allgemeine Listen mit positiven und negativen Wörtern.

## Tools

Für die Sentimentanalyse brauchen wir in Grunde genommen nur Listen mit positiven und negativen Wörtern und eine Funktion, die zählt wie viele positive und negative Wörter es in einem Text gibt. Es gibt aber auch Tools, die das alles ganz unkomplziert für uns erledigen können. Für die Sentimentanalyse können wir die Bibiothek _TextBlob_ nutzen.

Das ist jetzt die dritte Bibliothek für NLP. Was sind die Unterschiede?

* NLTK: Eine Sammlung mit sehr vielen Algorithmen, meistens sprachunabhängig oder für viele Sprachen geeignet. Oft auch viele unterschiedliche Algorithmen für dieselbe Aufgabe. Ein Eldorado für Experte, die experimentieren und selber neue Anwendungen entwickeln wollen.
* TextBlob: eine Auswahl von Algorithmen aus NLTK, die zusammen eine Standard-Analyse eines Textes für einige wenige Sprachen ausführen können. Wenig Vorwissn erforderlich, einfach einzusetzen, aber ohne Möglichkeiten, etwas anzupassen.
* Spacy: von der Idee und Funktionalität sehr ähnlich zu TextBlob, etwas umfangreicher und vorallem mit eigener sehr performante Implementierung.

Weder NLTK noch Spacy enthalten eine fertig eingebaute Sentimentanalyse für Deutsche Texte. TextBlob bietet diese Funktionalität aber. 

## Textanalyse mit TextBlob

Zunächst installieren wir die Deutsche Version von TextBlob:

In [4]:
pip install -U textblob-de==0.4.3

Note: you may need to restart the kernel to use updated packages.


In [3]:
!python -m textblob.download_corpora

Finished.


[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\mjzag\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\mjzag\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\mjzag\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\mjzag\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to
[nltk_data]     C:\Users\mjzag\AppData\Roaming\nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\mjzag\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!

Wir nehmen mal drei kurze Texte, und schauen, was TextBlob damit so macht.

Dieser Text laden wir jetzt in ein TextBlob-Objekt. Dabei wird dieser Text vollständig analysiert. Anschließend können wir die Analzsen aus dem Objekt auslesen.

In [28]:
import textblob
from textblob_de import TextBlobDE


blob1 = TextBlobDE(text1)
blob1.sentiment.polarity 



-0.5

In [33]:
blob2 = TextBlobDE(text2)
blob2.sentiment.polarity 

1.0

In [34]:
blob3 = TextBlobDE(text3)
blob3.sentiment.polarity 

NameError: name 'text3' is not defined

In [22]:
blob.sentences

[Sentence("Wer braucht diese Bücher mit ihren Plattheiten?"),
 Sentence("Eine Zumutung für Leser mit einem gewissen Anspruch.")]

In [16]:
blob.tokens

WordList(['Wer', 'braucht', 'diese', 'Bücher', 'mit', 'ihren', 'Plattheiten', '?', 'Eine', 'Zumutung', 'für', 'Leser', 'mit', 'einem', 'gewissen', 'Anspruch', '.'])

In [17]:
blob.words.lemmatize()

WordList(['wer', 'brauchen', 'dies', 'Bücher', 'mit', 'ihren', 'Plattheiten', 'Ein', 'Zumutung', 'für', 'Leser', 'mit', 'ein', 'gewiss', 'Anspruch'])

In [18]:
blob.tags

[('Wer', 'WP'),
 ('braucht', 'VB'),
 ('diese', 'DT'),
 ('Bücher', 'NN'),
 ('mit', 'IN'),
 ('ihren', 'PRP$'),
 ('Plattheiten', 'NN'),
 ('Eine', 'DT'),
 ('Zumutung', 'NN'),
 ('für', 'IN'),
 ('Leser', 'NN'),
 ('mit', 'IN'),
 ('einem', 'DT'),
 ('gewissen', 'JJ'),
 ('Anspruch', 'NN')]

In [8]:
blob.word_counts

defaultdict(int,
            {'wer': 1,
             'braucht': 1,
             'diese': 1,
             'bücher': 1,
             'mit': 2,
             'ihren': 1,
             'plattheiten': 1,
             'eine': 1,
             'zumutung': 1,
             'für': 1,
             'leser': 1,
             'einem': 1,
             'gewissen': 1,
             'anspruch': 1})

In [19]:
blob.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

In [9]:
text2 =  'scheißes'
blob2=TextBlobDE(text2)
s=blob2.polarity
if s>=0.5:
    print('sehr positve')
elif 0<=s<0.5:
    print('positive')
else:
    print('negative') 

positive


In [11]:
blob.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

In [13]:
#from textblob_de import PatternParser
#blob = TextBlobDE(text, parser=PatternParser(pprint=True, lemmata=True))
#blob.parse()

## Sentiment

In [None]:
import codecs
fhand=open('motogpositive.txt')
i=0
text=fhand.read()
x=text.find('Farbe:')
print(x)

for line in fhand:
    line=line.rstrip()
    if line.startswith('Farbe:'):
        name='motogpositive'+str(i)
        #print(name)
        i=i+1
    print(x)
#         fout=codecs.open(name,'w','utf8')
#         print()
        
# i=0
# for file in files:
#     try:
#         fhand=codecs.open(file,'r','cp1252')
#         text=fhand.read()
#         #fname=file[6:-3]+'utf.txt'
#         i=i+1
#         #fname=text+i
#         fout=codecs.open(test, 'w', 'utf8')
#         print(text, file=fout)
#         fhand.close()
#         fout.close()
#     except:
#         try:
#             fhand=codecs.open(file,'r','utf8')
#             text=fhand.read()
#             #fname=file[6:-3]+'utf.txt'
#             fout=codecs.open(test2, 'w', 'utf8')
#             print(text, file=fout)
#             fhand.close()
#             fout.close()
#         except:
#             print(file)
#             continue

In [None]:
dateipos1=codesc.open('pos/1.txt','r','utf8')
textpos1=dateipos1.read()
blob1 = TextBlobDE(textpos1)
print(blob.sentiment.polarity)

In [None]:
dateipos1=codesc.open('pos/1.txt','r','utf8')
textpos1=dateipos1.read()
blob1 = TextBlobDE(textpos1)
print(blob.sentiment.polarity)

In [None]:
import codecs
polarity=[]
motog=codecs.open('motog.txt','r','utf8')
for line in motog:
    blob = TextBlobDE(line)
    polarity.append(blob.sentiment.polarity)


np=0
for p in polarity:
    if p <0.6:
        np=np+1
    else: continue 
        
print(np,'von', len(polarity),'da heißt',(np*100)/len(polarity),'Prozent Korrekt Auswertung')

In [None]:
line='Abbau	Abbau	NN	1,0000	0,0000	0,0000'
w, l, pos, wpos, wneg, wneu = line.split('\t')
print(w,l,pos,wpos,wn,wneg)

In [1]:
import codecs

datei=codecs.open('GermanPolarityProb.tsv','r','utf16')
i=0
for line in datei:
     print(i)
     i+=1
     w, l, pos, wpos, wneg, wneu = line.split('\t')
    

text='Wer braucht diese Bücher mit ihren Plattheiten? Eine Zumutung für Leser mit einem gewissen Anspruch.'
for l in text:
     lex[l]=(wpos,wn,wneg)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
27

ValueError: too many values to unpack (expected 6)

In [32]:
datei.read()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfc in position 100: invalid start byte

In [21]:
text='Ich bin, aha.'

bl=TextBlobDE(text)
print(bl.tokens.lemmatize)

<bound method WordList.lemmatize of WordList(['Ich', 'bin', ',', 'aha', '.'])>


In [49]:
text1 =  'Jetzt muss ich mal meinen ganzen Frust mit Emma rauslassen. Ich habe mir bei Emma ein Bett, eine Matratze und ein Kopfkissen (schon länger her) bestellt. Das Bett kam nach drei Tagen - wie angekündigt - an. Es war sehr einfach im Aufbau, sieht super aus, ist stabil und gemütlich. Die gleichzeitig bestellte Matratze habe ich über Emma bis heute nicht erhalten, obwohl sie zeitlich zusammen mit dem Bett kommen sollte. Per E-Mail oder Direktnachricht bei Facebook (wurde ich in den Kommentaren von Emma zu aufgefordert) habe ich bis heute keine Rückmeldung. Dementsprechend auch keine Rückerstattung. Nun bestellte ich dieselbe Matratze über Amazon. Die Lieferung klappte aufeinmal innerhalb von vier Tagen. Das Paket war aber dermaßen schlecht verpackt, dass alles total kaputt war. Die Matratze hat Risse und geht dank des unkomplizierten Rücksendeprozesses - über Amazon - zurück. Es wird aber lediglich angeboten, die schwere Matratze selber zu DHL zu bringen. Außerdem bekomme ich sie garnicht mehr in das Paket rein, da es dermaßen beschädigt war. Die Matratze wäre aber sowieso viel zu weich gewesen. Die Härten sind hier ganz anders als bei anderen Anbietern. Qualitativ machte sie sich keinen guten Eindruck. Nun zum letzten bestellten Artikel, mein Kissen über Emma. Das Kissen habe ich bereits vor zwei Jahren bestellt. Zugestellt wurde es sechs Monate nach der Bestellung. Katastrophe'


text2 = 'Grundsätzlich gute Matratze und Bestellung sowie Lieferung hat über Amazon gut geklappt. Allerdings war die Matratze mir viel zu hart und ich wollte sie wie auch unter Amazon beschrieben innerhalb der 100 Tage zurückgeben. Hier aufpassen: Die Matratze kommt vakuumiert in einem Karton per Postpaket. Nach dem Auspacken nimmt sie ihre vielfache Größe an und ist unmöglich wieder zu komprimieren um in ein Paket zu passen. Bei einer Retoure über Amazon muss man die Ware aber wieder per Paket zurücksenden! Was ja nicht mehr geht! Bei der Hotline von Emma sagten die nur "Wir würden gerne helfen aber wenn über Amazon gekauft muss man sich dorthin wenden". Also ist man trotz groß umworbener 100 Tage Testphase ziemlich alleine gelassen! Also Vorsicht sonst hat man bei Rückgabe ziemlichen Ärger und Rennerei oder hat teures Lehrgeld bezahlt!'

text3 = 'Hab die Matratze bestellt In medium ( ist leider viel zu hart ) Hab mich informiert im Internet und dort gesehen das Emma Matratzen anbietet in so einen Fall einen toppen kostenlos rauszusenden um zu testen ob es so dann passt für mich mit der Härte der Matratze Amazon bietet komischerweise nur die Rücksendung an obwohl im Internet was anderes steht Emma sagt sie können mir nicht helfen weil ich die Matratze über Amazon bestellt habe Amazon ihr enttäuscht mich hier gewaltig 3 mal mit Emma und 3 mal mit Amazon tel Keine Lösung also zurück schicken und direkt bei Emma bestellen ( die waren auch sehr unfreundlich am.tel )Jeder schiebt dad Problem auf den anderen. Danke für nichts'

text4= 'Ich schlafe jetzt seit Anfang 2021 auf der Matratze und hatte immer die Hoffnung, dass sie irgendwann mal weicher wird. Aber sie ist immernoch hart wie ein Betonblock. Ich hatte extra medium gewählt. Ich bin 1,89m groß und ca.98 kg schwer. Und trotzdem schlafen mir auf der Matratze die Gliedmaßen ein. Ich hab durch die Matratze Rücken-und Nackenprobleme bekommen. Jetzt fliegt sie dahin, wo sie hingehört: Auf die Müllkippe. Es ärgert mich immer noch, dass ich mich auf die Bewertungen verlassen habe.'

text5= 'Nachdem wir sehr viele positive Rezensionen der Emma One Matratze gelesen und uns ausgiebig informiert hatten, entschieden wir uns für die Emma One. Leider kamen wir beide überhaupt nicht mit der Matratze zurecht: wir gaben der Matratze 2 Wochen, da die Eingewöhnung ja manchmal etwas holprig sein kann. Besonders ich, aber auch mein Freund wachten täglich mit Kopfschmerzen und Verspannungen eines solch hohen und unangenehmen Maßes auf, dass wir uns entschlossen, die Matratzen zurückzugeben. Besonders ich konnte keine Nacht länger auf der Matratze schlafen.Dies kann ja durchaus passieren, Menschen und ihre Schlafbedürfnisse sind bekanntermaßen verschieden. Nun begann jedoch die eigentliche Odyssee mit Emma One. Das Werbeversprechen des 100 Tage Probeschlafens von Emma One wird offensichtlich mit Füßen getreten. Ich versuche nun seit Ende November, die Matratzen zurückzugeben. Da ich nicht einfach mit 2 Matratzen zur Post spazieren kann, muss Emma One sie abholen. Darauf warte ich nun nach unzähligen Telefonaten weiterhin vergeblich. Zum Glück ist der Amazon Kundenservice extrem hilfreich und freundlich- von Emma One bin ich jedenfalls maßlos enttäuscht. Es wird sich zeigen, ob die Matratze nun noch zurückgegeben werden kann, dieser Aufwand ist jedoch extrem unverhältnismäßig und steht in keinem Verhältnis zum Werbeversprechen. Das Fazit ist eindeutig: Keine Kaufempfehlung für Emma One!'

text6 ='Die Investition hat sich gelohnt - habe die Matratze vor fast zwei Jahren gekauft und bin zufrieden. Anfangs hatten wir sie auf dem Boden verwendet und da fühlt sie sich sehr stabil und fast schon hart an. Für solche Verwendung würde ich empfehlen eine Version zu kaufen, die so weich wie möglich ist. Wenn man aber den richtigen Lattenrost drunter legt hat sie die perfekte Festigkeit! Dennoch: Wer normalerweise sehr weiche Matratzen verwendet sollte dementsprechend auch die Härte auswählen.Anfangs wenn man sie rausholt riecht sie noch sehr chemisch, also unbedingt Zeit einplanen zum auslüften lassen ;) Alles in allem bin ich schon sehr überzeugt von dieser Matratze. Würde ich wieder kaufen.'

text7 = 'Die Matratzen kamen zeitnah und gut verpackt. Den Schoner und das Laken drüber und rauf auf den Lattenrost. Passt ganz genau, an die Härte muss man sich gewöhnen, aber die haben wir ja so bestellt. Sonst gibt es nicht viel zu sagen, man schläft gut und mehr will ich nicht. Ich würde sie wieder kaufen.'

text8 = 'Matratze wurde 4Tage früher geliefert, kompakter Transport. Nachmittags erhalten, nach öffnen der Folie entfaltet sich die Matrtze, hab ihr mal 2/3 Stunden gegeben zum öffnen.. Der oft kritisierte Geruch kann ich erst mal nicht so bestätigen. Es riecht, aber sehr dezent. Ich lasse sie noch bis 22 uhr bei offenen Fenstern ausdünsten und entfalten. Werde sie doch schon in der ersten Nacht mal benutzen. . Bis jetzt soweit ok. 1 Nacht: Keine Gerüche wahrgenommen, besser geschlafen als auf der alten Matratze, das ist schon ein Fortschritt. Weiteres später Jetzt schon paar Nächte drauf verbracht, kann bis jettt nur positives berichten. Es gab ab Tag1 keine gerüchsauffälligkeitrn, und ich bin da sehr empfindlich. Bis jetzt war das liegen besser, mein schlechter Schlaf hat noch andere Gründe, kann die Emma One nix für. Werde weiter berichten'

text9= 'Die Lieferung kam noch vor dem angegebenen Termin und war in einem Karton zusammengerollt verpackt. Nachmittags angekommen und abends schon drauf geschlafen. Sie hat sich relativ schnell entfaltet und hat keinen Eigengeruch. Diese Matratze hält wirklich, was sie verspricht. Ich bin begeistert von der Qualität. Sehr empfehlenswert.'

text10 = 'Ich bin klein und die Matratze ist super für mich, passt sich an den Körper an. Ist auch nicht zu hart , wenn man so was mag :-) Danke und Grüße'


In [43]:
import textblob
from textblob_de import TextBlobDE


blob1 = TextBlobDE(text1)
blob1.sentiment.polarity 

-0.5

In [44]:
blob2 = TextBlobDE(text2)
blob2.sentiment.polarity 

1.0

In [45]:
blob3 = TextBlobDE(text4)
blob4.sentiment.polarity 

0.21333333333333332

In [46]:
blob4 = TextBlobDE(text4)
blob4.sentiment.polarity 

0.21333333333333332

In [47]:
blob5 = TextBlobDE(text5)
blob5.sentiment.polarity 

0.23749999999999996

In [50]:
blob6 = TextBlobDE(text6)
blob6.sentiment.polarity 

0.075

In [51]:
blob7 = TextBlobDE(text7)
blob7.sentiment.polarity 

0.12666666666666665

In [55]:
blob8 = TextBlobDE(text8)
blob8.sentiment.polarity 

-0.04615384615384616

In [56]:
blob9 = TextBlobDE(text9)
blob9.sentiment.polarity 

0.6166666666666667

In [57]:
blob10 = TextBlobDE(text10)
blob10.sentiment.polarity 

0.07500000000000001