# Natural Language Processing und Sentiment Analysis

## Natural Language Processing (NLP) -  Was ist das?

Kurz gesagt beschreibt NLP Methoden und Techniken zur  maschinellen Verarbeitung von natürlicher Sprache.
Ein Computer kann zwar sehr schnell komplexe Berechnungen durchführen, aber hat seine Probleme beim Interpretieren der Menschensprache. Emotionen, Ironie, Sarkasmus sind für ihn Fremdworte.
Daher muss er auf die Verfahren des maschinellen Lernens zurückgreifen. NLP hat auch heute schon viele Anwendungsgebiete. Es wird zum Beispiel genutzt, um Spracherkennungsprogramme - wie Apples Siri - zu entwicklen oder Texte von eingescannten Dokumenten extrahierbar zu machen.

## Sentiment Analysis

Sentiment Analysis (auf Deutsch "Gefühlsanalyse") wird häufig auch "opinion-mining" genannt. Es kommt zum Einsatz, wenn subjektive Informationen mit Hilfe aus dem Internet analysiert werden müssen. Die Informationen stammen häufig von Social-Media Webseiten wie Twitter oder Facebook und werden daraufhin von einem Algorythmus untersucht, ob sie positiv, neutral oder negativ sind. Aus dem Resultat können Unternehmen zum Beispiel schlussfolgern, wie ihr neues Produkt bei der Öffentlichkeit ankommt. Weitere Anwendungsgebiete: <br>
* Extraktion von nützlicher Information 
* Entdecken von "Flame"-Kommentaren
* Identifizieren von Bias auf Nachrichtenseiten
* Identifizieren von passenden Seiten für Werbung

> heißt das wirklich "Bias auf Nachrichtenseiten"??

Bei der Sentiment Analysis gibt es einige Schwierigkeiten. Zum einem äußern Menschen ihre Meinung oft sehr komplex, zum anderen tun sie es im Internet in Schriftform. Häufig werden geschriebene Worte anders interpretiert als gesprochene. Außerdem ist es für einen Algorithmus sehr schwer, rhetorische Mittel wie Ironie, Sarkasmus oder Implikationen zu erkennen. 

## Maschinelles Lernen

Maschinelles Lernen ist das Erkennen von Mustern in Datensätzen und das eigenständige Entwickeln von Lösungen. Ein System lernt aus Lerndatensätzen und kann anschließend basierend auf diesen Vorhersagen für andere Daten treffen. Dabei werden in den Lerndaten Muster und Gesetzesmäßigkeiten erkannt und diese später auf neue Daten angewandt. Vorrausgesetzt, die Lerndaten sind passend, können Programme mit maschinellen Lernen folgendes:
* Relevante Daten finden
* Vorhersagen treffen
* Wahrscheinlichkeiten berechnen
* sich an Entwicklungen anpassen
* Prozesse optimieren

Zur Veranschaulichung folgender Workflow. (Quelle: https://www.slideshare.net/rahuldausa/introduction-to-machine-learning-38791937)

> Quellen vielleicht in ein letztes Kapitel packen zum Schluss des Dokuments (eventuell mit Verweis) :) 

![image.png](attachment:image.png)


### Arten von maschinellem Lernen


* Überwachtes Lernen <br>
Die richtigen Klassen der Trainingsdaten sind hier bekannt und von dem Programmierer vorgegeben. Ziel hierbei ist, dass das System Assoziationen herstellen kann und Vorhersagen erstellt. 
<br>
* Unüberwachtes Lernen <br>
Die richigen Klassen der Trainingsdaten sind nicht bekannt. Hier geht es um das allgemeine Verstehen der vorliegenden Daten. Ein Szenario ist die Segmentierung, bei der es darum geht, die Daten nach Gemeinsamkeiten zu gruppieren (Clustering)![image.png](attachment:image.png)<br>
Quelle: Real-Time Human Pose Recognition in Parts from a Single Depth Image

> wieder Quelle

Diese Grafik zeigt den Unterschied auf einfache Weise:![image.png](attachment:image.png) (Quelle: Lecture 1, Andrew Ng's Machine Learning course on Coursera <br>
Beim überwachten Lernen ist bekannt, dass es genau zwei Klassen gibt (O und X). <br>
Beim nicht überwachten Lernen *ergeben* sich diese erst durch den Algorhytmus und werden aufgrund ihrer Gemeinsamkeiten gruppiert.

> Quelle

### Techniken 

* Klassifikation <br>
Bei der Klassifikation wird ein Dokument in eine vorgegebene Kategorie eingeteilt, wobei ein Dokument ein Text, Word, Bild... etc. sein kann. Zuerst wird ein Modell mit Trainingsdaten erstellt. Die Daten enthalten eine Klasse, z.B. SPAM oder HAM. Anschließend berechnet der Klassifikator die Wahrscheinlichkeit für jedes Wort, ob es positiv oder negativ ist. Danach wird das Model an Testdaten ausprobiert.
Einer der meist verbreitesten Klassifikatoren ist der "Naive Bayes Classifier". <br>
* Clustering <br>
Beim Clustering werden Daten auf Ähnlichkeiten untersucht und in Gruppen (Cluster) geordnet.
Bekannte Verfahren sind der K-means Algorithmus und die hierarchische Clusteranalyse <br>
* Regression <br>
Hier wird die Abhängigkeit der Werte von zwei Variablen betrachtet. Gibt es einen Zusammenhang von zwei Variablen (z.B. Alter und Körpergröße). Dadurch können Variablen in Testdaten mit statistischen Methoden vorhergesagt werden.<br>
Klassifikationen werden bei diskreten/kategorialen Variablen verwendet, während Regeressionen bei numerischen angewandt wird.

> in dem Absatz war ein Vertipper ...habe ichs chon entfernt kannst also einfach den Kommentar löschen :) 

##  Natural Language Toolkit (NLTK)

NLTK ist eine OpenSource Plattform in Python. Es wurde sepziell dafür entwickelt, menschliche Sprache auszuwerten. Die Entwickler veröffentlichten auch ein kostenloses Buch über NLTK (http://www.nltk.org/book/), welches sehr ausführlich die Möglichkeiten erklärt. NLTK beinhaltet auch über 50 Korpora, mit denen gearbeitet werden kann.   <br>
Um NLTK nutzen zu können, müssen wir es zuerst runterladen. Dies geschieht mit folgendem Befehl:

> Ich würde die Links zu den Referenzen auch nochmal __zusätzlich__ an den Schluss des Dokuments packen

In [4]:
import nltk
#nltk.download()

Es öffnet sich der NLTK-Downloader. Hier gegebenenfalls den Downloadpfad ändern und auf Download klicken.

> Vielleicht zum genaueren Verständnis noch erläutern warum nltk.download() als Kommentar eingefügt :) 

## Lerndatensätze

Bevor wir beginnen können, brauchen wir noch einen Lerndatensatz, mit dem wir unser Programm füttern können. Als Beispiel nehmen wir an, wir haben eine Datenbank in der 1000 Filmreviews gespeichert sind. Bei jedem Filmreview ist vermerkt, ob er positiv oder negativ ist. Das Programm soll aus diesen 1000 Reviews lernen, um später das Sentiment bei neuen Daten einschätzen zu können.




## Datenvorverarbeitung 

Ein Computer kann mit den Reviews in menschlicher Sprache zuerst nicht viel anfangen. Für ihn sind es nur aneinandergereihte Buchstaben. Das Ziel ist es jetzt, den Lerndatensatz in eine Sprache zu übersetzen, die der PC versteht. Das nennt man "Datenvorverarbeitung".


### Tokenizen und Speach Tagging

Zuerst müssen die Sätze der Reviews in einzelne Wörter "tokenisiert" werden. Ein Wort entspricht dann einem Token. Die dient dazu, dass die Wört einzeln betrachtet werden können. Dafür gibt es zwei Möglichkeiten. Zum einen mit der Splitfunktion, zum anderen mit NLTK.

In [5]:
satz="Hello, the weather is great today."
(satz.split(" "))


['Hello,', 'the', 'weather', 'is', 'great', 'today.']

Das Problem hier ist, dass wir die Punkte und Kommas nicht loswerden. Besser geht das mit dem Word Tokenizer von NLTK, der zuerst importiert werden muss:

In [6]:
from nltk.tokenize import word_tokenize
word_tokenize(satz)

['Hello', ',', 'the', 'weather', 'is', 'great', 'today', '.']

Wie zu sehen, hat der Tokenizer alle Wörter und Zeichen getrennt. NLTK kann auch sehen, ob ein Wort ein Nomen, Verben etc. ist. Auf der Website http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html lässt sich nachschauen, was die Abkürzungen bedeuten.

> Referenzlink wieder __zusätzlich__ an den Schluss

In [7]:
s=word_tokenize(satz)
nltk.pos_tag(s)

[('Hello', 'NNP'),
 (',', ','),
 ('the', 'DT'),
 ('weather', 'NN'),
 ('is', 'VBZ'),
 ('great', 'JJ'),
 ('today', 'NN'),
 ('.', '.')]

Eine weitere Funktion von NLTK ist, Definitionen von Wörtern zu suchen. Dabei hilft uns die Datenbank Wordnet, welche schon im NLTK-Paket enthalten ist. Es wird benutzt, um die Bedeutung von Wörtern, Synonyme oder Antonyme zu finden. Lassen wir uns doch mal die Definition von "window" suchen.

In [8]:
from nltk.corpus import wordnet
defi=wordnet.synsets("house")
print(defi[0].definition())

a dwelling that serves as living quarters for one or more families


Außerdem können Beispielsätze, in denen das gewünschte Wort vorkommt, angezeigt werden.

In [9]:
defi[0].examples()

['he has a house on Cape Cod', 'she felt she had to get out of the house']

### StopWords 

Der nächste Schritt der Datenvorverarbeitung ist das Filtern von informationsleeren Wörtern (StopWords). Da später alle Wörter in einem Vokabular gespeichert werden, wollen wir keine Wörter haben, die uns keine Informationen liefern. Beispiele für solche Wörter sind "also", "sie", "dass" usw. Kurz gesagt Wörter, die in fast jedem Review vorkommen und somit keinen Rückschluss auf das Sentiment geben können. In NLTK sind bereits Listen von üblichen Stopwörten in einigen Sprachen enthalten. Diese müssen zuerst wieder importiert werden.


In [10]:
from nltk.corpus import stopwords

In [11]:
stopwords.words('german')[:10]

['aber', 'alle', 'allem', 'allen', 'aller', 'alles', 'als', 'also', 'am', 'an']

Das sind zehn Beispiele von Stopwörtern der deutschen Sprache. Schauen wir uns den Nutzen mal an folgendem Beispiel an:

In [12]:
lied="Alle meine Entchen schwimmen auf dem See"
wort = word_tokenize(lied)
print(wort)

inhaltsvolle_woerter=[wort for wort in wort if wort not in stopwords.words("german")]
print(inhaltsvolle_woerter)

['Alle', 'meine', 'Entchen', 'schwimmen', 'auf', 'dem', 'See']
['Alle', 'Entchen', 'schwimmen', 'See']


Wie wir sehen, wurden vier Wörter entfernt. Übrig bleiben die Wörter, die für uns Informationen enthalten.

## Stemming

Es kommt oft vor, dass Wörter mit ähnlichem Wortstamm die gleiche Bedeutung haben. Um die Suchzeiten zu verkürzen, ist es sinnvoll, Sätze zu normalisieren. Einer der bekanntesten Stemming-Algorithmen ist der "Porter stemmer". Er muss zuerst importiert werden:

In [13]:
from nltk.stem import PorterStemmer
from nltk.tokenize import sent_tokenize, word_tokenize

ps = PorterStemmer()

In [14]:
beispiel_wort=["ride","riding"]
for w in beispiel_wort:
    print (ps.stem(w))

ride
ride


Wenden wir das ganze jetzt auf einen Satz an, sehen wir den Nutzen besser:

In [15]:
beispiel_satz="I ride my bike while riding a horse"
words = word_tokenize(beispiel_satz)

for w in words:
    print(ps.stem(w))

I
ride
my
bike
while
ride
a
hors


Der Algorithmus macht aus "ride" und "riding" einen Stamm und somit muss das Wort nur noch einmal abgespeichert werden.

> Bei der Ausgabe steht "hors" anstatt "horse" <-- ist das gewollt?

## Lemmatizing

Ähnlich zur Stemming ist Lemmatizing. Der einzige Unterschied ist, dass beim Stemming nicht existierende Wörter entstehen können. Beim Lemmatizing dagegen können nur echte Wörter entstehen.

In [16]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize("houses"))
print(lemmatizer.lemmatize("lexica"))
print(lemmatizer.lemmatize("geese"))
print(lemmatizer.lemmatize("dogs"))
print(lemmatizer.lemmatize("python"))
print(lemmatizer.lemmatize("better", pos="a"))
print(lemmatizer.lemmatize("best", pos="a"))
print(lemmatizer.lemmatize("swim"))
print(lemmatizer.lemmatize("swim",'v'))

house
lexica
goose
dog
python
good
best
swim
swim


## Chunking 

import nltk
from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer

train_text = state_union.raw("2005-GWBush.txt")
sample_text = state_union.raw("2006-GWBush.txt")

custom_sent_tokenizer = PunktSentenceTokenizer(train_text)

tokenized = custom_sent_tokenizer.tokenize(sample_text)

def process_content():
    try:
        for i in tokenized:
            words = nltk.word_tokenize(i)
            tagged = nltk.pos_tag(words)
            chunkGram = r"""Chunk: {<RB.?>*<VB.?>*<NNP>+<NN>?}"""
            chunkParser = nltk.RegexpParser(chunkGram)
            chunked = chunkParser.parse(tagged)
            chunked.draw()     

    except Exception as e:
        print(str(e))

process_content()

# Naive Bayes Classifier mit NLTK 

Genug der Theorie, jetzt beginnen wir mit unserer Sentiment Analysis.
Den Movie-Review Datensatz den wir dafür verwenden, ist bereits im NLTK-Paket enthalten. Er wird so importiert:

In [17]:
import nltk.classify.util
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import movie_reviews
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

Wenn wir uns den Datensatz im Downloadordner genauer ansehen, sehen wir, dass dieser zwei Ordner enthält: "pos" und "neg". In den Ordner sind die jeweiligen Reviews gespeichert.<br> Wir können direkt über NLTK auf die Daten zugreifen. Hier ein paar Beispiele:

In [18]:
movie_reviews.categories()

['neg', 'pos']

So greifen wir auf die beiden Kategorien zu.

In [19]:
movie_reviews.fileids()[:4]

['neg/cv000_29416.txt',
 'neg/cv001_19502.txt',
 'neg/cv002_17424.txt',
 'neg/cv003_12683.txt']

Jeder Review besitzt eine einzigartige fileid, mit der wir sie unterscheiden und auf sie zugreifen können.

In [20]:
movie_reviews.words()

['plot', ':', 'two', 'teen', 'couples', 'go', 'to', ...]

Mit der .words Funktion sehen wir alle Wörter in allen Reviews.

## Einfaches Beispiel

Jetzt erstellen wir unser Vokabular. Wichtig dabei zu wissen ist, dass der Naive Bayes Classifier in NLTK ein bestimmtes Input Format erwartet. Jedes Wort muss mit "True" abgespeichert werden. Dafür benutzen wir folgende Funktion:

> Funktion in Kommentaren... warum? 

In [21]:
#def create_word_features(words):
 #   useful_words = [word for word in words if word not in stopwords.words("english")]
  #  my_dict = dict([(word, True) for word in useful_words])
   # return my_dict

def create_word_features(words):
    useful_words = [word for word in words if word not in stopwords.words("english")]
    return dict([(word, True) for word in useful_words])

Die erste Zeile kennen wir bereits, hier entfernen wir alle StopWords. Dieser Schritt ist optional, dünnt aber unser Vokubalar sinnvoll aus. <br>
In der zweiten Zeile erstellen wir ein Dictionary und schreiben alle nützlichen Wörter in hinein, zusammen mit dem Zusatz "True". Jedes Wort kann dabei nur einmal vorkommen.<br>
Wichtig: Dies ist nur eine Funktion, unser Review Datensatz wird hier noch gar nicht eingebunden. <br>
Testen wir es mit einem einfachen Beispiel:

In [22]:
create_word_features(["I","was","swimming","yesterday","and", "I","was","riding","today"])

{'I': True, 'riding': True, 'swimming': True, 'today': True, 'yesterday': True}

Jedes Wort kommt nur einmal vor und besitzt ein "True". Außerdem wurden die StopWords ignoriert. Perfekt! <br>
Jetzt wenden wir das ganze auf unseren Review Datensatz an:

In [23]:
negativ=[]
for fileid in movie_reviews.fileids("neg"):
    words=movie_reviews.words(fileid)
negativ.append((create_word_features(words), "negative"))


Zuerst erstellen wir eine leere Liste namens "negativ". Danach gehen wir alle Reviews im "neg" Ordner durch und speichern die Wörter in der Variable "words". Jetzt wenden wir unsere Funktion auf "words" an und speichern das ganze in der Liste "negativ".

In [24]:
print(negativ[0])
print(len(negativ))

({'two': True, 'party': True, 'guys': True, 'bob': True, 'heads': True, 'haddaway': True, "'": True, 'dance': True, 'hit': True, '"': True, 'love': True, '?': True, 'getting': True, 'trouble': True, 'nightclub': True, '.': True, 'barely': True, 'enough': True, 'sustain': True, 'three': True, '-': True, 'minute': True, '_saturday_night_live_': True, 'skit': True, ',': True, '_snl_': True, 'producer': True, 'lorne': True, 'michaels': True, '_clueless_': True, 'creator': True, 'amy': True, 'heckerling': True, 'paramount': True, 'pictures': True, 'saw': True, 'something': True, 'late': True, 'night': True, 'television': True, 'institution': True, 'recurring': True, 'roxbury': True, 'sketch': True, 'would': True, 'presumably': True, 'make': True, 'good': True, 'feature': True, 'emphasis': True, 'word': True, '_a_night_at_the_roxbury_': True, 'takes': True, 'already': True, 'thin': True, 'concept': True, 'tediously': True, 'stretches': True, 'far': True, 'beyond': True, 'breaking': True, 'po

Jetzt haben wir alle Wörter in einer Liste gepeichert, die in negativen Reviews vorkommen. Machen wir dasselbe mit den positiven:

In [25]:
positiv=[]
for fileid in movie_reviews.fileids("neg"):
    words=movie_reviews.words(fileid)
positiv.append((create_word_features(words), "negative"))

Nun erstellen wir unsere Lern- und Testdaten. Um einen Bias zu vermeiden, müssen sowohl positive als auch negative Revies in beiden Datensätzen sein. Um dies zu gewährleisten, nehmen wir für die Lerndaten die letzten 750 beider Listen und für die Testdaten die ersten 750.

In [26]:
train_set = negativ[:750] + positiv[:750]
test_set =  negativ[750:] + positiv[750:]
print(len(train_set),  len(test_set))

2 0


## Fortgeschrittenes Beispiel

Kommen wir jetzt zu einem nächsten Beispiel mit einer etwas anderen Herangehensweise. Hier erstellen wir eine Liste mit allen Reviews, aus der wir später die Lern- und Testdaten erstellen können.

In [27]:
dokumente = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]
print(dokumente[1])
       

(['the', 'happy', 'bastard', "'", 's', 'quick', 'movie', 'review', 'damn', 'that', 'y2k', 'bug', '.', 'it', "'", 's', 'got', 'a', 'head', 'start', 'in', 'this', 'movie', 'starring', 'jamie', 'lee', 'curtis', 'and', 'another', 'baldwin', 'brother', '(', 'william', 'this', 'time', ')', 'in', 'a', 'story', 'regarding', 'a', 'crew', 'of', 'a', 'tugboat', 'that', 'comes', 'across', 'a', 'deserted', 'russian', 'tech', 'ship', 'that', 'has', 'a', 'strangeness', 'to', 'it', 'when', 'they', 'kick', 'the', 'power', 'back', 'on', '.', 'little', 'do', 'they', 'know', 'the', 'power', 'within', '.', '.', '.', 'going', 'for', 'the', 'gore', 'and', 'bringing', 'on', 'a', 'few', 'action', 'sequences', 'here', 'and', 'there', ',', 'virus', 'still', 'feels', 'very', 'empty', ',', 'like', 'a', 'movie', 'going', 'for', 'all', 'flash', 'and', 'no', 'substance', '.', 'we', 'don', "'", 't', 'know', 'why', 'the', 'crew', 'was', 'really', 'out', 'in', 'the', 'middle', 'of', 'nowhere', ',', 'we', 'don', "'", 't'

Wir haben zwei Kategorien (pos und neg). Außerdem besitzt jede Review eine sog. "fileID".<br>
Der obige Code macht nun folgendes: 
* Schau jede Kategorie durch
* Schau jede fileID in der jeweiligen Kategorie an <br>
* Füge die Tokens der jeweiligen fileID zusammen mit der der Kategorie in die Liste ein <br>
Hier wären die Wörter unsere Features mit der Wertung "negativ"

In [28]:
import random
random.shuffle(dokumente)

Jetzt randomisieren wir die Liste. Das machen wir, um später unseren Classifier mit diesen Daten testen können. Vor der Randomisierung sind alle negativen Reviews oben und alle positiven unten. Würden wir mit dieser Aufteilung testen, kann es sein, dass nur mit den negativen trainiert und gegen die positiven getestet werden würde, was einen riesigen Bias verursachen würde. Damit dies nicht passiert, mischen wir wild durch. Im obigen Beispiel erledigten wir das per Hand, hier benutzen wir zur Abwechselung den Randomizer.

Im Grunde müssen wir jetzt wieder jedes Wort in jeder Review in einen Topf werfen und schauen, welche Wörter eher in positiven und welche in negativen Reviews vorkommen. Dazu erstellen wir eine weiter Liste, diesmal nur mit allen Wörtern aller Reviews.

In [33]:
woerter = []
for w in movie_reviews.words():
   # if w.lower() not in stopwords.words("english"):
        woerter.append(w)
woerter[:10]    

['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party']

Jetzt sind alle Wörter jeglicher Reviews in der Liste "woerter" gespeichert. Schauen wir uns mal die 10 häufigsten an. Dazu benutzen wir die Frequency Distribution Methode von NLTK:

In [34]:
woerter = nltk.FreqDist(woerter)


#print(woerter.most_common(10))

Nach Entfernung der StopWords und unter nicht Berücksichtigung der Punktuation sehen wir, dass "film" das meist vorkommende Wort in den Reviews ist.

In [35]:
word_features = list(woerter.keys())[:3000]

Weil wir eine sehr große Anzahl an Wörtern haben, reicht es, wenn wir die 3000 häufigsten zu Testzwecken benutzen.

In [36]:
def find_features(dokumente):
    words = set(dokumente)
    features = {}
    for w in word_features:
        features[w] = (w in words)

    return features

featuresets = [(find_features(rev), category) for (rev, category) in dokumente]

Jetzt kommt wieder unsere Dokumentenliste ins Spiel. Die Funktion sucht in der Dokumentenliste nach den Top 3000 Wörtern und schaut, ob diese positiv oder negativ sind.

Als nächstes benutzen wir den Naiven Bayes classifier. Zuerst müssen wir jedoch die Lern- und Testdaten festlegen. Da wir unsere Dokumente weiter oben schon gemischt haben, können wir einfach die ersten 1900 für die Lerndaten und die letzten 1900 als Testdaten festlegen:

In [37]:
training_set = featuresets[:1900]
testing_set = featuresets[1900:]

Jetzt müssen wir wieder den Classifier trainieren:

In [38]:
classifier = nltk.NaiveBayesClassifier.train(training_set)


Nun der Test:

In [39]:
print("Classifier Genauigkeit:",(nltk.classify.accuracy(classifier, testing_set))*100)


Classifier Genauigkeit: 81.0


Unser Modell hat eine Trefferchance von 79%, was nicht übel ist. Dies entspricht in etwa einer menschlischen Trefferquote bei Sentimentanalysen. 

> Bei deiner Ausgabe steht aber 81 ;) ich denke mal das ist jedesmal unterschiedlich oder? 

Angenommen, wir sind zufrieden mit unserem Ergebnis und wollen weitere Daten mit unserem Classifier vorhersagen. Da es unpraktisch ist, ihn immer wieder neu zu trainieren, können wir ihn mit dem "pickle module" speichern.

In [40]:
import pickle
save_classifier = open("naivebayes.pickle","wb")
pickle.dump(classifier, save_classifier)
save_classifier.close

<function BufferedWriter.close>

Zuerst importieren wir pickle. Danach öffnen wir ein pickle-file, das darauf wartet, beschrieben zu werden. Das "wb" bedeutet, dass die Eingabe in Bytes erfolgt. Um das File zu beschreiben, nehmen wir die dump-Methode. Hier wollen wir  unseren Classifier (1. Parameter) in unser pickle-file "save_classifier" (2. Parameter) speichern. Danach schließen wir das File.

In [44]:
classifier_f = open("naivebayes.pickle", "rb")
classifier = pickle.load(classifier_f)
classifier_f.close()
print("Classifier Genauigkeit:",(nltk.classify.accuracy(classifier, testing_set))*100)

Classifier Genauigkeit: 81.0


Jetzt öffnen wir zuerst das File. Danach laden wir das File mit pickle.load in unsere "classifier"- Variable. Am Ende wieder das File schließen und schon können wir mit unserem gespeicherten Classifier arbeiten.

Sollten wir mit unserem Naiven-Bayes-Klassifikator nicht zufrieden sein, können wir noch andere Klassifikatoren ausprobieren. Dazu können wir zum Beispiel das schon bekannte Scikit-learn Modul benutzen. Darauf können wir direkt mit NLTK über eine API zugreifen.

In [46]:
from nltk.classify.scikitlearn import SklearnClassifier

Jetzt haben wir Zugriff auf alle sklearn-Klassifikatoren, z.B. die Multinomiale und die Bernoulli-Variation des Naiven Bayes Klassifikators:

In [47]:
from sklearn.naive_bayes import MultinomialNB,BernoulliNB

Diese können wir direkt mit unseren Lerndaten trainieren und dann mit den Testdaten ausprobieren:

In [56]:
MNB_classifier = SklearnClassifier(MultinomialNB())
MNB_classifier.train(training_set)
print("Genauigkeit MNB:",nltk.classify.accuracy(MNB_classifier, testing_set))

BernoulliNB_classifier = SklearnClassifier(BernoulliNB())
BernoulliNB_classifier.train(training_set)
print("BernoulliNB_classifier accuracy percent:", (nltk.classify.accuracy(BernoulliNB_classifier, testing_set))*100)

Genauigkeit MNB: 0.83
BernoulliNB_classifier accuracy percent: 81.0


Nicht schlecht, ungefähr auf dem selben Niveau unseres alten Klassifikators. Probieren wir noch ein paar andere Klassifikatoren aus:

In [49]:
from sklearn.linear_model import LogisticRegression,SGDClassifier
from sklearn.svm import SVC, LinearSVC, NuSVC

In [51]:
LogisticRegression_classifier = SklearnClassifier(LogisticRegression())
LogisticRegression_classifier.train(training_set)
print("Genauigkeit LogisticRegression_classifier:", (nltk.classify.accuracy(LogisticRegression_classifier, testing_set))*100)

SGDClassifier_classifier = SklearnClassifier(SGDClassifier())
SGDClassifier_classifier.train(training_set)
print("Genauigkeit SGDClassifier_classifier:", (nltk.classify.accuracy(SGDClassifier_classifier, testing_set))*100)

SVC_classifier = SklearnClassifier(SVC())
SVC_classifier.train(training_set)
print("Genauigkeit SVC_classifier", (nltk.classify.accuracy(SVC_classifier, testing_set))*100)

LinearSVC_classifier = SklearnClassifier(LinearSVC())
LinearSVC_classifier.train(training_set)
print("Genauigkeit LinearSVC_classifier:", (nltk.classify.accuracy(LinearSVC_classifier, testing_set))*100)

Genauigkeit LogisticRegression_classifier: 79.0




Genauigkeit SGDClassifier_classifier: 81.0
GenauigkeitSVC_classifier 77.0
GenauigkeitLinearSVC_classifier: 74.0


> Warum Error?

Etwas schlechter als die alten, aber immer noch akzeptabel. Jetzt haben wir soviele gute Klassifikatoren, dass wir uns gar nicht entscheiden können. Darum können wir sie alle kombinieren und lassen sie auf die vorhergesagte Kategorie voten. Jeder Klassifikator hat dann für jeden Review genau einen Vote und welche Kategorie am meisten gewählt wird, wird genommen. Das funktioniert mit diesem Code:

In [61]:
import nltk
import random
from nltk.corpus import movie_reviews
from nltk.classify.scikitlearn import SklearnClassifier
import pickle

from sklearn.naive_bayes import MultinomialNB, BernoulliNB
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.svm import SVC, LinearSVC, NuSVC

from nltk.classify import ClassifierI
from statistics import mode


class VoteClassifier(ClassifierI):
    def __init__(self, *classifiers):
        self._classifiers = classifiers

    def classify(self, features):
        votes = []
        for c in self._classifiers:
            v = c.classify(features)
            votes.append(v)
        return mode(votes)

    def confidence(self, features):
        votes = []
        for c in self._classifiers:
            v = c.classify(features)
            votes.append(v)

        choice_votes = votes.count(mode(votes))
        conf = choice_votes / len(votes)
        return conf

documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

random.shuffle(documents)

all_words = []

for w in movie_reviews.words():
    all_words.append(w.lower())

all_words = nltk.FreqDist(all_words)

word_features = list(all_words.keys())[:3000]

def find_features(document):
    words = set(document)
    features = {}
    for w in word_features:
        features[w] = (w in words)

    return features

#print((find_features(movie_reviews.words('neg/cv000_29416.txt'))))

featuresets = [(find_features(rev), category) for (rev, category) in documents]
        
training_set = featuresets[:1900]
testing_set =  featuresets[1900:]

#classifier = nltk.NaiveBayesClassifier.train(training_set)

classifier_f = open("naivebayes.pickle","rb")
classifier = pickle.load(classifier_f)
classifier_f.close()




print("Original Naive Bayes Algo accuracy percent:", (nltk.classify.accuracy(classifier, testing_set))*100)
classifier.show_most_informative_features(15)

MNB_classifier = SklearnClassifier(MultinomialNB())
MNB_classifier.train(training_set)
print("MNB_classifier accuracy percent:", (nltk.classify.accuracy(MNB_classifier, testing_set))*100)

BernoulliNB_classifier = SklearnClassifier(BernoulliNB())
BernoulliNB_classifier.train(training_set)
print("BernoulliNB_classifier accuracy percent:", (nltk.classify.accuracy(BernoulliNB_classifier, testing_set))*100)

LogisticRegression_classifier = SklearnClassifier(LogisticRegression())
LogisticRegression_classifier.train(training_set)
print("LogisticRegression_classifier accuracy percent:", (nltk.classify.accuracy(LogisticRegression_classifier, testing_set))*100)

SGDClassifier_classifier = SklearnClassifier(SGDClassifier())
SGDClassifier_classifier.train(training_set)
print("SGDClassifier_classifier accuracy percent:", (nltk.classify.accuracy(SGDClassifier_classifier, testing_set))*100)

##SVC_classifier = SklearnClassifier(SVC())
##SVC_classifier.train(training_set)
##print("SVC_classifier accuracy percent:", (nltk.classify.accuracy(SVC_classifier, testing_set))*100)

LinearSVC_classifier = SklearnClassifier(LinearSVC())
LinearSVC_classifier.train(training_set)
print("LinearSVC_classifier accuracy percent:", (nltk.classify.accuracy(LinearSVC_classifier, testing_set))*100)

NuSVC_classifier = SklearnClassifier(NuSVC())
NuSVC_classifier.train(training_set)
print("NuSVC_classifier accuracy percent:", (nltk.classify.accuracy(NuSVC_classifier, testing_set))*100)


voted_classifier = VoteClassifier(classifier,
                                  NuSVC_classifier,
                                  LinearSVC_classifier,
                                  SGDClassifier_classifier,
                                  MNB_classifier,
                                  BernoulliNB_classifier,
                                  LogisticRegression_classifier)

print("voted_classifier accuracy percent:", (nltk.classify.accuracy(voted_classifier, testing_set))*100)



Original Naive Bayes Algo accuracy percent: 94.0
Most Informative Features
                   sucks = True              neg : pos    =     10.7 : 1.0
           unimaginative = True              neg : pos    =      8.4 : 1.0
                 frances = True              pos : neg    =      8.2 : 1.0
             silverstone = True              neg : pos    =      7.7 : 1.0
                  shoddy = True              neg : pos    =      7.1 : 1.0
                 idiotic = True              neg : pos    =      7.1 : 1.0
              schumacher = True              neg : pos    =      7.1 : 1.0
                  regard = True              pos : neg    =      6.9 : 1.0
               atrocious = True              neg : pos    =      6.7 : 1.0
                  turkey = True              neg : pos    =      6.4 : 1.0
                obstacle = True              pos : neg    =      6.3 : 1.0
                 singers = True              pos : neg    =      6.3 : 1.0
                 cunning 



SGDClassifier_classifier accuracy percent: 86.0
LinearSVC_classifier accuracy percent: 89.0
NuSVC_classifier accuracy percent: 89.0
voted_classifier accuracy percent: 93.0


> wieder errormeldung