# Data Mining Versuch Document Classification
* Autor: Prof. Dr. Johannes Maucher
* Datum: 06.11.2015

[Übersicht Ipython Notebooks im Data Mining Praktikum](Data Mining Praktikum.ipynb)

# Einführung
## Lernziele:
In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Dokumentklassifikation: Klassifikation von Dokumenten, insbesondere Emails und RSS Feed
* Naive Bayes Classifier: Weit verbreitete Klassifikationsmethode, welche unter bestimmten Randbedingungen sehr gut skaliert.


## Theorie zur Vorbereitung
### Parametrische Klassifikation und Naive Bayes Methode
Klassifikatoren müssen zu einer gegebenen Eingabe $\underline{x}$ die zugehörige Klasse $C_i$ bestimmen. Mithilfe der Wahrscheinlichkeitstheorie kann diese Aufgabe wie folgt beschrieben werden: Bestimme für alle möglichen Klassen $C_i$ die bedingte Wahrscheinlichkeit $P(C_i | \underline{x})$, also die Wahrscheinlichkeit, dass die gegebene Eingabe $\underline{x}$ in Klasse $C_i$ fällt. Wähle dann die Klasse aus, für welche diese Wahrscheinlichkeit maximal ist.

Die Entscheidungsregeln von Klassifikatoren können mit Methoden des ""überwachten Lernens"" aus Trainingsdaten ermittelt werden. Im Fall des **parametrischen Lernens** kann aus den Trainingsdaten die sogenannte **Likelihood-Funktion** $p(\underline{x} \mid C_i)$ bestimmt werden. _Anmerkung:_ Allgemein werden mit $p(...)$ kontinuierliche Wahrscheinlichkeitsfunktionen und mit $P(...)$ diskrete Wahrscheinlichkeitswerte bezeichnet. 

Mithilfe der **Bayes-Formel**
$$
P(C_i \mid \underline{x}) = \frac{p(\underline{x} \mid C_i) \cdot P(C_i)}{p(\underline{x})}
$$

kann aus der Likelihood die **a-posteriori-Wahrscheinlichkeit $P(C_i \mid \underline{x})$** berechnet werden. Darin wird $P(C_i)$ die **a-priori-Wahrscheinlichkeit** und $p(\underline{x})$ die **Evidenz** genannt. Die a-priori-Wahrscheinlichkeit kann ebenfalls aus den Trainingsdaten ermittelt werden. Die Evidenz ist für die Klassifikationsentscheidung nicht relevant, da sie für alle Klassen $C_i$ gleich groß ist.

Die Berechnung der Likelihood-Funktion $p(\underline{x} \mid C_i)$ ist dann sehr aufwendig, wenn $\underline{x}=(x_1,x_2,\ldots,x_Z)$ ein Vektor von voneinander abhängigen Variablen $x_i$ ist. Bei der **Naive Bayes Classification** wird jedoch von der vereinfachenden Annahme ausgegangen, dass die Eingabevariabeln $x_i$ voneinander unabhängig sind. Dann vereinfacht sich die bedingte Verbundwahrscheinlichkeits-Funktion $p(x_1,x_2,\ldots,x_Z \mid C_i)$ zu:

$$
p(x_1,x_2,\ldots,x_Z \mid C_i)=\prod\limits_{j=1}^Z p(x_j | C_i)
$$

### Anwendung der Naive Bayes Methode in der Dokumentklassifikation
Auf der rechten Seite der vorigen Gleichung stehen nur noch von den jeweils anderen Variablen unabhängige bedingte Wahrscheinlichkeiten. Im Fall der Dokumentklassifikation sind die einzelnen Worte die Variablen, d.h. ein Ausdruck der Form $P(x_j | C_i)$ gibt an mit welcher Wahrscheinlichkeit ein Wort $x_j=w$ in einem Dokument der Klasse $C_i$ vorkommt. 
Die Menge aller Variablen $\left\{x_1,x_2,\ldots,x_Z \right\}$ ist dann die Menge aller Wörter im Dokument. Damit gibt die linke Seite in der oben gegebenen Gleichung die _Wahrscheinlichkeit, dass die Wörter $\left\{x_1,x_2,\ldots,x_Z \right\}$ in einem Dokument der Klasse $C_i$ vorkommen_ an.

Für jedes Wort _w_ wird aus den Trainingsdaten die Wahrscheinlichkeit $P(w|G)$, mit der das Wort in Dokumenten der Kategorie _Good_ und die Wahrscheinlichkeit $P(w|B)$ mit der das Wort in Dokumenten der Kategorie _Bad_ auftaucht ermittelt. Trainingsdokumente werden in der Form

$$
tD=(String,Category)
$$
eingegeben. 

Wenn 

* mit der Variable $fc(w,cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ in denen das Wort $w$ enthalten ist
* mit der Variable $cc(cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ 

gezählt wird, dann ist 

$$
P(w|G)=\frac{fc(w,G)}{cc(G)} \quad \quad P(w|B)=\frac{fc(w,B)}{cc(B)}.
$$

Wird nun nach der Eingabe von $L$ Trainingsdokumenten ein neu zu klassifizierendes Dokument $D$ eingegeben und sei $W(D)$ die Menge aller Wörter in $D$, dann berechnen sich unter der Annahme, dass die Worte in $W(D)$ voneinander unabhängig sind (naive Bayes Annahme) die a-posteriori Wahrscheinlichkeiten zu:

$$
P(G|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | G) \right) \cdot P(G)}{p(D)}
$$
und
$$
P(B|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | B) \right) \cdot P(B)}{p(D)}.
$$

Die hierfür notwendigen a-priori-Wahrscheinlichkeiten berechnen sich zu 

$$
P(G)=\frac{cc(G)}{L}
$$
und
$$
P(B)=\frac{cc(B)}{L}
$$

Die Evidenz $p(D)$ beeinflusst die Entscheidung nicht und kann deshalb ignoriert werden.


## Vor dem Versuch zu klärende Fragen


1. Wie wird ein Naive Bayes Classifier trainiert? Was muss beim Training für die spätere Klassifikation abgespeichert werden?
2. Wie teilt ein Naiver Bayes Classifier ein neues Dokument ein?
3. Welche naive Annahme liegt dem Bayes Classifier zugrunde? Ist diese Annahme im Fall der Dokumentklassifikation tatsächlich gegeben?
4. Betrachten Sie die Formeln für die Berechnung von $P(G|D)$ und $P(B|D)$. Welches Problem stellt sich ein, wenn in der Menge $W(D)$ ein Wort vorkommt, das nicht in den Trainingsdaten der Kategorie $G$ vorkommt und ein anderes Wort aus $W(D)$ nicht in den Trainingsdaten der Kategorie $B$ enthalten ist? Wie könnte dieses Problem gelöst werden? 



#### Aufgabe 1
Der Naive Bayes Classifier bekommt ein Trainingsset mit gelabelten Dokumenten. Aus allen Wörtern der Dokumente wird ein Vokabular gebildet. Anschließend lernt der Classifier, wie oft jedes Wort des Vokabulars in Dokumenten jeder Klasse vorkommt. Für die spätere Klassifikation muss für jedes Wort abgespeichert werden, mit welcher Wahrscheinlichkeit es in Dokumenten jeder Klasse vorkommt. Wenn also im Trainingsset 300 Worte und Dokumente aus 2 Klassen vorkommen, müssen 600 Werte gespeichert werden.

#### Aufgabe 2
Für ein neues Dokument berechnet der Classifier, basierend auf den gespeicherten Werten, die Wahrscheinlichkeiten für die Zugehörigkeit zu jeder Klasse. Gibt es zwei Klassen *gut* und *schlecht*, werden also die Wahrscheinlichkeit berechnet, dass das Dokument zur Klasse *gut* gehört und die Wahrscheinlichkeit, dass das Dokument zur Klasse *schlecht* gehört. Für die Klasse, deren Wahrscheinlichkeit höher ist, erfolgt die Ausgabe.

#### Aufgabe 3
Dem naiven Bayes Classifier liegt die Annahme zugrunde, dass alle Eingabevariablen voneinander unabhngig sind. Im Fall der Dokumentklassifikation würde das bedeuten, dass alle Wörter eines Dokuments voneinander unabhängig sind. Das ist aber eigentlich nicht gegeben, denn es gibt durchaus Wörter, die nach bestimmten Wörtern nicht vorkommen können, teilweise auch durch die Grammatik bedingt.

#### Aufgabe 4
Kommt im zu klassifiziernden Dokument jeweils ein Wort vor, das nicht in den Trainingsdaten der Kategorie G und B enthalten war, wird das gesamte Produkt bei der Berechnung von $P(G|D)$ und $P(B|D)$ null. Somit ergibt die Wahrscheinlichkeit des Dokuments für beide Klassen null. Es kann keine Klassifikation erfolgen.
Dieses Problem lässt sich vermeiden, wenn man Smoothing anwendet. Dabei verändern sich die Formeln zur Berechnung von $P(G|D)$ und $P(B|D)$. Man ersetzt $P(w|G)$, beziehungsweise $P(w|B)$ durch:
> $P(x_{j}|C_{i})=\frac{w*P_{ass, i}+|x_{j}|*P(x_{j}|C_{i})}{w+|x_{j}|}$ mit x = Wort, C = Kategorie<br>
$\boldsymbol{P_{ass, i}}$ ist die angenommene Wahrscheinlichkeit für die Zugehörigkeit
eines Worts zu einer Kategorie $C_{i}$ , unabhängig von tatsächlicher Auftrittshäufigkeit. Default: $P_{ass,i} = 1/K$ (K ist die Anzahl der Klassen)<br>
$\boldsymbol{w}$ ist ein Gewicht, über welches der Einfluss der angenommenen Wahrscheinlichkeit in die gesamte Wahrscheinlichkeit eingestellt werden kann. Default: $w = 1$<br>
$\boldsymbol{|x_{j}|}$ ist die Anzahl der Dokumente, in denen Wort $x_{j}$ vorkommt (unabhängig von der Kategorie).

# Durchführung
## Feature Extraction/ -Selection

**Aufgabe:**
Implementieren Sie eine Funktion _getwords(doc)_, der ein beliebiges Dokument in Form einer String-Variablen übergeben wird. In der Funktion soll der String in seine Wörter zerlegt und jedes Wort in _lowercase_ transformiert werden. Wörter, die weniger als eine untere Grenze von Zeichen (z.B. 3) oder mehr als eine obere Grenze von Zeichen (z.B. 20) enthalten, sollen ignoriert werden. Die Funktion soll ein dictionary zurückgeben, dessen _Keys_ die Wörter sind. Die _Values_ sollen für jedes Wort zunächst auf $1$ gesetzt werden.

**Tipp:** Benutzen Sie für die Zerlegung des Strings und für die Darstellung aller Wörter mit ausschließlich kleinen Buchstaben die Funktionen _split(), strip('sep')_ und _lower()_ der Klasse _String_.  


Alle Imports, die für diesen Versuch benötigt werden, sind hier zusammengefasst.

In [21]:
from collections import Counter
from sklearn.metrics import confusion_matrix, accuracy_score, precision_recall_fscore_support
from IPython.display import display
from nltk.corpus import stopwords
from nltk.stem.snowball import GermanStemmer
import feedparser
import math
import numpy as np
import pandas as pd
from gensim import corpora, models

Die Funktion ***getWordsCounted*** erstellt für das übergebene Dokument ein Dictionary, in dem jedes Wort ein Key und die Häufigkeit des Wortes im Dokument als Value gespeichert wird. Alle Wörter werden in Kleinbuchstaben transformiert (*lowercase*), Satzzeichen entfernt (*strip*) und Wörter aussortiert, die weniger als 3 oder mehr als 20 Buchstaben haben.

In [22]:
def getWordsCounted(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('().,:;!?-"') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20]
    wordDict = dict(Counter(words))
    return wordDict

Die Funktion ***getWordList*** erstellt für das übergebene Dokument eine Liste, die alle Wörter des Dokuments enthält. Die Liste kann Wörter mehrfach enthalten, wenn diese mehrfach im Dokument vorkommen. Alle Wörter werden in Kleinbuchstaben transformiert (*lowercase*), Satzzeichen entfernt (*strip*) und Wörter aussortiert, die weniger als 3 oder mehr als 20 Buchstaben haben.

In [23]:
def getWordList(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('().,:;!?-"') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20]
    return words

Die Funktion ***getWordSet*** erstellt für das übergebene Dokument ein Set aus der Wortliste, die von der Funktion ***getWordList*** zurückgegeben wird. Im Set kommt jedes Wort dann nur noch einmal vor.

In [24]:
def getWordSet(doc):
    return set(getWordList(doc))

## Classifier

**Aufgabe:**
Implementieren Sie den Naive Bayes Classifier für die Dokumentklassifikation. Es bietet sich an die Funktionalität des Klassifikators und das vom Klassifikator gelernte Wissen in einer Instanz einer Klasse _Classifier_ zu kapseln. In diesem Fall kann wie folgt vorgegangen werden:

* Im Konstruktor der Klasse wird je ein Dictionary für die Instanzvariablen _fc_ und _cc_ (siehe oben) initialisiert. Dabei ist _fc_ ein verschachteltes Dictionary. Seine Keys sind die bisher gelernten Worte, die Values sind wiederum Dictionaries, deren Keys die Kategorien _Good_ und _Bad_ sind und deren Values zählen wie häufig das Wort bisher in Dokumenten der jeweiligen Kategorie auftrat. Das Dictionary _cc_ hat als Keys die Kategorien _Good_ und _Bad_. Die Values zählen wie häufig Dokumente der jeweiligen Kategorien bisher auftraten.
* Im Konstruktor wird ferner der Instanzvariablen _getfeatures_ die Funktion _getwords()_ übergeben. Die Funktion _getwords()_ wurde bereits zuvor ausserhalb der Klasse definiert. Sinn dieses Vorgehens ist, dass andere Varianten um Merkmale aus Dokumenten zu extrahieren denkbar sind. Diese Varianten könnten dann ähnlich wie die _getwords()_-Funktion ausserhalb der Klasse definiert und beim Anlegen eines _Classifier_-Objekts der Instanzvariablen _getfeatures_ übergeben werden.  
* Der Methode _incf(self,f,cat)_ wird ein Wort _f_ und die zugehörige Kategorie _cat_ des Dokuments in welchem es auftrat übergeben. In der Methode wird der _fc_-Zähler angepasst.
* Der Methode _incc(self,cat)_ wird die Kategorie _cat_ des gerade eingelesenen Dokuments übergeben. In der Methode wird der _cc_-Zähler angepasst.
* Die Methode _fcount(self,f,cat)_ gibt die Häufigkeit des Worts _f_ in den Dokumenten der Kategorie _cat_ zurück.
* Die Methode _catcount(self,cat)_ gibt die Anzahl der Dokumente in der Kategorie _cat_ zurück.
* Die Methode _totalcount(self)_ gibt die Anzahl aller Dokumente zurück.
* Der Methode _train(self,item,cat)_ wird ein neues Trainingselement, bestehend aus der Betreffzeile (_item_) und der entsprechenden Kategorisierung (_cat_) übergeben. Der String _item_ wird mit der Instanzmethode _getfeatures_ (Diese referenziert _getwords()_) in Worte zerlegt. Für jedes einzelne Wort wird dann _incf(self,f,cat)_ aufgerufen. Ausserdem wird für das neue Trainingsdokument die Methode _incc(self,cat)_ aufgerufen.
* Die Methode _fprob(self,f,cat)_ berechnet die bedingte Wahrscheinlichkeit $P(f | cat)$ des Wortes _f_ in der Kategorie _cat_ entsprechend der oben angegebenen Formeln, indem sie den aktuellen Stand des Zählers _fc(f,cat)_ durch den aktuellen Stand des Zählers _cc(cat)_ teilt.   
* Die Methode _fprob(self,f,cat)_ liefert evtl. ungewollt extreme Ergebnisse, wenn noch wenig Wörter im Klassifizierer verbucht sind. Kommt z.B. ein Wort erst einmal in den Trainingsdaten vor, so wird seine Auftrittswahrscheinlichkeit in der Kategorie in welcher es nicht vorkommt gleich 0 sein. Um extreme Wahrscheinlichkeitswerte im Fall noch selten vorkommender Werte zu vermeiden, soll zusätzlich zur Methode _fprob(self,f,cat)_ die Methode _weightedprob(self,f,cat)_ implementiert und angewandt werden. Der von ihr zurückgegebene Wahrscheinlichkeitswert könnte z.B. wie folgt berechnet werden:$$wprob=\frac{initprob+count \cdot fprob(self,f,cat)}{1+count},$$ wobei $initprob$ ein initialer Wahrscheinlichkeitswert (z.B. 0.5) ist, welcher zurückgegeben werden soll, wenn das Wort noch nicht in den Trainingsdaten aufgetaucht ist. Die Variable $count$ zählt wie oft das Wort $f$ bisher in den Trainingsdaten auftrat. Wie zu erkennen ist, nimmt der Einfluss der initialen Wahrscheinlichkeit ab, je häufiger das Wort in den Trainingsdaten auftrat.
* Nach dem Training soll ein beliebiges neues Dokument (Text-String) eingegeben werden können. Für dieses soll mit der Methode _prob(self,item,cat)_ die a-posteriori-Wahrscheinlichkeit $P(cat|item)$ (Aufgrund der Vernachlässigung der Evidenz handelt es sich hierbei genaugenommen um das Produkt aus a-posteriori-Wahrscheinlichkeit und Evidenz), mit der das Dokument _item_ in die Kategorie _cat_ fällt berechnet werden. Innerhalb der Methode _prob(self,item,cat)_ soll zunächst die Methode _weightedprob(self,f,cat)_ für alle Wörter $f$ im Dokument _item_ aufgerufen werden. Die jeweiligen Rückgabewerte von _weightedprob(self,f,cat)_ werden multipliziert. Das Produkt der Rückgabewerte von _weightedprob(self,f,cat)_ über alle Wörter $f$ im Dokument muss schließlich noch mit der a-priori Wahrscheinlichkeit $P(G)$ bzw. $P(B)$ entsprechend der oben aufgeführten Formeln multipliziert werden. Das Resultat des Produkts wird an das aufrufende Programm zurück gegeben, die Evidenz wird also vernachlässigt (wie oben begründet).



Ein Dokument _item_ wird schließlich der Kategorie _cat_ zugeteilt, für welche die Funktion _prob(self,item,cat)_ den höheren Wert zurück gibt. Da die Rückgabewerte in der Regel sehr klein sind, werden in der Regel folgende Werte angezeigt. Wenn mit $g$ der Rückgabewert von _prob(self,item,cat=G)_ und mit $b$ der Rückgabewert von _prob(self,item,cat=B)_ bezeichnet wird dann ist die Wahrscheinlichkeit, dass $item$ in die Kategorie $G$ fällt, gleich:
$$
\frac{g}{g+b}
$$
und die Wahrscheinlichkeit, dass $item$ in die Kategorie $B$ fällt, gleich:
$$
\frac{b}{g+b}
$$

#### Codebeschreibung
Die Funktionen ***incf***, ***incc***, ***fcount***, ***catcount***, ***totalcount*** und ***fprob*** sind wie oben beschrieben implementiert. Im Folgenden werden die Abweichung der Implementierung zur obigen Beschreibung der anderen Funktionen beschrieben.
###### Konstruktor __init__
Der Konstruktor enthält drei notwendige und einen optionalen Übergabeparameter:
>- ***getfeatures*** ist die Funktion, die angewendet wird, um Merkmale aus den Dokumenten zu extrahieren. Mögliche Funktionen sind die bereits implementierten Funktionen ***getWordList*** (Worthäufigkeiten & tf-idf) oder ***getWordSet*** (Wortauftreten binär).
- ***cat1*** ist der Name der ersten Klasse, z.B. *'good'* oder *'tech'*.
- ***cat2*** ist der Name der zweiten Klasse, z.B. *'bad'* oder *'nonTech'*.
- das optionale Flag ***useTfIdf***, das standardmäßig *False* ist. Falls gewünscht, können mit diesem Flag die Nutzung von tf-idf Werten zur Klassifikationsentscheidung aktiviert werden.

Im Konstruktor werden dann bis zu zehn Instanzvariablen initialisiert. Diese werden nun im Einzelnen beschrieben:
>- ***fc*** und ***cc*** sind zwei Dictionarys, die wie oben beschrieben implementiert sind. Dabei ist ***fc*** zunächst leer und wird im Training nach und nach gefüllt. Im Dictionary ***cc*** werden die beiden Klassennamen ***cat1*** und ***cat2*** als Keys gesetzt und mit 0 als Values belegt.
- In ***cat1*** und ***cat2*** werden die übergebenen Klassennamen abgespeichert.
- ***getfeatures*** wird die Funktion übergeben, die zur Extraktion der Merkmale aus dem Dokument verwendet werden soll. Ist das Flag ***useTfIdf*** gesetzt, wird zwingend die Funktion ***getWordList*** übergeben.
- ***tfidf*** speichert ab, ob das Flag zur Nutztung der tf-idf-Werte gesetzt ist.<br><br>
Falls das Flag ***useTfIdf*** gesetzt ist, werden die folgenden Instanzvariablen zusätzlich initialisiert:<br><br>
- ***docListcat1***  und ***docListcat2*** sind Listen, die während des Trainings gefüllt werden. Sie werden für jedes Dokument mit der Wortliste, die von der Funktion getWordList zurückgegeben wird, gefüllt. Welche der beiden Listen gefüllt wird, ist abhängig von der Kategorie des Trainingselements.
- ***dictionary*** ist ein *gensim.corpora* Dictionary, das zu Beginn leer initialisiert wird. Kommt es zur Klassifizierung eines Dokuments, wird das Dictionary mit allen Worten der Trainingsdokumente erstellt.
- ***bowMatrix*** ist ein Pandas Dataframe, das erstellt wird, sobald die Funktion zur Klassifikation eines Dokuments aufgerufen wird.
- ***getfeatures*** wird, wie oben bereits beschrieben, zwingend die Funktion ***getWordList*** übergeben.

##### Funktion train
Zunächst wird die Funktion ***incc*** aufgerufen, um die Kategorie des aktuellen Trainingsdokuments im cc-Zähler zu registrieren. Anschließend wird das Flag ***tfidf*** geprüft und es kann zu unterschiedlichem Verhalten kommen.<br>
Ist das Flag nicht gesetzt:
>- Erstellen der Wordlist/ des WordSets mithilfe der in ***getfeatures*** festgelegten Funktion.
- Für jedes Wort dieser Liste wird die Funktion ***infc*** aufgerufen, in der der fc Zähler für das gegebene Wort und die gegebene Kategorie erhöht wird. 

Ist das Flag gesetzt:
>- Für das aktuell übergebene Trainingsdokument ***item*** wird die Funktion ***geffeatures*** aufgerufen und das Ergebnis - das Dokument repräsentiert als Liste aus Wörtern - je nach Klassenzugehörigkeit, in die zugehörige ***docList*** gespeichert.

##### Funktion weightedprob
Ziel ist es, für ein übergebenes Wort *f* und die übergebene Kategorie *cat* die Werte *count* und *fprob* für die Formel zur Berechnung der gewichteten, bedingten Wahrscheinlichkeit des Wortes *f* in der Kategorie *cat*, zu bestimmen.<br>
Nach dem Setzen der ***initprob*** auf $0.5$, wie oben festgelegt, kann es zunächst wieder zu zwei unterschiedlichen Verhaltensweisen kommen, je nachdem wie das *tfidf*-Flag gesetzt ist.<br>
Ist das Flag nicht gesetzt:
>- War das Wort *f* nicht in den Trainingsdaten enthalten, werden die Werte *count* und *fprob* auf 0 gesetzt.
- Ansonsten wird die Anzahl bestimmt, wie oft das Wort *f* insgesamt in den Trainingsdaten aufgetreten ist und in der Variable *count* übergeben. 
- Außerdem wird die bedingte Wahrscheinlichkeit für ein Auftreten des Wortes *f* in der Klasse *cat* in den Trainingsdaten durch Aufruf der Funktion ***fprob*** bestimmt und der Variable *fprob* übergeben.

Ist das Flag gesetzt:
>- Der Wert *count* wird bestimmt, indem gezählt wird, wie oft im BOW-Dataframe in der Spalte des Wortes *f* ein Wert > 0 steht.
- Der Wert *fprob* wird bestimmt, indem die tf-idf-Werte aller Dokumente der Kategorie *cat* aus der Spalte *f* summiert werden und durch die Anzahl der Dokumente der Kategorie *cat* im Trainingsset geteilt wird.

Anschließend werden die Werte *initprob*, *count* und *fprob* in die Formel eingesetzt und das Ergebnis zurückgegeben.

##### Funktion classify
Der Funktion ***classify*** wird ein Dokument übergeben, für das eine Klassifikationsentscheidung getroffen werden soll. Zunächst wird eine Liste *catList*, die die beiden Klassennamen enthält, und ein leeres Dictionary *resultDict* erstellt.<br>
Ist das *tfidf*-Flag gesetzt, folgt:
>- Bildung der BOW-Matrix mit tf-idf-werten durch Aufruf der Funktionen ***buildBowMatrix***. Diese Funktion gibt außerdem den doc2bow-Vektor des zu klassifizierenden Dokuments zurück.

Anschließend folgt in jedem Fall (die folgende Schritte werden durch eine Schleife nacheinander für beide Kategorien ausgeführt):
>- Berechnung des Produkts *probproduct* aus den Wahrscheinlichkeiten aller Wörter des Dokuments für die jeweilige Kategorie durch die Funktion ***prob***
- Berechnung der Wahrscheinlichkeit einer Kategorie *catprob*.
- Schreiben des Produkts der Werte *probproduct* und *catprob* als Keys, mit dem zugehörigen Klassenname als Value ins Dictionary *resultDict*.

Zurückgegeben wird am Ende das *resultDict*.

##### Funktion buildBowMatrix
Die Funktion ***buildBowMatrix*** erstellt aus den Listen der Trainingsdokumente ***docListcat1*** und ***docListcat2*** eine BOW-Matrix, die tf-idf-Werte enthält, repräsentiert durch ein Pandas Dataframe. Außerdem wird für eine übergebene Wortliste des zu klassifizierenden Dokuments ein doc2bow-Vektor zurück. Diese Funktion wird nur aufgerufen, wenn das *tfidf*-Flag gesetzt ist.
>- Zunächst wird mithilfe des Moduls *gensim.corpora* aus allen Trainingsdokumenten ein Dictionary erstellt.
- Anschließend werden drei Corpora ***techCorpus***, ***nonTechCorpus*** und ***completeCorpus*** erstellt, die die jeweiligen Trainingsdokumente doc2bow-repräsentiert enthaten.
- Die Sollausgabe jedes Dokuments wird in einer Liste ***catLabels*** gespeichert, um später der BOW-Matrix hinzugefügt werden zu können.
- Die Berechnung des idf wird mit dem Modul *gensim.models.TfidfModel* durchgeführt.
- Die Berechnung der tf-idf-Werte wird über eine Schleife für jedes Dokument vorgenommen und direkt dem Dataframe ***bowMatrix*** hinzugefügt.
- Stehen alle Dokumente in der ***bowMatrix***, wird in einer weiteren Spalte die Sollausgabe für jedes Dokument hinzugefügt.
- Zum Schluss wird noch die doc2bow-Repräsentation des zu klassifiziernden Dokuments mithilfe des gegebenen Dictionarys erstellt und zurückgegeben.

##### Funktion prob
Die Funktion ***prob*** berechnet für ein übergebenes Dokument *item* und die übergebene Kategorie *cat* das Produkt der bedingten Wahrscheinlichkeiten aller Wörter des Dokuments *item* in der Kategorie *cat*. Dafür wird die Wahrscheinlichkeit jedes Worts seperat mithilfe der Funktion ***weightedprob*** berechnet und in einer Liste gespeichert. Ist das *tfidf*-Flag gesetzt, ist der Übergabeparameter *item* eine Liste aus Tupeln und der Funktion ***weigthedprob*** wird das erste Element des Tupels übergeben, das ein Index eines Wortes im ***dictionary*** repräsentiert und als Spalte in der ***bowMatrix*** vorkommt. 
Stehen die Wahrscheinlichkeiten aller Worte in der Liste *itemprobs*, wird das Produkt aller Elemente gebildet und zurückgegeben.

In [25]:
class Classifier:
    def __init__(self, getfeatures, cat1, cat2, useTfIdf=False):
        self.fc = {}
        self.cat1 = cat1
        self.cat2 = cat2
        self.cc = {cat1: 0, cat2: 0}
        self.getfeatures = getfeatures
        self.tfidf = useTfIdf
        if useTfIdf:
            self.docListcat1 = []
            self.docListcat2 = []
            self.dictionary = corpora.Dictionary
            self.bowMatrix = pd.DataFrame
            self.getfeatures = getWordList

    def incf(self, f, cat):
        if f not in list(self.fc.keys()):
            self.fc[f] = {self.cat1: 0, self.cat2: 0}
        self.fc[f][cat] += 1

    def incc(self, cat):
        self.cc[cat] += 1

    def fcount(self, f, cat):
        return self.fc[f][cat]

    def catcount(self, cat):
        return self.cc[cat]

    def totalcount(self):
        return sum(self.cc.values())

    def train(self, item, cat):
        self.incc(cat)
        if self.tfidf == False:
            wordList = self.getfeatures(item)
            [self.incf(word, cat) for word in wordList]
        else:
            if cat == self.cat1:
                self.docListcat1.append(self.getfeatures(item))
            else:
                self.docListcat2.append(self.getfeatures(item))

    def fprob(self, f, cat):
        return self.fcount(f, cat) / self.catcount(cat)

    def weightedprob(self, f, cat):
        initprob = 0.5
        if self.tfidf:
            count = self.bowMatrix.loc[self.bowMatrix[f] > 0][f].size
            fprob = np.array(self.bowMatrix.loc[self.bowMatrix['label'] == cat][f]).sum() / self.catcount(cat)
        else:
            if f in self.fc.keys():
                values = list(self.fc[f].values())
                count = sum(values)
                fprob = self.fprob(f, cat)
            else:
                count = 0
                fprob = 0
        return (initprob + count * fprob) / (1 + count)

    def classify(self, item):
        catList = list(self.cc.keys())
        resultDict = {}
        if self.tfidf == True:
            item = self.buildBowMatrix(item)
        for cat in catList:
            probproduct = self.prob(item, cat)
            catprob = self.catcount(cat) / self.totalcount()
            resultDict[probproduct * catprob] = cat
        return resultDict

    def buildBowMatrix(self, item): 
        self.dictionary = corpora.Dictionary(self.docListcat1 + self.docListcat2)
        techCorpus = [self.dictionary.doc2bow(doc) for doc in self.docListcat1]
        nonTechCorpus = [self.dictionary.doc2bow(doc) for doc in self.docListcat2]
        completeCorpus = [self.dictionary.doc2bow(doc) for doc in self.docListcat1+self.docListcat2]
        catLabels = []
        [catLabels.append(self.cat1) for i in range(0, len(techCorpus))]
        [catLabels.append(self.cat2) for i in range(0, len(nonTechCorpus))]
        tfidf = models.TfidfModel(completeCorpus)
        bowMatrix = pd.DataFrame(columns=self.dictionary.token2id.values())
        for i in range(0, len(completeCorpus)):
            corpus_tfidf = tfidf[completeCorpus[i]]
            docWordList = []
            [docWordList.append([tup[0], [tup[1]]]) for tup in corpus_tfidf]
            docDF = pd.DataFrame.from_dict(dict(docWordList), orient='columns')
            bowMatrix = bowMatrix.append(docDF, ignore_index=True)
        bowMatrix = bowMatrix.fillna(0)
        self.bowMatrix = bowMatrix.assign(label=catLabels)
        itemVec = self.dictionary.doc2bow(self.getfeatures(item))
        return itemVec

    def prob(self, item, cat):
        itemprobs = []
        if self.tfidf == False:
            for word in self.getfeatures(item):
                itemprobs.append(self.weightedprob(word, cat))
        else:
            for tuple in item:
                prob = self.weightedprob(tuple[0], cat)
                for i in range(0, tuple[1]):
                    itemprobs.append(prob)
        probproduct = 1
        for probability in itemprobs:
            probproduct *= probability
        return probproduct

## Test

**Aufgabe:**
Instanzieren Sie ein Objekt der Klasse _Classifier_ und übergeben Sie der _train()_ Methode dieser Klasse mindestens 8 kategorisierte Dokumente (Betreffzeilen als Stringvariablen zusammen mit der Kategorie Good oder Bad). Definieren Sie dann ein beliebig neues Dokument und berechnen Sie für dieses die Kategorie, in welches es mit größter Wahrscheinlichkeit fällt. Benutzen Sie für den Test das in 
[NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf)
ausführlich beschriebene Beispiel zu implementieren. Berechnen Sie die Klassifikatorausgabe des Satzes _the money jumps_.

In [26]:
trainData = {'the quick rabbit jumps fences': 'good',
             'buy pharmaceuticals now': 'bad',
             'make quick money at the online casino': 'bad',
             'the quick brown fox jumps': 'good',
             'next meeting is at night': 'good',
             'meeting with your superstar': 'bad',
             'money like water': 'bad',
             'nobody owns the water': 'good'}
testData = "the money jumps"

In [27]:
classifier = Classifier(getWordList, 'good', 'bad')
classifier2 = Classifier(getWordSet, 'good', 'bad')
classifier3 = Classifier(getWordList, 'good', 'bad', useTfIdf=True)

for key, value in list(trainData.items()):
    classifier.train(key, value)
    classifier2.train(key, value)
    classifier3.train(key, value)

#### Klassifikation auf Basis der Worthäufigkeiten (getWordList)

In [28]:
print((classifier.classify(testData)))

{0.0: 'good'}


#### Klassifikation auf Basis von Wortauftreten (getWordSet)
Macht bei so geringen Datensätzen keinen Unterschied, da im Trainingsset in keinem 'Dokument' ein Wort mehrfach vorkam.

In [29]:
print((classifier2.classify(testData)))

{0.0: 'good'}


#### Klassifikation auf Basis der tf-idf-Werte

In [30]:
print((classifier3.classify(testData)))

{0.0: 'good'}


## Klassifikation von RSS Newsfeeds
Mit dem unten gegebenen Skript werden Nachrichten verschiedener Newsserver geladen und als String abgespeichert.

**Aufgaben:**
1. Trainieren Sie Ihren Naive Bayes Classifier mit allen Nachrichten der in den Listen _trainTech_ und _trainNonTech_ definierten Servern. Weisen Sie für das Training allen Nachrichten aus _trainTech_ die Kategorie _Tech_ und allen Nachrichten aus _trainNonTech_ die Kategorie _NonTech_ zu.
2. Nach dem Training sollen alle Nachrichten aus der Liste _test_ vom Naive Bayes Classifier automatisch klassifiziert werden. Gehen Sie davon aus, dass alle Nachrichten von [http://rss.golem.de/rss.php?r=sw&feed=RSS0.91](http://rss.golem.de/rss.php?r=sw&feed=RSS0.91) tatsächlich von der Kategorie _Tech_ sind und alle Nachrichten von den beiden anderen Servern in der Liste _test_ von der Kategorie _NonTech_ sind. Bestimmen Sie die _Konfusionsmatrix_ und die _Accuracy_ sowie für beide Klassen _Precision, Recall_ und _F1-Score_. Diese Qualitätsmetriken sind z.B. in [NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf) definiert.
3. Diskutieren Sie das Ergebnis
4. Wie könnte die Klassifikationsgüte durch Modifikation der _getwords()_-Methode verbessert werden? Implementieren Sie diesen Ansatz und vergleichen Sie das Ergebnis mit dem des ersten Ansatzes.

##### Anmerkung
Der Link zum RSS-Feed von ***chip.de*** (erster auskommentierter Link der trainTech-Liste) war veraltet und wir haben ihn durch den aktuellen Link ersetzt.

In [31]:
def stripHTML(h):
  p=''
  s=0
  for c in h:
    if c=='<': s=1
    elif c=='>':
      s=0
      p+=' '
    elif s==0:
      p+=c
  return p


trainTech=[# not working anymore, using instead one line below:'http://rss.chip.de/c/573/f/7439/index.rss',
            'http://www.chip.de/rss/rss_tests.xml',
           #'http://feeds.feedburner.com/netzwelt',
            'http://rss1.t-online.de/c/11/53/06/84/11530684.xml',
            'http://www.computerbild.de/rssfeed_2261.xml?node=13',
            'http://www.heise.de/newsticker/heise-top-atom.xml']

trainNonTech=['http://newsfeed.zeit.de/index',
              'http://newsfeed.zeit.de/wirtschaft/index',
              'http://www.welt.de/politik/?service=Rss',
              'http://www.spiegel.de/schlagzeilen/tops/index.rss',
              'http://www.sueddeutsche.de/app/service/rss/alles/rss.xml',
              'http://www.faz.net/rss/aktuell/'
              ]
test=["http://rss.golem.de/rss.php?r=sw&feed=RSS0.91",
          'http://newsfeed.zeit.de/politik/index',  
          'http://www.welt.de/?service=Rss'
           ]

countnews={}
countnews['tech']=0
countnews['nontech']=0
countnews['test']=0
print("--------------------News from trainTech------------------------")
for feed in trainTech:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
        print('\n---------------------------')
        fulltext=stripHTML(e.title+' '+e.description)
        print(fulltext)
        countnews['tech']+=1
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print("--------------------News from trainNonTech------------------------")
for feed in trainNonTech:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
        print('\n---------------------------')
        fulltext=stripHTML(e.title+' '+e.description)
        print(fulltext)
        countnews['nontech']+=1
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print("--------------------News from test------------------------")
for feed in test:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
        print('\n---------------------------')
        fulltext=stripHTML(e.title+' '+e.description)
        print(fulltext)
        countnews['test']+=1
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print('Number of used trainings samples in categorie tech',countnews['tech'])
print('Number of used trainings samples in categorie notech',countnews['nontech'])
print('Number of used test samples',countnews['test'])
print('--'*30)

--------------------News from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml

---------------------------
Ventilator kaufen: Darauf müssen Sie achten   Wer die schnelle Abkühlung sucht, kann mit Ventilatoren schnell und günstig cool bleiben - ohne dicke Stromrechnung. Doch welches Modell ist das richtige? Neben Stand- und Tischventilatoren gibt es auch Turm- und Bodenventilatoren. Wir testen 12 verschiedene Windmaschinen und sagen Ihnen, worauf Sie beim Kaufen und Aufstellen achten sollten.

---------------------------
Test: Huawei Mate RS Porsche Design im Test   Huawei liefert mit dem Mate RS "Porsche Design" ein erstklassiges Smartphone ab, das echte Highend-Leistung liefert - und das in jeder Hinsicht. Die Performance ist top, Kamera und Display ebenso. Allerdings ist das Mate RS technisch gesehen ein minimal aufgemotztes P20 Pro, optisch ein modifiziertes Galaxy S9 mit "Porsche Design"-Schriftzug. Der Fingerprintsensor

------


---------------------------
Tor im Ohr: Die besten DAB-Radios für die WM 2018 COMPUTER BILD hat die besten DAB-Radios für die WM 2018 getestet und verrät, wo alle Spiele laufen. So verpassen Sie kein Tor!

---------------------------
Handy-Deals: LTE-Flat mit 3 Gigabyte zum Knallerpreis Jede Woche hauen Provider günstige Angebote raus. Diesmal gibt es eine 3-Gigabyte-LTE-Flat zum Tiefpreis und Prepaid-Tarife mit 11 Gigabyte extra.

---------------------------
180 Euro sparen: Wechsel der Kfz-Versicherung lohnt immer Die Hochsaison für Kfz-Versicherungswechsel ist längst vorbei, doch auch jetzt noch lohnt sich die Suche nach einem neuen Anbieter.

---------------------------
Treatwell: Sparen Sie beim Friseur jetzt 20 Prozent Neuer Haarschnitt, entspannte Massage oder eine Pediküre? Treatwell sucht für Sie online einen Salon in der Nähe inklusive Neukunden-Rabatt.

---------------------------
Samsung Q9FN im Test: Der beste Fernseher für die WM! Der neue QLED-Fernseher Q9FN von Samsung


---------------------------
Sahra Wagenknecht: Linke streiten über Wagenknechts Position zur Flüchtlingspolitik     Die Linke-Fraktionschefin hat ihre Position zu Einschränkungen der Arbeitsmigration verteidigt. Auf dem Parteitag kommt es deshalb nun zu einer außerplanmäßigen Debatte.

---------------------------
Internetzensur: FDP klagt gegen Netzwerkdurchsetzungsgesetz     Zwei FDP-Abgeordnete halten das NetzDG für verfassungswidrig. Es fördere die "Selbstzensur im Kopf und die Fremdzensur durch private Unternehmen".

---------------------------
Giovanni Tria: Italienischer Finanzminister für Verbleib in Eurozone     "Ein Euroaustritt kommt nicht infrage": Das hat Italiens Finanzminister Giovanni Tria in einem Interview gesagt. Er wolle den Schuldenabbau des Landes voranbringen.

---------------------------
Wim Wenders: "Das Kino darf alles. Sogar predigen!"     Wim Wenders hat einen Film mit dem Papst gedreht. Vier Jahre Arbeit und ein Halleluja auf Franziskus. Fürchtet der Regiss


---------------------------
Bayern: Brand in BMW-Werk Landshut - Bahnstrecke gesperrt Ein Feuer bei BMW in Landshut hält Einsatzkräfte in Atem. Wegen starker Rauchentwicklung sollen Anwohner Fenster und Türen geschlossen halten. Eine Bahnstrecke musste gesperrt werden.

---------------------------
Parteitag der Linken: Offener Streit nach Wagenknechts Rede Der Zwist in der Führungsspitze der Linken ist auf dem Parteitag in Leipzig offen zutage getreten. Delegierte quittierten die Rede von Fraktionschefin Sahra Wagenknecht mit Buh-Rufen.

---------------------------
Abstimmung über Geldsystem: Schweizer Bürger lehnen Vollgeld ab Die Schweizer Bevölkerung hat einen radikalen Vorschlag für ein neues Geldsystem am Sonntag abgelehnt. Nach ersten Hochrechnungen stimmten rund drei Viertel gegen die Einführung des sogenannten Vollgelds.

---------------------------
Gute Wirtschaftslage: Arbeitsminister rechnet mit kräftiger Erhöhung des Mindestlohns Noch liegt der gesetzliche Mindestlohn bei 


---------------------------
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( Linux ,  Firmware )  

---------------------------
GVFS: Microsoft will eigenes Git-Dateisystem umbenennen Für den Umzug der internen Entwicklung von Windows auf das Versionskontrollsystem Git hat Microsoft ein eigenes virtuelles Dateisystem gescha


---------------------------
Sahra Wagenknecht: Linke streiten über Wagenknechts Position zur Flüchtlingspolitik     Die Linke-Fraktionschefin hat ihre Position zu Einschränkungen der Arbeitsmigration verteidigt. Auf dem Parteitag kommt es deshalb nun zu einer außerplanmäßigen Debatte.

---------------------------
Reaktionen zum G7-Gipfel: "Wir müssen egoistische, kurzsichtige Politik zurückweisen"     Nach dem G7-Gipfel hat Chinas Präsident Xi Jinping ein Plädoyer für offene Märkte gehalten. US-Senator John McCain kritisierte das Verhalten von Donald Trump.

---------------------------
Nordkorea-USA-Treffen: Kim Jong Un trifft zu Gipfel mit Trump in Singapur ein     Nordkoreas Machthaber Kim Jong Un ist in Singapur eingetroffen – zwei Tage vor dem Gipfel mit US-Präsident Donald Trump. Das Treffen gilt als historisch.

---------------------------
G7-Gipfel: America alone     Donald Trump hat es geschafft, vier Jahrzehnte transatlantischen Zusammenhalts mit ein paar Tweets in Stücke zu 

##### Funktion, die das Training des Classifiers durchführt
Der Funktion wird der Classifier übergeben, der trainiert werden soll. Außerdem lässt sich über das Flag *output* festlegen, ob die Funktion den Fortschritt des Trainings ausgeben soll. Erst werden für jeden Feed, der in der Liste ***trainTech*** festgelegt wurde, alle Meldungen durch den *feedparser* gecrawlt. Anchließend wird über diese Meldungen iteriert und Überschrift, sowie Beschreibung als *fulltext* abgespeichert. Dieser *fulltext* wird dann für jede Nachricht als Trainingsdokument zusammen mit dem Klassenlabel an die Trainingsfunktion ***train*** des Classifier übergeben. Sobald alle Feeds der ***trainTech***-Liste durchlaufen wurden, wird dasselbe noch für die Feeds der Liste ***trainNonTech*** durchgeführt. Der trainierte Classifier wird zurückgegeben.

In [32]:
def trainTheTechClassifier(techClassifier, output=True):

    if output:
        print("--------------------Training with news from trainTech------------------------")
    for feed in trainTech:
        if output:
            print("*"*30)
            print(feed)
        f=feedparser.parse(feed)
        for e in f.entries:
            fulltext=stripHTML(e.title+' '+e.description)
            techClassifier.train(fulltext, 'tech')
    if output:
        print("------------------------------- done ---------------------------------")

    if output:
        print("--------------------Training with news from trainNonTech------------------------")
    for feed in trainNonTech:
        if output:
            print("*"*30)
            print(feed)
        f=feedparser.parse(feed)
        for e in f.entries:
            fulltext=stripHTML(e.title+' '+e.description)
            techClassifier.train(fulltext, 'nonTech')
    if output:
        print("------------------------------- done ---------------------------------")
    return techClassifier

##### Training des Classifiers, der die Worthäufigkeiten (getWordList)  zur Klasifikation verwendet

In [33]:
techClassifier = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech'))

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml


TypeError: descriptor 'split' requires a 'str' object but received a 'unicode'

##### Funktion, die das Klassifikation von Dokumenten der RSS-Feeds der Liste 'test' durchführt
Der Funktion wird der Classifier übergeben, der die Klassifikation vornehmen soll. Außerdem lässt sich über das Flag *output* festlegen, ob die Funktion den Fortschritt des Trainings ausgeben soll. Erst werden für jeden Feed, der in der Liste ***test*** festgelegt wurde, alle Meldungen durch den *feedparser* gecrawlt und die jeweilige Sollausgabe festgelegt. Anschließend wird über diese Meldungen iteriert und Überschrift, sowie Beschreibung als *fulltext* abgespeichert. Dieser *fulltext* wird dann für jede Nachricht als Testdokument an die Klassifizierungsfunktion ***classify*** des Classifier übergeben. Das Ergebnis der Klassifikationsentscheidung wird zusammen mit der Nachricht ausgegeben. Zusätzlich wird Soll- und Ist-Ausgabe in ein Pandas Dataframe ***resultDF*** gespeichert, um Bewertungsmaße leichter berechnen zu können.

In [34]:
def classifyRSSDocuments(techClassifier, output=True):
    resultDF = pd.DataFrame(columns=['label', 'classifierResult'])
    if output:
        print("--------------------Classify the news from test------------------------")
    feedCount = 0
    for feed in test:
        feedCount += 1
        messageCount = 0
        if output:
            print("*"*30)
            print(feed)
        f=feedparser.parse(feed)
        if feed == 'http://rss.golem.de/rss.php?r=sw&feed=RSS0.91':
            category = 'tech'
        else:
            category = 'nonTech'
        for e in f.entries:
            messageCount += 1
            if output:
                print('\n---------------------------')
            fulltext=stripHTML(e.title+' '+e.description)
            result = techClassifier.classify(fulltext)
            if output:
                print("the following article is classified as: ", result[sorted(result.keys())[-1]])
                print(fulltext)
            resultDF.loc['feed:'+str(feedCount)+',message:'+str(messageCount)] = [
                category, result[sorted(result.keys())[-1]]]
    if output:
            print("----------------------------------------------------------------")
    return resultDF

##### Durchführung der Klassifikation, mit dem bereits trainierten Classifier
Ergebnis für jeden Artikel wird ausgegeben und in Pandas Dataframe ***resultDF*** geschrieben.

In [35]:
resultDF = classifyRSSDocuments(techClassifier)

NameError: name 'techClassifier' is not defined

##### Dataframe resultDF, das Soll- und Ist-Ausgabe für jede Nachricht der Testdaten enthält

In [36]:
display(resultDF)

NameError: name 'resultDF' is not defined

##### Erstellung der Confusion Matrix
Aus dem Dataframe ***resultDF***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, wird mithilfe der Funktion ***confusion_matrix*** aus dem Modul ***sklearn.metrics*** die Confusion Matrix berechnet.

In [37]:
def createConfusionMatrixDF(resultDF):
    return pd.DataFrame(index=['tech', 'nonTech'],
                     columns=['tech', 'nonTech'],
                     data=confusion_matrix(resultDF.label, resultDF.classifierResult, labels=['tech', 'nonTech']))

##### Berechnung Precision, Recall, F1-Score
Aus dem Dataframe ***resultDF***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, werden mithilfe der Funktion ***precision_recall_fscore_support*** aus dem Modul ***skleran.metrics*** die Bewertungsmaße Precision, Recall und F1-Score für beide Klassenlabels berechnet und in ein Pandas Dataframe geschrieben.

In [38]:
def createPrecisionRecallF1ScoreDF(resultDF):
    precision_recall_Values = precision_recall_fscore_support(resultDF.label,
                                                              resultDF.classifierResult,
                                                              labels=['tech', 'nonTech'])
    precisionRecallDF = pd.DataFrame(columns=['Precision', 'Recall', 'F1-Score'])
    precisionRecallDF.loc['tech'] = [precision_recall_Values[0][0],
                                     precision_recall_Values[1][0],
                                     precision_recall_Values[2][0]]
    precisionRecallDF.loc['nonTech'] = [precision_recall_Values[0][1],
                                        precision_recall_Values[1][1],
                                        precision_recall_Values[2][1]]
    return precisionRecallDF

##### Confusion Matrix der Klassifikation der Testdaten
Es fällt auf, dass tech-Dokumente zu einem Großteil, bzw. komplett (abhängig von aktuellen Nachrichten der Feeds), korrekt als solche klassifiziert werden. nonTech-Dokumente werden jedoch zu einer relativ großen Zahl falsch, als tech-Artikel klassifiziert. Betrachtet man die Inhalte der falsch klassifizierten Dokumente, lässt sich feststellen, dass es in diesen Artikeln gelegentlich in einem gewissen Rahmen auch um Technikthemen geht, bsw. Amazon oder die Landung der Raumkapsel an der ISS. Die Überlegung, wie sich die Klassifizierung verbessern lassen könnte, findet sich witer unten.

In [39]:
display(createConfusionMatrixDF(resultDF))

NameError: name 'resultDF' is not defined

##### Accuracy der Klassifikation der Testdaten
Berechnung der Genauigkeit der Klassifikationsentscheidung aus dem Dataframe ***resultDF***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, mithilfe der Funktion ***accuracy_score*** aus dem Modul ***sklearn.metrics***.

In [20]:
print('Accuracy:', accuracy_score(resultDF.label, resultDF.classifierResult))

Accuracy: 0.8


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels

In [21]:
display(createPrecisionRecallF1ScoreDF(resultDF))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.701754,1.0,0.824742
nonTech,1.0,0.622222,0.767123


#### Aufgabe 4
Für alle bisherigen Kalkulationen wurde die Funktion ***getWordList(document)*** verwendet. Sie gibt eine Liste der im Dokument vorkommenden Wörter zurück. Das hat zur Folge, dass Worthäufigkeiten in die Klassifikationentscheidung mit einfließen. Wir führen nun noch eine Klassifkation durch, die zur Klassifikationsentscheidung einfach nur binär-Werte für das Auftreten eines Wortes in einem Dokument verwendet (Funktion ***getWordSet(document)***). Unserer Überlegung nach, dürfte die Klassifizierung der Testdaten dadurch schlechter ausfallen, wie durch folgendes Beispiel klar werden sollte:
>- Gegeben seien zwei Trainingsdokumente DocA (Klasse *tech*) und DocB (Klasse *nonTech*).
- DocA enthält das Wort 'Grafik' vier mal, DocB enthält das Wort 'Grafik' ein mal.
- Nun gehe man davon aus man klassifiziert das Dokument DocC, das nur das Wort 'Grafik' enthält.
- Bei einer Klassifizierung, die lediglich das Auftreten eines Wortes in Dokumente beachtet, wären die Klassen tech und *nonTech* für DocC gleich wahrscheinlich, da in beiden Trainingsdokumenten, DocA und DocB, das Wort 'Grafik' vorkommt, jedoch die Häufigkeit des Auftretens nich beachtet wird.
- Während bei einer Klassifizierung, die Worthäufigkeiten beachtet, die Klasse *tech* vier mal wahrscheinlicher als *nonTech* wäre.

Um zu sehen, ob sich die Klassifikation verbessert, führen wir zusätzlich auch eine Klassifikation durch, die die Klassifikationsentscheidung auf Basis von tf-idf-Werten trifft. Unsere Überlegung hierzu ist, dass Worte, die einen geringen Informationsgewinn ergeben, weil sie in vielen/allen Dokumenten vorkommen, zwar durch Nutzung von tf-idf gering gewichtet werden, aber sich dadurch die Klassifikation nicht großartig verändert. Die tf-idf-Werte sind im Verhältnis letztendlich gleich, wie die Werte der Worthäufigkeiten.

### Classifier : Wortauftreten

In [22]:
techClassifier2 = trainTheTechClassifier(Classifier(getWordSet, 'tech', 'nonTech'))
resultDF2 = classifyRSSDocuments(techClassifier2)

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------


---------------------------
the following article is classified as:  nonTech
G7-Gipfel: Trump warnt Handelspartner vor Vergeltung     Der US-Präsident ist vorzeitig vom G7-Treffen in Kanada abgereist. Wegen Differenzen bei Handel und Klima war zunächst offen, ob es eine gemeinsame Schlusserklärung gibt.

---------------------------
the following article is classified as:  nonTech
Nordkorea: Trump nennt Gipfel "einmalige Chance" für Kim     Donald Trump hat klare Erwartungen an das Treffen mit Nordkoreas Machthaber. Er werde binnen einer Minute wissen, ob Kim Jong Un es ernst meine, sagte der US-Präsident.

---------------------------
the following article is classified as:  nonTech
Katalonien-Konflikt: Spanische Regierung strebt Verfassungsreform an     Die neue Regierung in Madrid geht auf die Katalanen zu und bringt die Idee eines Föderalstaats ins Spiel. Katalonien will jedoch an der Unabhängigkeit festhalten.

---------------------------
the following article is classified as:  no

---------------------------
the following article is classified as:  nonTech
„... und immer noch dankbar, für dieses Land zu spielen“ Die Pfiffe gegen Ilkay Gündogan während des Tests gegen Saudi-Arabien haben beim 27-Jährigen Wirkung gezeigt. Der Profi von Manchester City reagierte darauf nun mit einer emotionalen Antwort.

---------------------------
the following article is classified as:  nonTech
Linken-Parteitag fordert offene Grenzen für Flüchtlinge Nach monatelangem Streit haben die Linken ihren Flüchtlingskurs beschlossen. Die Delegierten sprachen sich für offene Grenzen aus. Nur Wagenknecht wetterte, es gehe nicht, dass „jeder, der möchte, hier Anspruch auf Sozialleistungen hat“.

---------------------------
the following article is classified as:  nonTech
Kipping und Riexinger als Linken-Vorsitzende wiedergewählt Die Linken haben ihre Parteivorsitzenden Katja Kipping und Bernd Riexinger für weitere zwei Jahre an die Parteispitze gewählt. Nach monatelangem Streit haben die Lin

##### Confusion Matrix der Klassifikation der Testdaten (binäre-Werte)

In [23]:
display(createConfusionMatrixDF(resultDF2))

Unnamed: 0,tech,nonTech
tech,39,1
nonTech,16,29


##### Accuracy der Klassifikation der Testdaten (binär-Werte)
Berechnung der Genauigkeit der Klassifikationsentscheidung aus dem Dataframe ***resultDF2***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, mithilfe der Funktion ***accuracy_score*** aus dem Modul ***sklearn.metrics***.

In [24]:
print('Accuracy:', accuracy_score(resultDF2.label, resultDF2.classifierResult))

Accuracy: 0.8


#### Interpretation der Ergebnisse
Entgegen unserer Vermutung, ist die Genauigkeit der beiden Klassifikationen gleich.
Zu unserer Überraschung war die Klassifikation bei Beachtung des Wortauftretens ab und an sogar besser als bei der Klassifikation auf Basis der Worthäufigkeiten. Verglich man die Ergebnisse, stellte man fest, dass bei der zweiten Variante die korrekte Klassifikation von tech-Dokumenten ähnlich gut war, wie in der ersten Variante. Nur ein Dokument war fälschlicherweise zu den als nonTech-klassifizierten Dokumenten gerutscht. Jedoch wurden bei der zweiten Klassifikation deutlich mehr nonTech-Dokumente richtig klassifiziert. Wir erklären uns das bessere Ergebnis wie folgt:
> Angenommen wir haben im Training den Classifier für jede Klasse mit einem Dokument belernt. Wörter, die in beiden Dokumenten vorkommen, egal wie häufig, fließen also bei der Klassifikation für jede Klasse in gleichem Maße in die Berechnung ein. Wörter wie 'dieser', o.ä. Wörter, die für die Klassifikation keine Rolle spielen, aber in Dokument A sieben mal und in Dokument B nur ein mal vorkommen, leisten für beide Klassen den selben Beitrag bei der Klassifikation. Wörter, die dagegen nur in Dokument A auftreten, sind für die Klassifikation eines Dokuments, das ebenfalls dieses Wort enthält, viel relevanter.

##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels (binär-Werte)

In [25]:
display(createPrecisionRecallF1ScoreDF(resultDF2))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.709091,0.975,0.821053
nonTech,0.966667,0.644444,0.773333


### Classifier: tf-idf
##### Anmerkung:
Eine Interpretation aller Ergebnisse der Klassifikationen mit tf-idf-Werten, wird am Ende zu finden sein.

In [26]:
techClassifier3 = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech', useTfIdf=True))
resultDF3 = classifyRSSDocuments(techClassifier3)

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

the following article is classified as:  tech
Programmiersprache: Vorschau auf Ruby 2.6 bringt JIT-Compiler Die Programmiersprache Ruby bekommt mit der kommenden Version 2.6 einen experimentellen JIT-Compiler. Dieser funktioniert etwas anders als üblich und soll vor allem die Leistung der Sprache steigern. ( Ruby ,  Virtualisierung )  

---------------------------
the following article is classified as:  tech
Microsoft: Weitere Umstrukturierungen rund um Windows 10 Bei Microsoft gibt es weitere Änderungen bei der Aufgabenverteilung. Vor allem der Bereich Windows 10 erfährt eine Reihe weiterer Umstrukturierungen, die im Zusammenhang mit dem Ausscheiden das früheren Windows-Chefs Terry Myerson stehen. ( Windows 10 ,  Microsoft )  

---------------------------
the following article is classified as:  tech
Betriebssysteme: Linux 4.17 entfernt alten Code und bringt viel Neues In Linux 4.17 profitieren AMDs Grafikkarten erneut von Verbesserungen im quelloffenen AMDGPU-Treiber. Zudem ist der 

the following article is classified as:  tech
Vernetztes Fahren: Forscher finden 14 Sicherheitslücken in BMW-Software Beim vernetzten und autonomen Fahren soll die IT-Sicherheit eine große Rolle spielen. Sicherheitsexperten konnten sich jedoch auf verschiedenen Wegen die Autosoftware von BMW hacken. ( Black Hat 2016 ,  Technologie )  

---------------------------
the following article is classified as:  tech
Networkmanager: Linux bekommt lokales Thunderbolt Networking Per Thunderbolt-Kabel lassen sich zwei Geräte einfach per Peer-to-Peer-Netzwerk miteinander verbinden. Linux-Nutzer bekommen dafür nun über den Networkmanager eine einfache Möglichkeit zur Konfiguration. ( Linux ,  Gnome )  
******************************
http://newsfeed.zeit.de/politik/index

---------------------------
the following article is classified as:  nonTech
G7-Gipfel: Trump warnt Handelspartner vor Vergeltung     Der US-Präsident ist vorzeitig vom G7-Treffen in Kanada abgereist. Wegen Differenzen bei Handel un

the following article is classified as:  nonTech
Trump sorgt für Zündstoff beim G-7-Gipfel Der G-7-Gipfel in Kanada ist geprägt vom Handelsstreit. Donald Trump überrascht dann kurz vor seiner Abreise mit dem Vorschlag einer zollfreien G-7-Zone.

---------------------------
the following article is classified as:  nonTech
Mit dieser Charmeoffensive will die Bundeswehr Nachwuchs anlocken Die Bundeswehr hat ein Rekrutierungsproblem. In den nächsten Jahren soll die Truppe wieder wachsen, aber es fällt schwer den geeigneten Nachwuchs zu finden. Helfen soll der Tag der Bundeswehr.

---------------------------
the following article is classified as:  nonTech
„Die Bundeswehr wächst endlich wieder“ Flugunfähige Kampfjets, verrostete Panzer: Verteidigungsministerin Ursuala von der Leyen glaubt jedoch, die Trendwende bei der Ausstattung der Bundeswehr sei eingeleitet. Und bittet um weitere Geduld.

---------------------------
the following article is classified as:  nonTech
Trump schlägt zollfrei

##### Confusion Matrix der Klassifikation der Testdaten (tf-idf-Werte)

In [27]:
display(createConfusionMatrixDF(resultDF3))

Unnamed: 0,tech,nonTech
tech,38,2
nonTech,19,26


##### Accuracy der Klassifikation der Testdaten (tf-idf-Werte)
Berechnung der Genauigkeit der Klassifikationsentscheidung aus dem Dataframe ***resultDF3***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, mithilfe der Funktion ***accuracy_score*** aus dem Modul ***sklearn.metrics***.

In [29]:
print('Accuracy:', accuracy_score(resultDF3.label, resultDF3.classifierResult))

Accuracy: 0.7529411764705882


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels (tf-idf-Werte)

In [30]:
display(createPrecisionRecallF1ScoreDF(resultDF3))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.666667,0.95,0.783505
nonTech,0.928571,0.577778,0.712329


### Überlegung - Stopwords
Pronomen, Artikel oder andere kleine Wörter aus der deutschen Sprache, kommen in allen Dokumenten vor, unabhängig welcher Klasse sie angehören. Deshalb besitzen solche Stopwörter keine Aussagekraft darüber, welcher Kategorie ein Dokument angehört. In den folgenden Tests, führen wir das Training und die Klassifikation mit den drei oberen Varianten des Classifiers erneut durch, entfernen jedoch alle Wörter die in *nltk.stopwords('german')* enthalten sind. Dazu haben wir die Funktion ***getWordList*** angepasst.

Wir erwarten, dass sich die Genauigkeit des Classifiers, der die Worthäufigkeiten beachtet, stark verbessert. Er sollte nunmehr keine schlechtere Genauigkeit aufweisen, als der Classifier, der das Wortauftreten beachtet, da nun der oben beschriebene Vorteil des *Classifiers Wortauftreten* (siehe Interpretation Ergebnisse unter Classifier: Wortauftreten) nicht mehr vorhanden ist. Wörter, die keinen richtigen Informationsgewinn liefern können, sind nicht mehr in den Wortlisten enthalten und somit haben Häufigkeiten von anderen Wörtern einen größeren Einfluss auf das Ergebnis.

In [31]:
def getWordList(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('().,:;!?-"') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20 and word not in stopwords.words('german')]
    return words

##### Anmerkung
Bei allen folgenden Trainings und Klassifikationen, verzichten wir darauf, den Fortschritt des Trainings/der Klassifikation auszugeben, um eine bessere Lesbarkeit des Notebooks zu gewährleisten. Die Ergebnisse werden selbstverständlich ausgegeben und interpretiert. Des weiteren verzichten ab hier wir auf die Ausgabe der Precision, Recall und F1-Score Werte, da sich die Qualität der Klassifikation sehr gut anhand der Confusion Matrix und der Genauigkeit bewerten lässt.
### Classifier: Worthäufigkeiten - Stopwords

In [32]:
techClassifierNoStopwords = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech'), output=False)

resultDFnoStopwords = classifyRSSDocuments(techClassifierNoStopwords, output=False)

##### Confusion Matrix und Accuracy

In [33]:
display(createConfusionMatrixDF(resultDFnoStopwords))

print('Accuracy:', accuracy_score(resultDFnoStopwords.label, resultDFnoStopwords.classifierResult))

Unnamed: 0,tech,nonTech
tech,35,5
nonTech,10,35


Accuracy: 0.8235294117647058


### Classifier: Wortauftreten - Stopwords

In [34]:
techClassifier2NoStopwords = trainTheTechClassifier(Classifier(getWordSet, 'tech', 'nonTech'), output=False)

resultDF2noStopwords = classifyRSSDocuments(techClassifier2NoStopwords, output=False)

##### Confusion Matrix und Accuracy

In [35]:
display(createConfusionMatrixDF(resultDF2noStopwords))

print('Accuracy:', accuracy_score(resultDF2noStopwords.label, resultDF2noStopwords.classifierResult))

Unnamed: 0,tech,nonTech
tech,33,7
nonTech,11,34


Accuracy: 0.788235294117647


#### Interpretation der Ergebnisse
Wie erwartet ist die Genauigkeit der Klassifikation stark verbessert. Es ist auffällig, dass sich die korrekte Klassifikation von tech-Dokumenten im Vergleich zur Klassifikation ohne Stopwortbereinigung leicht verschlechtert hat, jedoch hat sich die korrekte nonTech-Klassifikation massiv verbessert.

### Classifier: tf-idf - Stopwords

In [36]:
techClassifier3NoStopwords = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech', useTfIdf=True), output=False)

resultDF3noStopwords = classifyRSSDocuments(techClassifier3NoStopwords, output=False)

##### Confusion Matrix und Accuracy

In [37]:
display(createConfusionMatrixDF(resultDF3noStopwords))

print('Accuracy:', accuracy_score(resultDF3noStopwords.label, resultDF3noStopwords.classifierResult))

Unnamed: 0,tech,nonTech
tech,35,5
nonTech,10,35


Accuracy: 0.8235294117647058


### Überlegung - Stemming
Ob in einem Dokument die Wörter 'Grafik', 'Grafiken' oder 'grafisch' vorkommen, sollte für die Klassifikation des Dokuments keinen Unterschied machen. Um Wörter auf ihren Wortstamm abzubilden und so ein besseres Ergebnis der Klassifikation zu erhalten, haben wir die Funktion ***getWordList*** erneut überschrieben und den *GermanStemmer* aus dem Modul *nltk.stem.snowball* hinzugefügt. Von jedem Wort des Dokuments wird seine Stammform in die Wortliste geschrieben.
Anschließend wird Training und Klassifikation mit allen drei Varianten des Classifiers erneut durchgeführt.

In [38]:
def getWordList(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('().,:;!?-"') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20 and word not in stopwords.words('german')]
    GerSt = GermanStemmer("german")
    stemmedWords = [GerSt.stem(word) for word in words]
    return words

### Classifier: Worthäufigkeiten - Stopwords - Stemming

In [39]:
techClassifierStemmed = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech'), output=False)

resultDFStemmed = classifyRSSDocuments(techClassifierStemmed, output=False)

##### Confusion Matrix und Accuracy

In [40]:
display(createConfusionMatrixDF(resultDFStemmed))

print('Accuracy:', accuracy_score(resultDFStemmed.label, resultDFStemmed.classifierResult))

Unnamed: 0,tech,nonTech
tech,35,5
nonTech,10,35


Accuracy: 0.8235294117647058


### Classifier: Wortauftreten - Stopwords - Stemming

In [41]:
techClassifier2Stemmed = trainTheTechClassifier(Classifier(getWordSet, 'tech', 'nonTech'), output=False)

resultDF2Stemmed = classifyRSSDocuments(techClassifier2Stemmed, output=False)

##### Confusion Matrix und Accuracy

In [42]:
display(createConfusionMatrixDF(resultDF2Stemmed))

print('Accuracy:', accuracy_score(resultDF2Stemmed.label, resultDF2Stemmed.classifierResult))

Unnamed: 0,tech,nonTech
tech,33,7
nonTech,11,34


Accuracy: 0.788235294117647


##### Interpretation der Ergebnisse
Im Vergleich zur vorherigen Klassifikation, ohne Stemming, hat sich die Genauigkeit bei der Beachtung der Worhäufigkeiten nochmal etwas verbessert, weil ein weiteres nonTech-Dokument korrekt klassifiziert wurde. Die Genauigkeit bei der Beachtung des Wortauftretens ist hingegen gleich geblieben.
Ein solches Ergebnis haben wir auch erwartet, da durch das Stemming mehrere Wörter auf denselben Wortstamm zurückgeführt werden. So kommt es bei Beachtung des Wortauftretens dazu, dass sehr viele Informationen verloren gehen, weil jeder Wortstamm nur einmal in der Menge vorkommt. Deshalb ist die Genaugikeit schlechter als bei der Beachtung der Worthäufigkeiten.
Wenn man jedoch bedenkt, dass in den jeweiligen Feeds durchaus auch Nachrichten vorkommen, die nicht eindeutg zugewiesen werden können, weil in einem nonTech-Feed bspw. über Amazon berichtet wird oder in einem tech-Feed ein Bericht über einen kanadischen Hacker zu finden ist, dann ist die vorliegende Klassifikation schon sehr gut.

### Classifier: tf-idf - Stopwords - Stemming

In [43]:
techClassifier3Stemmed = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech', useTfIdf=True), output=False)

resultDF3Stemmed = classifyRSSDocuments(techClassifier3Stemmed, output=False)

##### Confusion Matrix und Accuracy

In [44]:
display(createConfusionMatrixDF(resultDF3Stemmed))

print('Accuracy:', accuracy_score(resultDF3Stemmed.label, resultDF3Stemmed.classifierResult))

Unnamed: 0,tech,nonTech
tech,22,18
nonTech,0,45


Accuracy: 0.788235294117647


### Überlegung - mehr Trainingsdokumente
Die Überlegung ist, durch mehr Trainingsdaten Wörter für die Klassen zuverlöässiger zu gewichten, um später eine bessere Klassifikation zu erreichen. Dafür haben wir für beide Klassen mit Google jeweils drei weitere RSS-Feeds herausgesucht, der Trainingsmenge hinzugefügt und die Klassifikatoren für alle drei Varianten neu belernt.

In [45]:
trainTech.append('http://www.appdated.de/feed/rss/')
trainTech.append('http://www.digitalweek.de/feed/')
trainTech.append('https://de.engadget.com/rss.xml')

trainNonTech.append('https://www.n-tv.de/rss')
trainNonTech.append('feed:https://www.stern.de/feed/standard/alle-nachrichten/')
trainNonTech.append('feed://www.tagesschau.de/xml/rss2')

### Classifier: Worthäufigkeiten - Stopwords - Stemming - erweiterte Trainingsdaten

In [48]:
techClassifierexpandedTrain = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech'), output=False)

resultDFexpandedTrain = classifyRSSDocuments(techClassifierexpandedTrain, output=False)

##### Confusion Matrix und Accuracy

In [49]:
display(createConfusionMatrixDF(resultDFexpandedTrain))

print('Accuracy:', accuracy_score(resultDFexpandedTrain.label, resultDFexpandedTrain.classifierResult))

Unnamed: 0,tech,nonTech
tech,25,15
nonTech,2,43


Accuracy: 0.8


### Classifier: Wortauftreten - Stopwords - Stemming - erweiterte Trainingsdaten

In [50]:
techClassifier2expandedTrain = trainTheTechClassifier(Classifier(getWordSet, 'tech', 'nonTech'), output=False)

resultDF2expandedTrain = classifyRSSDocuments(techClassifier2expandedTrain, output=False)

##### Confusion Matrix und Accuracy

In [51]:
display(createConfusionMatrixDF(resultDF2expandedTrain))

print('Accuracy:', accuracy_score(resultDF2expandedTrain.label, resultDF2expandedTrain.classifierResult))

Unnamed: 0,tech,nonTech
tech,23,17
nonTech,2,43


Accuracy: 0.7764705882352941


##### Interpretation der Ergebnisse
Die erhoffte Verbesserung der Klassifikation ist nicht eingetreten. Zwar wurden etwas mehr nonTech-Dokumente korrekt klassifiziert, dafür ist die Anzahl korrekt klassifizierter tech-Dokumente stärker gesunken. Durch die Vergrößerung der Trainingsdaten sind zwar mehr Wörter im Trainingscorpus bekannt, sodass auch für Wörter aus den Testdaten, für die zuvor keine genaue Wahrscheinlichkeit berechnet werden konnte, nun konkrete Wahrscheinlichkeiten für die jeweilige Klassenzugehörigkeit berechnet werden können. Jedoch scheinen diese 'neuen' Wörter eher allgemeine Wörter und keine technikspezifischen Wörter zu sein. Deshalb werden nonTech-Dokumente zwar besser klassifiziert, jedoch auch tech-Dokumente, die diese allgeminen Wörter enthalten, werden als nonTech-Dokumente klassifiziert.

### Classifier: tf-idf - Stopwords - Stemming - erweiterte Trainingsdaten

In [54]:
techClassifier3expandedTrain = trainTheTechClassifier(
    Classifier(getWordList, 'tech', 'nonTech', useTfIdf=True),
    output=False)

resultDF3expandedTrain = classifyRSSDocuments(techClassifier3expandedTrain, output=False)

##### Confusion Matrix und Accuracy

In [55]:
display(createConfusionMatrixDF(resultDF3expandedTrain))

print('Accuracy:', accuracy_score(resultDF3expandedTrain.label, resultDF3expandedTrain.classifierResult))

Unnamed: 0,tech,nonTech
tech,17,23
nonTech,2,43


Accuracy: 0.7058823529411765


#### Interpretation der Ergebnisse aller Klassifikationen basierend auf tf-idf-Werten
Bei keiner der Varianten lieferte die tf-idf-basierte Klassifikation die beste Genauigkeit. Das liegt daran, dass die Nutzung von tf-idf-Werten bei Naiven Bayes Classifiern nicht üblich ist. Der tf-idf wird eigentlich verwendet, um von einem Dokument die Ähnlichkeit zu anderen Dokumenten zu bestimmen. Anwendungsbeispiele hierfür sind unter anderem Suchmaschienen. Die tf-idf-Werte eines Dokuments bilden dabei die Vektordarstellung des Dokuments. Mit diesem Vektor kann dann mithilfe der üblichen Distanz- und Ähnlichkeitsmaße die Ähnlichkeit zweier Dokumente bestimmt werden.<br>
Eine Idee, wie der tf-idf für die Klassifikation von Dokumenten evtl. besser eingesetzt werden könnte, wäre folgende:
> Man bestimmt auf Basis eines bestimmten Distanzmaßes (für Dokumente bevorzugt die Cosinusdistanz) die Ähnlichkeit des zu klassifizierenden Dokuments zu allen anderen Dokumenten einer Klasse. Die Ähnlichkeitswerte für die eine Klasse werden aufsummiert und anschließend durch die Anzahl Trainingsdokumente dieser Klasse geteilt. Dasselbe berechnet man auch für die andere Klasse. Das Dokument wird dann der Klasse zugewiesen, für die sich der bessere Ähnlichkeitswert ergibt.