# Data Mining Versuch Document Classification
* Autor: Prof. Dr. Johannes Maucher
* Datum: 06.11.2015

[Übersicht Ipython Notebooks im Data Mining Praktikum](Data Mining Praktikum.ipynb)

# Einführung
## Lernziele:
In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Dokumentklassifikation: Klassifikation von Dokumenten, insbesondere Emails und RSS Feed
* Naive Bayes Classifier: Weit verbreitete Klassifikationsmethode, welche unter bestimmten Randbedingungen sehr gut skaliert.


## Theorie zur Vorbereitung
### Parametrische Klassifikation und Naive Bayes Methode
Klassifikatoren müssen zu einer gegebenen Eingabe $\underline{x}$ die zugehörige Klasse $C_i$ bestimmen. Mithilfe der Wahrscheinlichkeitstheorie kann diese Aufgabe wie folgt beschrieben werden: Bestimme für alle möglichen Klassen $C_i$ die bedingte Wahrscheinlichkeit $P(C_i | \underline{x})$, also die Wahrscheinlichkeit, dass die gegebene Eingabe $\underline{x}$ in Klasse $C_i$ fällt. Wähle dann die Klasse aus, für welche diese Wahrscheinlichkeit maximal ist.

Die Entscheidungsregeln von Klassifikatoren können mit Methoden des ""überwachten Lernens"" aus Trainingsdaten ermittelt werden. Im Fall des **parametrischen Lernens** kann aus den Trainingsdaten die sogenannte **Likelihood-Funktion** $p(\underline{x} \mid C_i)$ bestimmt werden. _Anmerkung:_ Allgemein werden mit $p(...)$ kontinuierliche Wahrscheinlichkeitsfunktionen und mit $P(...)$ diskrete Wahrscheinlichkeitswerte bezeichnet. 

Mithilfe der **Bayes-Formel**
$$
P(C_i \mid \underline{x}) = \frac{p(\underline{x} \mid C_i) \cdot P(C_i)}{p(\underline{x})}
$$

kann aus der Likelihood die **a-posteriori-Wahrscheinlichkeit $P(C_i \mid \underline{x})$** berechnet werden. Darin wird $P(C_i)$ die **a-priori-Wahrscheinlichkeit** und $p(\underline{x})$ die **Evidenz** genannt. Die a-priori-Wahrscheinlichkeit kann ebenfalls aus den Trainingsdaten ermittelt werden. Die Evidenz ist für die Klassifikationsentscheidung nicht relevant, da sie für alle Klassen $C_i$ gleich groß ist.

Die Berechnung der Likelihood-Funktion $p(\underline{x} \mid C_i)$ ist dann sehr aufwendig, wenn $\underline{x}=(x_1,x_2,\ldots,x_Z)$ ein Vektor von voneinander abhängigen Variablen $x_i$ ist. Bei der **Naive Bayes Classification** wird jedoch von der vereinfachenden Annahme ausgegangen, dass die Eingabevariabeln $x_i$ voneinander unabhängig sind. Dann vereinfacht sich die bedingte Verbundwahrscheinlichkeits-Funktion $p(x_1,x_2,\ldots,x_Z \mid C_i)$ zu:

$$
p(x_1,x_2,\ldots,x_Z \mid C_i)=\prod\limits_{j=1}^Z p(x_j | C_i)
$$

### Anwendung der Naive Bayes Methode in der Dokumentklassifikation
Auf der rechten Seite der vorigen Gleichung stehen nur noch von den jeweils anderen Variablen unabhängige bedingte Wahrscheinlichkeiten. Im Fall der Dokumentklassifikation sind die einzelnen Worte die Variablen, d.h. ein Ausdruck der Form $P(x_j | C_i)$ gibt an mit welcher Wahrscheinlichkeit ein Wort $x_j=w$ in einem Dokument der Klasse $C_i$ vorkommt. 
Die Menge aller Variablen $\left\{x_1,x_2,\ldots,x_Z \right\}$ ist dann die Menge aller Wörter im Dokument. Damit gibt die linke Seite in der oben gegebenen Gleichung die _Wahrscheinlichkeit, dass die Wörter $\left\{x_1,x_2,\ldots,x_Z \right\}$ in einem Dokument der Klasse $C_i$ vorkommen_ an.

Für jedes Wort _w_ wird aus den Trainingsdaten die Wahrscheinlichkeit $P(w|G)$, mit der das Wort in Dokumenten der Kategorie _Good_ und die Wahrscheinlichkeit $P(w|B)$ mit der das Wort in Dokumenten der Kategorie _Bad_ auftaucht ermittelt. Trainingsdokumente werden in der Form

$$
tD=(String,Category)
$$
eingegeben. 

Wenn 

* mit der Variable $fc(w,cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ in denen das Wort $w$ enthalten ist
* mit der Variable $cc(cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ 

gezählt wird, dann ist 

$$
P(w|G)=\frac{fc(w,G)}{cc(G)} \quad \quad P(w|B)=\frac{fc(w,B)}{cc(B)}.
$$

Wird nun nach der Eingabe von $L$ Trainingsdokumenten ein neu zu klassifizierendes Dokument $D$ eingegeben und sei $W(D)$ die Menge aller Wörter in $D$, dann berechnen sich unter der Annahme, dass die Worte in $W(D)$ voneinander unabhängig sind (naive Bayes Annahme) die a-posteriori Wahrscheinlichkeiten zu:

$$
P(G|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | G) \right) \cdot P(G)}{p(D)}
$$
und
$$
P(B|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | B) \right) \cdot P(B)}{p(D)}.
$$

Die hierfür notwendigen a-priori-Wahrscheinlichkeiten berechnen sich zu 

$$
P(G)=\frac{cc(G)}{L}
$$
und
$$
P(B)=\frac{cc(B)}{L}
$$

Die Evidenz $p(D)$ beeinflusst die Entscheidung nicht und kann deshalb ignoriert werden.


## Vor dem Versuch zu klärende Fragen


1. Wie wird ein Naive Bayes Classifier trainiert? Was muss beim Training für die spätere Klassifikation abgespeichert werden?
2. Wie teilt ein Naiver Bayes Classifier ein neues Dokument ein?
3. Welche naive Annahme liegt dem Bayes Classifier zugrunde? Ist diese Annahme im Fall der Dokumentklassifikation tatsächlich gegeben?
4. Betrachten Sie die Formeln für die Berechnung von $P(G|D)$ und $P(B|D)$. Welches Problem stellt sich ein, wenn in der Menge $W(D)$ ein Wort vorkommt, das nicht in den Trainingsdaten der Kategorie $G$ vorkommt und ein anderes Wort aus $W(D)$ nicht in den Trainingsdaten der Kategorie $B$ enthalten ist? Wie könnte dieses Problem gelöst werden? 



#### Aufgabe 1
Der Naive Bayes Classifier bekommt ein Trainingsset mit gelabelten Dokumenten. Aus allen Wörtern der Dokumente wird ein Vokabular gebildet. Anschließend lernt der Classifier, wie oft jedes Wort des Vokabulars in Dokumenten jeder Klasse vorkommt. Für die spätere Klassifikation muss für jedes Wort abgespeichert werden, mit welcher Wahrscheinlichkeit es in Dokumenten jeder Klasse vorkommt. Wenn also im Trainingsset 300 Worte und Dokumente aus 2 Klassen vorkommen, müssen 600 Werte gespeichert werden.

#### Aufgabe 2
Für ein neues Dokument berechnet der Classifier, basierend auf den gespeicherten Werten, die Wahrscheinlichkeiten für die Zugehörigkeit zu jeder Klasse. Gibt es zwei Klassen *gut* und *schlecht*, werden also die Wahrscheinlichkeit berechnet, dass das Dokument zur Klasse *gut* gehört und die Wahrscheinlichkeit, dass das Dokument zur Klasse *schlecht* gehört. Für die Klasse, deren Wahrscheinlichkeit höher ist, erfolgt die Ausgabe.

#### Aufgabe 3
Dem naiven Bayes Classifier liegt die Annahme zugrunde, dass alle Eingabevariablen voneinander unabhngig sind. Im Fall der Dokumentklassifikation würde das bedeuten, dass alle Wörter eines Dokuments voneinander unabhängig sind. Das ist aber eigentlich nicht gegeben, denn es gibt durchaus Wörter, die nach bestimmten Wörtern nicht vorkommen können, teilweise auch durch die Grammatik bedingt.

#### Aufgabe 4
Kommt im zu klassifiziernden Dokument jeweils ein Wort vor, das nicht in den Trainingsdaten der Kategorie G und B enthalten war, wird das gesamte Produkt bei der Berechnung von $P(G|D)$ und $P(B|D)$ null. Somit ergibt die Wahrscheinlichkeit des Dokuments für beide Klassen null. Es kann keine Klassifikation erfolgen.
Dieses Problem lässt sich vermeiden, wenn man Smoothing anwendet. Dabei verändern sich die Formeln zur Berechnung von $P(G|D)$ und $P(B|D)$. Man ersetzt $P(w|G)$, beziehungsweise $P(w|B)$ durch:
> $P(x_{j}|C_{i})=\frac{w*P_{ass, i}+|x_{j}|*P(x_{j}|C_{i})}{w+|x_{j}|}$ mit x = Wort, C = Kategorie<br>
$\boldsymbol{P_{ass, i}}$ ist die angenommene Wahrscheinlichkeit für die Zugehörigkeit
eines Worts zu einer Kategorie $C_{i}$ , unabhängig von tatsächlicher Auftrittshäufigkeit. Default: $P_{ass,i} = 1/K$ (K ist die Anzahl der Klassen)<br>
$\boldsymbol{w}$ ist ein Gewicht, über welches der Einfluss der angenommenen Wahrscheinlichkeit in die gesamte Wahrscheinlichkeit eingestellt werden kann. Default: $w = 1$<br>
$\boldsymbol{|x_{j}|}$ ist die Anzahl der Dokumente, in denen Wort $x_{j}$ vorkommt (unabhängig von der Kategorie).

# Durchführung
## Feature Extraction/ -Selection

**Aufgabe:**
Implementieren Sie eine Funktion _getwords(doc)_, der ein beliebiges Dokument in Form einer String-Variablen übergeben wird. In der Funktion soll der String in seine Wörter zerlegt und jedes Wort in _lowercase_ transformiert werden. Wörter, die weniger als eine untere Grenze von Zeichen (z.B. 3) oder mehr als eine obere Grenze von Zeichen (z.B. 20) enthalten, sollen ignoriert werden. Die Funktion soll ein dictionary zurückgeben, dessen _Keys_ die Wörter sind. Die _Values_ sollen für jedes Wort zunächst auf $1$ gesetzt werden.

**Tipp:** Benutzen Sie für die Zerlegung des Strings und für die Darstellung aller Wörter mit ausschließlich kleinen Buchstaben die Funktionen _split(), strip('sep')_ und _lower()_ der Klasse _String_.  


In [109]:
from collections import Counter
import numpy as np

def getWordsCounted(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('.,!?\"\'-_(') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20]
    wordDict = dict(Counter(words))
    return wordDict

def getWordList(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('.,!?\"\'-_(') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20]
    return words

## Classifier

**Aufgabe:**
Implementieren Sie den Naive Bayes Classifier für die Dokumentklassifikation. Es bietet sich an die Funktionalität des Klassifikators und das vom Klassifikator gelernte Wissen in einer Instanz einer Klasse _Classifier_ zu kapseln. In diesem Fall kann wie folgt vorgegangen werden:

* Im Konstruktor der Klasse wird je ein Dictionary für die Instanzvariablen _fc_ und _cc_ (siehe oben) initialisiert. Dabei ist _fc_ ein verschachteltes Dictionary. Seine Keys sind die bisher gelernten Worte, die Values sind wiederum Dictionaries, deren Keys die Kategorien _Good_ und _Bad_ sind und deren Values zählen wie häufig das Wort bisher in Dokumenten der jeweiligen Kategorie auftrat. Das Dictionary _cc_ hat als Keys die Kategorien _Good_ und _Bad_. Die Values zählen wie häufig Dokumente der jeweiligen Kategorien bisher auftraten.
* Im Konstruktor wird ferner der Instanzvariablen _getfeatures_ die Funktion _getwords()_ übergeben. Die Funktion _getwords()_ wurde bereits zuvor ausserhalb der Klasse definiert. Sinn dieses Vorgehens ist, dass andere Varianten um Merkmale aus Dokumenten zu extrahieren denkbar sind. Diese Varianten könnten dann ähnlich wie die _getwords()_-Funktion ausserhalb der Klasse definiert und beim Anlegen eines _Classifier_-Objekts der Instanzvariablen _getfeatures_ übergeben werden.  
* Der Methode _incf(self,f,cat)_ wird ein Wort _f_ und die zugehörige Kategorie _cat_ des Dokuments in welchem es auftrat übergeben. In der Methode wird der _fc_-Zähler angepasst.
* Der Methode _incc(self,cat)_ wird die Kategorie _cat_ des gerade eingelesenen Dokuments übergeben. In der Methode wird der _cc_-Zähler angepasst.
* Die Methode _fcount(self,f,cat)_ gibt die Häufigkeit des Worts _f_ in den Dokumenten der Kategorie _cat_ zurück.
* Die Methode _catcount(self,cat)_ gibt die Anzahl der Dokumente in der Kategorie _cat_ zurück.
* Die Methode _totalcount(self)_ gibt die Anzahl aller Dokumente zurück.
* Der Methode _train(self,item,cat)_ wird ein neues Trainingselement, bestehend aus der Betreffzeile (_item_) und der entsprechenden Kategorisierung (_cat_) übergeben. Der String _item_ wird mit der Instanzmethode _getfeatures_ (Diese referenziert _getwords()_) in Worte zerlegt. Für jedes einzelne Wort wird dann _incf(self,f,cat)_ aufgerufen. Ausserdem wird für das neue Trainingsdokument die Methode _incc(self,cat)_ aufgerufen.
* Die Methode _fprob(self,f,cat)_ berechnet die bedingte Wahrscheinlichkeit $P(f | cat)$ des Wortes _f_ in der Kategorie _cat_ entsprechend der oben angegebenen Formeln, indem sie den aktuellen Stand des Zählers _fc(f,cat)_ durch den aktuellen Stand des Zählers _cc(cat)_ teilt.   
* Die Methode _fprob(self,f,cat)_ liefert evtl. ungewollt extreme Ergebnisse, wenn noch wenig Wörter im Klassifizierer verbucht sind. Kommt z.B. ein Wort erst einmal in den Trainingsdaten vor, so wird seine Auftrittswahrscheinlichkeit in der Kategorie in welcher es nicht vorkommt gleich 0 sein. Um extreme Wahrscheinlichkeitswerte im Fall noch selten vorkommender Werte zu vermeiden, soll zusätzlich zur Methode _fprob(self,f,cat)_ die Methode _weightedprob(self,f,cat)_ implementiert und angewandt werden. Der von ihr zurückgegebene Wahrscheinlichkeitswert könnte z.B. wie folgt berechnet werden:$$wprob=\frac{initprob+count \cdot fprob(self,f,cat)}{1+count},$$ wobei $initprob$ ein initialer Wahrscheinlichkeitswert (z.B. 0.5) ist, welcher zurückgegeben werden soll, wenn das Wort noch nicht in den Trainingsdaten aufgetaucht ist. Die Variable $count$ zählt wie oft das Wort $f$ bisher in den Trainingsdaten auftrat. Wie zu erkennen ist, nimmt der Einfluss der initialen Wahrscheinlichkeit ab, je häufiger das Wort in den Trainingsdaten auftrat.
* Nach dem Training soll ein beliebiges neues Dokument (Text-String) eingegeben werden können. Für dieses soll mit der Methode _prob(self,item,cat)_ die a-posteriori-Wahrscheinlichkeit $P(cat|item)$ (Aufgrund der Vernachlässigung der Evidenz handelt es sich hierbei genaugenommen um das Produkt aus a-posteriori-Wahrscheinlichkeit und Evidenz), mit der das Dokument _item_ in die Kategorie _cat_ fällt berechnet werden. Innerhalb der Methode _prob(self,item,cat)_ soll zunächst die Methode _weightedprob(self,f,cat)_ für alle Wörter $f$ im Dokument _item_ aufgerufen werden. Die jeweiligen Rückgabewerte von _weightedprob(self,f,cat)_ werden multipliziert. Das Produkt der Rückgabewerte von _weightedprob(self,f,cat)_ über alle Wörter $f$ im Dokument muss schließlich noch mit der a-priori Wahrscheinlichkeit $P(G)$ bzw. $P(B)$ entsprechend der oben aufgeführten Formeln multipliziert werden. Das Resultat des Produkts wird an das aufrufende Programm zurück gegeben, die Evidenz wird also vernachlässigt (wie oben begründet).



Ein Dokument _item_ wird schließlich der Kategorie _cat_ zugeteilt, für welche die Funktion _prob(self,item,cat)_ den höheren Wert zurück gibt. Da die Rückgabewerte in der Regel sehr klein sind, werden in der Regel folgende Werte angezeigt. Wenn mit $g$ der Rückgabewert von _prob(self,item,cat=G)_ und mit $b$ der Rückgabewert von _prob(self,item,cat=B)_ bezeichnet wird dann ist die Wahrscheinlichkeit, dass $item$ in die Kategorie $G$ fällt, gleich:
$$
\frac{g}{g+b}
$$
und die Wahrscheinlichkeit, dass $item$ in die Kategorie $B$ fällt, gleich:
$$
\frac{b}{g+b}
$$

In [130]:
class Classifier:
    def __init__(self, getfeatures, cat1, cat2, useTfIdf=False):
        self.fc = {}
        self.cat1 = cat1
        self.cat2 = cat2
        self.cc = {cat1: 0, cat2: 0}
        self.getfeatures = getfeatures
        self.tfidf = useTfIdf
        if useTfIdf:
            self.bowDict = {}
            self.bowMatrix = pd.DataFrame
            self.docCount = 0
            self.getfeatures = getWordsCounted

    def incf(self, f, cat):
        if f not in list(self.fc.keys()):
            self.fc[f] = {self.cat1: 0, self.cat2: 0}
        self.fc[f][cat] += 1

    def incc(self, cat):
        self.cc[cat] += 1

    def fcount(self, f, cat):
        return self.fc[f][cat]

    def catcount(self, cat):
        return self.cc[cat]

    def totalcount(self):
        catcounts = np.array(list(self.cc.values()))
        return catcounts.sum()

    def train(self, item, cat):
        self.incc(cat)
        if self.tfidf == False:
            wordList = self.getfeatures(item)
            [self.incf(word, cat) for word in wordList]
        else:
            self.docCount += 1
            wordDict = self.getfeatures(item)
            docDict = {'cat': cat, 'words': wordDict}
            self.bowDict['doc' + str(self.docCount)] = docDict

    def fprob(self, f, cat):
        return self.fcount(f, cat) / self.catcount(cat)

    def weightedprob(self, f, cat):
        initprob = 0.5
        if self.tfidf:
            count = self.bowMatrix.loc[self.bowMatrix[f] > 0][f].size
            fprob = np.array(self.bowMatrix.loc[self.bowMatrix['categoryLabel'] == cat][f]).sum() / self.catcount(cat)
        else:
            if f in self.fc.keys():
                values = list(self.fc[f].values())
                count = np.array(values).sum()
                fprob = self.fprob(f, cat)
            else:
                count = 0
                fprob = 0
        return (initprob + count * fprob) / (1 + count)

    def classify(self, item):
        catList = list(self.cc.keys())
        resultDict = {}
        if self.tfidf == False:
            for cat in catList:
                probproduct = self.prob(item, cat)
                catprob = self.catcount(cat) / self.totalcount()
                resultDict[probproduct * catprob] = cat
        else:
            self.bowMatrix = self.buildBowMatrix()
            self.bowMatrix = self.buildTfIdfMatrix(self.bowMatrix)
            for cat in catList:
                probproduct = self.prob(item, cat)
                catprob = self.catcount(cat) / self.totalcount()
                resultDict[probproduct * catprob] = cat
        return resultDict

    def buildBowMatrix(self):
        columns = set()
        for k, v in self.bowDict.items():
            columns = columns | set(v['words'].keys())
        columnList = list(columns)
        columnList.append('categoryLabel')
        bowMatrix = pd.DataFrame(columns=columnList)
        for k, v in self.bowDict.items():
            docValues = []
            wordList = v['words'].keys()
            for word in columns:
                if word in wordList and word != 'categoryLabel':
                    docValues.append(v['words'][word])
                elif word != 'categoryLabel':
                    docValues.append(0)
                else:
                    pass
            docValues.append(v['cat'])
            bowMatrix.loc[k] = docValues
        return bowMatrix

    def buildTfIdfMatrix(self, bowMatrix):
        for col in bowMatrix.columns.values:
            if col != 'categoryLabel':
                idf = math.log(self.docCount / bowMatrix.loc[bowMatrix[col] > 0, col].size, 10)
                bowMatrix[col] *= idf
        return bowMatrix

    def prob(self, item, cat):
        itemprobs = []
        for word in self.getfeatures(item):
            itemprobs.append(self.weightedprob(word, cat))
        probproduct = 1
        for probability in itemprobs:
            probproduct *= probability
        return probproduct

## Test

**Aufgabe:**
Instanzieren Sie ein Objekt der Klasse _Classifier_ und übergeben Sie der _train()_ Methode dieser Klasse mindestens 8 kategorisierte Dokumente (Betreffzeilen als Stringvariablen zusammen mit der Kategorie Good oder Bad). Definieren Sie dann ein beliebig neues Dokument und berechnen Sie für dieses die Kategorie, in welches es mit größter Wahrscheinlichkeit fällt. Benutzen Sie für den Test das in 
[NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf)
ausführlich beschriebene Beispiel zu implementieren. Berechnen Sie die Klassifikatorausgabe des Satzes _the money jumps_.

In [131]:
classifier = Classifier(getWordList, 'good', 'bad')

trainData = {'the quick rabbit jumps fences': 'good',
             'buy pharmaceuticals now': 'bad',
             'make quick money at the online casino': 'bad',
             'the quick brown fox jumps': 'good',
             'next meeting is at night': 'good',
             'meeting with your superstar': 'bad',
             'money like water': 'bad',
             'nobody owns the water': 'good'}

for key, value in list(trainData.items()):
    classifier.train(key, value)

print((classifier.classify("the money jumps")))

{0.029166666666666664: 'good', 0.012499999999999999: 'bad'}


## Klassifikation von RSS Newsfeeds
Mit dem unten gegebenen Skript werden Nachrichten verschiedener Newsserver geladen und als String abgespeichert.

**Aufgaben:**
1. Trainieren Sie Ihren Naive Bayes Classifier mit allen Nachrichten der in den Listen _trainTech_ und _trainNonTech_ definierten Servern. Weisen Sie für das Training allen Nachrichten aus _trainTech_ die Kategorie _Tech_ und allen Nachrichten aus _trainNonTech_ die Kategorie _NonTech_ zu.
2. Nach dem Training sollen alle Nachrichten aus der Liste _test_ vom Naive Bayes Classifier automatisch klassifiziert werden. Gehen Sie davon aus, dass alle Nachrichten von [http://rss.golem.de/rss.php?r=sw&feed=RSS0.91](http://rss.golem.de/rss.php?r=sw&feed=RSS0.91) tatsächlich von der Kategorie _Tech_ sind und alle Nachrichten von den beiden anderen Servern in der Liste _test_ von der Kategorie _NonTech_ sind. Bestimmen Sie die _Konfusionsmatrix_ und die _Accuracy_ sowie für beide Klassen _Precision, Recall_ und _F1-Score_. Diese Qualitätsmetriken sind z.B. in [NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf) definiert.
3. Diskutieren Sie das Ergebnis
4. Wie könnte die Klassifikationsgüte durch Modifikation der _getwords()_-Methode verbessert werden? Implementieren Sie diesen Ansatz und vergleichen Sie das Ergebnis mit dem des ersten Ansatzes.

In [132]:
import feedparser
import pandas as pd
from sklearn.metrics import confusion_matrix, accuracy_score, precision_recall_fscore_support
from IPython.display import display


def stripHTML(h):
  p=''
  s=0
  for c in h:
    if c=='<': s=1
    elif c=='>':
      s=0
      p+=' '
    elif s==0:
      p+=c
  return p


trainTech=[# not working anymore, using instead one line below:'http://rss.chip.de/c/573/f/7439/index.rss',
            'http://www.chip.de/rss/rss_tests.xml',
           #'http://feeds.feedburner.com/netzwelt',
            'http://rss1.t-online.de/c/11/53/06/84/11530684.xml',
            'http://www.computerbild.de/rssfeed_2261.xml?node=13',
            'http://www.heise.de/newsticker/heise-top-atom.xml']

trainNonTech=['http://newsfeed.zeit.de/index',
              'http://newsfeed.zeit.de/wirtschaft/index',
              'http://www.welt.de/politik/?service=Rss',
              'http://www.spiegel.de/schlagzeilen/tops/index.rss',
              'http://www.sueddeutsche.de/app/service/rss/alles/rss.xml',
              'http://www.faz.net/rss/aktuell/'
              ]
test=["http://rss.golem.de/rss.php?r=sw&feed=RSS0.91",
          'http://newsfeed.zeit.de/politik/index',  
          'http://www.welt.de/?service=Rss'
           ]

countnews={}
countnews['tech']=0
countnews['nontech']=0
countnews['test']=0
print("--------------------News from trainTech------------------------")
for feed in trainTech:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
      print('\n---------------------------')
      fulltext=stripHTML(e.title+' '+e.description)
      print(fulltext)
      countnews['tech']+=1
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print("--------------------News from trainNonTech------------------------")
for feed in trainNonTech:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
      print('\n---------------------------')
      fulltext=stripHTML(e.title+' '+e.description)
      print(fulltext)
      countnews['nontech']+=1
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print("--------------------News from test------------------------")
for feed in test:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
      print('\n---------------------------')
      fulltext=stripHTML(e.title+' '+e.description)
      print(fulltext)
      countnews['test']+=1
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print('Number of used trainings samples in categorie tech',countnews['tech'])
print('Number of used trainings samples in categorie notech',countnews['nontech'])
print('Number of used test samples',countnews['test'])
print('--'*30)

--------------------News from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml

---------------------------
Test: Vampyr (Action, PC)   Vampyr ist ein Action-Adventure mit toller Atmosphäre, interessanter Geschichte und einem unverbrauchten Setting. Optisch fährt das Projekt der Life-is-Strange-Macher von Dontnod Entertainment nicht die ganz großen Geschütze auf, setzt das London des frühen 20. Jahrhundert aber immerhin ordentlich ins Szene. Das ziemlich klobige PC-Kampfsystem und einige

---------------------------
Elektrogrills im Check   Mit einem Elektrogrill lassen sich Steak und Co. jederzeit und überall zubereiten, wo eine Steckdose in der Nähe ist. Wir sagen Ihnen, was die Elektro-Variante zudem zum Must-Have macht und zeigen Ihnen drei der Top-Modelle.

---------------------------
Test: Medion MD 17225 (Saugroboter) im Test   Mit dem Medion MD 17225 will der deutsche Hersteller nach dem TV- und PC-Markt auch das Saugroboter-


---------------------------
Sonos Beam: Soundbar mit Alexa und Siri Die neue günstige Soundbar lässt mit ihrer Ausstattung Konkurrenten ziemlich alt aussehen. COMPUTER BILD verrät die Details.

---------------------------
BlackBerry Key2: Preis und technische Daten geleakt Am 7. Juni stellt BlackBerry das Tasten-Smartphone BlackBerry Key2 vor. Noch vor der Präsentation sind das Datenblatt und der Preis durchgesickert.

---------------------------
Von „Olé olé“ bis „O weh o weh“: Die WM-Songs 2018 Was wäre die WM ohne ihre Songs? Richtig, nur halb so schön. COMPUTER BILD hat daher die heißesten Anwärter auf die besten WM-Hymnen für Sie parat!

---------------------------
Fotowettbewerb: Gewinner des Themas „In Bewegung“ Eine Woche, zahlreiche tolle Bilder: Schaue Sie sich die Fotos des Wochenthemas „In Bewegung“ an, die der Jury besonders gut gefielen.

---------------------------
Ab 7. Juni bei Media Markt: Jeder 11. Einkauf fast gratis Ein neuer Fernseher oder andere Technik muss vor


---------------------------
„Wir brauchen einen stärkeren Hebel“ Deutschland allein kann afrikanische Staaten kaum zwingen, abgelehnte Asylbewerber zurückzunehmen. Die FDP fordert deshalb die EU auf, mit einer gemeinsamen Entwicklungspolitik den nötigen Druck zu erzeugen.

---------------------------
FDP fordert von der EU mehr Druck auf afrikanische Staaten auszuüben Ein Hauptproblem bei der Abschiebung ist die Weigerung afrikanischer Staaten, die Landsleute wieder aufzunehmen. Darum fordert die FDP die EU jetzt auf, mit einer gemeinsamen Entwicklungspolitik hier mehr Druck auszuüben.

---------------------------
„Das drückt einen sofort in die rechte Ecke“ Im Grünen-Milieu ist der Heimatbegriff hoch kontrovers. Fraktionschefin Göring-Eckardt versucht bei einer Debatte mit ihr politisch Nahestehenden eine Annäherung. Die Meinungen gehen weit auseinander. Und am Ende wird es widersprüchlich.

---------------------------
Merkel setzt sich für Aufbau eines europäischen Asylsystems ein „


---------------------------
Rücken- und Knieprobleme: Özil verpasst wohl letzten WM-Test   Mesut Özil kommt nicht zur Ruhe: Erst verfolgte ihn die Debatte um die Fotos mit dem türkischen Präsidenten Erdoğan, jetzt plagt ihn noch eine Knieprellung. 

---------------------------
Länderspiel: Deutsche Handballer unterliegen Norwegen   Das Team von Bundestrainer Prokop verliert gegen den WM-Zweiten 25:30. Nur in der ersten Halbzeit kann die DHB-Auswahl mit den Gästen mithalten. 

---------------------------
Polizei sucht Zeugen: Unbekannter rammt geparktes Auto   

---------------------------
Reden wir über: Kreative Pienzenauer  Wählergemeinschaft will aus Bürgern Künstler machen 

---------------------------
Einigung in Sicht: Sicher durch den Forst  Radweg zwischen  Hohenlinden und Ebersberg  wird realisiert 

---------------------------
In St. Aegidius: Singend beten   

---------------------------
Mitten in Ebersberg: Besser als Hamburg  Im direkten Vergleich schneidet die Hansestadt


---------------------------
Die WELT-Nachrichten im Stream Nachrichten im Livestream – von Montag bis Freitag immer zwischen 7:00 Uhr und 21:00 Uhr und am Wochenende von 9:00 Uhr bis 21:00 Uhr neueste Informationen aus aller Welt zu Politik, Wirtschaft und Sport.

---------------------------
„Wir brauchen einen stärkeren Hebel“ Deutschland allein kann afrikanische Staaten kaum zwingen, abgelehnte Asylbewerber zurückzunehmen. Die FDP fordert deshalb die EU auf, mit einer gemeinsamen Entwicklungspolitik den nötigen Druck zu erzeugen.

---------------------------
Mindestens ein Toter nach Verfolgungsjagd in Berlin Schlimmes Ende einer Verfolgungsjagd in Berlin-Charlottenburg: Eine Radfahrerin kam bei einem schweren Autonfall ums Leben, mehrere Menschen wurden schwer verletzt. Insgesamt waren vier Autos an dem Unfall beteiligt.

---------------------------
FDP fordert von der EU mehr Druck auf afrikanische Staaten auszuüben Ein Hauptproblem bei der Abschiebung ist die Weigerung afrikanisc

In [133]:
def trainTheTechClassifier(techClassifier):

    print("--------------------Training with news from trainTech------------------------")
    for feed in trainTech:
        print("*"*30)
        print(feed)
        f=feedparser.parse(feed)
        for e in f.entries:
            fulltext=stripHTML(e.title+' '+e.description)
            techClassifier.train(fulltext, 'tech')
    print("------------------------------- done ---------------------------------")

    print("--------------------Training with news from trainNonTech------------------------")
    for feed in trainNonTech:
        print("*"*30)
        print(feed)
        f=feedparser.parse(feed)
        for e in f.entries:
            fulltext=stripHTML(e.title+' '+e.description)
            techClassifier.train(fulltext, 'nonTech')
    print("------------------------------- done ---------------------------------")
    return techClassifier

In [134]:
techClassifier = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech'))

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

In [135]:
def classifyRSSDocuments(techClassifier):
    resultDF = pd.DataFrame(columns=['label', 'classifierResult'])
    print("--------------------Classify the news from test------------------------")
    feedCount = 0
    for feed in test:
        feedCount += 1
        messageCount = 0
        print("*"*30)
        print(feed)
        f=feedparser.parse(feed)
        if feed == 'http://rss.golem.de/rss.php?r=sw&feed=RSS0.91':
            category = 'tech'
        else:
            category = 'nonTech'
        for e in f.entries:
            messageCount += 1
            print('\n---------------------------')
            fulltext=stripHTML(e.title+' '+e.description)
            result = techClassifier.classify(fulltext)
            print("result of the following article: ", result[sorted(result.keys())[-1]])
            print(fulltext)
            resultDF.loc['feed:'+str(feedCount)+',message:'+str(messageCount)] = [category, result[sorted(result.keys())[-1]]]
    print("----------------------------------------------------------------")
    return resultDF

In [136]:
resultDF = classifyRSSDocuments(techClassifier)
display(resultDF)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
result of the following article:  tech
KDE: KWin-Maintainer Martin Flöser tritt zurück Martin Flöser, vormals Gräßlin, ist von seiner Position als Hauptentwickler und Betreuer des KDE Windowmanagers KWin zurückgetreten. Grund sind offenbar Reibereien zwischen einigen Designern und Entwicklern. ( KDE ,  Linux )  

---------------------------
result of the following article:  tech
MacOS 10.14 Mojave: Apple verabschiedet OpenGL und verbessert Machine Learning Vier Jahre nach der Einführung der Metal-Schnittstelle mustert Apple OpenGL und OpenCL aus. Außerdem hat das Unternehmen die Verwendung von trainierten Modellen beschleunigt und erleichtert das Erstellen eigener Modelle. Hinzu kommen natürliche Sprachverarbeitung und ein Netzwerk-Framework. ( Mac OS ,  Apple )  

---------------------------
result of the foll

---------------------------
result of the following article:  tech
Russland: Eine komplizierte Beziehung     Unterdrückung von Journalisten, Giftanschläge und Syrien – der Westen ist nicht gut zu sprechen auf Russland. Bringt die Fußball-WM einen Wandel?

---------------------------
result of the following article:  tech
Aufrüstung: EU will 6,5 Milliarden Euro für panzertaugliche Straßen ausgeben     Sorge vor Russland: Panzer sollen nach EU-Willen besser durch Europa rollen können, dafür sind Milliarden eingeplant. Und die Nato errichtet ein neues Kommando in Ulm.

---------------------------
result of the following article:  tech
Stadt-Land-Gefälle: Russland mal vier     Es gibt nicht nur ein Russland, mindestens vier jedenfalls. Das Gefälle zwischen Stadt und Land ist riesig, aber längst nicht der einzige Gegensatz.

---------------------------
result of the following article:  tech
Linke Sammlungsbewegung: "Lafontaine und Wagenknecht sind eine schwere Hypothek"     Eine linke Samml

Unnamed: 0,label,classifierResult
"feed:1,message:1",tech,tech
"feed:1,message:2",tech,tech
"feed:1,message:3",tech,tech
"feed:1,message:4",tech,tech
"feed:1,message:5",tech,tech
"feed:1,message:6",tech,tech
"feed:1,message:7",tech,tech
"feed:1,message:8",tech,tech
"feed:1,message:9",tech,tech
"feed:1,message:10",tech,tech


In [137]:
def createPrecisionRecallF1ScoreDF(resultDF):
    precision_recall_Values = precision_recall_fscore_support(resultDF.label,
                                                              resultDF.classifierResult,
                                                              labels=['tech', 'nonTech'])
    precisionRecallDF = pd.DataFrame(columns=['Precision', 'Recall', 'F1-Score'])
    precisionRecallDF.loc['tech'] = [precision_recall_Values[0][0],
                                     precision_recall_Values[1][0],
                                     precision_recall_Values[2][0]]
    precisionRecallDF.loc['nonTech'] = [precision_recall_Values[0][1],
                                        precision_recall_Values[1][1],
                                        precision_recall_Values[2][1]]
    return precisionRecallDF

In [138]:
def createConfusionMatrixDF(resultDF):
    return pd.DataFrame(index=['tech', 'nonTech'],
                     columns=['tech', 'nonTech'],
                     data=confusion_matrix(resultDF.label, resultDF.classifierResult, labels=['tech', 'nonTech']))

In [139]:
display(createConfusionMatrixDF(resultDF))

Unnamed: 0,tech,nonTech
tech,40,0
nonTech,32,13


In [140]:
print('Accuracy:', accuracy_score(resultDF.label, resultDF.classifierResult))

Accuracy: 0.6235294117647059


In [141]:
display(createPrecisionRecallF1ScoreDF(resultDF))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.555556,1.0,0.714286
nonTech,1.0,0.288889,0.448276


#### Aufgabe 4
Für alle bisherigen Kalkulationen wurde die Funktion ***getWordList(document)*** verwendet. Sie gibt eine Liste der im Dokument vorkommenden Wörter zurück. Das hat zur Folge, dass Worthäufigkeiten in die Klassifikationentscheidung mit einfließen. Wir definieren nun noch eine Funktion, die zur Klassifikationsentscheidung einfach nur True/False-Werte für das Auftreten eines Wortes in einem Dokument verwendet und eine Funktion, die die Klassifikationsentscheidung auf Basis von tf-idf-Werten trifft.

##### Nutzung von True/False-Werten

In [142]:
def getWordSet(doc):
    return set(getWordList(doc))

techClassifier2 = trainTheTechClassifier(Classifier(getWordSet, 'tech', 'nonTech'))
resultDF2 = classifyRSSDocuments(techClassifier2)

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------


---------------------------
result of the following article:  nonTech
Richard Grenell: US-Botschafter "unglücklich" über Reaktionen auf Interview     Trumps Vertrauter will "atmosphärisch die Voraussetzungen für enge Zusammenarbeit" mit Deutschland schaffen. Mit seinen Äußerungen war er zuvor auf Kritik gestoßen.

---------------------------
result of the following article:  nonTech
Pedro Sánchez: Zapateros Erbe     Spaniens neuer linker Ministerpräsident Pedro Sánchez will das Land modernisieren – wie schon der letzte Sozialist im Amt. Wie gut stehen dafür die Chancen?

---------------------------
result of the following article:  nonTech
Asyllagebericht: Merkel will Abschiebestopp nach Afghanistan komplett aufheben     Wegen der Sicherheitslage hatte Deutschland Abschiebungen nach Afghanistan eingeschränkt. Angela Merkel plädiert nun für einen Kurswechsel. Die SPD protestiert.

---------------------------
result of the following article:  nonTech
EU-Asylpolitik: Auch Österreich plan

In [143]:
display(createConfusionMatrixDF(resultDF2))

Unnamed: 0,tech,nonTech
tech,39,1
nonTech,33,12


In [144]:
print('Accuracy:', accuracy_score(resultDF2.label, resultDF2.classifierResult))

Accuracy: 0.6


In [145]:
display(createPrecisionRecallF1ScoreDF(resultDF2))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.541667,0.975,0.696429
nonTech,0.923077,0.266667,0.413793


##### Nutzung von tf-idf-Werten

In [146]:
techClassifier3 = trainTheTechClassifier(Classifier(getWordsCounted, 'tech', 'nonTech', useTfIdf=True))
resultDF3 = classifyRSSDocuments(techClassifier2)

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------


---------------------------
result of the following article:  tech
Spionage: Kanadischer Yahoo-Hacker in den USA verurteilt Ein junger Kanadier ist in den USA wegen seiner Beteiligung am Hack von 500.000 Yahoo-Nutzerkonten verurteilt worden. Er soll Profile ausspioniert und die Informationen an den russischen Geheimdienst weitergegeben haben. ( Security ,  Yahoo )  

---------------------------
result of the following article:  tech
Apple: WatchOS 4.3.1 und TVOS 11.4 veröffentlicht Die Betriebssysteme für die Apple Watch und das Apple TV erhalten Updates, kurz bevor neue Hauptversionen vorgestellt werden. Während WatchOS 4.3.1 kaum erkennbare Neuerungen bietet, sorgt das neue TVOS 11.4 dafür, dass das Apple TV mit Airplay 2 kompatibel wird. ( TVOS ,  Apple )  

---------------------------
result of the following article:  tech
Airplay 2 und Nachrichten in der iCloud: Apple gibt iOS 11.4 frei Apple hat nach langer Betaphase die finale Version von iOS 11.4 für iPhones und iPads sowie de


---------------------------
result of the following article:  tech
Die WELT-Nachrichten im Stream Nachrichten im Livestream – von Montag bis Freitag immer zwischen 7:00 Uhr und 21:00 Uhr und am Wochenende von 9:00 Uhr bis 21:00 Uhr neueste Informationen aus aller Welt zu Politik, Wirtschaft und Sport.

---------------------------
result of the following article:  nonTech
„Wir brauchen einen stärkeren Hebel“ Deutschland allein kann afrikanische Staaten kaum zwingen, abgelehnte Asylbewerber zurückzunehmen. Die FDP fordert deshalb die EU auf, mit einer gemeinsamen Entwicklungspolitik den nötigen Druck zu erzeugen.

---------------------------
result of the following article:  nonTech
Mindestens ein Toter nach Verfolgungsjagd in Berlin Schlimmes Ende einer Verfolgungsjagd in Berlin-Charlottenburg: Eine Radfahrerin kam bei einem schweren Autonfall ums Leben, mehrere Menschen wurden schwer verletzt. Insgesamt waren vier Autos an dem Unfall beteiligt.

---------------------------
result of t

In [147]:
display(createConfusionMatrixDF(resultDF3))

Unnamed: 0,tech,nonTech
tech,39,1
nonTech,33,12


In [148]:
print('Accuracy:', accuracy_score(resultDF3.label, resultDF3.classifierResult))

Accuracy: 0.6


In [149]:
display(createPrecisionRecallF1ScoreDF(resultDF3))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.541667,0.975,0.696429
nonTech,0.923077,0.266667,0.413793
