# Data Mining Versuch Document Classification
* Autor: Prof. Dr. Johannes Maucher
* Datum: 06.11.2015

[Übersicht Ipython Notebooks im Data Mining Praktikum](Data Mining Praktikum.ipynb)

# Einführung
## Lernziele:
In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Dokumentklassifikation: Klassifikation von Dokumenten, insbesondere Emails und RSS Feed
* Naive Bayes Classifier: Weit verbreitete Klassifikationsmethode, welche unter bestimmten Randbedingungen sehr gut skaliert.


## Theorie zur Vorbereitung
### Parametrische Klassifikation und Naive Bayes Methode
Klassifikatoren müssen zu einer gegebenen Eingabe $\underline{x}$ die zugehörige Klasse $C_i$ bestimmen. Mithilfe der Wahrscheinlichkeitstheorie kann diese Aufgabe wie folgt beschrieben werden: Bestimme für alle möglichen Klassen $C_i$ die bedingte Wahrscheinlichkeit $P(C_i | \underline{x})$, also die Wahrscheinlichkeit, dass die gegebene Eingabe $\underline{x}$ in Klasse $C_i$ fällt. Wähle dann die Klasse aus, für welche diese Wahrscheinlichkeit maximal ist.

Die Entscheidungsregeln von Klassifikatoren können mit Methoden des ""überwachten Lernens"" aus Trainingsdaten ermittelt werden. Im Fall des **parametrischen Lernens** kann aus den Trainingsdaten die sogenannte **Likelihood-Funktion** $p(\underline{x} \mid C_i)$ bestimmt werden. _Anmerkung:_ Allgemein werden mit $p(...)$ kontinuierliche Wahrscheinlichkeitsfunktionen und mit $P(...)$ diskrete Wahrscheinlichkeitswerte bezeichnet. 

Mithilfe der **Bayes-Formel**
$$
P(C_i \mid \underline{x}) = \frac{p(\underline{x} \mid C_i) \cdot P(C_i)}{p(\underline{x})}
$$

kann aus der Likelihood die **a-posteriori-Wahrscheinlichkeit $P(C_i \mid \underline{x})$** berechnet werden. Darin wird $P(C_i)$ die **a-priori-Wahrscheinlichkeit** und $p(\underline{x})$ die **Evidenz** genannt. Die a-priori-Wahrscheinlichkeit kann ebenfalls aus den Trainingsdaten ermittelt werden. Die Evidenz ist für die Klassifikationsentscheidung nicht relevant, da sie für alle Klassen $C_i$ gleich groß ist.

Die Berechnung der Likelihood-Funktion $p(\underline{x} \mid C_i)$ ist dann sehr aufwendig, wenn $\underline{x}=(x_1,x_2,\ldots,x_Z)$ ein Vektor von voneinander abhängigen Variablen $x_i$ ist. Bei der **Naive Bayes Classification** wird jedoch von der vereinfachenden Annahme ausgegangen, dass die Eingabevariabeln $x_i$ voneinander unabhängig sind. Dann vereinfacht sich die bedingte Verbundwahrscheinlichkeits-Funktion $p(x_1,x_2,\ldots,x_Z \mid C_i)$ zu:

$$
p(x_1,x_2,\ldots,x_Z \mid C_i)=\prod\limits_{j=1}^Z p(x_j | C_i)
$$

### Anwendung der Naive Bayes Methode in der Dokumentklassifikation
Auf der rechten Seite der vorigen Gleichung stehen nur noch von den jeweils anderen Variablen unabhängige bedingte Wahrscheinlichkeiten. Im Fall der Dokumentklassifikation sind die einzelnen Worte die Variablen, d.h. ein Ausdruck der Form $P(x_j | C_i)$ gibt an mit welcher Wahrscheinlichkeit ein Wort $x_j=w$ in einem Dokument der Klasse $C_i$ vorkommt. 
Die Menge aller Variablen $\left\{x_1,x_2,\ldots,x_Z \right\}$ ist dann die Menge aller Wörter im Dokument. Damit gibt die linke Seite in der oben gegebenen Gleichung die _Wahrscheinlichkeit, dass die Wörter $\left\{x_1,x_2,\ldots,x_Z \right\}$ in einem Dokument der Klasse $C_i$ vorkommen_ an.

Für jedes Wort _w_ wird aus den Trainingsdaten die Wahrscheinlichkeit $P(w|G)$, mit der das Wort in Dokumenten der Kategorie _Good_ und die Wahrscheinlichkeit $P(w|B)$ mit der das Wort in Dokumenten der Kategorie _Bad_ auftaucht ermittelt. Trainingsdokumente werden in der Form

$$
tD=(String,Category)
$$
eingegeben. 

Wenn 

* mit der Variable $fc(w,cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ in denen das Wort $w$ enthalten ist
* mit der Variable $cc(cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ 

gezählt wird, dann ist 

$$
P(w|G)=\frac{fc(w,G)}{cc(G)} \quad \quad P(w|B)=\frac{fc(w,B)}{cc(B)}.
$$

Wird nun nach der Eingabe von $L$ Trainingsdokumenten ein neu zu klassifizierendes Dokument $D$ eingegeben und sei $W(D)$ die Menge aller Wörter in $D$, dann berechnen sich unter der Annahme, dass die Worte in $W(D)$ voneinander unabhängig sind (naive Bayes Annahme) die a-posteriori Wahrscheinlichkeiten zu:

$$
P(G|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | G) \right) \cdot P(G)}{p(D)}
$$
und
$$
P(B|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | B) \right) \cdot P(B)}{p(D)}.
$$

Die hierfür notwendigen a-priori-Wahrscheinlichkeiten berechnen sich zu 

$$
P(G)=\frac{cc(G)}{L}
$$
und
$$
P(B)=\frac{cc(B)}{L}
$$

Die Evidenz $p(D)$ beeinflusst die Entscheidung nicht und kann deshalb ignoriert werden.


## Vor dem Versuch zu klärende Fragen


1. Wie wird ein Naive Bayes Classifier trainiert? Was muss beim Training für die spätere Klassifikation abgespeichert werden?
2. Wie teilt ein Naiver Bayes Classifier ein neues Dokument ein?
3. Welche naive Annahme liegt dem Bayes Classifier zugrunde? Ist diese Annahme im Fall der Dokumentklassifikation tatsächlich gegeben?
4. Betrachten Sie die Formeln für die Berechnung von $P(G|D)$ und $P(B|D)$. Welches Problem stellt sich ein, wenn in der Menge $W(D)$ ein Wort vorkommt, das nicht in den Trainingsdaten der Kategorie $G$ vorkommt und ein anderes Wort aus $W(D)$ nicht in den Trainingsdaten der Kategorie $B$ enthalten ist? Wie könnte dieses Problem gelöst werden? 



#### Aufgabe 1


#### Aufgabe 2


#### Aufgabe 3


#### Aufgabe 4

##### Anmerkung für alle Teilaufgaben

Im unteren Zeilenabschnitt werden alle für den Versuch benötigten Packages und Module eingelesen, so das wir alle imports an einer Stelle wiederfinden.

In [15]:
import re
from IPython.display import display

# Durchführung
## Feature Extraction/ -Selection

**Aufgabe:**
Implementieren Sie eine Funktion _getwords(doc)_, der ein beliebiges Dokument in Form einer String-Variablen übergeben wird. In der Funktion soll der String in seine Wörter zerlegt und jedes Wort in _lowercase_ transformiert werden. Wörter, die weniger als eine untere Grenze von Zeichen (z.B. 3) oder mehr als eine obere Grenze von Zeichen (z.B. 20) enthalten, sollen ignoriert werden. Die Funktion soll ein dictionary zurückgeben, dessen _Keys_ die Wörter sind. Die _Values_ sollen für jedes Wort zunächst auf $1$ gesetzt werden.

**Tipp:** Benutzen Sie für die Zerlegung des Strings und für die Darstellung aller Wörter mit ausschließlich kleinen Buchstaben die Funktionen _split(), strip('sep')_ und _lower()_ der Klasse _String_.  


##### Anmerkung

###### Codebeschreibung

In der darunterliegenden Implementierung werden im ersten Schritt, wenn nötig, die Umlaute ersetzt.

In [33]:
# -*- coding: utf-8 -*-

def getwords(doc, mi=3, ma=20):
    #remove unwanted characters
    nonAlpha = re.compile('[^a-zäöüß]')
    doc = nonAlpha.sub(' ', doc.lower())
    #create a dictionary containing each word
    clean = doc.split(' ')
    worddict = {}
    for w in clean:
        if mi <= len(w) <= ma:
            worddict[w] = 1

    return worddict

## Classifier

**Aufgabe:**
Implementieren Sie den Naive Bayes Classifier für die Dokumentklassifikation. Es bietet sich an die Funktionalität des Klassifikators und das vom Klassifikator gelernte Wissen in einer Instanz einer Klasse _Classifier_ zu kapseln. In diesem Fall kann wie folgt vorgegangen werden:

* Im Konstruktor der Klasse wird je ein Dictionary für die Instanzvariablen _fc_ und _cc_ (siehe oben) initialisiert. Dabei ist _fc_ ein verschachteltes Dictionary. Seine Keys sind die bisher gelernten Worte, die Values sind wiederum Dictionaries, deren Keys die Kategorien _Good_ und _Bad_ sind und deren Values zählen wie häufig das Wort bisher in Dokumenten der jeweiligen Kategorie auftrat. Das Dictionary _cc_ hat als Keys die Kategorien _Good_ und _Bad_. Die Values zählen wie häufig Dokumente der jeweiligen Kategorien bisher auftraten.
* Im Konstruktor wird ferner der Instanzvariablen _getfeatures_ die Funktion _getwords()_ übergeben. Die Funktion _getwords()_ wurde bereits zuvor ausserhalb der Klasse definiert. Sinn dieses Vorgehens ist, dass andere Varianten um Merkmale aus Dokumenten zu extrahieren denkbar sind. Diese Varianten könnten dann ähnlich wie die _getwords()_-Funktion ausserhalb der Klasse definiert und beim Anlegen eines _Classifier_-Objekts der Instanzvariablen _getfeatures_ übergeben werden.  
* Der Methode _incf(self,f,cat)_ wird ein Wort _f_ und die zugehörige Kategorie _cat_ des Dokuments in welchem es auftrat übergeben. In der Methode wird der _fc_-Zähler angepasst.
* Der Methode _incc(self,cat)_ wird die Kategorie _cat_ des gerade eingelesenen Dokuments übergeben. In der Methode wird der _cc_-Zähler angepasst.
* Die Methode _fcount(self,f,cat)_ gibt die Häufigkeit des Worts _f_ in den Dokumenten der Kategorie _cat_ zurück.
* Die Methode _catcount(self,cat)_ gibt die Anzahl der Dokumente in der Kategorie _cat_ zurück.
* Die Methode _totalcount(self)_ gibt die Anzahl aller Dokumente zurück.
* Der Methode _train(self,item,cat)_ wird ein neues Trainingselement, bestehend aus der Betreffzeile (_item_) und der entsprechenden Kategorisierung (_cat_) übergeben. Der String _item_ wird mit der Instanzmethode _getfeatures_ (Diese referenziert _getwords()_) in Worte zerlegt. Für jedes einzelne Wort wird dann _incf(self,f,cat)_ aufgerufen. Ausserdem wird für das neue Trainingsdokument die Methode _incc(self,cat)_ aufgerufen.
* Die Methode _fprob(self,f,cat)_ berechnet die bedingte Wahrscheinlichkeit $P(f | cat)$ des Wortes _f_ in der Kategorie _cat_ entsprechend der oben angegebenen Formeln, indem sie den aktuellen Stand des Zählers _fc(f,cat)_ durch den aktuellen Stand des Zählers _cc(cat)_ teilt.   
* Die Methode _fprob(self,f,cat)_ liefert evtl. ungewollt extreme Ergebnisse, wenn noch wenig Wörter im Klassifizierer verbucht sind. Kommt z.B. ein Wort erst einmal in den Trainingsdaten vor, so wird seine Auftrittswahrscheinlichkeit in der Kategorie in welcher es nicht vorkommt gleich 0 sein. Um extreme Wahrscheinlichkeitswerte im Fall noch selten vorkommender Werte zu vermeiden, soll zusätzlich zur Methode _fprob(self,f,cat)_ die Methode _weightedprob(self,f,cat)_ implementiert und angewandt werden. Der von ihr zurückgegebene Wahrscheinlichkeitswert könnte z.B. wie folgt berechnet werden:$$wprob=\frac{initprob+count \cdot fprob(self,f,cat)}{1+count},$$ wobei $initprob$ ein initialer Wahrscheinlichkeitswert (z.B. 0.5) ist, welcher zurückgegeben werden soll, wenn das Wort noch nicht in den Trainingsdaten aufgetaucht ist. Die Variable $count$ zählt wie oft das Wort $f$ bisher in den Trainingsdaten auftrat. Wie zu erkennen ist, nimmt der Einfluss der initialen Wahrscheinlichkeit ab, je häufiger das Wort in den Trainingsdaten auftrat.
* Nach dem Training soll ein beliebiges neues Dokument (Text-String) eingegeben werden können. Für dieses soll mit der Methode _prob(self,item,cat)_ die a-posteriori-Wahrscheinlichkeit $P(cat|item)$ (Aufgrund der Vernachlässigung der Evidenz handelt es sich hierbei genaugenommen um das Produkt aus a-posteriori-Wahrscheinlichkeit und Evidenz), mit der das Dokument _item_ in die Kategorie _cat_ fällt berechnet werden. Innerhalb der Methode _prob(self,item,cat)_ soll zunächst die Methode _weightedprob(self,f,cat)_ für alle Wörter $f$ im Dokument _item_ aufgerufen werden. Die jeweiligen Rückgabewerte von _weightedprob(self,f,cat)_ werden multipliziert. Das Produkt der Rückgabewerte von _weightedprob(self,f,cat)_ über alle Wörter $f$ im Dokument muss schließlich noch mit der a-priori Wahrscheinlichkeit $P(G)$ bzw. $P(B)$ entsprechend der oben aufgeführten Formeln multipliziert werden. Das Resultat des Produkts wird an das aufrufende Programm zurück gegeben, die Evidenz wird also vernachlässigt (wie oben begründet).



Ein Dokument _item_ wird schließlich der Kategorie _cat_ zugeteilt, für welche die Funktion _prob(self,item,cat)_ den höheren Wert zurück gibt. Da die Rückgabewerte in der Regel sehr klein sind, werden in der Regel folgende Werte angezeigt. Wenn mit $g$ der Rückgabewert von _prob(self,item,cat=G)_ und mit $b$ der Rückgabewert von _prob(self,item,cat=B)_ bezeichnet wird dann ist die Wahrscheinlichkeit, dass $item$ in die Kategorie $G$ fällt, gleich:
$$
\frac{g}{g+b}
$$
und die Wahrscheinlichkeit, dass $item$ in die Kategorie $B$ fällt, gleich:
$$
\frac{b}{g+b}
$$

#### Anmerkung

**Quelle**
* https://pythonprogramming.net/combine-classifier-algorithms-nltk-tutorial/

In [91]:
class Classifier():
    def __init__(self, getfeatures, classes):
        self.fc = {}
        self.classes = classes
        self.cc = self.classDict()
        self.initprob = 0.5

        self.getfeatures = getfeatures

    #creates a base dictionary to be used for each word with the classes
    def classDict(self):
        result = {}
        for cls in self.classes:
            result[cls] = 0

        return result

    #increase the passed feature's counter for the passed category
    def incf(self, f, cat):
        if f not in self.fc:
            self.fc[f] = self.classDict()

        self.fc[f][cat] += 1

    #increase the category counter for the passed category
    def incc(self, cat):
        self.cc[cat] += 1

    #returns the passed feature's counter for the passed category
    def fcount(self, f, cat):
        #get is used because it provides a default if the value does not exist
        return self.fc.get(f, {cat: 0})[cat]

    #returns the counter of the passed category
    def catcount(self, cat):
        return self.cc[cat]

    #returns the sum of all elements
    def totalcount(self):
        return sum(self.cc.itervalues())

    #train a new element and add it to the passed category
    def train(self, item, cat):
        wlist = self.getfeatures(item)
        for w in wlist:
            self.incf(w, cat)
            self.incc(cat)

    #return the probability for the passed feature for the passed category
    def fprob(self, f, cat):
        return ((float)(self.fc.get(f, {cat: 0})[cat]) / self.cc[cat])

    #calculate the weighted probability (avoids 0 for non-exististing words)
    def weightedprob(self, f, cat, initprob=0.5):
        if initprob != 0.5:
            self.initprob = 0.5

        count = 0
        for cls in self.classes:
            count += self.fcount(f, cls)

        return (self.initprob + count * self.fprob(f, cat)) / (1 + count)

    #return the weighteted probability for the passed feature for the passed category
    def prob(self, item, cat):
        product = 1

        for f in self.getfeatures(item):
            product *= self.weightedprob(f, cat)
        return (product * self.cc[cat]) / self.totalcount()

    #return the class the fits the passed item best
    def decide(self, item):
        max_val = -1
        max_cls = ''

        for cls in self.classes:
            prob = self.prob(item, cls)
            if prob > max_val:
                max_val = prob
                max_cls = cls

        return max_cls

## Test

**Aufgabe:**
Instanzieren Sie ein Objekt der Klasse _Classifier_ und übergeben Sie der _train()_ Methode dieser Klasse mindestens 8 kategorisierte Dokumente (Betreffzeilen als Stringvariablen zusammen mit der Kategorie Good oder Bad). Definieren Sie dann ein beliebig neues Dokument und berechnen Sie für dieses die Kategorie, in welches es mit größter Wahrscheinlichkeit fällt. Benutzen Sie für den Test das in 
[NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf)
ausführlich beschriebene Beispiel zu implementieren. Berechnen Sie die Klassifikatorausgabe des Satzes _the money jumps_.

In [98]:
def spamFilter():
    training_data = [
        ['nobody owns the water', 'Good'],
        ['the quick rabbit jumps fences', 'Good'],
        ['buy pharmaceuticals now', 'Bad'],
        ['make quick money at the online casino', 'Bad'],
        ['the quick brown fox jumps', 'Good'],
        ['next meeting is at night', 'Good'],
        ['meeting with your superstar', 'Bad'],
        ['money like water', 'Bad'],
        ['Nigeria prince scam', 'Bad'],
        ['this is a good one', 'Good']
    ];

    test_data = 'the money jumps'

    classifier = Classifier(getwords, ['Good', 'Bad'])
    #Initprob can be used to decrease or increase the influence of not-learned words
    classifier.initprob = 0.5

    for keyVal in training_data:
        classifier.train(keyVal[0], keyVal[1])

    classification = classifier.decide(test_data)
    good = classifier.prob(test_data, 'Good')
    bad = classifier.prob(test_data, 'Bad')

    print '-'*53,'Spamfilter','-'*52
    display ("'%s' was classified as '%s' (good: %f / bad: %f)" % (test_data, classification, good, bad))
    print '-'*117

In [99]:
spamFilter()

----------------------------------------------------- Spamfilter ----------------------------------------------------


"'the money jumps' was classified as 'Good' (good: 0.004387 / bad: 0.002733)"

---------------------------------------------------------------------------------------------------------------------


In [66]:
doc = 'Texte werden einerseits durch pragmatische, also situationsbezogene, „textexterne“ Merkmale, andererseits durch sprachliche, „textinterne“ Merkmale bestimmt.[1] In der Sprach- und Kommunikationswissenschaft existieren viele verschiedene Textdefinitionen nebeneinander, die anhand verschiedener Textualitäts­kriterien Texte und „Nicht-Texte“ voneinander trennen. Weiter gefasste Textbegriffe schließen auch Illustrationen oder Elemente der nonverbalen Kommunikation (etwa Mimik und Gestik) in den Text ein.[2] Unter Umständen kann sogar eine reine Bildsequenz als Text gelten, wenn damit erkennbar eine kommunikative Funktion erfüllt wird.[3] Der Begriff des „diskontinuierlichen“ Textes aus dem Bereich der Sprachdidaktik umfasst Texte, die nicht fortlaufend geschrieben sind und sich teilweise nicht-sprachlicher Mittel bedienen, wie Formulare, Tabellen und Listen, Grafiken und Diagramme.'

getwords(doc)

{'als': 1,
 'also': 1,
 'andererseits': 1,
 'anhand': 1,
 'auch': 1,
 'aus': 1,
 'bedienen': 1,
 'begriff': 1,
 'bereich': 1,
 'bestimmt': 1,
 'bildsequenz': 1,
 'damit': 1,
 'dem': 1,
 'den': 1,
 'der': 1,
 'des': 1,
 'diagramme': 1,
 'die': 1,
 'diskontinuierlichen': 1,
 'durch': 1,
 'ein': 1,
 'eine': 1,
 'einerseits': 1,
 'elemente': 1,
 'erf\xc3\xbcllt': 1,
 'erkennbar': 1,
 'etwa': 1,
 'existieren': 1,
 'formulare': 1,
 'fortlaufend': 1,
 'funktion': 1,
 'gefasste': 1,
 'gelten': 1,
 'geschrieben': 1,
 'gestik': 1,
 'grafiken': 1,
 'illustrationen': 1,
 'kann': 1,
 'kommunikation': 1,
 'kommunikative': 1,
 'kriterien': 1,
 'listen': 1,
 'merkmale': 1,
 'mimik': 1,
 'mittel': 1,
 'nebeneinander': 1,
 'nicht': 1,
 'nonverbalen': 1,
 'oder': 1,
 'pragmatische': 1,
 'reine': 1,
 'schlie\xc3\x9fen': 1,
 'sich': 1,
 'sind': 1,
 'situationsbezogene': 1,
 'sogar': 1,
 'sprach': 1,
 'sprachdidaktik': 1,
 'sprachliche': 1,
 'sprachlicher': 1,
 'tabellen': 1,
 'teilweise': 1,
 'text': 1,
 '

## Klassifikation von RSS Newsfeeds
Mit dem unten gegebenen Skript werden Nachrichten verschiedener Newsserver geladen und als String abgespeichert.

**Aufgaben:**
1. Trainieren Sie Ihren Naive Bayes Classifier mit allen Nachrichten der in den Listen _trainTech_ und _trainNonTech_ definierten Servern. Weisen Sie für das Training allen Nachrichten aus _trainTech_ die Kategorie _Tech_ und allen Nachrichten aus _trainNonTech_ die Kategorie _NonTech_ zu.
2. Nach dem Training sollen alle Nachrichten aus der Liste _test_ vom Naive Bayes Classifier automatisch klassifiziert werden. Gehen Sie davon aus, dass alle Nachrichten von [http://rss.golem.de/rss.php?r=sw&feed=RSS0.91](http://rss.golem.de/rss.php?r=sw&feed=RSS0.91) tatsächlich von der Kategorie _Tech_ sind und alle Nachrichten von den beiden anderen Servern in der Liste _test_ von der Kategorie _NonTech_ sind. Bestimmen Sie die _Konfusionsmatrix_ und die _Accuracy_ sowie für beide Klassen _Precision, Recall_ und _F1-Score_. Diese Qualitätsmetriken sind z.B. in [NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf) definiert.
3. Diskutieren Sie das Ergebnis
4. Wie könnte die Klassifikationsgüte durch Modifikation der _getwords()_-Methode verbessert werden? Implementieren Sie diesen Ansatz und vergleichen Sie das Ergebnis mit dem des ersten Ansatzes.

In [67]:
import feedparser


def stripHTML(h):
  p=''
  s=0
  for c in h:
    if c=='<': s=1
    elif c=='>':
      s=0
      p+=' '
    elif s==0:
      p+=c
  return p


trainTech=['http://rss.chip.de/c/573/f/7439/index.rss',
           #'http://feeds.feedburner.com/netzwelt',
           'http://rss1.t-online.de/c/11/53/06/84/11530684.xml',
           'http://www.computerbild.de/rssfeed_2261.xml?node=13',
           'http://www.heise.de/newsticker/heise-top-atom.xml']

trainNonTech=['http://newsfeed.zeit.de/index',
              'http://newsfeed.zeit.de/wirtschaft/index',
              'http://www.welt.de/politik/?service=Rss',
              'http://www.spiegel.de/schlagzeilen/tops/index.rss',
              'http://www.sueddeutsche.de/app/service/rss/alles/rss.xml',
              'http://www.faz.net/rss/aktuell/'
              ]
test=["http://rss.golem.de/rss.php?r=sw&feed=RSS0.91",
          'http://newsfeed.zeit.de/politik/index',  
          'http://www.welt.de/?service=Rss'
           ]

countnews={}
countnews['tech']=0
countnews['nontech']=0
countnews['test']=0
print "--------------------News from trainTech------------------------"
for feed in trainTech:
    print "*"*30
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
      print '\n---------------------------'
      fulltext=stripHTML(e.title+' '+e.description)
      print fulltext
      countnews['tech']+=1
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"

print "--------------------News from trainNonTech------------------------"
for feed in trainNonTech:
    print "*"*30
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
      print '\n---------------------------'
      fulltext=stripHTML(e.title+' '+e.description)
      print fulltext
      countnews['nontech']+=1
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"

print "--------------------News from test------------------------"
for feed in test:
    print "*"*30
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
      print '\n---------------------------'
      fulltext=stripHTML(e.title+' '+e.description)
      print fulltext
      countnews['test']+=1
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"

print 'Number of used trainings samples in categorie tech',countnews['tech']
print 'Number of used trainings samples in categorie notech',countnews['nontech']
print 'Number of used test samples',countnews['test']
print '--'*30

--------------------News from trainTech------------------------
******************************
http://rss.chip.de/c/573/f/7439/index.rss
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml

---------------------------
Notrufnummer 112 war vielerorts gestört Störungen bei der Notrufnummer 112: Wer über Mobilfunk die Nummer wählt, könnte Störgeräusche hören. Die Düsseldorfer Feuerwehr rät, im Notfall die 110 zu wählen.
Wer mit dem Smartphone einen Notfall über die 112 melden möchte, könnte Störgeräusche erhalten. Das berichtet die Feuerwehr Düsseldorf mit Berufung auf die Telekom.
https://twitter.com/BFDuesseldorf/status/1002122528226185217
Laut der...

---------------------------
Windows-Nutzer sollten Datenschutzeinstellungen checken Nach dem neuesten Windows-Funktionsupdate wird Nutzern die Überprüfung ihrer Datenschutzeinstellungen empfohlen. Denn durch das Update könnten einige Einstellungen automatisch zurückgesetzt worden sein – auch die von Kamera un


---------------------------
Live-Stream: Das sind die Gaming-Neuheiten von Asus! Starke PCs, kompakte Gaming-Notebooks: Welche „Republic of Gamer“-Neuheiten Hersteller Asus auf der Computex zeigt, sehen Sie hier im Live-Stream!

---------------------------
Facebook: Nutzerdaten mit Apple &amp; Co. getauscht! Facebook droht ein weiterer Datenskandal. Das Besondere: Dieses Mal sind auch Technologiegrößen wie Apple, Microsoft &amp; Co. beteiligt. Die Infos!

---------------------------
WWDC 2018: iOS 12, iPhone und mehr – was zeigt Apple heute? Von wegen Sommerloch – heute ab 18:30 Uhr heizt Apple der Techie-Gemeinde mit der WWDC ein! COMPUTER BILD blickt voraus und berichtet live.

---------------------------
PUBG: DrDisRespect und Shroud bekommen eigene Waffen-Skins Zocken wie die Streamer-Elite! PUBG Corp. verewigt zwei äußerst bekannte Twitch-Streamer in „PUBG“ mit eigenen Skins.

---------------------------
Software-Tipp des Tages: Versteckte Viren manuell finden COMPUTER BILD biete


---------------------------
Monsanto-Übernahme: Bayer streicht den Namen Monsanto     Die Übernahme ist perfekt: Der Leverkusener Bayer-Konzern kauft den amerikanischen Saatguthersteller für knapp 63 Milliarden US-Dollar. Und schafft dessen Namen ab.

---------------------------
Erneuerbare Energien: Die große Flaute     Der Ausbau der Windenergie an Land kommt nur noch langsam voran. Die Gegner gewinnen an Einfluss. Gegen neue Windparks mobilisiert inzwischen auch die AfD.

---------------------------
Erntehelfer: Wer rettet die Erdbeeren?     Bauern sind in Sorge: Früchte vergammeln auf Feldern, weil es zu wenig Erntehelfer gibt. Wo sind die vielen Saisonkräfte hin? Und wer könnte die Arbeit stattdessen tun?

---------------------------
Immobilienpreise : Wohneigentum bundesweit teurer geworden     Selbst genutzter Wohnraum kostete einer Studie zufolge im vergangenen Jahr in Großstädten 11,6 Prozent mehr als noch 2016. Auch im ländlichen Raum steigen die Preise.

-------------------

Französische Mutter wegen IS-Mitgliedschaft verurteilt Wegen ihrer Zugehörigkeit zur Terrormiliz IS ist eine Französin im Irak zu lebenslanger Haft verurteilt worden. Die 27-Jährige erschien vor Gericht mit ihrer jüngsten Tochter. Ihre drei anderen Kinder wurden bereits nach Frankreich gebracht.

---------------------------
Mindestens 44 Flüchtlinge sterben bei Bootsunglücken im Mittelmeer Wieder sterben zahlreiche Flüchtlinge auf dem Weg nach Europa. Boote sinken vor der tunesischen und türkischen Küste und reißen Dutzende Menschen mit in den Tod – auch Kinder sind darunter.

---------------------------
„Viele schämen sich zurückzugehen“ Die meisten Obdachlosen in Berlin kommen aus Polen. Die polnische Botschaft will ihnen nun bei der Rückkehr helfen. Andrzej, 25, ist schwul – und will nicht zurück. Für ihn ist die deutsche Hauptstadt eine Befreiung.

---------------------------
Eine Kanzlerin zum Anfragen Der 19. Bundestag gehört zu den spannendsten seit der Gründung der Republik. So


---------------------------
Landleben: Augen auf bei der Wohnsitzwahl   Wenn "Zuagroaste" sich zu Einheimischen gesellen, kann es schnell knirschen im Miteinander. Zu beobachten ist das immer wieder - vor Gericht. 

---------------------------
Deutscher Kader zur Fußball-WM: Mannschaft für Moskau   Joachim Löw hat sich entschieden, er nominiert 23 Spieler in seinen endgültigen WM-Kader - und überrascht mit der Streichung von Leroy Sané. Alle Russland-Fahrer im Kurzporträt. 

---------------------------
Restaurant Agnes Neun: Reinkieken und das Heimweh nach Norddeutschland bekämpfen   Das "Agnes Neun" ist eine gemütliche Nachbarschaftskneipe. Es gibt Bremer Knipp, Kapitänssülze und andere Spezialitäten - besonders viele Fans hat aber eine vermeintlich simple Beilage. 

---------------------------
Test: Frühling ist Springtime: Das ist das beste Trampolin   Gartentrampoline werden immer beliebter, doch nicht jedes ist empfehlenswert. Wir haben acht Modelle getestet - gemeinsam mit einem


---------------------------
Die WELT-Nachrichten im Stream Nachrichten im Livestream – von Montag bis Freitag immer zwischen 7:00 Uhr und 21:00 Uhr und am Wochenende von 9:00 Uhr bis 21:00 Uhr neueste Informationen aus aller Welt zu Politik, Wirtschaft und Sport.

---------------------------
Das größte Experiment der deutschen Unternehmensgeschichte Bayer übernimmt den US-Chemieriesen Monsanto, aber der schwerste Teil des Deals fängt jetzt erst an: Passen Amerikaner und Deutsche überhaupt zusammen? Schon eine transatlantische Fusion ist kläglich gescheitert.

---------------------------
Mann, der unter Taubennest parkt, gibt Gauland recht Die NS-Zeit ein Vogelschiss – sowohl Nazis als auch normale Menschen kritisieren Alexander Gauland für diesen Vergleich. Doch jetzt bekommt der AfD-Vorsitzende Unterstützung von einem Autobesitzer.

---------------------------
So will das Gericht im wohl größten deutschen Betrugsfall vorgehen Mehr als zwei Dutzend aktive und ehemalige VW-Manager werd

#### Aufgabe 1
##### Anmerkung

###### Codebeschreibung


In [74]:
import feedparser
import pprint as pp
import pickle as pickle

test_news = {'tech': [], 'nontech': []}

classifier = Classifier(getwords, ['tech', 'nontech'])
classifier.initprob = 0.5

for feed in trainTech:
    f = feedparser.parse(feed)
    for e in f.entries:
        fulltext = stripHTML(e.title + ' ' + e.description)
        countnews['tech'] += 1
        classifier.train(fulltext, 'tech')

for feed in trainNonTech:
    f = feedparser.parse(feed)
    for e in f.entries:
        fulltext = stripHTML(e.title + ' ' + e.description)
        countnews['nontech'] += 1
        classifier.train(fulltext, 'nontech')

for feed in test:
    f = feedparser.parse(feed)
    for e in f.entries:
        fulltext = stripHTML(e.title + ' ' + e.description)
        countnews['test'] += 1
        classification = classifier.decide(fulltext)
        test_news[classification].append([fulltext,
            classifier.prob(fulltext, 'tech'),
            classifier.prob(fulltext, 'nontech')]
        )
