# Data Mining Versuch Document Classification
* Autor: Prof. Dr. Johannes Maucher
* Datum: 06.11.2015

[Übersicht Ipython Notebooks im Data Mining Praktikum](Data Mining Praktikum.html)

# Einführung
## Lernziele:
In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Dokumentklassifikation: Klassifikation von Dokumenten, insbesondere Emails und RSS Feed
* Naive Bayes Classifier: Weit verbreitete Klassifikationsmethode, welche unter bestimmten Randbedingungen sehr gut skaliert.


## Theorie zur Vorbereitung
### Parametrische Klassifikation und Naive Bayes Methode
Klassifikatoren müssen zu einer gegebenen Eingabe $\underline{x}$ die zugehörige Klasse $C_i$ bestimmen. Mithilfe der Wahrscheinlichkeitstheorie kann diese Aufgabe wie folgt beschrieben werden: Bestimme für alle möglichen Klassen $C_i$ die bedingte Wahrscheinlichkeit $P(C_i | \underline{x})$, also die Wahrscheinlichkeit, dass die gegebene Eingabe $\underline{x}$ in Klasse $C_i$ fällt. Wähle dann die Klasse aus, für welche diese Wahrscheinlichkeit maximal ist.

Die Entscheidungsregeln von Klassifikatoren können mit Methoden des ""überwachten Lernens"" aus Trainingsdaten ermittelt werden. Im Fall des **parametrischen Lernens** kann aus den Trainingsdaten die sogenannte **Likelihood-Funktion** $p(\underline{x} \mid C_i)$ bestimmt werden. _Anmerkung:_ Allgemein werden mit $p(...)$ kontinuierliche Wahrscheinlichkeitsfunktionen und mit $P(...)$ diskrete Wahrscheinlichkeitswerte bezeichnet. 

Mithilfe der **Bayes-Formel**
$$
P(C_i \mid \underline{x}) = \frac{p(\underline{x} \mid C_i) \cdot P(C_i)}{p(\underline{x})}
$$

kann aus der Likelihood die **a-posteriori-Wahrscheinlichkeit $P(C_i \mid \underline{x})$** berechnet werden. Darin wird $P(C_i)$ die **a-priori-Wahrscheinlichkeit** und $p(\underline{x})$ die **Evidenz** genannt. Die a-priori-Wahrscheinlichkeit kann ebenfalls aus den Trainingsdaten ermittelt werden. Die Evidenz ist für die Klassifikationsentscheidung nicht relevant, da sie für alle Klassen $C_i$ gleich groß ist.

Die Berechnung der Likelihood-Funktion $p(\underline{x} \mid C_i)$ ist dann sehr aufwendig, wenn $\underline{x}=(x_1,x_2,\ldots,x_Z)$ ein Vektor von voneinander abhängigen Variablen $x_i$ ist. Bei der **Naive Bayes Classification** wird jedoch von der vereinfachenden Annahme ausgegangen, dass die Eingabevariabeln $x_i$ voneinander unabhängig sind. Dann vereinfacht sich die bedingte Verbundwahrscheinlichkeits-Funktion $p(x_1,x_2,\ldots,x_Z \mid C_i)$ zu:

$$
p(x_1,x_2,\ldots,x_Z \mid C_i)=\prod\limits_{j=1}^Z p(x_j | C_i)
$$

### Anwendung der Naive Bayes Methode in der Dokumentklassifikation
Auf der rechten Seite der vorigen Gleichung stehen nur noch von den jeweils anderen Variablen unabhängige bedingte Wahrscheinlichkeiten. Im Fall der Dokumentklassifikation sind die einzelnen Worte die Variablen, d.h. ein Ausdruck der Form $P(x_j | C_i)$ gibt an mit welcher Wahrscheinlichkeit ein Wort $x_j=w$ in einem Dokument der Klasse $C_i$ vorkommt. 
Die Menge aller Variablen $\left\{x_1,x_2,\ldots,x_Z \right\}$ ist dann die Menge aller Wörter im Dokument. Damit gibt die linke Seite in der oben gegebenen Gleichung die _Wahrscheinlichkeit, dass die Wörter $\left\{x_1,x_2,\ldots,x_Z \right\}$ in einem Dokument der Klasse $C_i$ vorkommen_ an.

Für jedes Wort _w_ wird aus den Trainingsdaten die Wahrscheinlichkeit $P(w|G)$, mit der das Wort in Dokumenten der Kategorie _Good_ und die Wahrscheinlichkeit $P(w|B)$ mit der das Wort in Dokumenten der Kategorie _Bad_ auftaucht ermittelt. Trainingsdokumente werden in der Form

$$
tD=(String,Category)
$$
eingegeben. 

Wenn 

* mit der Variable $fc(w,cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ in denen das Wort $w$ enthalten ist
* mit der Variable $cc(cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ 

gezählt wird, dann ist 

$$
P(w|G)=\frac{fc(w,G)}{cc(G)} \quad \quad P(w|B)=\frac{fc(w,B)}{cc(B)}.
$$

Wird nun nach der Eingabe von $L$ Trainingsdokumenten ein neu zu klassifizierendes Dokument $D$ eingegeben und sei $W(D)$ die Menge aller Wörter in $D$, dann berechnen sich unter der Annahme, dass die Worte in $W(D)$ voneinander unabhängig sind (naive Bayes Annahme) die a-posteriori Wahrscheinlichkeiten zu:

$$
P(G|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | G) \right) \cdot P(G)}{p(D)}
$$
und
$$
P(B|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | B) \right) \cdot P(B)}{p(D)}.
$$

Die hierfür notwendigen a-priori-Wahrscheinlichkeiten berechnen sich zu 

$$
P(G)=\frac{cc(G)}{L}
$$
und
$$
P(B)=\frac{cc(B)}{L}
$$

Die Evidenz $p(D)$ beeinflusst die Entscheidung nicht und kann deshalb ignoriert werden.


## Vor dem Versuch zu klärende Fragen


1. Wie wird ein Naive Bayes Classifier trainiert? Was muss beim Training für die spätere Klassifikation abgespeichert werden?
2. Wie teilt ein Naiver Bayes Classifier ein neues Dokument ein?
3. Welche naive Annahme liegt dem Bayes Classifier zugrunde? Ist diese Annahme im Fall der Dokumentklassifikation tatsächlich gegeben?
4. Betrachten Sie die Formeln für die Berechnung von $P(G|D)$ und $P(B|D)$. Welches Problem stellt sich ein, wenn in der Menge $W(D)$ ein Wort vorkommt, das nicht in den Trainingsdaten der Kategorie $G$ vorkommt und ein anderes Wort aus $W(D)$ nicht in den Trainingsdaten der Kategorie $B$ enthalten ist? Wie könnte dieses Problem gelöst werden? 



1. Es müssen referenz Texte existieren die jeweils einer der zu testenden Kateogorien zugeordnet sind. Dann wird für jedes Wort, dass insgesamt vorkommt die Häufigkeit in jeder Kategorie berechnet. 

    Für jede Kategorie (cat) und jedes Wort (w) wird berechnet:
        - Anzahl der Dokument cc(cat)
        - Anzahl der Dokumente welche das Wort enthalten fc(w, cat)
    Daraus wird die Wahrscheinlichkeit berechnet: P(w|cat) = cc(cat) / fc(w, cat). Diese wird dann für die spätere Klassifkation gespeichert
2. Für jede Kategorie (cat) wird berechnet:
        - Die Bedingten Wahrscheinlichkeiten aller Wörter mit *P(w|cat)*
        - Die Wahrscheinlichkeit P(cat) mit *cc(cat)/L*
        Diese Wahrscheinlichkeiten werden dann alle Zusammenmultipliziert

   Das Dokument bekommt dann die Kategorie mit der höchsten Wahrscheinlichkeit zugeordnet
3. Der Bayes Classifier nimmt an, dass Wörter unabhängig voneinander sind. Dies ist natürlich nicht der Fall, da die genaue Semantik eines Textes sich aus der Struktur ergibt. Wie die Wörter im Verhältnis stehen und welche Aussagen sich daraus ergeben.
4. Wenn ein Wort im zu testenden Dokument D vorkommt, aber in keinem Trainingsdokumenten der Kategorie Cat vorhanden ist ergibt sich streng nach der Formel die Wahrscheinlichkeit 0, dass dieses Wort in Dokumenten von Cat auftaucht und somit eine Gesamtwahrscheinlichkeit von 0. Das macht die Kategorisierung sehr unflexibel, da z.B. durch Dinge wie Eigennamen durchaus neue Wörter vorkommen, die nicht im Trainingsset enthalten sind. Ein bessere vorgehen wäre es dieses Wort für diese Kategorie zu ignorieren. Alternativ wäre es möglich einen künstlichen sehr niedrigen Wert für die Wahrscheinlichkeit zu setzen z.B. 0,01

# Durchführung
## Feature Extraction/ -Selection

**Aufgabe:**
Implementieren Sie eine Funktion _getwords(doc)_, der ein beliebiges Dokument in Form einer String-Variablen übergeben wird. In der Funktion soll der String in seine Wörter zerlegt und jedes Wort in _lowercase_ transformiert werden. Wörter, die weniger als eine untere Grenze von Zeichen (z.B. 3) oder mehr als eine obere Grenze von Zeichen (z.B. 20) enthalten, sollen ignoriert werden. Die Funktion soll ein dictionary zurückgeben, dessen _Keys_ die Wörter sind. Die _Values_ sollen für jedes Wort zunächst auf $1$ gesetzt werden.

**Tipp:** Benutzen Sie für die Zerlegung des Strings und für die Darstellung aller Wörter mit ausschließlich kleinen Buchstaben die Funktionen _split(), strip('sep')_ und _lower()_ der Klasse _String_.  


In [304]:
import nltk

def getwords(docText):
    LOWER_LIMIT = 1
    UPPER_LIMIT = 20
    
    sentence = nltk.regexp_tokenize(docText, r"[\wäöüÄÖÜß]+")
    
    tokens = [x.lower() for x in sentence]
    
    wordDict = { x: 1 for x in tokens\
                if tokens.count(x) >= LOWER_LIMIT and tokens.count(x) <= UPPER_LIMIT}
    
    return wordDict
    

In [305]:
text = 'Call of Duty: Black Ops 3 (PS4)   Darauf warten die Shooter-Fans! Call of Duty: Black Ops 3 kommt heute in die Läden. Wir haben den Einzelspieler-Part des bombastischen Shooters vorab auf der PlayStation 4 getestet und dürfen schon jetzt sagen: Black Ops 3 liefert auf hohem Niveau ganz genau das, was sich Fans der Serie erwarten.'
getwords(text)

{'3': 1,
 '4': 1,
 'auf': 1,
 'black': 1,
 'bombastischen': 1,
 'call': 1,
 'darauf': 1,
 'das': 1,
 'den': 1,
 'der': 1,
 'des': 1,
 'die': 1,
 'duty': 1,
 'd\xc3\xbcrfen': 1,
 'einzelspieler': 1,
 'erwarten': 1,
 'fans': 1,
 'ganz': 1,
 'genau': 1,
 'getestet': 1,
 'haben': 1,
 'heute': 1,
 'hohem': 1,
 'in': 1,
 'jetzt': 1,
 'kommt': 1,
 'liefert': 1,
 'l\xc3\xa4den': 1,
 'niveau': 1,
 'of': 1,
 'ops': 1,
 'part': 1,
 'playstation': 1,
 'ps4': 1,
 'sagen': 1,
 'schon': 1,
 'serie': 1,
 'shooter': 1,
 'shooters': 1,
 'sich': 1,
 'und': 1,
 'vorab': 1,
 'warten': 1,
 'was': 1,
 'wir': 1}

## Classifier

**Aufgabe:**
Implementieren Sie den Naive Bayes Classifier für die Dokumentklassifikation. Es bietet sich an die Funktionalität des Klassifikators und das vom Klassifikator gelernte Wissen in einer Instanz einer Klasse _Classifier_ zu kapseln. In diesem Fall kann wie folgt vorgegangen werden:

* Im Konstruktor der Klasse wird je ein Dictionary für die Instanzvariablen _fc_ und _cc_ (siehe oben) initialisiert. Dabei ist _fc_ ein verschachteltes Dictionary. Seine Keys sind die bisher gelernten Worte, die Values sind wiederum Dictionaries, deren Keys die Kategorien _Good_ und _Bad_ sind und deren Values zählen wie häufig das Wort bisher in Dokumenten der jeweiligen Kategorie auftrat. Das Dictionary _cc_ hat als Keys die Kategorien _Good_ und _Bad_. Die Values zählen wie häufig Dokumente der jeweiligen Kategorien bisher auftraten.
* Im Konstruktor wird ferner der Instanzvariablen _getfeatures_ die Funktion _getwords()_ übergeben. Die Funktion _getwords()_ wurde bereits zuvor ausserhalb der Klasse definiert. Sinn dieses Vorgehens ist, dass andere Varianten um Merkmale aus Dokumenten zu extrahieren denkbar sind. Diese Varianten könnten dann ähnlich wie die _getwords()_-Funktion ausserhalb der Klasse definiert und beim Anlegen eines _Classifier_-Objekts der Instanzvariablen _getfeatures_ übergeben werden.  
* Der Methode _incf(self,f,cat)_ wird ein Wort _f_ und die zugehörige Kategorie _cat_ des Dokuments in welchem es auftrat übergeben. In der Methode wird der _fc_-Zähler angepasst.
* Der Methode _incc(self,cat)_ wird die Kategorie _cat_ des gerade eingelesenen Dokuments übergeben. In der Methode wird der _cc_-Zähler angepasst.
* Die Methode _fcount(self,f,cat)_ gibt die Häufigkeit des Worts _f_ in den Dokumenten der Kategorie _cat_ zurück.
* Die Methode _catcount(self,cat)_ gibt die Anzahl der Dokumente in der Kategorie _cat_ zurück.
* Die Methode _totalcount(self)_ gibt die Anzahl aller Dokumente zurück.
* Der Methode _train(self,item,cat)_ wird ein neues Trainingselement, bestehend aus der Betreffzeile (_item_) und der entsprechenden Kategorisierung (_cat_) übergeben. Der String _item_ wird mit der Instanzmethode _getfeatures_ (Diese referenziert _getwords()_) in Worte zerlegt. Für jedes einzelne Wort wird dann _incf(self,f,cat)_ aufgerufen. Ausserdem wird für das neue Trainingsdokument die Methode _incc(self,cat)_ aufgerufen.
* Die Methode _fprob(self,f,cat)_ berechnet die bedingte Wahrscheinlichkeit $P(f | cat)$ des Wortes _f_ in der Kategorie _cat_ entsprechend der oben angegebenen Formeln, indem sie den aktuellen Stand des Zählers _fc(f,cat)_ durch den aktuellen Stand des Zählers _cc(cat)_ teilt.   
* Die Methode _fprob(self,f,cat)_ liefert evtl. ungewollt extreme Ergebnisse, wenn noch wenig Wörter im Klassifizierer verbucht sind. Kommt z.B. ein Wort erst einmal in den Trainingsdaten vor, so wird seine Auftrittswahrscheinlichkeit in der Kategorie in welcher es nicht vorkommt gleich 0 sein. Um extreme Wahrscheinlichkeitswerte im Fall noch selten vorkommender Werte zu vermeiden, soll zusätzlich zur Methode _fprob(self,f,cat)_ die Methode _weightedprob(self,f,cat)_ implementiert und angewandt werden. Der von ihr zurückgegebene Wahrscheinlichkeitswert könnte z.B. wie folgt berechnet werden:$$wprob=\frac{initprob+count \cdot fprob(self,f,cat)}{1+count},$$ wobei $initprob$ ein initialer Wahrscheinlichkeitswert (z.B. 0.5) ist, welcher zurückgegeben werden soll, wenn das Wort noch nicht in den Trainingsdaten aufgetaucht ist. Die Variable $count$ zählt wie oft das Wort $f$ bisher in den Trainingsdaten auftrat. Wie zu erkennen ist, nimmt der Einfluss der initialen Wahrscheinlichkeit ab, je häufiger das Wort in den Trainingsdaten auftrat.
* Nach dem Training soll ein beliebiges neues Dokument (Text-String) eingegeben werden können. Für dieses soll mit der Methode _prob(self,item,cat)_ die a-posteriori-Wahrscheinlichkeit $P(cat|item)$ (Aufgrund der Vernachlässigung der Evidenz handelt es sich hierbei genaugenommen um das Produkt aus a-posteriori-Wahrscheinlichkeit und Evidenz), mit der das Dokument _item_ in die Kategorie _cat_ fällt berechnet werden. Innerhalb der Methode _prob(self,item,cat)_ soll zunächst die Methode _weightedprob(self,f,cat)_ für alle Wörter $f$ im Dokument _item_ aufgerufen werden. Die jeweiligen Rückgabewerte von _weightedprob(self,f,cat)_ werden multipliziert. Das Produkt der Rückgabewerte von _weightedprob(self,f,cat)_ über alle Wörter $f$ im Dokument muss schließlich noch mit der a-priori Wahrscheinlichkeit $P(G)$ bzw. $P(B)$ entsprechend der oben aufgeführten Formeln multipliziert werden. Das Resultat des Produkts wird an das aufrufende Programm zurück gegeben, die Evidenz wird also vernachlässigt (wie oben begründet).



Ein Dokument _item_ wird schließlich der Kategorie _cat_ zugeteilt, für welche die Funktion _prob(self,item,cat)_ den höheren Wert zurück gibt. Da die Rückgabewerte in der Regel sehr klein sind, werden in der Regel folgende Werte angezeigt. Wenn mit $g$ der Rückgabewert von _prob(self,item,cat=G)_ und mit $b$ der Rückgabewert von _prob(self,item,cat=B)_ bezeichnet wird dann ist die Wahrscheinlichkeit, dass $item$ in die Kategorie $G$ fällt, gleich:
$$
\frac{g}{g+b}
$$
und die Wahrscheinlichkeit, dass $item$ in die Kategorie $B$ fällt, gleich:
$$
\frac{b}{g+b}
$$

In [306]:
class NaiveBayesClassifier:
    def __init__(self, wordFunc):
        self.fc = {} #already learned words : {good: x, bad: y}
        self.cc = {} #good: x, bad: y
        
        self.getfeatures = wordFunc
        
    def incf(self, f, cat, count):
        if f in self.fc:
            if cat in self.fc[f]:
                self.fc[f][cat] += count
            else:
                self.fc[f][cat] = count
        else:
            self.fc[f] = {cat : 1}
            
    def incc(self, cat):
        if cat in self.cc:
            self.cc[cat] += 1
        else:
            self.cc[cat] = 1
            
    def fcount(self, f, cat):
        if f in self.fc:
            return self.fc[f].get(cat, 0)
        else:
            return 0
    
    def catcount(self, cat):
        if cat in self.cc:
            return self.cc[cat]
        else:
            return 0
    
    def totalcount(self):
        count = 0
        for categorie, num in self.cc.items():
            count += num

        return count
    
    def train(self, item, cat):
        wordDict = self.getfeatures(item)
        
        for word, num in wordDict.items():
            self.incf(word, cat, num)
            
        self.incc(cat)
        
    def fprob(self, f, cat):
        return (self.fcount(f, cat) / float(self.catcount(cat)))
    
    def weightedprob(self, f, cat):
        count = 0
        if f in self.fc:
            for val in self.fc[f].values():
                count += val
        
        return ((0.5 + count * self.fprob(f, cat)) / (count + 1))
        
    def prob(self, item, cat):
        wProb = 1
        for word, num in self.getfeatures(item).items():
            wProb *= self.weightedprob(word, cat)
            
        return ((wProb * self.catcount(cat)) / self.totalcount())

    def testDocument(self, item):
        result = {}
        
        allCats = 0
        for categorie, num in self.cc.items():
            allCats += self.prob(item, categorie)
        
        for categorie, num in self.cc.items():
            result[categorie] = self.prob(item, categorie) / (allCats if allCats else 1)
    
        return result

## Test

**Aufgabe:**
Instanzieren Sie ein Objekt der Klasse _Classifier_ und übergeben Sie der _train()_ Methode dieser Klasse mindestens 10 kategorisierte Dokumente (Betreffzeilen als Stringvariablen zusammen mit der Kategorie Good oder Bad). Definieren Sie dann ein beliebig neues Dokument und berechnen Sie für dieses die Kategorie, in welches es mit größter Wahrscheinlichkeit fällt. Benutzen Sie für den Test das in 
[NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf)
ausführlich beschriebene Beispiel zu implementieren. Berechnen Sie die Klassifikatorausgabe des Satzes _the money jumps_.

In [307]:
testData = [('nobody owns the water', 'good'),
 ('the quick rabbit jumps fences', 'good'),
('buy pharmaceuticals now drugs and viagra', 'bad'),
('make quick money at the online casino', 'bad'),
('next meeting is at night', 'good'),
('meeting with your superstar', 'bad'),
('money like water', 'bad'),
('make money fast', 'bad'),
('do you want to make fast money?', 'bad'),
('the smart fox walks on the moon', 'good')]


naiveBayesClass = NaiveBayesClassifier(getwords)

for tup in testData:
    naiveBayesClass.train(tup[0], tup[1])
    
naiveBayesClass.testDocument('the money jumps viagra drugs')

{'bad': 0.7896103896103895, 'good': 0.2103896103896104}

## Klassifikation von RSS Newsfeeds
Mit dem unten gegebenen Skript werden Nachrichten verschiedener Newsserver geladen und als String abgespeichert.

In [308]:
import feedparser


def stripHTML(h):
  p=''
  s=0
  for c in h:
    if c=='<': s=1
    elif c=='>':
      s=0
      p+=' '
    elif s==0:
      p+=c
  return p


trainTech=['http://rss.chip.de/c/573/f/7439/index.rss',
           #'http://feeds.feedburner.com/netzwelt',
           'http://rss1.t-online.de/c/11/53/06/84/11530684.xml',
           'http://www.computerbild.de/rssfeed_2261.xml?node=13',
           'http://www.heise.de/newsticker/heise-top-atom.xml']

trainNonTech=['http://newsfeed.zeit.de/index',
              'http://newsfeed.zeit.de/wirtschaft/index',
              'http://www.welt.de/politik/?service=Rss',
              'http://www.spiegel.de/schlagzeilen/tops/index.rss',
              'http://www.sueddeutsche.de/app/service/rss/alles/rss.xml',
              'http://www.faz.net/rss/aktuell/'
              ]
test=["http://rss.golem.de/rss.php?r=sw&feed=RSS0.91",
          'http://newsfeed.zeit.de/politik/index',  
          'http://www.welt.de/?service=Rss'
           ]

"""
countnews={}
countnews['tech']=0
countnews['nontech']=0
countnews['test']=0
print "--------------------News from trainTech------------------------"
for feed in trainTech:
    print "*"*30
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
      print '\n---------------------------'
      fulltext=stripHTML(e.title+' '+e.description)
      print fulltext
      countnews['tech']+=1
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"

print "--------------------News from trainNonTech------------------------"
for feed in trainNonTech:
    print "*"*30
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
      print '\n---------------------------'
      fulltext=stripHTML(e.title+' '+e.description)
      print fulltext
      countnews['nontech']+=1
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"

print "--------------------News from test------------------------"
for feed in test:
    print "*"*30
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
      print '\n---------------------------'
      fulltext=stripHTML(e.title+' '+e.description)
      print fulltext
      countnews['test']+=1
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"
print "----------------------------------------------------------------"

print 'Number of used trainings samples in categorie tech',countnews['tech']
print 'Number of used trainings samples in categorie notech',countnews['nontech']
print 'Number of used test samples',countnews['test']
print '--'*30
"""

print




**Aufgaben:**  
1.Trainieren Sie Ihren Naive Bayes Classifier mit allen Nachrichten der in den Listen _trainTech_ und _trainNonTech_ definierten Servern. Weisen Sie für das Training allen Nachrichten aus _trainTech_ die Kategorie _Tech_ und allen Nachrichten aus _trainNonTech_ die Kategorie _NonTech_ zu.

In [309]:
naiveBayesClassifier = NaiveBayesClassifier(getwords)

In [310]:
for feed in trainTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        naiveBayesClassifier.train(fulltext, 'tech')

for feed in trainNonTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        naiveBayesClassifier.train(fulltext, 'nontech')

2.Nach dem Training sollen alle Nachrichten aus der Liste _test_ vom Naive Bayes Classifier automatisch klassifiziert werden. Gehen Sie davon aus, dass alle Nachrichten von [http://rss.golem.de/rss.php?r=sw&feed=RSS0.91](http://rss.golem.de/rss.php?r=sw&feed=RSS0.91) tatsächlich von der Kategorie _Tech_ sind und alle Nachrichten von den beiden anderen Servern in der Liste _test_ von der Kategorie _NonTech_ sind. Bestimmen Sie die _Konfusionsmatrix_ und die _Accuracy_ sowie für beide Klassen _Precision, Recall_ und _F1-Score_. Diese Qualitätsmetriken sind z.B. in [NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf) definiert.

In [311]:
length = 0
for feed in test:
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
        length += 1
        fulltext=stripHTML(e.title+' '+e.description)
        print fulltext
        print naiveBayesClassifier.testDocument(fulltext)
        print

http://rss.golem.de/rss.php?r=sw&feed=RSS0.91
0-Day: Tor und Firefox patchen kritische Schwachstelle Tor und Mozilla haben schnell reagiert und veröffentlichen einen außerplanmäßigen Patch für eine kritische Sicherheitslücke. Der Fehler lag in einer Animationsfunktion für Vektorgrafiken. ( Security ,  Firefox )  
{'tech': 0.8257710478164302, 'nontech': 0.17422895218356976}

Hatch: Games ohne Installation auf dem Smartphone spielen Hatch ist ein neues Streaming-Abo für Spiele auf Android-Geräten: Nutzer können Games direkt vom Cloud-Server auf ihr Smartphone oder Tablet streamen, ohne sie vorher installieren zu müssen. Spiele können zudem auch immer zu zweit gespielt werden, indem die Steuerung über die Cloud geteilt wird. ( slush2016 ,  Smartphone )  
{'tech': 0.9979997597958181, 'nontech': 0.002000240204181807}

0-Day: Nutzer des Tor-Browsers werden mit Javascript angegriffen Wer den Tor-Browsers nutzt, will meist vor allem eins: Anonymität. Eine aktuelle Schwachstelle im Firefox-Brow

In [312]:
def get_highest_prob_cat(dict):
    highest_cat = max(dict, key=lambda k: dict[k])
    return highest_cat

In [313]:
import pandas as pd

feed_num = 1

data = []

for feed in test:
    f=feedparser.parse(feed)
    for e in f.entries:
        length += 1
        fulltext=stripHTML(e.title+' '+e.description)
        pred_cat=get_highest_prob_cat(naiveBayesClassifier.testDocument(fulltext))
        if feed_num == 1:
            data.append([pred_cat, 'tech'])
        else:
            data.append([pred_cat, 'nontech'])
    feed_num += 1

    
data = pd.DataFrame(data)

In [314]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(data[1].values, data[0].values)
accuracy

0.75384615384615383

**Wie man am Ausgabewert **(der Accuracy)** erkennen kann, kommt der Naive Bayes Classifier selbst bei einem schlechten wordDict** (da mit stop words) **und ohne Bewertung der Häufigkeit der Worte** (Term frequency) **auf einen Wert von knapp 75% bei der Klassifizierung der beiden Kategorien 'tech' und 'nontech'** 

In [315]:
from sklearn.metrics import confusion_matrix

confus = confusion_matrix(data[1].values, data[0].values)
confus

array([[ 9, 16],
       [ 0, 40]])

```
                             Predicted

                       +------+---------+
                       | tech | nontech |
             +--------------------------+
             |    tech |  9   |    16   |
Actual Class +--------------------------+
             | nontech |   0  |    40   |
             +---------+------+---------+

```

**Die Confusion Matrix zeigt, dass kein Dokument, das aus dem Bereich 'nontech' kommt als 'tech'klassifiziert wurde.
Dagegen wurden 16 eigentlich 'nontech'-Dokumente als 'tech' klassifiziert.**
**Insgesamt wurden 49 Dokumente richtig und 16 falsch klassifiziert.**

**Das Ergebnis kann relativ simple verbessert werden, indem man dem Classifier mehr Dokumente mit richtigen Labels zum trainieren gibt.**


In [316]:
from sklearn.metrics import precision_score

tech_prec = precision_score(data[1].values, data[0].values, pos_label='tech')
nontech_prec = precision_score(data[1].values, data[0].values, pos_label='nontech')

print 'Precision for categorie tech: %f' % (tech_prec)
print 'Precision for categorie nontech: %f' % (nontech_prec)

Precision for categorie tech: 0.714286
Precision for categorie nontech: 1.000000


**Der Precision-Score gibt in diesem Fall an, wie viele der als 'tech'/'nontech' klassifizierten Dokumente wirklich aus der Kategorie 'tech'/'nontech' sind.**
**Wie in der Confusionmatrix sieht man hier auch nochmal, dass kein Dokument der Klasse 'nontech' als 'tech' klassifiziert wurde.** (Maximalwert 1)

In [317]:
from sklearn.metrics import recall_score

tech_recall = recall_score(data[1].values, data[0].values, pos_label='tech')
nontech_recall = recall_score(data[1].values, data[0].values, pos_label='nontech')

print 'Recall for categorie tech: %f' % (tech_recall)
print 'Recall for categorie nontech: %f' % (nontech_recall)

Recall for categorie tech: 1.000000
Recall for categorie nontech: 0.360000


**Der Recall-Score gibt in diesem Fall an, wie viele der tatsächlichen 'tech'/'nontech' Dokumente als 'tech'/'nontech' klassifiziert wurden. Hier sieht man schön, dass zwar alle Dokumente die als nontech' klassifiziert wurden auch 'nontech' waren ** (Precision-Score) **, dafür aber nur 36% der tatsächlichen 'nontech' als 'nontech' klassifiziert**  
**Dagegen wurden alle tatsächlichen 'tech' Dokumente auch als 'tech' klassifiziert.**

In [353]:
from sklearn.metrics import f1_score

tech_f1 = f1_score(data[1].values, data[0].values, pos_label='tech')
nontech_f1 = f1_score(data[1].values, data[0].values, pos_label='nontech')

print 'F1-Score for categorie tech: %f' % (tech_f1)
print 'F1-Score for categorie nontech: %f' % (nontech_f1)

F1-Score for categorie tech: 0.764045
F1-Score for categorie nontech: 0.487805


**Der F1-Score kombiniert die beiden Werte Recall und Precision und bildet einen Durchschnittswert.** 

3.Diskutieren Sie das Ergebnis

### Auswertung:

**Die einzelnen Metriken zeigen wie gut der Naive Bayes Classifier selbst bei simpler getWords Methode funktioniert.**  
**Natürlich würde die richtige Klassifizierung verbessert wenn wir mehr Triningsdaten in den Classifier geben.**
**Um overfitting müssen wir uns bei diesem kleinen Datensatz weniger sorgen machen.**  

4.Wie könnte die Klassifikationsgüte durch Modifikation der _getwords()_-Methode verbessert werden? Implementieren Sie diesen Ansatz und vergleichen Sie das Ergebnis mit dem des ersten Ansatzes.

### Token frequency anstatt alle 1

In [319]:
#improved by removing stop words and using tf instead of just 1 for every word

def getwordsTF(docText):
    LOWER_LIMIT = 1
    UPPER_LIMIT = 20
    
    sentence = nltk.regexp_tokenize(docText, r"[\wäöüÄÖÜß]+")
    
    tokens = [x.lower() for x in sentence if x.lower()]
    
    wordDict = { x: tokens.count(x) for x in tokens\
                if tokens.count(x) >= LOWER_LIMIT and tokens.count(x) <= UPPER_LIMIT}
    
    return wordDict

In [320]:
text = 'Call of Duty: Black Ops 3 (PS4)   Darauf warten die Shooter-Fans! Call of Duty: Black Ops 3 kommt heute in die Läden. Wir haben den Einzelspieler-Part des bombastischen Shooters vorab auf der PlayStation 4 getestet und dürfen schon jetzt sagen: Black Ops 3 liefert auf hohem Niveau ganz genau das, was sich Fans der Serie erwarten.'
getwordsTF(text)

{'3': 3,
 '4': 1,
 'auf': 2,
 'black': 3,
 'bombastischen': 1,
 'call': 2,
 'darauf': 1,
 'das': 1,
 'den': 1,
 'der': 2,
 'des': 1,
 'die': 2,
 'duty': 2,
 'd\xc3\xbcrfen': 1,
 'einzelspieler': 1,
 'erwarten': 1,
 'fans': 2,
 'ganz': 1,
 'genau': 1,
 'getestet': 1,
 'haben': 1,
 'heute': 1,
 'hohem': 1,
 'in': 1,
 'jetzt': 1,
 'kommt': 1,
 'liefert': 1,
 'l\xc3\xa4den': 1,
 'niveau': 1,
 'of': 2,
 'ops': 3,
 'part': 1,
 'playstation': 1,
 'ps4': 1,
 'sagen': 1,
 'schon': 1,
 'serie': 1,
 'shooter': 1,
 'shooters': 1,
 'sich': 1,
 'und': 1,
 'vorab': 1,
 'warten': 1,
 'was': 1,
 'wir': 1}

In [321]:
naiveBayesClassifierTF = NaiveBayesClassifier(getwordsTF)

for feed in trainTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        naiveBayesClassifierTF.train(fulltext, 'tech')

for feed in trainNonTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        naiveBayesClassifierTF.train(fulltext, 'nontech')

In [322]:
length = 0
for feed in test:
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
        length += 1
        fulltext=stripHTML(e.title+' '+e.description)
        print fulltext
        print naiveBayesClassifierTF.testDocument(fulltext)
        print

http://rss.golem.de/rss.php?r=sw&feed=RSS0.91
0-Day: Tor und Firefox patchen kritische Schwachstelle Tor und Mozilla haben schnell reagiert und veröffentlichen einen außerplanmäßigen Patch für eine kritische Sicherheitslücke. Der Fehler lag in einer Animationsfunktion für Vektorgrafiken. ( Security ,  Firefox )  
{'tech': 0.9051903242410411, 'nontech': 0.09480967575895884}

Hatch: Games ohne Installation auf dem Smartphone spielen Hatch ist ein neues Streaming-Abo für Spiele auf Android-Geräten: Nutzer können Games direkt vom Cloud-Server auf ihr Smartphone oder Tablet streamen, ohne sie vorher installieren zu müssen. Spiele können zudem auch immer zu zweit gespielt werden, indem die Steuerung über die Cloud geteilt wird. ( slush2016 ,  Smartphone )  
{'tech': 0.9995928418748299, 'nontech': 0.0004071581251700541}

0-Day: Nutzer des Tor-Browsers werden mit Javascript angegriffen Wer den Tor-Browsers nutzt, will meist vor allem eins: Anonymität. Eine aktuelle Schwachstelle im Firefox-Bro

In [323]:
feed_num = 1

data = []

for feed in test:
    f=feedparser.parse(feed)
    for e in f.entries:
        length += 1
        fulltext=stripHTML(e.title+' '+e.description)
        pred_cat=get_highest_prob_cat(naiveBayesClassifierTF.testDocument(fulltext))
        if feed_num == 1:
            data.append([pred_cat, 'tech'])
        else:
            data.append([pred_cat, 'nontech'])
    feed_num += 1

    
data = pd.DataFrame(data)

In [324]:
accuracy = accuracy_score(data[1].values, data[0].values)
print 'Accuracy: ', accuracy

Accuracy:  0.738461538462


In [325]:
confus = confusion_matrix(data[1].values, data[0].values)
confus

array([[ 8, 17],
       [ 0, 40]])

In [326]:
tech_prec = precision_score(data[1].values, data[0].values, pos_label='tech')
nontech_prec = precision_score(data[1].values, data[0].values, pos_label='nontech')

print 'Precision for categorie tech: %f' % (tech_prec)
print 'Precision for categorie nontech: %f' % (nontech_prec)

Precision for categorie tech: 0.701754
Precision for categorie nontech: 1.000000


In [327]:
tech_recall = recall_score(data[1].values, data[0].values, pos_label='tech')
nontech_recall = recall_score(data[1].values, data[0].values, pos_label='nontech')

print 'Recall for categorie tech: %f' % (tech_recall)
print 'Recall for categorie nontech: %f' % (nontech_recall)

Recall for categorie tech: 1.000000
Recall for categorie nontech: 0.320000


In [328]:
tech_f1 = f1_score(data[1].values, data[0].values, pos_label='tech')
nontech_f1 = f1_score(data[1].values, data[0].values, pos_label='nontech')

print 'F1-Score for categorie tech: %f' % (tech_f1)
print 'F1-Score for categorie nontech: %f' % (nontech_f1)

F1-Score for categorie tech: 0.824742
F1-Score for categorie nontech: 0.484848


### Auswertung
**Wenn man den accuracy Wert der simplen Lösung (alle Wörter Häufigkeit 1) mit dem aus diesem Durchlauf vergleicht, fällt auf, dass die accuracy sogar abgenommen hat und das Ergebnis demnach schlechter geworden ist.**  
  
**0.75384615384615383  --token frequency-->  0.738461538462**

**Folglich verschlechtern sich auch die anderen Metriken.**

**Da die sogenannten "Stop words" höchstwahrscheinlich der Grund für die schlechtere Performance ist, werden diese als nächstes entfernt.**

-----------------

### TF + removed Stop words

In [329]:
from nltk.corpus import stopwords
stops = set(stopwords.words('german'))

In [330]:
#improved by removing stop words and using tf instead of just 1 for every word

def getwordsTFStop(docText):
    LOWER_LIMIT = 1
    UPPER_LIMIT = 20
    
    sentence = nltk.regexp_tokenize(docText, r"[\wäöüÄÖÜß]+")
    
    tokens = [x.lower() for x in sentence if x.lower() not in stops]
    
    wordDict = { x: tokens.count(x) for x in tokens\
                if tokens.count(x) >= LOWER_LIMIT and tokens.count(x) <= UPPER_LIMIT}
    
    return wordDict

In [331]:
text = 'Call of Duty: Black Ops 3 (PS4)   Darauf warten die Shooter-Fans! Call of Duty: Black Ops 3 kommt heute in die Läden. Wir haben den Einzelspieler-Part des bombastischen Shooters vorab auf der PlayStation 4 getestet und dürfen schon jetzt sagen: Black Ops 3 liefert auf hohem Niveau ganz genau das, was sich Fans der Serie erwarten.'
getwordsTFStop(text)

{'3': 3,
 '4': 1,
 'black': 3,
 'bombastischen': 1,
 'call': 2,
 'darauf': 1,
 'duty': 2,
 'd\xc3\xbcrfen': 1,
 'einzelspieler': 1,
 'erwarten': 1,
 'fans': 2,
 'ganz': 1,
 'genau': 1,
 'getestet': 1,
 'heute': 1,
 'hohem': 1,
 'kommt': 1,
 'liefert': 1,
 'l\xc3\xa4den': 1,
 'niveau': 1,
 'of': 2,
 'ops': 3,
 'part': 1,
 'playstation': 1,
 'ps4': 1,
 'sagen': 1,
 'schon': 1,
 'serie': 1,
 'shooter': 1,
 'shooters': 1,
 'vorab': 1,
 'warten': 1}

In [332]:
naiveBayesClassifierTFStop = NaiveBayesClassifier(getwordsTFStop)

for feed in trainTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        naiveBayesClassifierTFStop.train(fulltext, 'tech')

for feed in trainNonTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        naiveBayesClassifierTFStop.train(fulltext, 'nontech')

In [333]:
length = 0
for feed in test:
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
        length += 1
        fulltext=stripHTML(e.title+' '+e.description)
        print fulltext
        print naiveBayesClassifierTFStop.testDocument(fulltext)
        print

http://rss.golem.de/rss.php?r=sw&feed=RSS0.91
0-Day: Tor und Firefox patchen kritische Schwachstelle Tor und Mozilla haben schnell reagiert und veröffentlichen einen außerplanmäßigen Patch für eine kritische Sicherheitslücke. Der Fehler lag in einer Animationsfunktion für Vektorgrafiken. ( Security ,  Firefox )  
{'tech': 0.764074720932663, 'nontech': 0.23592527906733696}

Hatch: Games ohne Installation auf dem Smartphone spielen Hatch ist ein neues Streaming-Abo für Spiele auf Android-Geräten: Nutzer können Games direkt vom Cloud-Server auf ihr Smartphone oder Tablet streamen, ohne sie vorher installieren zu müssen. Spiele können zudem auch immer zu zweit gespielt werden, indem die Steuerung über die Cloud geteilt wird. ( slush2016 ,  Smartphone )  
{'tech': 0.9502757471532507, 'nontech': 0.049724252846749396}

0-Day: Nutzer des Tor-Browsers werden mit Javascript angegriffen Wer den Tor-Browsers nutzt, will meist vor allem eins: Anonymität. Eine aktuelle Schwachstelle im Firefox-Brows

In [334]:
feed_num = 1

data = []

for feed in test:
    f=feedparser.parse(feed)
    for e in f.entries:
        length += 1
        fulltext=stripHTML(e.title+' '+e.description)
        pred_cat=get_highest_prob_cat(naiveBayesClassifierTFStop.testDocument(fulltext))
        if feed_num == 1:
            data.append([pred_cat, 'tech'])
        else:
            data.append([pred_cat, 'nontech'])
    feed_num += 1

    
data = pd.DataFrame(data)

In [335]:
accuracy = accuracy_score(data[1].values, data[0].values)
print 'Accuracy: ', accuracy

Accuracy:  0.815384615385


In [336]:
confus = confusion_matrix(data[1].values, data[0].values)
confus

array([[18,  7],
       [ 5, 35]])

In [337]:
tech_prec = precision_score(data[1].values, data[0].values, pos_label='tech')
nontech_prec = precision_score(data[1].values, data[0].values, pos_label='nontech')

print 'Precision for categorie tech: %f' % (tech_prec)
print 'Precision for categorie nontech: %f' % (nontech_prec)

Precision for categorie tech: 0.833333
Precision for categorie nontech: 0.782609


In [338]:
tech_recall = recall_score(data[1].values, data[0].values, pos_label='tech')
nontech_recall = recall_score(data[1].values, data[0].values, pos_label='nontech')

print 'Recall for categorie tech: %f' % (tech_recall)
print 'Recall for categorie nontech: %f' % (nontech_recall)

Recall for categorie tech: 0.875000
Recall for categorie nontech: 0.720000


In [339]:
tech_f1 = f1_score(data[1].values, data[0].values, pos_label='tech')
nontech_f1 = f1_score(data[1].values, data[0].values, pos_label='nontech')

print 'F1-Score for categorie tech: %f' % (tech_f1)
print 'F1-Score for categorie nontech: %f' % (nontech_f1)

F1-Score for categorie tech: 0.853659
F1-Score for categorie nontech: 0.750000


### Auswertung token frequency
**Wie man schon an der Accuracy gut erkennen kann, hat das Entfernen von den so genannten "Stop words" den Wert wieder deutlich verbessert und jetzt sogar besser als den Ausgangswert gemacht.**  
**Die accuracy hat sich demnach so verändert:**      
**0.75384615384615383 --token frequency--> 0.738461538462 --stop words + TF--> 0.815384615385**  

**Dadurch haben wir eine Verbesserung der accuracy um fast 7% zum Startwert.**    

**Beim Betrachten der confusion-matrix fällt auf, dass der Gesamtwert zwar besser ist, in diesem Fall jetzt aber auch Dokumente der Kategorie 'nontech' als 'tech' klassifiziert wurden.**

**Der letzte Schritt wäre das Verwenden der TF-IDF Werte pro Wort, was dazu führt, dass Worte die in vielen oder allen Dokumenten vorkommen immer weniger berücksichtigt werden.**



--------------

### TF-IDF + removed Stop words   
(experimental -> maybe wrong implementation)

In [340]:
corpus = []

for feed in trainTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        corpus.append(fulltext)
        
for feed in trainNonTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        corpus.append(fulltext)
        
for feed in test:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        corpus.append(fulltext)

In [341]:
from gensim import corpora

#removing stop words from the corpus
cleaned_corpus = [[word for word in nltk.regexp_tokenize(text, r"[\wäöüÄÖÜß]+") if word not in stops] for text in corpus]

#removing words that only occur once <- bad for such a small corpus like this one
#remone_corpus = [[word for word in text if text.count(word) > 1] for text in cleaned_corpus]

#creating a dictonary with occurrence frequency
dictionary = corpora.Dictionary(cleaned_corpus)
fin_corpus = [dictionary.doc2bow(text) for text in cleaned_corpus]

In [342]:
from gensim.models.tfidfmodel import TfidfModel

#initializing the tf-idf weighter with the predefined corpus
tfidf = TfidfModel(fin_corpus)

In [343]:
#improved by removing stop words and using tf-idf instead of just 1 for every word

def getwordsTFIDFStop(docText):
    
    sentence = nltk.regexp_tokenize(docText.lower(), r"[\wäöüÄÖÜß]+")
    new_vec = dictionary.doc2bow(sentence)
    
    vec_vals = tfidf[new_vec]
    
    wordDict = {x[0]: x[1] for x in vec_vals}
    
    return wordDict

In [344]:
text = 'Call of Duty: Black Ops 3 (PS4)   Darauf warten die Shooter-Fans! Call of Duty: Black Ops 3 kommt heute in die Läden. Wir haben den Einzelspieler-Part des bombastischen Shooters vorab auf der PlayStation 4 getestet und dürfen schon jetzt sagen: Black Ops 3 liefert auf hohem Niveau ganz genau das, was sich Fans der Serie erwarten.'
getwordsTFIDFStop(text)

{157: 0.5956308638248419,
 213: 0.1985436212749473,
 406: 0.26239254918925087,
 480: 0.17276924816509018,
 827: 0.2117934709615411,
 952: 0.17276924816509018,
 1133: 0.23046808523209905,
 1288: 0.4609361704641981,
 1589: 0.23046808523209905,
 2142: 0.2117934709615411,
 3672: 0.26239254918925087}

In [345]:
naiveBayesClassifierTFIDFStop = NaiveBayesClassifier(getwordsTFIDFStop)

for feed in trainTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        naiveBayesClassifierTFIDFStop.train(fulltext, 'tech')

for feed in trainNonTech:
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        naiveBayesClassifierTFIDFStop.train(fulltext, 'nontech')

In [346]:
for feed in test:
    print feed
    f=feedparser.parse(feed)
    for e in f.entries:
        fulltext=stripHTML(e.title+' '+e.description)
        print fulltext
        print naiveBayesClassifierTFIDFStop.testDocument(fulltext)
        print

http://rss.golem.de/rss.php?r=sw&feed=RSS0.91
0-Day: Tor und Firefox patchen kritische Schwachstelle Tor und Mozilla haben schnell reagiert und veröffentlichen einen außerplanmäßigen Patch für eine kritische Sicherheitslücke. Der Fehler lag in einer Animationsfunktion für Vektorgrafiken. ( Security ,  Firefox )  
{'tech': 0.5157727421910177, 'nontech': 0.4842272578089823}

Hatch: Games ohne Installation auf dem Smartphone spielen Hatch ist ein neues Streaming-Abo für Spiele auf Android-Geräten: Nutzer können Games direkt vom Cloud-Server auf ihr Smartphone oder Tablet streamen, ohne sie vorher installieren zu müssen. Spiele können zudem auch immer zu zweit gespielt werden, indem die Steuerung über die Cloud geteilt wird. ( slush2016 ,  Smartphone )  
{'tech': 0.5679825931462342, 'nontech': 0.4320174068537657}

0-Day: Nutzer des Tor-Browsers werden mit Javascript angegriffen Wer den Tor-Browsers nutzt, will meist vor allem eins: Anonymität. Eine aktuelle Schwachstelle im Firefox-Browser

In [347]:
feed_num = 1

data = []

for feed in test:
    f=feedparser.parse(feed)
    for e in f.entries:
        length += 1
        fulltext=stripHTML(e.title+' '+e.description)
        pred_cat=get_highest_prob_cat(naiveBayesClassifierTFIDFStop.testDocument(fulltext))
        if feed_num == 1:
            data.append([pred_cat, 'tech'])
        else:
            data.append([pred_cat, 'nontech'])
    feed_num += 1

    
data = pd.DataFrame(data)

In [348]:
accuracy = accuracy_score(data[1].values, data[0].values)
print 'Accuracy: ', accuracy

Accuracy:  0.676923076923


In [349]:
confus = confusion_matrix(data[1].values, data[0].values)
confus

array([[10, 15],
       [ 6, 34]])

In [350]:
tech_prec = precision_score(data[1].values, data[0].values, pos_label='tech')
nontech_prec = precision_score(data[1].values, data[0].values, pos_label='nontech')

print 'Precision for categorie tech: %f' % (tech_prec)
print 'Precision for categorie nontech: %f' % (nontech_prec)

Precision for categorie tech: 0.693878
Precision for categorie nontech: 0.625000


In [351]:
tech_recall = recall_score(data[1].values, data[0].values, pos_label='tech')
nontech_recall = recall_score(data[1].values, data[0].values, pos_label='nontech')

print 'Recall for categorie tech: %f' % (tech_recall)
print 'Recall for categorie nontech: %f' % (nontech_recall)

Recall for categorie tech: 0.850000
Recall for categorie nontech: 0.400000


In [352]:
tech_f1 = f1_score(data[1].values, data[0].values, pos_label='tech')
nontech_f1 = f1_score(data[1].values, data[0].values, pos_label='nontech')

print 'F1-Score for categorie tech: %f' % (tech_f1)
print 'F1-Score for categorie nontech: %f' % (nontech_f1)

F1-Score for categorie tech: 0.764045
F1-Score for categorie nontech: 0.487805


### Auswertung
**Obwohl in diesem Fall nur die "wichtigsten" und am seltensten vorkommenden Worte als Informationsträger ausgewählt werden, bekommen wir ein deutlich schlechteres Ergebnis als bei allen anderen Einstellungen.**  
**Mit einer accuracy von 0.676923076923 liegen wir sogar noch deutlich unter der reinen TF Implementierung, bei der der Wert bei 0.0.75384615384615383 war.**

**Es besteht die Möglichkeit, dass unsere Implementierung fehlerhaft ist und wir deshalb diese schlechten Werte für die TF-IDF Variante erhalten. Außerdem könnte es aber sein, dass der Corpus einfach zu klein ist.**