# Data Mining Versuch Document Classification
* Autor: Prof. Dr. Johannes Maucher
* Datum: 06.11.2015

[Übersicht Ipython Notebooks im Data Mining Praktikum](Data Mining Praktikum.ipynb)

# Einführung
## Lernziele:
In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Dokumentklassifikation: Klassifikation von Dokumenten, insbesondere Emails und RSS Feed
* Naive Bayes Classifier: Weit verbreitete Klassifikationsmethode, welche unter bestimmten Randbedingungen sehr gut skaliert.


## Theorie zur Vorbereitung
### Parametrische Klassifikation und Naive Bayes Methode
Klassifikatoren müssen zu einer gegebenen Eingabe $\underline{x}$ die zugehörige Klasse $C_i$ bestimmen. Mithilfe der Wahrscheinlichkeitstheorie kann diese Aufgabe wie folgt beschrieben werden: Bestimme für alle möglichen Klassen $C_i$ die bedingte Wahrscheinlichkeit $P(C_i | \underline{x})$, also die Wahrscheinlichkeit, dass die gegebene Eingabe $\underline{x}$ in Klasse $C_i$ fällt. Wähle dann die Klasse aus, für welche diese Wahrscheinlichkeit maximal ist.

Die Entscheidungsregeln von Klassifikatoren können mit Methoden des ""überwachten Lernens"" aus Trainingsdaten ermittelt werden. Im Fall des **parametrischen Lernens** kann aus den Trainingsdaten die sogenannte **Likelihood-Funktion** $p(\underline{x} \mid C_i)$ bestimmt werden. _Anmerkung:_ Allgemein werden mit $p(...)$ kontinuierliche Wahrscheinlichkeitsfunktionen und mit $P(...)$ diskrete Wahrscheinlichkeitswerte bezeichnet. 

Mithilfe der **Bayes-Formel**
$$
P(C_i \mid \underline{x}) = \frac{p(\underline{x} \mid C_i) \cdot P(C_i)}{p(\underline{x})}
$$

kann aus der Likelihood die **a-posteriori-Wahrscheinlichkeit $P(C_i \mid \underline{x})$** berechnet werden. Darin wird $P(C_i)$ die **a-priori-Wahrscheinlichkeit** und $p(\underline{x})$ die **Evidenz** genannt. Die a-priori-Wahrscheinlichkeit kann ebenfalls aus den Trainingsdaten ermittelt werden. Die Evidenz ist für die Klassifikationsentscheidung nicht relevant, da sie für alle Klassen $C_i$ gleich groß ist.

Die Berechnung der Likelihood-Funktion $p(\underline{x} \mid C_i)$ ist dann sehr aufwendig, wenn $\underline{x}=(x_1,x_2,\ldots,x_Z)$ ein Vektor von voneinander abhängigen Variablen $x_i$ ist. Bei der **Naive Bayes Classification** wird jedoch von der vereinfachenden Annahme ausgegangen, dass die Eingabevariabeln $x_i$ voneinander unabhängig sind. Dann vereinfacht sich die bedingte Verbundwahrscheinlichkeits-Funktion $p(x_1,x_2,\ldots,x_Z \mid C_i)$ zu:

$$
p(x_1,x_2,\ldots,x_Z \mid C_i)=\prod\limits_{j=1}^Z p(x_j | C_i)
$$

### Anwendung der Naive Bayes Methode in der Dokumentklassifikation
Auf der rechten Seite der vorigen Gleichung stehen nur noch von den jeweils anderen Variablen unabhängige bedingte Wahrscheinlichkeiten. Im Fall der Dokumentklassifikation sind die einzelnen Worte die Variablen, d.h. ein Ausdruck der Form $P(x_j | C_i)$ gibt an mit welcher Wahrscheinlichkeit ein Wort $x_j=w$ in einem Dokument der Klasse $C_i$ vorkommt. 
Die Menge aller Variablen $\left\{x_1,x_2,\ldots,x_Z \right\}$ ist dann die Menge aller Wörter im Dokument. Damit gibt die linke Seite in der oben gegebenen Gleichung die _Wahrscheinlichkeit, dass die Wörter $\left\{x_1,x_2,\ldots,x_Z \right\}$ in einem Dokument der Klasse $C_i$ vorkommen_ an.

Für jedes Wort _w_ wird aus den Trainingsdaten die Wahrscheinlichkeit $P(w|G)$, mit der das Wort in Dokumenten der Kategorie _Good_ und die Wahrscheinlichkeit $P(w|B)$ mit der das Wort in Dokumenten der Kategorie _Bad_ auftaucht ermittelt. Trainingsdokumente werden in der Form

$$
tD=(String,Category)
$$
eingegeben. 

Wenn 

* mit der Variable $fc(w,cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ in denen das Wort $w$ enthalten ist
* mit der Variable $cc(cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ 

gezählt wird, dann ist 

$$
P(w|G)=\frac{fc(w,G)}{cc(G)} \quad \quad P(w|B)=\frac{fc(w,B)}{cc(B)}.
$$

Wird nun nach der Eingabe von $L$ Trainingsdokumenten ein neu zu klassifizierendes Dokument $D$ eingegeben und sei $W(D)$ die Menge aller Wörter in $D$, dann berechnen sich unter der Annahme, dass die Worte in $W(D)$ voneinander unabhängig sind (naive Bayes Annahme) die a-posteriori Wahrscheinlichkeiten zu:

$$
P(G|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | G) \right) \cdot P(G)}{p(D)}
$$
und
$$
P(B|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | B) \right) \cdot P(B)}{p(D)}.
$$

Die hierfür notwendigen a-priori-Wahrscheinlichkeiten berechnen sich zu 

$$
P(G)=\frac{cc(G)}{L}
$$
und
$$
P(B)=\frac{cc(B)}{L}
$$

Die Evidenz $p(D)$ beeinflusst die Entscheidung nicht und kann deshalb ignoriert werden.


## Vor dem Versuch zu klärende Fragen


1. Wie wird ein Naive Bayes Classifier trainiert? Was muss beim Training für die spätere Klassifikation abgespeichert werden?
2. Wie teilt ein Naiver Bayes Classifier ein neues Dokument ein?
3. Welche naive Annahme liegt dem Bayes Classifier zugrunde? Ist diese Annahme im Fall der Dokumentklassifikation tatsächlich gegeben?
4. Betrachten Sie die Formeln für die Berechnung von $P(G|D)$ und $P(B|D)$. Welches Problem stellt sich ein, wenn in der Menge $W(D)$ ein Wort vorkommt, das nicht in den Trainingsdaten der Kategorie $G$ vorkommt und ein anderes Wort aus $W(D)$ nicht in den Trainingsdaten der Kategorie $B$ enthalten ist? Wie könnte dieses Problem gelöst werden? 



#### Aufgabe 1
Der Naive Bayes Classifier bekommt ein Trainingsset mit gelabelten Dokumenten. Aus allen Wörtern der Dokumente wird ein Vokabular gebildet. Anschließend lernt der Classifier, wie oft jedes Wort des Vokabulars in Dokumenten jeder Klasse vorkommt. Für die spätere Klassifikation muss für jedes Wort abgespeichert werden, mit welcher Wahrscheinlichkeit es in Dokumenten jeder Klasse vorkommt. Wenn also im Trainingsset 300 Worte und Dokumente aus 2 Klassen vorkommen, müssen 600 Werte gespeichert werden.

#### Aufgabe 2
Für ein neues Dokument berechnet der Classifier, basierend auf den gespeicherten Werten, die Wahrscheinlichkeiten für die Zugehörigkeit zu jeder Klasse. Gibt es zwei Klassen *gut* und *schlecht*, werden also die Wahrscheinlichkeit berechnet, dass das Dokument zur Klasse *gut* gehört und die Wahrscheinlichkeit, dass das Dokument zur Klasse *schlecht* gehört. Für die Klasse, deren Wahrscheinlichkeit höher ist, erfolgt die Ausgabe.

#### Aufgabe 3
Dem naiven Bayes Classifier liegt die Annahme zugrunde, dass alle Eingabevariablen voneinander unabhngig sind. Im Fall der Dokumentklassifikation würde das bedeuten, dass alle Wörter eines Dokuments voneinander unabhängig sind. Das ist aber eigentlich nicht gegeben, denn es gibt durchaus Wörter, die nach bestimmten Wörtern nicht vorkommen können, teilweise auch durch die Grammatik bedingt.

#### Aufgabe 4
Kommt im zu klassifiziernden Dokument jeweils ein Wort vor, das nicht in den Trainingsdaten der Kategorie G und B enthalten war, wird das gesamte Produkt bei der Berechnung von $P(G|D)$ und $P(B|D)$ null. Somit ergibt die Wahrscheinlichkeit des Dokuments für beide Klassen null. Es kann keine Klassifikation erfolgen.
Dieses Problem lässt sich vermeiden, wenn man Smoothing anwendet. Dabei verändern sich die Formeln zur Berechnung von $P(G|D)$ und $P(B|D)$. Man ersetzt $P(w|G)$, beziehungsweise $P(w|B)$ durch:
> $P(x_{j}|C_{i})=\frac{w*P_{ass, i}+|x_{j}|*P(x_{j}|C_{i})}{w+|x_{j}|}$ mit x = Wort, C = Kategorie<br>
$\boldsymbol{P_{ass, i}}$ ist die angenommene Wahrscheinlichkeit für die Zugehörigkeit
eines Worts zu einer Kategorie $C_{i}$ , unabhängig von tatsächlicher Auftrittshäufigkeit. Default: $P_{ass,i} = 1/K$ (K ist die Anzahl der Klassen)<br>
$\boldsymbol{w}$ ist ein Gewicht, über welches der Einfluss der angenommenen Wahrscheinlichkeit in die gesamte Wahrscheinlichkeit eingestellt werden kann. Default: $w = 1$<br>
$\boldsymbol{|x_{j}|}$ ist die Anzahl der Dokumente, in denen Wort $x_{j}$ vorkommt (unabhängig von der Kategorie).

# Durchführung
## Feature Extraction/ -Selection

**Aufgabe:**
Implementieren Sie eine Funktion _getwords(doc)_, der ein beliebiges Dokument in Form einer String-Variablen übergeben wird. In der Funktion soll der String in seine Wörter zerlegt und jedes Wort in _lowercase_ transformiert werden. Wörter, die weniger als eine untere Grenze von Zeichen (z.B. 3) oder mehr als eine obere Grenze von Zeichen (z.B. 20) enthalten, sollen ignoriert werden. Die Funktion soll ein dictionary zurückgeben, dessen _Keys_ die Wörter sind. Die _Values_ sollen für jedes Wort zunächst auf $1$ gesetzt werden.

**Tipp:** Benutzen Sie für die Zerlegung des Strings und für die Darstellung aller Wörter mit ausschließlich kleinen Buchstaben die Funktionen _split(), strip('sep')_ und _lower()_ der Klasse _String_.  


Alle Imports, die für diesen Versuch benötigt werden, sind hier zusammengefasst.

In [105]:
from collections import Counter
from sklearn.metrics import confusion_matrix, accuracy_score, precision_recall_fscore_support
from IPython.display import display
from nltk.corpus import stopwords
from nltk.stem.snowball import GermanStemmer
import feedparser
import math
import numpy as np
import pandas as pd
from gensim import corpora, models

Die Funktion ***getWordsCounted*** erstellt für das übergebene Dokument ein Dictionary, in dem jedes Wort ein Key und die Häufigkeit des Wortes im Dokument als Value gespeichert wird. Alle Wörter werden in Kleinbuchstaben transformiert (*lowercase*), Satzzeichen entfernt (*strip*) und Wörter aussortiert, die weniger als 3 oder mehr als 20 Buchstaben haben.

In [54]:
def getWordsCounted(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('().,:;!?-"') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20]
    wordDict = dict(Counter(words))
    return wordDict

Die Funktion ***getWordList*** erstellt für das übergebene Dokument eine Liste, die alle Wörter des Dokuments enthält. Die Liste kann Wörter mehrfach enthalten, wenn diese mehrfach im Dokument vorkommen. Alle Wörter werden in Kleinbuchstaben transformiert (*lowercase*), Satzzeichen entfernt (*strip*) und Wörter aussortiert, die weniger als 3 oder mehr als 20 Buchstaben haben.

In [55]:
def getWordList(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('().,:;!?-"') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20]
    return words

Die Funktion ***getWordSet*** erstellt für das übergebene Dokument ein Set aus der Wortliste, die von der Funktion ***getWordList*** zurückgegeben wird. Im Set kommt jedes Wort dann nur noch einmal vor.

In [56]:
def getWordSet(doc):
    return set(getWordList(doc))

## Classifier

**Aufgabe:**
Implementieren Sie den Naive Bayes Classifier für die Dokumentklassifikation. Es bietet sich an die Funktionalität des Klassifikators und das vom Klassifikator gelernte Wissen in einer Instanz einer Klasse _Classifier_ zu kapseln. In diesem Fall kann wie folgt vorgegangen werden:

* Im Konstruktor der Klasse wird je ein Dictionary für die Instanzvariablen _fc_ und _cc_ (siehe oben) initialisiert. Dabei ist _fc_ ein verschachteltes Dictionary. Seine Keys sind die bisher gelernten Worte, die Values sind wiederum Dictionaries, deren Keys die Kategorien _Good_ und _Bad_ sind und deren Values zählen wie häufig das Wort bisher in Dokumenten der jeweiligen Kategorie auftrat. Das Dictionary _cc_ hat als Keys die Kategorien _Good_ und _Bad_. Die Values zählen wie häufig Dokumente der jeweiligen Kategorien bisher auftraten.
* Im Konstruktor wird ferner der Instanzvariablen _getfeatures_ die Funktion _getwords()_ übergeben. Die Funktion _getwords()_ wurde bereits zuvor ausserhalb der Klasse definiert. Sinn dieses Vorgehens ist, dass andere Varianten um Merkmale aus Dokumenten zu extrahieren denkbar sind. Diese Varianten könnten dann ähnlich wie die _getwords()_-Funktion ausserhalb der Klasse definiert und beim Anlegen eines _Classifier_-Objekts der Instanzvariablen _getfeatures_ übergeben werden.  
* Der Methode _incf(self,f,cat)_ wird ein Wort _f_ und die zugehörige Kategorie _cat_ des Dokuments in welchem es auftrat übergeben. In der Methode wird der _fc_-Zähler angepasst.
* Der Methode _incc(self,cat)_ wird die Kategorie _cat_ des gerade eingelesenen Dokuments übergeben. In der Methode wird der _cc_-Zähler angepasst.
* Die Methode _fcount(self,f,cat)_ gibt die Häufigkeit des Worts _f_ in den Dokumenten der Kategorie _cat_ zurück.
* Die Methode _catcount(self,cat)_ gibt die Anzahl der Dokumente in der Kategorie _cat_ zurück.
* Die Methode _totalcount(self)_ gibt die Anzahl aller Dokumente zurück.
* Der Methode _train(self,item,cat)_ wird ein neues Trainingselement, bestehend aus der Betreffzeile (_item_) und der entsprechenden Kategorisierung (_cat_) übergeben. Der String _item_ wird mit der Instanzmethode _getfeatures_ (Diese referenziert _getwords()_) in Worte zerlegt. Für jedes einzelne Wort wird dann _incf(self,f,cat)_ aufgerufen. Ausserdem wird für das neue Trainingsdokument die Methode _incc(self,cat)_ aufgerufen.
* Die Methode _fprob(self,f,cat)_ berechnet die bedingte Wahrscheinlichkeit $P(f | cat)$ des Wortes _f_ in der Kategorie _cat_ entsprechend der oben angegebenen Formeln, indem sie den aktuellen Stand des Zählers _fc(f,cat)_ durch den aktuellen Stand des Zählers _cc(cat)_ teilt.   
* Die Methode _fprob(self,f,cat)_ liefert evtl. ungewollt extreme Ergebnisse, wenn noch wenig Wörter im Klassifizierer verbucht sind. Kommt z.B. ein Wort erst einmal in den Trainingsdaten vor, so wird seine Auftrittswahrscheinlichkeit in der Kategorie in welcher es nicht vorkommt gleich 0 sein. Um extreme Wahrscheinlichkeitswerte im Fall noch selten vorkommender Werte zu vermeiden, soll zusätzlich zur Methode _fprob(self,f,cat)_ die Methode _weightedprob(self,f,cat)_ implementiert und angewandt werden. Der von ihr zurückgegebene Wahrscheinlichkeitswert könnte z.B. wie folgt berechnet werden:$$wprob=\frac{initprob+count \cdot fprob(self,f,cat)}{1+count},$$ wobei $initprob$ ein initialer Wahrscheinlichkeitswert (z.B. 0.5) ist, welcher zurückgegeben werden soll, wenn das Wort noch nicht in den Trainingsdaten aufgetaucht ist. Die Variable $count$ zählt wie oft das Wort $f$ bisher in den Trainingsdaten auftrat. Wie zu erkennen ist, nimmt der Einfluss der initialen Wahrscheinlichkeit ab, je häufiger das Wort in den Trainingsdaten auftrat.
* Nach dem Training soll ein beliebiges neues Dokument (Text-String) eingegeben werden können. Für dieses soll mit der Methode _prob(self,item,cat)_ die a-posteriori-Wahrscheinlichkeit $P(cat|item)$ (Aufgrund der Vernachlässigung der Evidenz handelt es sich hierbei genaugenommen um das Produkt aus a-posteriori-Wahrscheinlichkeit und Evidenz), mit der das Dokument _item_ in die Kategorie _cat_ fällt berechnet werden. Innerhalb der Methode _prob(self,item,cat)_ soll zunächst die Methode _weightedprob(self,f,cat)_ für alle Wörter $f$ im Dokument _item_ aufgerufen werden. Die jeweiligen Rückgabewerte von _weightedprob(self,f,cat)_ werden multipliziert. Das Produkt der Rückgabewerte von _weightedprob(self,f,cat)_ über alle Wörter $f$ im Dokument muss schließlich noch mit der a-priori Wahrscheinlichkeit $P(G)$ bzw. $P(B)$ entsprechend der oben aufgeführten Formeln multipliziert werden. Das Resultat des Produkts wird an das aufrufende Programm zurück gegeben, die Evidenz wird also vernachlässigt (wie oben begründet).



Ein Dokument _item_ wird schließlich der Kategorie _cat_ zugeteilt, für welche die Funktion _prob(self,item,cat)_ den höheren Wert zurück gibt. Da die Rückgabewerte in der Regel sehr klein sind, werden in der Regel folgende Werte angezeigt. Wenn mit $g$ der Rückgabewert von _prob(self,item,cat=G)_ und mit $b$ der Rückgabewert von _prob(self,item,cat=B)_ bezeichnet wird dann ist die Wahrscheinlichkeit, dass $item$ in die Kategorie $G$ fällt, gleich:
$$
\frac{g}{g+b}
$$
und die Wahrscheinlichkeit, dass $item$ in die Kategorie $B$ fällt, gleich:
$$
\frac{b}{g+b}
$$

#### Codebeschreibung
Die Funktionen ***incf***, ***incc***, ***fcount***, ***catcount***, ***totalcount*** und ***fprob*** sind wie oben beschrieben implementiert. Im Folgenden werden die Abweichung der Implementierung zur obigen Beschreibung der anderen Funktionen beschrieben.
###### Konstruktor __init__
Der Konstruktor enthält drei notwendige und einen optionalen Übergabeparameter:
>- ***getfeatures*** ist die Funktion, die angewendet wird, um Merkmale aus den Dokumenten zu extrahieren. Mögliche Funktionen sind die bereits implementierten Funktionen ***getWordList*** (Worthäufigkeiten & tf-idf) oder ***getWordSet*** (Wortauftreten binär).
- ***cat1*** ist der Name der ersten Klasse, z.B. *'good'* oder *'tech'*.
- ***cat2*** ist der Name der zweiten Klasse, z.B. *'bad'* oder *'nonTech'*.
- das optionale Flag ***useTfIdf***, das standardmäßig *False* ist. Falls gewünscht, können mit diesem Flag die Nutzung von tf-idf Werten zur Klassifikationsentscheidung aktiviert werden.

Im Konstruktor werden dann bis zu neun Instanzvariablen initialisiert. Diese werden nun im Einzelnen beschrieben:
>- ***fc*** und ***cc*** sind zwei Dictionarys, die wie oben beschrieben implementiert sind. Dabei ist ***fc*** zunächst leer und wird im Training nach und nach gefüllt. Im Dictionary ***cc*** werden die beiden Klassennamen ***cat1*** und ***cat2*** als Keys gesetzt und mit 0 als Values belegt.
- In ***cat1*** und ***cat2*** werden die übergebenen Klassennamen abgespeichert.
- ***getfeatures*** wird die Funktion übergeben, die zur Extraktion der Merkmale aus dem Dokument verwendet werden soll. Ist das Flag ***useTfIdf*** gesetzt, wird zwingend die Funktion ***getWordList*** übergeben.
- ***tfidf*** speichert ab, ob das Flag zur Nutztung der tf-idf-Werte gesetzt ist.<br><br>
Falls das Flag ***useTfIdf*** gesetzt ist, werden die folgenden Instanzvariablen zusätzlich initialisiert:<br><br>
- ***docListcat1***  und ***docListcat2*** sind Listen, die während des Trainings gefüllt werden. Sie werden für jedes Dokument mit der Wortliste, die von der Funktion getWordList zurückgegeben wird, gefüllt. Welche der beiden Listen gefüllt wird, ist abhängig von der Kategorie des Trainingselements.
- ***dictionary*** ist ein *gensim.corpora* Dictionary, das zu Beginn leer initialisiert wird. Kommt es zur Klassifizierung eines Dokuments, wird das Dictionary mit allen Worten der Trainingsdokumente erstellt.
- ***bowMatrix*** ist ein Pandas Dataframe, das erstellt wird, sobald die Funktion zur Klassifikation eines Dokuments aufgerufen wird.
- ***getfeatures*** wird wie oben bereits beschrieben zwingend die Funktion ***getWordList*** übergeben.

##### Funktion train
Zunächst wird die Funktion ***incc*** aufgerufen, um die Kategorie des aktuellen Trainingsdokuments im cc-Zähler zu registrieren. Anschließend wird das Flag ***tfidf*** geprüft und es kann zu unterschiedlichem Verhalten kommen.
Ist das Flag nicht gesetzt:
>- Erstellen der Wordlist/ des WordSets mithilfe der in ***getfeatures*** festgelegten Funktion.
- Für jedes Wort dieser Liste wird die Funktion ***infc*** aufgerufen, in der der fc Zähler für das gegebene Wort und die gegebene Kategorie erhöht wird. 

Ist das Flag gesetzt:
>- ***docCount*** wird um eins erhöht.
- Erstellen des Dictionarys mit den Worthäufigkeiten für das Dokument mithilfe der Funktion ***getWordsCounted***, die an die Instanzvariable ***getfeatures*** übergeben wurde.
- Erstellen eines verschachtelten Dictionarys ***docDict***, das die Kategorie des Trainingsdokuments unter dem Key *cat* und das zuvor erstellte Dictionary mit den Worthäufigkeiten unter dem key *words* speichert.
- Das zuvor erstellte ***docDict*** wird dem in der Instanzvariablen ***bowDict*** initialisiertem Dictionary übergeben und unter dem Key *'doc'*+***docCount*** abgespeichert.

##### Funktion weightedprob
Ziel ist es, für ein übergebenes Wort *f* und die übergebene Kategorie *cat* die Werte *count* und *fprob* für die Formel zur Berechnung der gewichteten, bedingten Wahrscheinlichkeit des Wortes *f* in der Kategorie *cat*, zu bestimmen.<br>
Nach dem Setzen der ***initprob*** auf $0.5$, wie oben festgelegt, kann es zunächst wieder zu zwei unterschiedlichen Verhaltensweisen kommen, je nachdem wie das *tfidf*-Flag gesetzt ist.
Ist das Flag nicht gesetzt:
>- War das Wort *f* nicht in den Trainingsdaten enthalten, werden die Werte *count* und *fprob* auf null gesetzt.
- Ansonsten wird die Anzahl bestimmt, wie oft das Wort *f* insgesamt in den Trainingsdaten aufgetreten ist und in der Variable *count* übergeben. Außerdem wird die bedingte Wahrscheinlichkeit für ein Auftreten des Wortes *f* in der Klasse *cat* in den Trainingsdaten durch Aufruf der Funktion ***fprob*** bestimmt und der Variable *frob* übergeben.

Ist das Flag gesetzt:
>- Der Wert *count* wird bestimmt, indem gezählt wird, wie oft im BOW-Dataframe in der Spalte des Wortes *f* ein Wert > 0 steht.
- Der Wert *fprob* wird bestimmt, indem die tf-idf-Werte aller Dokumente der Kategorie *cat* aus der Spalte *f* summiert werden und durch die Anzahl der Dokumente der Kategorie *cat* im Trainingsset geteilt wird.

Anschließend werden die Werte *initprob*, *count* und *fprob* in die Formel eingesetzt und das Ergebnis zurückgegeben.

##### Funktion classify
Der Funktion ***classify*** wird ein Dokument übergeben, für das eine Klassifikationsentscheidung getroffen werden soll. Zunächst wird eine Liste *catList*, die die beiden Klassennamen enthält, und ein leeres Dictionary *resultDict* erstellt. Ist das *tfidf*-Flag gesetzt, folgt:
>- Bildung der BOW-Matrix mit tf-idf-werten durch Aufruf der Funktionen ***buildBowMatrix*** und ***buildTfIdfMatrix***

Anschließend folgt in jedem Fall (die folgende Schritte werden durch eine Schleife nacheinander für beide Kategorien ausgeführt):
>- Berechnung des Produkts *probproduct* aus den Wahrscheinlichkeiten aller Wörter des Dokuments für die jeweilige Kategorie durch die Funktion ***prob***
- Berechnung der Wahrscheinlichkeit einer Kategorie *catprob*.
- Schreiben des Produkts der Werte *probproduct* und *catprob* als Keys, mit dem zugehörigen Klassenname als Value ins Dictionary *resultDict*.

Zurückgegeben wird am Ende das *resultDict*.

##### Funktion buildBowMatrix
Die Funktion ***buildBowMatrix*** erstellt aus dem Dictionary ***bowDict***, das alle Dokumente mit ihren Worthäufigkeiten enthält, ein Pandas Dataframe, das die Bag-Of-Word Matrix mit Sollausgabe repräsentiert. Diese Funktion wird nur aufgerufen, wenn das *tfidf*-Flag gesetzt ist.
>- Zunächst wird ein leeres Set *columns* erstellt, das durch einer Schleife mit allen Wörtern der Trainingsdaten gefüllt wird.
- Anschließend wird das Set in eine Liste umgewandelt, der Spaltenname für die Sollausgabe hinzugefügt und ein neues Dataframe *bowMatrix* erstellt, das als Spaltennamen alle Elemente der Liste bekommt.
- Nun wird über jedes Dokument der Trainingsdaten, das in **bowDict** abgespeichert wurde iteriert und mit den zugehörigen Worthäufigkeiten ein Merkmalsvektor erstellt, mit der Sollausgabe als letztes Element, der dann als Zeile in die *bowMatrix* eingefügt wird.
- Sobald jedes Dokument des Trainingssets in der BOW-Matrix steht, wird diese zurückgegeben.

##### Funktion buildTfIdfMatrix
Die Funktion ***buildTfIdfMatrix*** erstellt aus der ***bowMatrix***, die die Worthäufigkeiten enthält, eine BOW-Matrix ***bowMatrix***, die tf-idf-Werte enthält. Dazu wird für jede Spalte bzw. für jedes Wort, die Dokumentfrequency berechnet.
> Wie oft ist die Worthäufigkeit in der entsprechenden Spalte ungleich null?

Dann ergibt sich der idf-Wert eines Worts wie folgt:<br>
>$idf(\text{Wort x}) = log(\frac{\text{Anzahl Dokumente des Trainingssets}}{\text{Dokumentfrequency des Wortes x}})$

Zur Berechnung der tf-idf-Werte wird anschließend eine elementweise Multiplikation der Werte in der jeweiligen Spalte mit dem idf-Wert vorgenommen. Wurde jede Spalte transformiert wird die ***bowMatrix*** zurückgegeben.

##### Funktion prob
Die Funktion ***prob*** berechnet für ein übergebenes Dokument *item* und die übergebene Kategorie *cat* das Produkt der bedingten Wahrscheinlichkeiten aller Wörter des Dokuments *item* in der Kategorie *cat*. Dafür wird die Wahrscheinlichkeit jedes Worts seperat mithilfe der Funktion ***weightedprob*** berechnet und in einer Liste gespeichert. Stehen die Wahrscheinlichkeiten aller Worte in der Liste, wird das Produkt aller Elemente gebildet und zurückgegeben.

In [57]:
class Classifier:
    def __init__(self, getfeatures, cat1, cat2, useTfIdf=False):
        self.fc = {}
        self.cat1 = cat1
        self.cat2 = cat2
        self.cc = {cat1: 0, cat2: 0}
        self.getfeatures = getfeatures
        self.tfidf = useTfIdf
        if useTfIdf:
            self.docListcat1 = []
            self.docListcat2 = []
            self.dictionary = corpora.Dictionary
            self.bowMatrix = pd.DataFrame
            self.getfeatures = getWordList

    def incf(self, f, cat):
        if f not in list(self.fc.keys()):
            self.fc[f] = {self.cat1: 0, self.cat2: 0}
        self.fc[f][cat] += 1

    def incc(self, cat):
        self.cc[cat] += 1

    def fcount(self, f, cat):
        return self.fc[f][cat]

    def catcount(self, cat):
        return self.cc[cat]

    def totalcount(self):
        return sum(self.cc.values())

    def train(self, item, cat):
        self.incc(cat)
        if self.tfidf == False:
            wordList = self.getfeatures(item)
            [self.incf(word, cat) for word in wordList]
        else:
            if cat == self.cat1:
                self.docListcat1.append(self.getfeatures(item))
            else:
                self.docListcat2.append(self.getfeatures(item))

    def fprob(self, f, cat):
        return self.fcount(f, cat) / self.catcount(cat)

    def weightedprob(self, f, cat):
        initprob = 0.5
        if self.tfidf:
            count = self.bowMatrix.loc[self.bowMatrix[f] > 0][f].size
            fprob = np.array(self.bowMatrix.loc[self.bowMatrix['label'] == cat][f]).sum() / self.catcount(cat)
        else:
            if f in self.fc.keys():
                values = list(self.fc[f].values())
                count = np.array(values).sum()
                fprob = self.fprob(f, cat)
            else:
                count = 0
                fprob = 0
        return (initprob + count * fprob) / (1 + count)

    def classify(self, item):
        catList = list(self.cc.keys())
        resultDict = {}
        if self.tfidf == True:
            item = self.buildBowMatrix(item)
        for cat in catList:
            probproduct = self.prob(item, cat)
            catprob = self.catcount(cat) / self.totalcount()
            resultDict[probproduct * catprob] = cat
        return resultDict

    def buildBowMatrix(self, item): 
        self.dictionary = corpora.Dictionary(self.docListcat1 + self.docListcat2)
        techCorpus = [self.dictionary.doc2bow(doc) for doc in self.docListcat1]
        nonTechCorpus = [self.dictionary.doc2bow(doc) for doc in self.docListcat2]
        completeCorpus = [self.dictionary.doc2bow(doc) for doc in self.docListcat1+self.docListcat2]
        catLabels = []
        [catLabels.append(self.cat1) for i in range(0, len(techCorpus))]
        [catLabels.append(self.cat2) for i in range(0, len(nonTechCorpus))]
        tfidf = models.TfidfModel(completeCorpus)
        bowMatrix = pd.DataFrame(columns=self.dictionary.token2id.values())
        for i in range(0, len(completeCorpus)):
            corpus_tfidf = tfidf[completeCorpus[i]]
            docWordList = []
            [docWordList.append([tup[0], [tup[1]]]) for tup in corpus_tfidf]
            docDF = pd.DataFrame.from_dict(dict(docWordList), orient='columns')
            bowMatrix = bowMatrix.append(docDF, ignore_index=True)
        bowMatrix = bowMatrix.fillna(0)
        self.bowMatrix = bowMatrix.assign(label=catLabels)
        itemVec = self.dictionary.doc2bow(self.getfeatures(item))
        return itemVec

    def prob(self, item, cat):
        itemprobs = []
        if self.tfidf == False:
            for word in self.getfeatures(item):
                itemprobs.append(self.weightedprob(word, cat))
        else:
            for tuple in item:
                prob = self.weightedprob(tuple[0], cat)
                for i in range(0, tuple[1]):
                    itemprobs.append(prob)
        probproduct = 1
        for probability in itemprobs:
            probproduct *= probability
        return probproduct

## Test

**Aufgabe:**
Instanzieren Sie ein Objekt der Klasse _Classifier_ und übergeben Sie der _train()_ Methode dieser Klasse mindestens 8 kategorisierte Dokumente (Betreffzeilen als Stringvariablen zusammen mit der Kategorie Good oder Bad). Definieren Sie dann ein beliebig neues Dokument und berechnen Sie für dieses die Kategorie, in welches es mit größter Wahrscheinlichkeit fällt. Benutzen Sie für den Test das in 
[NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf)
ausführlich beschriebene Beispiel zu implementieren. Berechnen Sie die Klassifikatorausgabe des Satzes _the money jumps_.

In [58]:
trainData = {'the quick rabbit jumps fences': 'good',
             'buy pharmaceuticals now': 'bad',
             'make quick money at the online casino': 'bad',
             'the quick brown fox jumps': 'good',
             'next meeting is at night': 'good',
             'meeting with your superstar': 'bad',
             'money like water': 'bad',
             'nobody owns the water': 'good'}
testData = "the money jumps"

In [59]:
classifier = Classifier(getWordList, 'good', 'bad')
classifier2 = Classifier(getWordSet, 'good', 'bad')
classifier3 = Classifier(getWordList, 'good', 'bad', useTfIdf=True)

for key, value in list(trainData.items()):
    classifier.train(key, value)
    classifier2.train(key, value)
    classifier3.train(key, value)

#### Klassifikation auf Basis der Worthäufigkeiten (getWordList)

In [60]:
print((classifier.classify(testData)))

{0.029166666666666664: 'good', 0.012499999999999999: 'bad'}


#### Klassifikation auf Basis von Wortauftreten (getWordSet)
Macht bei so geringen Datensätzen keinen Unterschied, da im Trainingsset in keinem 'Dokument' ein Wort mehrfach vorkam.

In [61]:
print((classifier2.classify(testData)))

{0.029166666666666664: 'good', 0.012499999999999999: 'bad'}


#### Klassifikation auf Basis der tf-idf-Werte

In [62]:
print((classifier3.classify(testData)))

{0.005542363993573791: 'good', 0.00340979643211856: 'bad'}


## Klassifikation von RSS Newsfeeds
Mit dem unten gegebenen Skript werden Nachrichten verschiedener Newsserver geladen und als String abgespeichert.

**Aufgaben:**
1. Trainieren Sie Ihren Naive Bayes Classifier mit allen Nachrichten der in den Listen _trainTech_ und _trainNonTech_ definierten Servern. Weisen Sie für das Training allen Nachrichten aus _trainTech_ die Kategorie _Tech_ und allen Nachrichten aus _trainNonTech_ die Kategorie _NonTech_ zu.
2. Nach dem Training sollen alle Nachrichten aus der Liste _test_ vom Naive Bayes Classifier automatisch klassifiziert werden. Gehen Sie davon aus, dass alle Nachrichten von [http://rss.golem.de/rss.php?r=sw&feed=RSS0.91](http://rss.golem.de/rss.php?r=sw&feed=RSS0.91) tatsächlich von der Kategorie _Tech_ sind und alle Nachrichten von den beiden anderen Servern in der Liste _test_ von der Kategorie _NonTech_ sind. Bestimmen Sie die _Konfusionsmatrix_ und die _Accuracy_ sowie für beide Klassen _Precision, Recall_ und _F1-Score_. Diese Qualitätsmetriken sind z.B. in [NLP Vorlesung Document Classification](https://www.mi.hdm-stuttgart.de/mib/studium/intern/skripteserver/skripte/NaturalLanguageProcessing/WS1415/03TextClassification.pdf) definiert.
3. Diskutieren Sie das Ergebnis
4. Wie könnte die Klassifikationsgüte durch Modifikation der _getwords()_-Methode verbessert werden? Implementieren Sie diesen Ansatz und vergleichen Sie das Ergebnis mit dem des ersten Ansatzes.

##### Anmerkung
Der Link zum RSS-Feed von ***chip.de*** (erster auskommentierter Link der trainTech-Liste) war veraltet und wir haben ihn durch den aktuellen Link ersetzt. Außerdem haben wir eine Ausnahmebehandlung in jeder Schleife hinzugefügt, um gelegentlich auftretende KeyErrors beim Zugriff auf ***e.description*** abzufangen.

In [152]:
def stripHTML(h):
  p=''
  s=0
  for c in h:
    if c=='<': s=1
    elif c=='>':
      s=0
      p+=' '
    elif s==0:
      p+=c
  return p


trainTech=[# not working anymore, using instead one line below:'http://rss.chip.de/c/573/f/7439/index.rss',
            'http://www.chip.de/rss/rss_tests.xml',
           #'http://feeds.feedburner.com/netzwelt',
            'http://rss1.t-online.de/c/11/53/06/84/11530684.xml',
            'http://www.computerbild.de/rssfeed_2261.xml?node=13',
            'http://www.heise.de/newsticker/heise-top-atom.xml']

trainNonTech=['http://newsfeed.zeit.de/index',
              'http://newsfeed.zeit.de/wirtschaft/index',
              'http://www.welt.de/politik/?service=Rss',
              'http://www.spiegel.de/schlagzeilen/tops/index.rss',
              'http://www.sueddeutsche.de/app/service/rss/alles/rss.xml',
              'http://www.faz.net/rss/aktuell/'
              ]
test=["http://rss.golem.de/rss.php?r=sw&feed=RSS0.91",
          'http://newsfeed.zeit.de/politik/index',  
          'http://www.welt.de/?service=Rss'
           ]

countnews={}
countnews['tech']=0
countnews['nontech']=0
countnews['test']=0
print("--------------------News from trainTech------------------------")
for feed in trainTech:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
        print('\n---------------------------')
        try:
            fulltext=stripHTML(e.title+' '+e.description)
            print(fulltext)
            countnews['tech']+=1
        except:
            print("Error while trying to get title or description. Skipped the message.")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print("--------------------News from trainNonTech------------------------")
for feed in trainNonTech:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
        print('\n---------------------------')
        try:
            fulltext=stripHTML(e.title+' '+e.description)
            print(fulltext)
            countnews['nontech']+=1
        except:
            print("Error while trying to get title or description. Skipped the message.")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print("--------------------News from test------------------------")
for feed in test:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
        print('\n---------------------------')
        try:
            fulltext=stripHTML(e.title+' '+e.description)
            print(fulltext)
            countnews['test']+=1
        except:
            print("Error while trying to get title or description. Skipped the message.")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print('Number of used trainings samples in categorie tech',countnews['tech'])
print('Number of used trainings samples in categorie notech',countnews['nontech'])
print('Number of used test samples',countnews['test'])
print('--'*30)

--------------------News from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml

---------------------------
Notebook mit Nvidia-Grafikkarte: Laptops mit Geforce im Test   Für Notebooks mit Nvidia-Grafikkarte spricht einiges: Die mobilen GPUs beschleunigen viele Tools und Anwendungen wie Photoshop und Co. und entlasten die CPU. Doch nicht jeder Geforce-Laptop ist damit spieletauglich. Wir klären auf und geben konkrete Kauftipps.

---------------------------
Ryzen Mobile gegen Kaby Lake Refresh: Notebook-Plattformen im Test   Jahrelang war Intel auf Notebook, Windows-Tablets und sonstiger tragbarer PC-Hardware allein auf weiter Flur. Konkurrent AMD hatte nicht den Hauch einer Chance, im stromsparenden Segment aufzutrumpfen. Mit den Mobile-Ryzen-Chips soll sich das nun gravierend ändern. Wir machen den Test und vergleichen AMDs Notebook-Innovation mit Intels Kaby Lake Re

---------------------------
MacBook, MacBook Air, MacBook Pro: Al


---------------------------
Square Enix: E3-Pressekonferenz im Live-Stream Eine düstere Lara in „Shadow of the Tomb Raider“ und knallbunte Rollenspiele: Sehen Sie die Square-Enix-Show im Live-Stream.

---------------------------
180 Euro sparen: Wechsel der Kfz-Versicherung lohnt immer Die Hochsaison für Kfz-Versicherungswechsel ist längst vorbei, doch auch jetzt noch lohnt sich die Suche nach einem neuen Anbieter.

---------------------------
Media-Markt-Deals: Die WM-Angebote 2018! Passend zur Fußball-Weltmeisterschaft noch ein paar Schnäppchen schießen? Da kommt die „Top Elf“-Aktion von Media Markt vielleicht gerade recht!

---------------------------
So kommen Sie sicher durch die Fußball-WM 2018 Hacker und Kriminelle nutzen die Fußball-WM für Betrug und Datenklau. COMPUTER BILD verrät, worauf Sie achten müssen.

---------------------------
Spiele-Streams: Facebook startet eigenen Bereich Spiele und soziale Netzwerke verbinden Menschen: Facebook baut seinen Spielebereich aus und w


---------------------------
Nach diesem Foto redete Merkel intensiv auf Donald Trump ein Das Zerwürfnis ist groß. US-Präsident Trump will Russland wieder an den Tisch des G7-Clubs holen. Für Merkel und Co. ein No-Go. Über seine Alleingänge gibt es offenen Streit. Droht der G 7 die Spaltung?

---------------------------
„Bremen war in jeder Außenstelle“ Der Innenausschuss kann es jetzt mit Fakten belegen: Das Chaos bei den Asylentscheidungen ging schon 2013 los. Damals hatte die BAMF-Führung mit drastischem Personalmangel zu kämpfen. Die Kanzlerin war offenbar informiert.

---------------------------
Sahra Wagenknecht äußert sich zum internen Streit Gegenseitig werfen sich die Führungsleute der Linken Angriffe und die Schwächung der Partei vor - nun kommt die Linke-Prominenz für drei Tage mit der Basis zusammen. Alle hoffen auf ein Ende des Streits.

---------------------------
Macht euch endlich ehrlich! Die Woche begann mit vaterländischer Eskalation, es folgte die Radikalisierung de


---------------------------
Mehr Platz für Radler und Fußgänger: Kosmetisches Vorhaben   Die Anzinger informieren sich über die ersten Ideen und Ziele der Städteplaner, wie sich die Gemeinde baulich entwickeln sollte und könnte. Mit eigenen Vorschlägen einbringen wollten sich aber nur wenige 

---------------------------
Sicherheitswacht: Private auf Patrouille   Poing entscheidet sich als erste Gemeinde im Landkreis für die Einführung einer Sicherheitswacht 

---------------------------
Frühes Saisonende: Lust auf Erdbeeren  Emily Schreck betreibt einen Stand in Wolfesing 

---------------------------
Der Sport im Ort: Freunde fürs Schweben   Dominik Metzger und Marco Vogel spielen bei den  Ebersberger Beachvolleyball-Masters am Wochenende mit 

---------------------------
Kammermusik: Ständchen der Extraklasse  Rathauskonzerte Vaterstetten feiern 40. Geburtstag 

---------------------------
Neues Format: Jamsession in der Schranne   

---------------------------
Neue Ausstellung: Ge


---------------------------
Die WELT-Nachrichten im Stream Nachrichten im Livestream – von Montag bis Freitag immer zwischen 7:00 Uhr und 21:00 Uhr und am Wochenende von 9:00 Uhr bis 21:00 Uhr neueste Informationen aus aller Welt zu Politik, Wirtschaft und Sport.

---------------------------
Nach diesem Foto redete Merkel intensiv auf Donald Trump ein Das Zerwürfnis ist groß. US-Präsident Trump will Russland wieder an den Tisch des G7-Clubs holen. Für Merkel und Co. ein No-Go. Über seine Alleingänge gibt es offenen Streit. Droht der G 7 die Spaltung?

---------------------------
Bundesrat fordert verpflichtenden Einbau von Abbiege-Assistenten in LKW Immer wieder kommt es tödlichen Unfällen durch abbiegende LKW. Damit Radfahrer und Fußgänger auch im Totenwinkel zu erkennen sind, fordert der Bundesrat die verpflichtende Ausrüstung mit Warnsystemen.

---------------------------
Löw fordert für Gündogan Unterstützung – Fans pfeifen trotzdem Im letzten Test der DFB-Elf vor der WM wird Ilka

##### Funktion, die das Training des Classifiers durchführt
Der Funktion wird der Classifier übergeben, der trainiert werden soll. Erst werden für jeden Feed, der in der Liste ***trainTech*** festgelegt wurde, alle Meldungen durch den *feedparser* gecrawlt. Anchließend wird über diese Meldungen iteriert und Überschrift, sowie Beschreibung als *fulltext* abgespeichert. Dieser *fulltext* wird dann für jede Nachricht als Trainingsdokument zusammen mit dem Klassenlabel an die Trainingsfunktion ***train*** des Classifier übergeben. Sobald alle Feeds der ***trainTech***-Liste durchlaufen wurden, wird dasselbe noch für die Feeds der Liste ***trainNonTech*** durchgeführt. Der trainierte Classifier wird zurückgegeben.

In [103]:
def trainTheTechClassifier(techClassifier):

    print("--------------------Training with news from trainTech------------------------")
    for feed in trainTech:
        print("*"*30)
        print(feed)
        f=feedparser.parse(feed)
        for e in f.entries:
            fulltext=stripHTML(e.title+' '+e.description)
            techClassifier.train(fulltext, 'tech')
    print("------------------------------- done ---------------------------------")

    print("--------------------Training with news from trainNonTech------------------------")
    for feed in trainNonTech:
        print("*"*30)
        print(feed)
        f=feedparser.parse(feed)
        for e in f.entries:
            fulltext=stripHTML(e.title+' '+e.description)
            techClassifier.train(fulltext, 'nonTech')
    print("------------------------------- done ---------------------------------")
    return techClassifier

##### Training des Classifiers, der die Worthäufigkeiten (wordList)  zur Klasifikation verwendet

In [34]:
techClassifier = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech'))

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

##### Funktion, die das Klassifikation von Dokumenten der RSS-Feeds der Liste 'test' durchführt
Der Funktion wird der Classifier übergeben, der die Klassifikation vornehmen soll. Erst werden für jeden Feed, der in der Liste ***test*** festgelegt wurde, alle Meldungen durch den *feedparser* gecrawlt und die jeweilige Sollausgabe festgelegt. Anchließend wird über diese Meldungen iteriert und Überschrift, sowie Beschreibung als *fulltext* abgespeichert. Dieser *fulltext* wird dann für jede Nachricht als Testdokument an die Klassifizierungsfunktion ***classify*** des Classifier übergeben. Das Ergebnis der Klassifikationsentscheidung wird zusammen mit der Nachricht ausgegeben. Zusätzlich wird Soll- und Ist-Ausgabe in ein Pandas Dataframe ***resultDF*** gespeichert, um Bewertungsmaße leichter berechnen zu können.

In [36]:
def classifyRSSDocuments(techClassifier):
    resultDF = pd.DataFrame(columns=['label', 'classifierResult'])
    print("--------------------Classify the news from test------------------------")
    feedCount = 0
    for feed in test:
        feedCount += 1
        messageCount = 0
        print("*"*30)
        print(feed)
        f=feedparser.parse(feed)
        if feed == 'http://rss.golem.de/rss.php?r=sw&feed=RSS0.91':
            category = 'tech'
        else:
            category = 'nonTech'
        for e in f.entries:
            messageCount += 1
            print('\n---------------------------')
            fulltext=stripHTML(e.title+' '+e.description)
            result = techClassifier.classify(fulltext)
            print("the following article is classified as: ", result[sorted(result.keys())[-1]])
            print(fulltext)
            resultDF.loc['feed:'+str(feedCount)+',message:'+str(messageCount)] = [
                category, result[sorted(result.keys())[-1]]]
    print("----------------------------------------------------------------")
    return resultDF

##### Durchführung der Klassifikation, mit dem bereits trainierten Classifier
Ergebnis für jeden Artikel wird ausgegeben und in Pandas Dataframe ***resultDF*** geschrieben.

In [37]:
resultDF = classifyRSSDocuments(techClassifier)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  tech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  tech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( Linux ,

---------------------------
the following article is classified as:  nonTech
Österreich: Regierung will Moscheen schließen     Die ÖVP und die FPÖ in Österreich sehen sich im "Kampf gegen den politischen Islam": Sieben muslimische Gebetshäuser müssen zumachen, zwei Imame wurden ausgewiesen.
******************************
http://www.welt.de/?service=Rss

---------------------------
the following article is classified as:  tech
Die WELT-Nachrichten im Stream Nachrichten im Livestream – von Montag bis Freitag immer zwischen 7:00 Uhr und 21:00 Uhr und am Wochenende von 9:00 Uhr bis 21:00 Uhr neueste Informationen aus aller Welt zu Politik, Wirtschaft und Sport.

---------------------------
the following article is classified as:  nonTech
Was Spaniens neues Kabinett so besonders macht Die Regierung in Madrid steht, der neue Premier Pedro Sánchez hat ein weltoffenes Team aufgestellt. Er will zeigen: Es gibt eine Alternative zur radikalen Wende in Italien. Aber auch in Spanien stehen Populist

##### Dataframe resultDF, das Soll- und Ist-Ausgabe für jede Nachricht der Testdaten enthält

In [38]:
display(resultDF)

Unnamed: 0,label,classifierResult
"feed:1,message:1",tech,tech
"feed:1,message:2",tech,tech
"feed:1,message:3",tech,tech
"feed:1,message:4",tech,tech
"feed:1,message:5",tech,tech
"feed:1,message:6",tech,tech
"feed:1,message:7",tech,tech
"feed:1,message:8",tech,tech
"feed:1,message:9",tech,tech
"feed:1,message:10",tech,tech


##### Erstellung der Confusion Matrix
Aus dem Dataframe ***resultDF***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, wird mithilfe der Funktion ***confusion_matrix*** aus dem Modul ***sklearn.metrics*** die Confusion Matrix berechnet.

In [39]:
def createConfusionMatrixDF(resultDF):
    return pd.DataFrame(index=['tech', 'nonTech'],
                     columns=['tech', 'nonTech'],
                     data=confusion_matrix(resultDF.label, resultDF.classifierResult, labels=['tech', 'nonTech']))

##### Berechnung Precision, Recall, F1-Score
Aus dem Dataframe ***resultDF***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, werden mithilfe der Funktion ***precision_recall_fscore_support*** aus dem Modul ***skleran.metrics*** die Bewertungsmaße Precision, Recall und F1-Score für beide Klassenlabels berechnet und in ein Pandas Dataframe geschrieben.

In [40]:
def createPrecisionRecallF1ScoreDF(resultDF):
    precision_recall_Values = precision_recall_fscore_support(resultDF.label,
                                                              resultDF.classifierResult,
                                                              labels=['tech', 'nonTech'])
    precisionRecallDF = pd.DataFrame(columns=['Precision', 'Recall', 'F1-Score'])
    precisionRecallDF.loc['tech'] = [precision_recall_Values[0][0],
                                     precision_recall_Values[1][0],
                                     precision_recall_Values[2][0]]
    precisionRecallDF.loc['nonTech'] = [precision_recall_Values[0][1],
                                        precision_recall_Values[1][1],
                                        precision_recall_Values[2][1]]
    return precisionRecallDF

##### Confusion Matrix der Klassifikation der Testdaten

In [41]:
display(createConfusionMatrixDF(resultDF))

Unnamed: 0,tech,nonTech
tech,40,0
nonTech,28,17


##### Accuracy der Klassifikation der Testdaten
Berechnung der Genauigkeit der Klassifikationsentscheidung aus dem Dataframe ***resultDF***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, mithilfe der Funktion ***accuracy_score*** aus dem Modul ***sklearn.metrics***.

In [42]:
print('Accuracy:', accuracy_score(resultDF.label, resultDF.classifierResult))

Accuracy: 0.6705882352941176


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels

In [43]:
display(createPrecisionRecallF1ScoreDF(resultDF))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.588235,1.0,0.740741
nonTech,1.0,0.377778,0.548387


#### Aufgabe 4
Für alle bisherigen Kalkulationen wurde die Funktion ***getWordList(document)*** verwendet. Sie gibt eine Liste der im Dokument vorkommenden Wörter zurück. Das hat zur Folge, dass Worthäufigkeiten in die Klassifikationentscheidung mit einfließen. Wir führen nun noch eine Klassifkation durch, die zur Klassifikationsentscheidung einfach nur binär-Werte für das Auftreten eines Wortes in einem Dokument verwendet (Funktion ***getWordSet(document)***) und eine Klassifikation, die die Klassifikationsentscheidung auf Basis von tf-idf-Werten trifft (Funktion ***getWordList(document)***).

##### Nutzung von binär-Werten (Auftreten eines Wortes)

In [45]:
techClassifier2 = trainTheTechClassifier(Classifier(getWordSet, 'tech', 'nonTech'))
resultDF2 = classifyRSSDocuments(techClassifier2)

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------


---------------------------
the following article is classified as:  tech
Die WELT-Nachrichten im Stream Nachrichten im Livestream – von Montag bis Freitag immer zwischen 7:00 Uhr und 21:00 Uhr und am Wochenende von 9:00 Uhr bis 21:00 Uhr neueste Informationen aus aller Welt zu Politik, Wirtschaft und Sport.

---------------------------
the following article is classified as:  tech
Starkoch Anthony Bourdain ist tot Der Starkoch Anthony Bourdain wurde tot in einem Hotelzimmer in Frankreich gefunden. Der Sender CNN, für den er gerade die Reportage „Parts Unknown“ drehte, bestätigte seinen Tod. Demnach beging er Selbstmord.

---------------------------
the following article is classified as:  nonTech
BAMF-Chefin Jutta Cordt erneut vor Innenausschuss Wieder musste die Chefin des BAMF Cordt den Mitgliedern des Bundestags-Innenauschuss Rede und Antwort stehen. Zur Sondersitzung waren auch Cordts Vorgänger Frank-Jürgen Weise und Manfred Schmidt geladen.

---------------------------
the follo

##### Confusion Matrix der Klassifikation der Testdaten (binäre-Werte)

In [46]:
display(createConfusionMatrixDF(resultDF2))

Unnamed: 0,tech,nonTech
tech,39,1
nonTech,23,22


##### Accuracy der Klassifikation der Testdaten (binär-Werte)
Berechnung der Genauigkeit der Klassifikationsentscheidung aus dem Dataframe ***resultDF2***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, mithilfe der Funktion ***accuracy_score*** aus dem Modul ***sklearn.metrics***.

In [47]:
print('Accuracy:', accuracy_score(resultDF2.label, resultDF2.classifierResult))

Accuracy: 0.7176470588235294


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels (binär-Werte)

In [48]:
display(createPrecisionRecallF1ScoreDF(resultDF2))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.629032,0.975,0.764706
nonTech,0.956522,0.488889,0.647059


##### Nutzung von tf-idf-Werten

In [49]:
techClassifier3 = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech', useTfIdf=True))
resultDF3 = classifyRSSDocuments(techClassifier3)

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

the following article is classified as:  tech
Programmiersprache: Vorschau auf Ruby 2.6 bringt JIT-Compiler Die Programmiersprache Ruby bekommt mit der kommenden Version 2.6 einen experimentellen JIT-Compiler. Dieser funktioniert etwas anders als üblich und soll vor allem die Leistung der Sprache steigern. ( Ruby ,  Virtualisierung )  

---------------------------
the following article is classified as:  tech
Microsoft: Weitere Umstrukturierungen rund um Windows 10 Bei Microsoft gibt es weitere Änderungen bei der Aufgabenverteilung. Vor allem der Bereich Windows 10 erfährt eine Reihe weiterer Umstrukturierungen, die im Zusammenhang mit dem Ausscheiden das früheren Windows-Chefs Terry Myerson stehen. ( Windows 10 ,  Microsoft )  

---------------------------
the following article is classified as:  tech
Betriebssysteme: Linux 4.17 entfernt alten Code und bringt viel Neues In Linux 4.17 profitieren AMDs Grafikkarten erneut von Verbesserungen im quelloffenen AMDGPU-Treiber. Zudem ist der 

the following article is classified as:  tech
Vernetztes Fahren: Forscher finden 14 Sicherheitslücken in BMW-Software Beim vernetzten und autonomen Fahren soll die IT-Sicherheit eine große Rolle spielen. Sicherheitsexperten konnten sich jedoch auf verschiedenen Wegen die Autosoftware von BMW hacken. ( Black Hat 2016 ,  Technologie )  

---------------------------
the following article is classified as:  nonTech
Networkmanager: Linux bekommt lokales Thunderbolt Networking Per Thunderbolt-Kabel lassen sich zwei Geräte einfach per Peer-to-Peer-Netzwerk miteinander verbinden. Linux-Nutzer bekommen dafür nun über den Networkmanager eine einfache Möglichkeit zur Konfiguration. ( Linux ,  Gnome )  
******************************
http://newsfeed.zeit.de/politik/index

---------------------------
the following article is classified as:  tech
Nahostkonflikt: Drei Tote und Hunderte Verletzte bei Palästinenserprotest in Gaza     Seit Ende März gibt es in Gaza fast jeden Freitag Proteste gegen Isra

the following article is classified as:  nonTech
Amazon vernichtet in Massen neue und zurückgegebene Ware Der Online-Handel boomt. Zugleich steigt auch die Zahl der Retouren. Bei Amazon kommt die zurückgesandte Ware aber häufig nicht wieder in den Verkauf, wie Medien berichten. Stattdessen werde selbst Neuware entsorgt.

---------------------------
the following article is classified as:  nonTech
Marcel Proust: „Auf der Suche nach der verlorenen Zeit“ Lange schien mir Proust zu snobistisch, sein Adelstick störte mich. Doch dann verstand ich: Niemand hat sein Seelenleben besser unters Mikroskop eines Romans gelegt als er.

---------------------------
the following article is classified as:  nonTech
Seehofer kündigt „tiefgreifende Reform des BAMF“ an Es ist kein Geheimnis, dass das BAMF während der Flüchtlingskrise völlig überlastet war. Und dass es bis heute vielerorts knirscht. „Solche Mängel sind wohl überall“, sagt der Innenminister – und kündigt Konsequenzen an.

-------------------

##### Confusion Matrix der Klassifikation der Testdaten (tf-idf-Werte)

In [50]:
display(createConfusionMatrixDF(resultDF3))

Unnamed: 0,tech,nonTech
tech,37,3
nonTech,21,24


##### Accuracy der Klassifikation der Testdaten (tf-idf-Werte)
Berechnung der Genauigkeit der Klassifikationsentscheidung aus dem Dataframe ***resultDF3***, das die Soll- und Ist-Ausgabe aller Nachrichten der Testdaten enthält, mithilfe der Funktion ***accuracy_score*** aus dem Modul ***sklearn.metrics***.

In [51]:
print('Accuracy:', accuracy_score(resultDF3.label, resultDF3.classifierResult))

Accuracy: 0.7176470588235294


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels (tf-idf-Werte)

In [52]:
display(createPrecisionRecallF1ScoreDF(resultDF3))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.637931,0.925,0.755102
nonTech,0.888889,0.533333,0.666667


In [69]:
def getWordList(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('().,:;!?-"') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20 and word not in stopwords.words('german')]
    return words

In [70]:
techClassifierNoStopwords = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech'))

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

In [74]:
resultDFnoStopwords = classifyRSSDocuments(techClassifierNoStopwords)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  nonTech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  tech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( Linu

the following article is classified as:  tech
Biometrie: KI-System erkennt Menschen an ihrem Gang Ein neuartiges biometrisches Erkennungssystem soll die Authentifizierung etwa bei einer Zugangskontrolle vereinfachen: Der Proband muss nicht mehr Finger oder Iris scannen lassen, sondern geht einfach über eine Sensormatte. ( Biometrie ,  KI )  

---------------------------
the following article is classified as:  tech
Chrome und Firefox: CSS-Angriff ermöglicht Rückschlüsse auf iFrame-Inhalte Ein Seitenkanal in einer CSS-Funktion ermöglicht Rückschlüsse auf die Inhalte von iFrames, die in bösartigen Webseiten eingebaut werden. Forscher konnten so an den Facebook-Namen und das Profilfoto eines Opfers gelangen. Die Lücke ist in Chrome und Firefox behoben. ( Sicherheitslücke ,  Firefox )  

---------------------------
the following article is classified as:  nonTech
Sohjoa: Autonome Busse brauchen bessere Algorithmen und Sensoren Schon Anfang der 2020er Jahre sollen in Finnland Busse autonom 

the following article is classified as:  nonTech
Syrien: Deutschland erlässt offenbar Haftbefehl gegen Assads Geheimdienstchef     Der Generalbundesanwalt hat laut einem Bericht erwirkt, dass nach Jamil Hassan international gefahndet wird. Ihm würden Verbrechen gegen die Menschlichkeit vorgeworfen.

---------------------------
the following article is classified as:  nonTech
Alternative für Deutschland: Identitären-Symbolik auf offener AfD-Bühne     Der AfD-Nachwuchs missachtet auf seinem Bundeskongress die Abgrenzung zur Identitären Bewegung. Keinen der AfD-Redner kümmerte das. Die Bundespartei prüft den Vorfall.

---------------------------
the following article is classified as:  nonTech
Vereinte Nationen: Deutschland in UN-Sicherheitsrat gewählt     Ab 2019 wird Deutschland einen Sitz im mächtigsten Gremium der Vereinten Nationen innehaben. Ein Schwerpunkt der Arbeit soll auf der Krisenprävention liegen.

---------------------------
the following article is classified as:  nonTech


the following article is classified as:  nonTech
Wann wird Ali B. nach Deutschland ausgeliefert? In der Nacht zu Freitag wurde Ali B. im Irak von kurdischen Sicherheitsbehörden gefasst. Wann wird er nach Deutschland ausgeliefert? Wie verlief seine Ausreise? Die Antworten auf die wichtigsten Fragen im Wiesbadener Mordfall.

---------------------------
the following article is classified as:  nonTech
Alexander Gerst hat erfolgreich an ISS angedockt Zwei Tage waren der deutsche Astronaut und sein Team in einer engen Raumkapsel unterwegs. Nun sind sie erfolgreich an die „Internationale Raumstation“ (ISS) angedockt. Der Vorgang verlief besser als erwartet.

---------------------------
the following article is classified as:  nonTech
Amazon vernichtet in Massen neue und zurückgegebene Ware Der Online-Handel boomt. Zugleich steigt auch die Zahl der Retouren. Bei Amazon kommt die zurückgesandte Ware aber häufig nicht wieder in den Verkauf, wie Medien berichten. Stattdessen werde selbst Neuware

In [75]:
display(resultDFnoStopwords)

Unnamed: 0,label,classifierResult
"feed:1,message:1",tech,nonTech
"feed:1,message:2",tech,tech
"feed:1,message:3",tech,tech
"feed:1,message:4",tech,tech
"feed:1,message:5",tech,tech
"feed:1,message:6",tech,tech
"feed:1,message:7",tech,tech
"feed:1,message:8",tech,nonTech
"feed:1,message:9",tech,tech
"feed:1,message:10",tech,tech


In [76]:
display(createConfusionMatrixDF(resultDFnoStopwords))

Unnamed: 0,tech,nonTech
tech,34,6
nonTech,10,35


In [77]:
print('Accuracy:', accuracy_score(resultDFnoStopwords.label, resultDFnoStopwords.classifierResult))

Accuracy: 0.8117647058823529


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels

In [78]:
display(createPrecisionRecallF1ScoreDF(resultDFnoStopwords))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.772727,0.85,0.809524
nonTech,0.853659,0.777778,0.813953


In [79]:
techClassifier2NoStopwords = trainTheTechClassifier(Classifier(getWordSet, 'tech', 'nonTech'))

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

In [80]:
resultDF2noStopwords = classifyRSSDocuments(techClassifier2NoStopwords)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  nonTech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  tech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( Linu

the following article is classified as:  tech
Biometrie: KI-System erkennt Menschen an ihrem Gang Ein neuartiges biometrisches Erkennungssystem soll die Authentifizierung etwa bei einer Zugangskontrolle vereinfachen: Der Proband muss nicht mehr Finger oder Iris scannen lassen, sondern geht einfach über eine Sensormatte. ( Biometrie ,  KI )  

---------------------------
the following article is classified as:  tech
Chrome und Firefox: CSS-Angriff ermöglicht Rückschlüsse auf iFrame-Inhalte Ein Seitenkanal in einer CSS-Funktion ermöglicht Rückschlüsse auf die Inhalte von iFrames, die in bösartigen Webseiten eingebaut werden. Forscher konnten so an den Facebook-Namen und das Profilfoto eines Opfers gelangen. Die Lücke ist in Chrome und Firefox behoben. ( Sicherheitslücke ,  Firefox )  

---------------------------
the following article is classified as:  nonTech
Sohjoa: Autonome Busse brauchen bessere Algorithmen und Sensoren Schon Anfang der 2020er Jahre sollen in Finnland Busse autonom 

the following article is classified as:  nonTech
Internationaler Strafgerichtshof: Kongos Ex-Vizepräsident in Berufungsverfahren freigesprochen     Der frühere Vizepräsident des Kongo, Jean-Pierre Bemba, war wegen Kriegsverbrechen zu 18 Jahren Haft verurteilt worden. In der Berufung wurde das Urteil nun aufgehoben.

---------------------------
the following article is classified as:  nonTech
Fethullah Gülen:  Bundesregierung überprüft Bewertung der Gülen-Bewegung     Die Regierung kommt laut Berichten zu einer kritischen Einschätzung der Bewegung. Die türkische Regierung macht den Prediger für den Putschversuch 2016 verantwortlich.

---------------------------
the following article is classified as:  nonTech
Syrien: Deutschland erlässt offenbar Haftbefehl gegen Assads Geheimdienstchef     Der Generalbundesanwalt hat laut einem Bericht erwirkt, dass nach Jamil Hassan international gefahndet wird. Ihm würden Verbrechen gegen die Menschlichkeit vorgeworfen.

---------------------------
th

the following article is classified as:  tech
VW hat ein Zulassungsproblem bei einer Viertelmillion Autos Die neuen Abgastests bereiten allen Autobauern in Europa erhebliche Schwierigkeiten. VW nennt nun Zahlen: Bis zu einer Viertelmillion Autos können nur verspätet verkauft werden. Die Bänder werden zeitweise stillstehen.

---------------------------
the following article is classified as:  nonTech
Wann wird Ali B. nach Deutschland ausgeliefert? In der Nacht zu Freitag wurde Ali B. im Irak von kurdischen Sicherheitsbehörden gefasst. Wann wird er nach Deutschland ausgeliefert? Wie verlief seine Ausreise? Die Antworten auf die wichtigsten Fragen im Wiesbadener Mordfall.

---------------------------
the following article is classified as:  nonTech
Alexander Gerst hat erfolgreich an ISS angedockt Zwei Tage waren der deutsche Astronaut und sein Team in einer engen Raumkapsel unterwegs. Nun sind sie erfolgreich an die „Internationale Raumstation“ (ISS) angedockt. Der Vorgang verlief besser 

In [84]:
display(resultDF2noStopwords)

Unnamed: 0,label,classifierResult
"feed:1,message:1",tech,nonTech
"feed:1,message:2",tech,tech
"feed:1,message:3",tech,tech
"feed:1,message:4",tech,tech
"feed:1,message:5",tech,tech
"feed:1,message:6",tech,tech
"feed:1,message:7",tech,tech
"feed:1,message:8",tech,nonTech
"feed:1,message:9",tech,tech
"feed:1,message:10",tech,tech


In [85]:
display(createConfusionMatrixDF(resultDF2noStopwords))

Unnamed: 0,tech,nonTech
tech,33,7
nonTech,10,35


In [87]:
print('Accuracy:', accuracy_score(resultDF2noStopwords.label, resultDF2noStopwords.classifierResult))

Accuracy: 0.8


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels

In [88]:
display(createPrecisionRecallF1ScoreDF(resultDF2noStopwords))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.767442,0.825,0.795181
nonTech,0.833333,0.777778,0.804598


In [94]:
techClassifier3NoStopwords = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech', useTfIdf=True))

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

In [95]:
resultDF3noStopwords = classifyRSSDocuments(techClassifier3NoStopwords)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  nonTech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  tech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( Linu

the following article is classified as:  tech
Biometrie: KI-System erkennt Menschen an ihrem Gang Ein neuartiges biometrisches Erkennungssystem soll die Authentifizierung etwa bei einer Zugangskontrolle vereinfachen: Der Proband muss nicht mehr Finger oder Iris scannen lassen, sondern geht einfach über eine Sensormatte. ( Biometrie ,  KI )  

---------------------------
the following article is classified as:  nonTech
Chrome und Firefox: CSS-Angriff ermöglicht Rückschlüsse auf iFrame-Inhalte Ein Seitenkanal in einer CSS-Funktion ermöglicht Rückschlüsse auf die Inhalte von iFrames, die in bösartigen Webseiten eingebaut werden. Forscher konnten so an den Facebook-Namen und das Profilfoto eines Opfers gelangen. Die Lücke ist in Chrome und Firefox behoben. ( Sicherheitslücke ,  Firefox )  

---------------------------
the following article is classified as:  nonTech
Sohjoa: Autonome Busse brauchen bessere Algorithmen und Sensoren Schon Anfang der 2020er Jahre sollen in Finnland Busse auton

the following article is classified as:  nonTech
Roma: Bis die Bagger wieder kommen     In Frankfurt hat die Polizei ein Romalager geräumt, doch damit ist das Problem nicht gelöst. Immer mehr Migranten aus Osteuropa landen in Deutschland auf der Straße.

---------------------------
the following article is classified as:  nonTech
Nahostkonflikt: Vier Tote und Hunderte Verletzte bei Palästinenserprotest in Gaza     Seit Ende März gibt es in Gaza fast jeden Freitag Proteste gegen Israel. Diesmal ist die Lage besonders angespannt, denn die Aktionen fallen mit dem Al-Kuds-Tag zusammen.

---------------------------
the following article is classified as:  nonTech
David Miliband: "Die größte Gefahr ist das Chaos"     Die baldigen Monsunregenfälle bedrohen das riesige Rohingya-Flüchtlingscamp in Bangladesch, warnt der britische Ex-Außenminister David Miliband. Die Lage sei sehr prekär.

---------------------------
the following article is classified as:  nonTech
Internationaler Strafgerichtsh

the following article is classified as:  tech
Bitte keine Bitcoin-Erpressungen am Wochenende! Die Europäische Cybersicherheitsbehörde „Enisa“ sitzt im schönen Kreta. Am Wochenende wird dort nicht gearbeitet. Dazu reiche das Geld nicht aus, so der Behördenleiter. Hacker sollten sich an die üblichen Bürozeiten halten.

---------------------------
the following article is classified as:  nonTech
Eine Art Notstand auf der Bahnstrecke nach Sylt Wegen des andauernden Chaos auf der Zugstrecke nach Sylt denkt der schleswig-holsteinische Verkehrsminister Bernd Buchholz an drastische Maßnahmen. Aber schnelle Lösung wird es nicht geben.

---------------------------
the following article is classified as:  nonTech
Seehofer verspricht Ländern individuelle Lösungen bei Asylzentren Der Bundesinnenminister kündigte in Quedlinburg an, dass bei Rückführungen von abgelehnten Asylbewerbern darüber hinaus in Zukunft der Bund auf Wunsch der Länder die Beschaffung von Passersatzpapieren übernehmen werde.

--

In [96]:
display(resultDF3noStopwords)

Unnamed: 0,label,classifierResult
"feed:1,message:1",tech,nonTech
"feed:1,message:2",tech,tech
"feed:1,message:3",tech,tech
"feed:1,message:4",tech,tech
"feed:1,message:5",tech,tech
"feed:1,message:6",tech,tech
"feed:1,message:7",tech,tech
"feed:1,message:8",tech,nonTech
"feed:1,message:9",tech,tech
"feed:1,message:10",tech,tech


In [97]:
display(createConfusionMatrixDF(resultDF3noStopwords))

Unnamed: 0,tech,nonTech
tech,31,9
nonTech,7,38


In [98]:
print('Accuracy:', accuracy_score(resultDF3noStopwords.label, resultDF3noStopwords.classifierResult))

Accuracy: 0.8117647058823529


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels

In [99]:
display(createPrecisionRecallF1ScoreDF(resultDF3noStopwords))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.815789,0.775,0.794872
nonTech,0.808511,0.844444,0.826087


In [100]:
def getWordList(doc):
    words = str.split(doc.lower())
    wordsStripped = [word.strip('().,:;!?-"') for word in words]
    words = [word for word in wordsStripped if 2 < len(word) < 20 and word not in stopwords.words('german')]
    GerSt = GermanStemmer("german")
    stemmedWords = [GerSt.stem(word) for word in words]
    return words

In [106]:
techClassifierStemmed = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech'))

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

In [107]:
resultDFStemmed = classifyRSSDocuments(techClassifierStemmed)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  nonTech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  tech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( Linu

the following article is classified as:  tech
USB: Apple und Microsoft unterstützen Braille-Display-Standard Das USB Implementers Forum (USB-IF) hat einen neuen USB-Standard für Braille-Displays vorgestellt, der zusammen mit Apple, Google und Microsoft entwickelt wurde. Damit soll es für Nutzer mit Sehschwäche einfacher sein, ihre Braille-Displays an verschiedenen Geräten wie PCs und Smartphones zu nutzen. ( Braille ,  Google )  

---------------------------
the following article is classified as:  tech
Adobe Premiere mit Quicksync: Intels Grafikeinheit schlägt acht Ryzen-Kerne Adobe hat es nach vielen Jahren endlich geschafft, eine Unterstützung von Quicksync in Premiere zu integrieren. Dank Hardware-Encoding über die Grafikeinheit sind Intel-Chips nun besonders schnell - zumindest mit den richtigen Einstellungen, denn Quicksync hat seine Tücken. ( Adobe ,  Business-Notebooks )  

---------------------------
the following article is classified as:  tech
Hue Sync im Test: Ambilight zum

the following article is classified as:  nonTech
Asylpolitik: Seehofer erklärt Debatte um Ankerzentren für beendet     Schneller, sicherer, effizienter: Der Bundesinnenminister will Asylverfahren in sogenannten Ankerzentren abwickeln. Dafür will er mit jedem Bundesland einzeln verhandeln.

---------------------------
the following article is classified as:  nonTech
Syrien: Aktivisten melden viele Tote bei Luftangriff in Provinz Idlib     In einem Dorf im Nordwesten Syriens sind laut Aktivisten mindestens 35 Menschen getötet worden. Der Angriff sei nach dem muslimischen Ramadan-Fastenbrechen verübt worden.

---------------------------
the following article is classified as:  nonTech
G7-Gipfel: Dann eben ohne Trump     Die USA werden verhindern, dass es beim G7-Gipfel in Kanada Ergebnisse gibt. Die EU muss "America First" etwas entgegensetzen und den Multilateralismus verteidigen.

---------------------------
the following article is classified as:  nonTech
Britischer Außenminister: John

the following article is classified as:  nonTech
Alexander Gerst hat erfolgreich an ISS angedockt Zwei Tage waren der deutsche Astronaut und sein Team in einer engen Raumkapsel unterwegs. Nun sind sie erfolgreich an die „Internationale Raumstation“ (ISS) angedockt. Der Vorgang verlief besser als erwartet.

---------------------------
the following article is classified as:  nonTech
Amazon vernichtet in Massen neue und zurückgegebene Ware Der Online-Handel boomt. Zugleich steigt auch die Zahl der Retouren. Bei Amazon kommt die zurückgesandte Ware aber häufig nicht wieder in den Verkauf, wie Medien berichten. Stattdessen werde selbst Neuware entsorgt.

---------------------------
the following article is classified as:  tech
Marcel Proust: „Auf der Suche nach der verlorenen Zeit“ Lange schien mir Proust zu snobistisch, sein Adelstick störte mich. Doch dann verstand ich: Niemand hat sein Seelenleben besser unters Mikroskop eines Romans gelegt als er.

---------------------------
the follo

In [108]:
display(resultDFStemmed)

Unnamed: 0,label,classifierResult
"feed:1,message:1",tech,nonTech
"feed:1,message:2",tech,tech
"feed:1,message:3",tech,tech
"feed:1,message:4",tech,tech
"feed:1,message:5",tech,tech
"feed:1,message:6",tech,tech
"feed:1,message:7",tech,tech
"feed:1,message:8",tech,nonTech
"feed:1,message:9",tech,tech
"feed:1,message:10",tech,tech


In [109]:
display(createConfusionMatrixDF(resultDFStemmed))

Unnamed: 0,tech,nonTech
tech,34,6
nonTech,8,37


In [110]:
print('Accuracy:', accuracy_score(resultDFStemmed.label, resultDFStemmed.classifierResult))

Accuracy: 0.8352941176470589


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels

In [111]:
display(createPrecisionRecallF1ScoreDF(resultDFStemmed))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.809524,0.85,0.829268
nonTech,0.860465,0.822222,0.840909


In [112]:
techClassifier2Stemmed = trainTheTechClassifier(Classifier(getWordSet, 'tech', 'nonTech'))

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

In [113]:
resultDF2Stemmed = classifyRSSDocuments(techClassifier2Stemmed)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  nonTech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  tech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( Linu

the following article is classified as:  tech
Chrome und Firefox: CSS-Angriff ermöglicht Rückschlüsse auf iFrame-Inhalte Ein Seitenkanal in einer CSS-Funktion ermöglicht Rückschlüsse auf die Inhalte von iFrames, die in bösartigen Webseiten eingebaut werden. Forscher konnten so an den Facebook-Namen und das Profilfoto eines Opfers gelangen. Die Lücke ist in Chrome und Firefox behoben. ( Sicherheitslücke ,  Firefox )  

---------------------------
the following article is classified as:  nonTech
Sohjoa: Autonome Busse brauchen bessere Algorithmen und Sensoren Schon Anfang der 2020er Jahre sollen in Finnland Busse autonom auf öffentlichen Straßen fahren - intensive Tests laufen. Der Projektleiter der Metropolia University for Applied Sciences erklärt im Interview, was bis dahin noch passieren muss. ( Autonomes Fahren ,  Technologie )  

---------------------------
the following article is classified as:  tech
USB: Apple und Microsoft unterstützen Braille-Display-Standard Das USB Implement

the following article is classified as:  nonTech
Internationaler Strafgerichtshof: Kongos Ex-Vizepräsident in Berufungsverfahren freigesprochen     Der frühere Vizepräsident des Kongo, Jean-Pierre Bemba, war wegen Kriegsverbrechen zu 18 Jahren Haft verurteilt worden. In der Berufung wurde das Urteil nun aufgehoben.

---------------------------
the following article is classified as:  nonTech
Fethullah Gülen:  Bundesregierung überprüft Bewertung der Gülen-Bewegung     Die Regierung kommt laut Berichten zu einer kritischen Einschätzung der Bewegung. Die türkische Regierung macht den Prediger für den Putschversuch 2016 verantwortlich.

---------------------------
the following article is classified as:  nonTech
Syrien: Deutschland erlässt offenbar Haftbefehl gegen Assads Geheimdienstchef     Der Generalbundesanwalt hat laut einem Bericht erwirkt, dass nach Jamil Hassan international gefahndet wird. Ihm würden Verbrechen gegen die Menschlichkeit vorgeworfen.

---------------------------
th

the following article is classified as:  nonTech
Seehofer verspricht Ländern individuelle Lösungen bei Asylzentren Der Bundesinnenminister kündigte in Quedlinburg an, dass bei Rückführungen von abgelehnten Asylbewerbern darüber hinaus in Zukunft der Bund auf Wunsch der Länder die Beschaffung von Passersatzpapieren übernehmen werde.

---------------------------
the following article is classified as:  nonTech
Starkoch Anthony Bourdain tot aufgefunden Der Starkoch Anthony Bourdain wurde tot in einem Hotelzimmer in Frankreich gefunden. Der Sender CNN, für den er gerade die Reportage „Parts Unknown“ drehte, bestätigte seinen Tod. Demnach beging er Selbstmord.

---------------------------
the following article is classified as:  nonTech
BAMF-Chefin Jutta Cordt erneut vor Innenausschuss Wieder musste die Chefin des BAMF Cordt den Mitgliedern des Bundestags-Innenauschuss Rede und Antwort stehen. Zur Sondersitzung waren auch Cordts Vorgänger Frank-Jürgen Weise und Manfred Schmidt geladen.

---

In [114]:
display(resultDF2Stemmed)

Unnamed: 0,label,classifierResult
"feed:1,message:1",tech,nonTech
"feed:1,message:2",tech,tech
"feed:1,message:3",tech,tech
"feed:1,message:4",tech,tech
"feed:1,message:5",tech,tech
"feed:1,message:6",tech,tech
"feed:1,message:7",tech,tech
"feed:1,message:8",tech,nonTech
"feed:1,message:9",tech,tech
"feed:1,message:10",tech,tech


In [115]:
display(createConfusionMatrixDF(resultDF2Stemmed))

Unnamed: 0,tech,nonTech
tech,33,7
nonTech,8,37


In [116]:
print('Accuracy:', accuracy_score(resultDF2Stemmed.label, resultDF2Stemmed.classifierResult))

Accuracy: 0.8235294117647058


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels

In [117]:
display(createPrecisionRecallF1ScoreDF(resultDF2Stemmed))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.804878,0.825,0.814815
nonTech,0.840909,0.822222,0.831461


In [118]:
techClassifier3Stemmed = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech', useTfIdf=True))

--------------------Training with news from trainTech------------------------
******************************
http://www.chip.de/rss/rss_tests.xml
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml
******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13
******************************
http://www.heise.de/newsticker/heise-top-atom.xml
------------------------------- done ---------------------------------
--------------------Training with news from trainNonTech------------------------
******************************
http://newsfeed.zeit.de/index
******************************
http://newsfeed.zeit.de/wirtschaft/index
******************************
http://www.welt.de/politik/?service=Rss
******************************
http://www.spiegel.de/schlagzeilen/tops/index.rss
******************************
http://www.sueddeutsche.de/app/service/rss/alles/rss.xml
******************************
http://www.faz.net/rss/aktuell/
--------------------

In [119]:
resultDF3Stemmed = classifyRSSDocuments(techClassifier3Stemmed)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  nonTech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  tech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( Linu

the following article is classified as:  tech
Biometrie: KI-System erkennt Menschen an ihrem Gang Ein neuartiges biometrisches Erkennungssystem soll die Authentifizierung etwa bei einer Zugangskontrolle vereinfachen: Der Proband muss nicht mehr Finger oder Iris scannen lassen, sondern geht einfach über eine Sensormatte. ( Biometrie ,  KI )  

---------------------------
the following article is classified as:  nonTech
Chrome und Firefox: CSS-Angriff ermöglicht Rückschlüsse auf iFrame-Inhalte Ein Seitenkanal in einer CSS-Funktion ermöglicht Rückschlüsse auf die Inhalte von iFrames, die in bösartigen Webseiten eingebaut werden. Forscher konnten so an den Facebook-Namen und das Profilfoto eines Opfers gelangen. Die Lücke ist in Chrome und Firefox behoben. ( Sicherheitslücke ,  Firefox )  

---------------------------
the following article is classified as:  nonTech
Sohjoa: Autonome Busse brauchen bessere Algorithmen und Sensoren Schon Anfang der 2020er Jahre sollen in Finnland Busse auton

the following article is classified as:  nonTech
Roma: Bis die Bagger wieder kommen     In Frankfurt hat die Polizei ein Romalager geräumt, doch damit ist das Problem nicht gelöst. Immer mehr Migranten aus Osteuropa landen in Deutschland auf der Straße.

---------------------------
the following article is classified as:  nonTech
Nahostkonflikt: Vier Tote und Hunderte Verletzte bei Palästinenserprotest in Gaza     Seit Ende März gibt es in Gaza fast jeden Freitag Proteste gegen Israel. Diesmal ist die Lage besonders angespannt, denn die Aktionen fallen mit dem Al-Kuds-Tag zusammen.

---------------------------
the following article is classified as:  nonTech
David Miliband: "Die größte Gefahr ist das Chaos"     Die baldigen Monsunregenfälle bedrohen das riesige Rohingya-Flüchtlingscamp in Bangladesch, warnt der britische Ex-Außenminister David Miliband. Die Lage sei sehr prekär.

---------------------------
the following article is classified as:  nonTech
Internationaler Strafgerichtsh

the following article is classified as:  nonTech
Ist Fußball für Ästheten oder für Proleten? Wenn die WM angepfiffen wird, beginnt ein Kampf um die intellektuelle Deutungshoheit: Ist Fußball nur ein Sport oder eine Wissenschaft für sich? Vom Versuch, dem Wesen des Spiels auf die Spur zu kommen

---------------------------
the following article is classified as:  tech
Bitte keine Bitcoin-Erpressungen am Wochenende! Die Europäische Cybersicherheitsbehörde „Enisa“ sitzt im schönen Kreta. Am Wochenende wird dort nicht gearbeitet. Dazu reiche das Geld nicht aus, so der Behördenleiter. Hacker sollten sich an die üblichen Bürozeiten halten.

---------------------------
the following article is classified as:  nonTech
Eine Art Notstand auf der Bahnstrecke nach Sylt Wegen des andauernden Chaos auf der Zugstrecke nach Sylt denkt der schleswig-holsteinische Verkehrsminister Bernd Buchholz an drastische Maßnahmen. Aber schnelle Lösung wird es nicht geben.

---------------------------
the following

In [120]:
display(resultDF3Stemmed)

Unnamed: 0,label,classifierResult
"feed:1,message:1",tech,nonTech
"feed:1,message:2",tech,tech
"feed:1,message:3",tech,tech
"feed:1,message:4",tech,tech
"feed:1,message:5",tech,tech
"feed:1,message:6",tech,tech
"feed:1,message:7",tech,tech
"feed:1,message:8",tech,nonTech
"feed:1,message:9",tech,tech
"feed:1,message:10",tech,tech


In [121]:
display(createConfusionMatrixDF(resultDF3Stemmed))

Unnamed: 0,tech,nonTech
tech,31,9
nonTech,6,39


In [122]:
print('Accuracy:', accuracy_score(resultDF3Stemmed.label, resultDF3Stemmed.classifierResult))

Accuracy: 0.8235294117647058


##### Precision, Recall, F1-Score der Klassifikation für beide Klassenlabels

In [123]:
display(createPrecisionRecallF1ScoreDF(resultDF3Stemmed))

Unnamed: 0,Precision,Recall,F1-Score
tech,0.837838,0.775,0.805195
nonTech,0.8125,0.866667,0.83871


#### Überlegung - mehr Trainingsdokumente
Die Überlegung ist, durch mehr Trainingsdaten später eine bessere Klassifikation zu erreichen. Dafür haben wir für beide Klassen mit Google jeweils drei weitere RSS-Feeds herausgesucht, der Trainingsmenge hinzugefügt und die Klassifikatoren für alle drei Varianten neu belernt.

In [153]:
trainTech.append('http://www.appdated.de/feed/rss/')
trainTech.append('http://www.digitalweek.de/feed/')
trainTech.append('https://de.engadget.com/rss.xml')

# trainNonTech.append('https://www.n-tv.de/rss')
# trainNonTech.append('feed:https://www.stern.de/feed/standard/alle-nachrichten/')
# trainNonTech.append('feed://www.tagesschau.de/xml/rss2')

##### Erweiterte Trainingsdaten - Stemming - Stopwords - Worthäufigkeiten

In [155]:
techClassifierexpandedTrain = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech'))

resultDFexpandedTrain = classifyRSSDocuments(techClassifierexpandedTrain)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  nonTech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  tech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( Linu

the following article is classified as:  tech
Sohjoa: Autonome Busse brauchen bessere Algorithmen und Sensoren Schon Anfang der 2020er Jahre sollen in Finnland Busse autonom auf öffentlichen Straßen fahren - intensive Tests laufen. Der Projektleiter der Metropolia University for Applied Sciences erklärt im Interview, was bis dahin noch passieren muss. ( Autonomes Fahren ,  Technologie )  

---------------------------
the following article is classified as:  tech
USB: Apple und Microsoft unterstützen Braille-Display-Standard Das USB Implementers Forum (USB-IF) hat einen neuen USB-Standard für Braille-Displays vorgestellt, der zusammen mit Apple, Google und Microsoft entwickelt wurde. Damit soll es für Nutzer mit Sehschwäche einfacher sein, ihre Braille-Displays an verschiedenen Geräten wie PCs und Smartphones zu nutzen. ( Braille ,  Google )  

---------------------------
the following article is classified as:  tech
Adobe Premiere mit Quicksync: Intels Grafikeinheit schlägt acht Ryzen-

the following article is classified as:  nonTech
G7-Gipfel: Dann eben ohne Trump     Die USA werden verhindern, dass es beim G7-Gipfel in Kanada Ergebnisse gibt. Die EU muss "America First" etwas entgegensetzen und den Multilateralismus verteidigen.

---------------------------
the following article is classified as:  nonTech
Britischer Außenminister: Johnson rechnet mit Scheitern der Brexit-Verhandlungen     "Es könnte einen Zusammenbruch geben": Großbritanniens Außenminister äußert sich skeptisch über die Brexit-Gespräche. Er würde gern wie Donald Trump verhandeln.
******************************
http://www.welt.de/?service=Rss

---------------------------
the following article is classified as:  tech
Die WELT-Nachrichten im Stream Nachrichten im Livestream – von Montag bis Freitag immer zwischen 7:00 Uhr und 21:00 Uhr und am Wochenende von 9:00 Uhr bis 21:00 Uhr neueste Informationen aus aller Welt zu Politik, Wirtschaft und Sport.

---------------------------
the following article i

the following article is classified as:  tech
VW hat ein Zulassungsproblem bei einer Viertelmillion Autos Die neuen Abgastests bereiten allen Autobauern in Europa erhebliche Schwierigkeiten. VW nennt nun Zahlen: Bis zu einer Viertelmillion Autos können nur verspätet verkauft werden. Die Bänder werden zeitweise stillstehen.

---------------------------
the following article is classified as:  nonTech
Wann wird Ali B. nach Deutschland ausgeliefert? In der Nacht zu Freitag wurde Ali B. im Irak von kurdischen Sicherheitsbehörden gefasst. Wann wird er nach Deutschland ausgeliefert? Wie verlief seine Ausreise? Die Antworten auf die wichtigsten Fragen im Wiesbadener Mordfall.

---------------------------
the following article is classified as:  tech
Alexander Gerst hat erfolgreich an ISS angedockt Zwei Tage waren der deutsche Astronaut und sein Team in einer engen Raumkapsel unterwegs. Nun sind sie erfolgreich an die „Internationale Raumstation“ (ISS) angedockt. Der Vorgang verlief besser als

In [158]:
display(createConfusionMatrixDF(resultDFexpandedTrain))

print('Accuracy:', accuracy_score(resultDFexpandedTrain.label, resultDFexpandedTrain.classifierResult))

Accuracy: 0.7294117647058823


##### Erweiterte Trainingsdaten - Stemming - Stopwords - Wortauftreten

In [134]:
techClassifier2expandedTrain = trainTheTechClassifier(Classifier(getWordSet, 'tech', 'nonTech'))

resultDF2expandedTrain = classifyRSSDocuments(techClassifier2expandedTrain)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  nonTech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  nonTech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( L

the following article is classified as:  tech
Versionsverwaltung: Bösartige Git-Repos können Clients übernehmen Eine Sicherheitslücke in der Versionsverwaltung Git ermöglicht es bösartigen Repositorys, unter Umständen Code auf Client-Systemen auszuführen. Patches für Git stehen bereit und verschiedene Hosting-Dienste haben Vorkehrungen gegen die Lücke getroffen. ( Git ,  Microsoft )  

---------------------------
the following article is classified as:  nonTech
Spionage: Kanadischer Yahoo-Hacker in den USA verurteilt Ein junger Kanadier ist in den USA wegen seiner Beteiligung am Hack von 500.000 Yahoo-Nutzerkonten verurteilt worden. Er soll Profile ausspioniert und die Informationen an den russischen Geheimdienst weitergegeben haben. ( Security ,  Yahoo )  

---------------------------
the following article is classified as:  tech
Apple: WatchOS 4.3.1 und TVOS 11.4 veröffentlicht Die Betriebssysteme für die Apple Watch und das Apple TV erhalten Updates, kurz bevor neue Hauptversionen v


---------------------------
the following article is classified as:  nonTech
Die WELT-Nachrichten im Stream Nachrichten im Livestream – von Montag bis Freitag immer zwischen 7:00 Uhr und 21:00 Uhr und am Wochenende von 9:00 Uhr bis 21:00 Uhr neueste Informationen aus aller Welt zu Politik, Wirtschaft und Sport.

---------------------------
the following article is classified as:  nonTech
Bundesrat fordert verpflichtenden Einbau von Abbiege-Assistenten in LKW Immer wieder kommt es tödlichen Unfällen durch abbiegende LKW. Damit Radfahrer und Fußgänger auch im Totenwinkel zu erkennen sind, fordert der Bundesrat die verpflichtende Ausrüstung mit Warnsystemen.

---------------------------
the following article is classified as:  tech
Löw fordert für Gündogan Unterstützung – Fans pfeifen trotzdem Im letzten Test der DFB-Elf vor der WM wird Ilkay Gündagon erneut ausgepfiffen. Auch Mesut Özil bekommt den Unmut der Fans zu spüren – obwohl er gar nicht im Stadion ist. Der Bundestrainer hat eine

In [137]:
display(createConfusionMatrixDF(resultDF2expandedTrain))

print('Accuracy:', accuracy_score(resultDF2expandedTrain.label, resultDF2expandedTrain.classifierResult))

Accuracy: 0.788235294117647


##### Erweiterte Trainingsdaten - Stemming - Stopwords - tf-idf

In [140]:
techClassifier3expandedTrain = trainTheTechClassifier(Classifier(getWordList, 'tech', 'nonTech', useTfIdf=True))

resultDF3expandedTrain = classifyRSSDocuments(techClassifier3expandedTrain)

--------------------Classify the news from test------------------------
******************************
http://rss.golem.de/rss.php?r=sw&feed=RSS0.91

---------------------------
the following article is classified as:  nonTech
Gitea: Account von Github-Alternative kurzzeitig übernommen Das Projekt Gitea erstellt eine leichtgewichtige Open-Source-Alternative zu Github. Ein Bot-Account des Projekts auf Github ist nun offenbar kurzzeitig übernommen worden, um Cryptominer zu verbreiten. Quellcode und Infrastruktur sollen nicht betroffen sein. ( Open Source ,  Softwareentwicklung )  

---------------------------
the following article is classified as:  nonTech
Grafiktablets: Linux ermöglicht Firmware-Updates für Wacom-Hardware Die Unterstützung von Linux-Desktop-Systemen für Aufgaben von Grafikern und Designern ist vor allem dank der Mitarbeit von Wacom schon ganz gut. Ein weiterer Baustein für besseren Support sind die nun angekündigten Firmware-Updates für die Zeichengeräte von Wacom. ( L

the following article is classified as:  nonTech
Biometrie: KI-System erkennt Menschen an ihrem Gang Ein neuartiges biometrisches Erkennungssystem soll die Authentifizierung etwa bei einer Zugangskontrolle vereinfachen: Der Proband muss nicht mehr Finger oder Iris scannen lassen, sondern geht einfach über eine Sensormatte. ( Biometrie ,  KI )  

---------------------------
the following article is classified as:  nonTech
Chrome und Firefox: CSS-Angriff ermöglicht Rückschlüsse auf iFrame-Inhalte Ein Seitenkanal in einer CSS-Funktion ermöglicht Rückschlüsse auf die Inhalte von iFrames, die in bösartigen Webseiten eingebaut werden. Forscher konnten so an den Facebook-Namen und das Profilfoto eines Opfers gelangen. Die Lücke ist in Chrome und Firefox behoben. ( Sicherheitslücke ,  Firefox )  

---------------------------
the following article is classified as:  nonTech
Sohjoa: Autonome Busse brauchen bessere Algorithmen und Sensoren Schon Anfang der 2020er Jahre sollen in Finnland Busse au

the following article is classified as:  nonTech
G8-Gruppe: Europäer weisen Trumps Vorstoß zurück     Der US-Präsident hatte vorgeschlagen, Russland wieder in den Kreis der führenden Industrienationen aufzunehmen. Es war wegen der Krim-Annexion ausgeschlossen worden.

---------------------------
the following article is classified as:  nonTech
Bamf-Affäre: Innenausschuss sieht gravierende Mängel im Bamf     Der Vorsitzende des Bamf-Personalrats berichtet dem Innenausschuss, wie überfordert die Behörde mit Asylverfahren war. Innenminister Seehofer will eine umfassende Reform.

---------------------------
the following article is classified as:  nonTech
Roma: Bis die Bagger wieder kommen     In Frankfurt hat die Polizei ein Romalager geräumt, doch damit ist das Problem nicht gelöst. Immer mehr Migranten aus Osteuropa landen in Deutschland auf der Straße.

---------------------------
the following article is classified as:  nonTech
Nahostkonflikt: Vier Tote und Hunderte Verletzte bei Palä

the following article is classified as:  nonTech
Macht euch endlich ehrlich! Die Woche begann mit vaterländischer Eskalation, es folgte die Radikalisierung des Moralestablishments. Und nun erschüttert ein schreckliches Verbrechen zutiefst das Vertrauen in die Politik. Was seit 2015 passiert ist, muss auf den Tisch.

---------------------------
the following article is classified as:  nonTech
Liebe nicht erwidert – 19-Jähriger würgt Mitschülerin In einem Bildungszentrum in Berlin-Friedrichshain würgte ein 19-Jähriger eine Mitschülerin und verletzte sie dadurch schwer. Der Grund: Sie soll seine Liebe nicht erwidert haben. Gegen ihn wurde Haftbefehl erlassen.

---------------------------
the following article is classified as:  nonTech
Die Einsatzbereiche der Peptide sind schier endlos Mit kleinen Molekülketten will das Start-up Numaferm aus Düsseldorf die Kosmetik- und Pharmabranche verändern. Der große Vorteil des Unternehmens, die Herstellungsweise, war dabei eher ein Zufall.

--------

In [143]:
display(createConfusionMatrixDF(resultDF3expandedTrain))

print('Accuracy:', accuracy_score(resultDF3expandedTrain.label, resultDF3expandedTrain.classifierResult))

Accuracy: 0.6941176470588235
