# Data Mining Versuch Document Classification
* Autor: Prof. Dr. Johannes Maucher
* Datum: 06.11.2015

[Übersicht Ipython Notebooks im Data Mining Praktikum](Data Mining Praktikum.ipynb)

# Einführung
## Lernziele:
In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Dokumentklassifikation: Klassifikation von Dokumenten, insbesondere Emails und RSS Feed
* Naive Bayes Classifier: Weit verbreitete Klassifikationsmethode, welche unter bestimmten Randbedingungen sehr gut skaliert.


## Theorie zur Vorbereitung
### Parametrische Klassifikation und Naive Bayes Methode
Klassifikatoren müssen zu einer gegebenen Eingabe $\underline{x}$ die zugehörige Klasse $C_i$ bestimmen. Mithilfe der Wahrscheinlichkeitstheorie kann diese Aufgabe wie folgt beschrieben werden: Bestimme für alle möglichen Klassen $C_i$ die bedingte Wahrscheinlichkeit $P(C_i | \underline{x})$, also die Wahrscheinlichkeit, dass die gegebene Eingabe $\underline{x}$ in Klasse $C_i$ fällt. Wähle dann die Klasse aus, für welche diese Wahrscheinlichkeit maximal ist.

Die Entscheidungsregeln von Klassifikatoren können mit Methoden des ""überwachten Lernens"" aus Trainingsdaten ermittelt werden. Im Fall des **parametrischen Lernens** kann aus den Trainingsdaten die sogenannte **Likelihood-Funktion** $p(\underline{x} \mid C_i)$ bestimmt werden. _Anmerkung:_ Allgemein werden mit $p(...)$ kontinuierliche Wahrscheinlichkeitsfunktionen und mit $P(...)$ diskrete Wahrscheinlichkeitswerte bezeichnet. 

Mithilfe der **Bayes-Formel**
$$
P(C_i \mid \underline{x}) = \frac{p(\underline{x} \mid C_i) \cdot P(C_i)}{p(\underline{x})}
$$

kann aus der Likelihood die **a-posteriori-Wahrscheinlichkeit $P(C_i \mid \underline{x})$** berechnet werden. Darin wird $P(C_i)$ die **a-priori-Wahrscheinlichkeit** und $p(\underline{x})$ die **Evidenz** genannt. Die a-priori-Wahrscheinlichkeit kann ebenfalls aus den Trainingsdaten ermittelt werden. Die Evidenz ist für die Klassifikationsentscheidung nicht relevant, da sie für alle Klassen $C_i$ gleich groß ist.

Die Berechnung der Likelihood-Funktion $p(\underline{x} \mid C_i)$ ist dann sehr aufwendig, wenn $\underline{x}=(x_1,x_2,\ldots,x_Z)$ ein Vektor von voneinander abhängigen Variablen $x_i$ ist. Bei der **Naive Bayes Classification** wird jedoch von der vereinfachenden Annahme ausgegangen, dass die Eingabevariabeln $x_i$ voneinander unabhängig sind. Dann vereinfacht sich die bedingte Verbundwahrscheinlichkeits-Funktion $p(x_1,x_2,\ldots,x_Z \mid C_i)$ zu:

$$
p(x_1,x_2,\ldots,x_Z \mid C_i)=\prod\limits_{j=1}^Z p(x_j | C_i)
$$

### Anwendung der Naive Bayes Methode in der Dokumentklassifikation
Auf der rechten Seite der vorigen Gleichung stehen nur noch von den jeweils anderen Variablen unabhängige bedingte Wahrscheinlichkeiten. Im Fall der Dokumentklassifikation sind die einzelnen Worte die Variablen, d.h. ein Ausdruck der Form $P(x_j | C_i)$ gibt an mit welcher Wahrscheinlichkeit ein Wort $x_j=w$ in einem Dokument der Klasse $C_i$ vorkommt. 
Die Menge aller Variablen $\left\{x_1,x_2,\ldots,x_Z \right\}$ ist dann die Menge aller Wörter im Dokument. Damit gibt die linke Seite in der oben gegebenen Gleichung die _Wahrscheinlichkeit, dass die Wörter $\left\{x_1,x_2,\ldots,x_Z \right\}$ in einem Dokument der Klasse $C_i$ vorkommen_ an.

Für jedes Wort _w_ wird aus den Trainingsdaten die Wahrscheinlichkeit $P(w|G)$, mit der das Wort in Dokumenten der Kategorie _Good_ und die Wahrscheinlichkeit $P(w|B)$ mit der das Wort in Dokumenten der Kategorie _Bad_ auftaucht ermittelt. Trainingsdokumente werden in der Form

$$
tD=(String,Category)
$$
eingegeben. 

Wenn 

* mit der Variable $fc(w,cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ in denen das Wort $w$ enthalten ist
* mit der Variable $cc(cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ 

gezählt wird, dann ist 

$$
P(w|G)=\frac{fc(w,G)}{cc(G)} \quad \quad P(w|B)=\frac{fc(w,B)}{cc(B)}.
$$

Wird nun nach der Eingabe von $L$ Trainingsdokumenten ein neu zu klassifizierendes Dokument $D$ eingegeben und sei $W(D)$ die Menge aller Wörter in $D$, dann berechnen sich unter der Annahme, dass die Worte in $W(D)$ voneinander unabhängig sind (naive Bayes Annahme) die a-posteriori Wahrscheinlichkeiten zu:

$$
P(G|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | G) \right) \cdot P(G)}{p(D)}
$$
und
$$
P(B|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | B) \right) \cdot P(B)}{p(D)}.
$$

Die hierfür notwendigen a-priori-Wahrscheinlichkeiten berechnen sich zu 

$$
P(G)=\frac{cc(G)}{L}
$$
und
$$
P(B)=\frac{cc(B)}{L}
$$

Die Evidenz $p(D)$ beeinflusst die Entscheidung nicht und kann deshalb ignoriert werden.


## Vor dem Versuch zu klärende Fragen


1. Wie wird ein Naive Bayes Classifier trainiert? Was muss beim Training für die spätere Klassifikation abgespeichert werden?
2. Wie teilt ein Naiver Bayes Classifier ein neues Dokument ein?
3. Welche naive Annahme liegt dem Bayes Classifier zugrunde? Ist diese Annahme im Fall der Dokumentklassifikation tatsächlich gegeben?
4. Betrachten Sie die Formeln für die Berechnung von $P(G|D)$ und $P(B|D)$. Welches Problem stellt sich ein, wenn in der Menge $W(D)$ ein Wort vorkommt, das nicht in den Trainingsdaten der Kategorie $G$ vorkommt und ein anderes Wort aus $W(D)$ nicht in den Trainingsdaten der Kategorie $B$ enthalten ist? Wie könnte dieses Problem gelöst werden? 



## <span style="color:#900C3F">Dokumentation unserer Ergebnisse</span> 

1. Ein Naive Bayes Classifier wird mit der Methodik des überwachten Lernens trainiert. Dabei sind im Trainingsdatensatz Label gegeben und Entscheidungsregeln können so einfach gelernt, bzw trainiert werden. Wichtig sind hierbei die a-priori- und a-posteriori-Wahrscheinlichkeit. Die Evidenz im Gegenzug kann vernachlässigt werden. Natürlich benötigt man noch Informationen wie z.B. die Menge aller Trainingsdokumente in den einzelnen Kategorien.

2. Der Classifier berechnet jeweils die Wahrscheinlichkeiten, dass ein Wort in einem Dokument der Kategorie **gut** und **schlecht** vorkommt. Wenn man das nun über die Summe aller Worte macht, so erhält man jeweils eine Gesamtwahrscheinlichkeit, dass ein Dokument **gut** oder **schlecht** ist. Dann wird das Dokument in die jeweilige Kategorie mit der höchsten Wahrscheinlichkeit eingeordnet.

3. Dem Classifier liegt die Annahme zugrunde, dass die Elemente (hier die Worte) zueinander unabhängig sind. Logisch betrachtet sind Worte nie komplett unabhängig voneinander. In einer E-Mail einer Bank wird immer, wenn von 'Anlage' gesprochen wird, das Wort 'Zins(en)' vorkommen. Diesen Sachverhalt kann man auf verschiedene Thematiken projizieren. Denn in vielen Kontexten werden stets ähnliche Wörter verwendet. Man kann aber nicht sagen, dass Wörter stets in Abhängigkeiten stehen. Man kann z.B. auch von Anlage im Sinne einer Musikanlage sprechen. **Zusammenfassend** ist also zu sagen, dass bestimmte Wörter abhängig voneinander sein können, aber eher im Fall dass es keine Doppelbedeutungen (wie bei 'Anlage') gibt.

4. Wir erkennen das folgende Problem, dass wenn ein Wort nicht in der jeweiligen Trainingsmenge vorkommt, die Wahrscheinlichkeit P(w|D) bzw P(w|B) 0 ergibt. Wenn man nun alle Wahrscheinlichkeiten P(w|D) und P(w|B) multipliziert, so kann es passieren, dass diese Wahrscheinlichkeit zusammen 0 ergeben (da Multiplikation mit 0). Vorbeugen kann man dies indem man zu jeder P(w|G) bzw P(w|B) eine Konstante addiert. So ist im schlimmsten Fall der Wahrscheinlichkeitswert von P(w|G) bzw P(w|B) gleich dem Wert der Konstante und das Ergebnis der Multiplikation wird niemals 0.

# Durchführung
## Feature Extraction/ -Selection

**Aufgabe:**
Implementieren Sie eine Funktion _getwords(doc)_, der ein beliebiges Dokument in Form einer String-Variablen übergeben wird. In der Funktion soll der String in seine Wörter zerlegt und jedes Wort in _lowercase_ transformiert werden. Wörter, die weniger als eine untere Grenze von Zeichen (z.B. 3) oder mehr als eine obere Grenze von Zeichen (z.B. 20) enthalten, sollen ignoriert werden. Die Funktion soll ein dictionary zurückgeben, dessen _Keys_ die Wörter sind. Die _Values_ sollen für jedes Wort zunächst auf $1$ gesetzt werden.

**Tipp:** Benutzen Sie für die Zerlegung des Strings und für die Darstellung aller Wörter mit ausschließlich kleinen Buchstaben die Funktionen _split(), strip('sep')_ und _lower()_ der Klasse _String_.  


## <span style="color:#900C3F">Dokumentation unserer Ergebnisse</span> 
Bei der Funktion `getwords()` werden die einzelnen Wörter mithilfe von List Comprehension gesplittet und in Kleinbuchstaben 
umgewandelt. Sonderzeichen wie "?","!", etc. werden dabei ignoriert, genau so wie Wörter die weniger als drei bzw. mehr als 20 Buchstaben haben. Durch die Funktion `join()` werden diese dann dem Dictionary *words* hinzugefügt. Um die Values der einzelnen Keys des Dictionaries auf eins zu setzen, wird die `zip()`Funktion benutzt.

In [1]:
def getwords(document):
    words = ["".join(x for x in word if x not in '?!().´`:\'",<>-»«') for word in document.lower().split() if (len(word) >= 3 and len(word) <= 20)] 
    return dict(zip(words, [1 for x in range(len(words))]))


## Classifier

**Aufgabe:**
Implementieren Sie den Naive Bayes Classifier für die Dokumentklassifikation. Es bietet sich an die Funktionalität des Klassifikators und das vom Klassifikator gelernte Wissen in einer Instanz einer Klasse _Classifier_ zu kapseln. In diesem Fall kann wie folgt vorgegangen werden:

* Im Konstruktor der Klasse wird je ein Dictionary für die Instanzvariablen _fc_ und _cc_ (siehe oben) initialisiert. Dabei ist _fc_ ein verschachteltes Dictionary. Seine Keys sind die bisher gelernten Worte, die Values sind wiederum Dictionaries, deren Keys die Kategorien _Good_ und _Bad_ sind und deren Values zählen wie häufig das Wort bisher in Dokumenten der jeweiligen Kategorie auftrat. Das Dictionary _cc_ hat als Keys die Kategorien _Good_ und _Bad_. Die Values zählen wie häufig Dokumente der jeweiligen Kategorien bisher auftraten.
* Im Konstruktor wird ferner der Instanzvariablen _getfeatures_ die Funktion _getwords()_ übergeben. Die Funktion _getwords()_ wurde bereits zuvor ausserhalb der Klasse definiert. Sinn dieses Vorgehens ist, dass andere Varianten um Merkmale aus Dokumenten zu extrahieren denkbar sind. Diese Varianten könnten dann ähnlich wie die _getwords()_-Funktion ausserhalb der Klasse definiert und beim Anlegen eines _Classifier_-Objekts der Instanzvariablen _getfeatures_ übergeben werden.  
* Der Methode _incf(self,f,cat)_ wird ein Wort _f_ und die zugehörige Kategorie _cat_ des Dokuments in welchem es auftrat übergeben. In der Methode wird der _fc_-Zähler angepasst.
* Der Methode _incc(self,cat)_ wird die Kategorie _cat_ des gerade eingelesenen Dokuments übergeben. In der Methode wird der _cc_-Zähler angepasst.
* Die Methode _fcount(self,f,cat)_ gibt die Häufigkeit des Worts _f_ in den Dokumenten der Kategorie _cat_ zurück.
* Die Methode _catcount(self,cat)_ gibt die Anzahl der Dokumente in der Kategorie _cat_ zurück.
* Die Methode _totalcount(self)_ gibt die Anzahl aller Dokumente zurück.
* Der Methode _train(self,item,cat)_ wird ein neues Trainingselement, bestehend aus der Betreffzeile (_item_) und der entsprechenden Kategorisierung (_cat_) übergeben. Der String _item_ wird mit der Instanzmethode _getfeatures_ (Diese referenziert _getwords()_) in Worte zerlegt. Für jedes einzelne Wort wird dann _incf(self,f,cat)_ aufgerufen. Ausserdem wird für das neue Trainingsdokument die Methode _incc(self,cat)_ aufgerufen.
* Die Methode _fprob(self,f,cat)_ berechnet die bedingte Wahrscheinlichkeit $P(f | cat)$ des Wortes _f_ in der Kategorie _cat_ entsprechend der oben angegebenen Formeln, indem sie den aktuellen Stand des Zählers _fc(f,cat)_ durch den aktuellen Stand des Zählers _cc(cat)_ teilt.   
* Die Methode _fprob(self,f,cat)_ liefert evtl. ungewollt extreme Ergebnisse, wenn noch wenig Wörter im Klassifizierer verbucht sind. Kommt z.B. ein Wort erst einmal in den Trainingsdaten vor, so wird seine Auftrittswahrscheinlichkeit in der Kategorie in welcher es nicht vorkommt gleich 0 sein. Um extreme Wahrscheinlichkeitswerte im Fall noch selten vorkommender Werte zu vermeiden, soll zusätzlich zur Methode _fprob(self,f,cat)_ die Methode _weightedprob(self,f,cat)_ implementiert und angewandt werden. Der von ihr zurückgegebene Wahrscheinlichkeitswert könnte z.B. wie folgt berechnet werden:$$wprob=\frac{initprob+count \cdot fprob(self,f,cat)}{1+count},$$ wobei $initprob$ ein initialer Wahrscheinlichkeitswert (z.B. 0.5) ist, welcher zurückgegeben werden soll, wenn das Wort noch nicht in den Trainingsdaten aufgetaucht ist. Die Variable $count$ zählt wie oft das Wort $f$ bisher in den Trainingsdaten auftrat. Wie zu erkennen ist, nimmt der Einfluss der initialen Wahrscheinlichkeit ab, je häufiger das Wort in den Trainingsdaten auftrat.
* Nach dem Training soll ein beliebiges neues Dokument (Text-String) eingegeben werden können. Für dieses soll mit der Methode _prob(self,item,cat)_ die a-posteriori-Wahrscheinlichkeit $P(cat|item)$ (Aufgrund der Vernachlässigung der Evidenz handelt es sich hierbei genaugenommen um das Produkt aus a-posteriori-Wahrscheinlichkeit und Evidenz), mit der das Dokument _item_ in die Kategorie _cat_ fällt berechnet werden. Innerhalb der Methode _prob(self,item,cat)_ soll zunächst die Methode _weightedprob(self,f,cat)_ für alle Wörter $f$ im Dokument _item_ aufgerufen werden. Die jeweiligen Rückgabewerte von _weightedprob(self,f,cat)_ werden multipliziert. Das Produkt der Rückgabewerte von _weightedprob(self,f,cat)_ über alle Wörter $f$ im Dokument muss schließlich noch mit der a-priori Wahrscheinlichkeit $P(G)$ bzw. $P(B)$ entsprechend der oben aufgeführten Formeln multipliziert werden. Das Resultat des Produkts wird an das aufrufende Programm zurück gegeben, die Evidenz wird also vernachlässigt (wie oben begründet).



Ein Dokument _item_ wird schließlich der Kategorie _cat_ zugeteilt, für welche die Funktion _prob(self,item,cat)_ den höheren Wert zurück gibt. Da die Rückgabewerte in der Regel sehr klein sind, werden in der Regel folgende Werte angezeigt. Wenn mit $g$ der Rückgabewert von _prob(self,item,cat=G)_ und mit $b$ der Rückgabewert von _prob(self,item,cat=B)_ bezeichnet wird dann ist die Wahrscheinlichkeit, dass $item$ in die Kategorie $G$ fällt, gleich:
$$
\frac{g}{g+b}
$$
und die Wahrscheinlichkeit, dass $item$ in die Kategorie $B$ fällt, gleich:
$$
\frac{b}{g+b}
$$

## <span style="color:#900C3F">Dokumentation unserer Ergebnisse</span> 

Die Klasse *Classifier* ist aufgebaut wie in der Aufgabenstellung angegeben. Die Funktion `__init__` initialisiert die beiden Dictionaries *cc* und *fc*. Ursprünglich wurden beide Dictionaries mit den in dieser Aufgabe angegebenen Kategorien *Good* und *Bad* eingeführt. Aufgrund der nächsten Aufgabe mit den Kategorien *Tech* und *NotTech* werden beide Dictionaries jetzt passend zu den mitgegebenen Kategorien angelegt. Bei *cc* passiert das im Konstruktor und bei *fc* in der Funktion `incf()`. Ebenfalls kann eine Funktion mit übergeben werden, die bestimmt wie einzelne Features extrahiert werden. In diesem Fall ist das die Funktion `getWords()` aus der vorherigen Teilaufgabe. 
Um die Anzahl der Wörter innerhalb einer Kategorie mithilfe der Funktion `fcount()` zu bestimmen, wird `getattr()` genutzt. Es wird überprüft ob das Wort *f* in den bereits gelernten Wörtern *fc* vorhanden ist. Die Funktion `get()` wird nur auf das Objekt *self.fc.get(f)* angewendet, falls dies auch möglich ist, da ansonsten teilweise Fehlermeldungen zurückgeliefert wurden. Falls es nicht möglich ist, wird es auf Null gesetzt.

In [180]:
import math

class Classifier:
    def __init__(self, function, cats):
        self.getfeatures = function
        #fc.keys() = bisher gelernte wörter
        #fc.get(key) = {Good: 0, Bad: 0} wie häufig das Wort bisher in dem Dokument in der jeweiligen Kategorie auftrat
        self.fc = {}
        #cc.keys = {Good: 0, Bad: 0} Wie häufig Dokumente der jewiligen Kategorie bisher auftraten
        self.cc = dict(zip(cats, [0 for x in range(len(cats))]))
    
    def incf(self, f, cat):
        fc_keys = [key for key in self.fc.keys()]
        cc_keys = [key for key in self.cc.keys()]
        if not(f in fc_keys):
            empty_dict = dict()
            for this_cat in cc_keys:
                if cat == this_cat:
                    empty_dict[this_cat] = 1
                else:
                    empty_dict[this_cat] = 0
            self.fc[f] = empty_dict
        else:
            this_count = self.fc.get(f).get(cat)
            self.fc[f][cat] = this_count + 1  

    def incc(self, cat):
        this_count = self.cc.get(cat)
        self.cc[cat] = this_count + 1
        
    def fcount(self, f, cat):
        if getattr(self.fc.get(f), "get", 0) == 0:
            return 0
        else:
            return self.fc.get(f).get(cat)  
    
    def catcount(self, cat):
        return self.cc.get(cat)
        
    def totalcount(self):
        cc_keys = [key for key in self.cc.keys()]
        count = 0
        for this_cat in cc_keys:
            count = count + self.cc.get(this_cat)
        return count
        
    def train(self, item, cat):
        self.incc(cat)
        for word in self.getfeatures(item):
            self.incf(word, cat)
    
    def fprob(self, f, cat):
        return self.fcount(f, cat) / self.catcount(cat)
    
    def weightedprob(self, f, cat):
        initprob = 0.5
        cc_keys = [key for key in self.cc.keys()]
        fcount_result = 0
        for this_cat in cc_keys:
            fcount_result = fcount_result + self.fcount(f, this_cat)
        return (initprob + (fcount_result) * self.fprob(f, cat)) / (1 + (fcount_result))
    
    def prob(self, item, cat):
        weightedprobs = []
        for word in self.getfeatures(item):
            weightedprobs.append(self.weightedprob(word, cat))
        a_posteriori = self.catcount(cat) / self.totalcount()
        return math.prod(weightedprobs) * a_posteriori 
    

## Test

**Aufgabe:**
Instanzieren Sie ein Objekt der Klasse _Classifier_ und übergeben Sie der _train()_ Methode dieser Klasse mindestens 8 kategorisierte Dokumente (Betreffzeilen als Stringvariablen zusammen mit der Kategorie Good oder Bad). Definieren Sie dann ein beliebig neues Dokument und berechnen Sie für dieses die Kategorie, in welches es mit größter Wahrscheinlichkeit fällt. Benutzen Sie für den Test das in 
[NLP Vorlesung Document Classification](https://gitlab.mi.hdm-stuttgart.de/maucher/nlp/-/blob/master/Slides/03TextClassification.pdf)
ausführlich beschriebene Beispiel zu implementieren. Berechnen Sie die Klassifikatorausgabe des Satzes _the money jumps_.

## <span style="color:#900C3F">Dokumentation unserer Ergebnisse</span> 

Damit die Ergebnisse mit denen aus den Folien übereinstimmen, haben wir die *initprob* in der Funktion `weightedprob()` auf 0.5 
gesetzt. 

In [181]:
Bayes_Classifier = Classifier(function=getwords, cats=["Good", "Bad"])
predefined_documents = {"nobody owns the water": "Good", "the quick rabbit jumps fences": "Good", "buy pharmaceuticals now": "Bad", "make quick money at the online casino": "Bad", "the quick brown fox jumps": "Good", "next meeting is at night": "Good", "meeting with your superstar": "Bad", "money like water": "Bad"}
for document in predefined_documents:
    Bayes_Classifier.train(document, predefined_documents.get(document))

test_object = "the money jumps"

print(Bayes_Classifier.prob(test_object, "Good"))
print(Bayes_Classifier.prob(test_object, "Bad"))


0.029166666666666664
0.012499999999999999


## Klassifikation von RSS Newsfeeds
Mit dem unten gegebenen Skript werden Nachrichten verschiedener Newsserver geladen und als String abgespeichert.

**Aufgaben:**
1. Trainieren Sie Ihren Naive Bayes Classifier mit allen Nachrichten der in den Listen _trainTech_ und _trainNonTech_ definierten Servern. Weisen Sie für das Training allen Nachrichten aus _trainTech_ die Kategorie _Tech_ und allen Nachrichten aus _trainNonTech_ die Kategorie _NonTech_ zu.
2. Nach dem Training sollen alle Nachrichten aus der Liste _test_ vom Naive Bayes Classifier automatisch klassifiziert werden. Gehen Sie davon aus, dass alle Nachrichten von [http://rss.golem.de/rss.php?r=sw&feed=RSS0.91](http://rss.golem.de/rss.php?r=sw&feed=RSS0.91) tatsächlich von der Kategorie _Tech_ sind und alle Nachrichten von den beiden anderen Servern in der Liste _test_ von der Kategorie _NonTech_ sind. Bestimmen Sie die _Konfusionsmatrix_ und die _Accuracy_ sowie für beide Klassen _Precision, Recall_ und _F1-Score_. Diese Qualitätsmetriken sind z.B. in [NLP Vorlesung Document Classification](https://gitlab.mi.hdm-stuttgart.de/maucher/nlp/-/blob/master/Slides/03TextClassification.pdf) definiert.
3. Diskutieren Sie das Ergebnis
4. Wie könnte die Klassifikationsgüte durch Modifikation der _getwords()_-Methode verbessert werden? Implementieren Sie diesen Ansatz und vergleichen Sie das Ergebnis mit dem des ersten Ansatzes.

## <span style="color:#900C3F">Dokumentation unserer Ergebnisse</span> 

1. In der ersten Aufgabe mussten alle Artikel der Feeds in eine Liste geladen und darauf von einem Naive Bayes Classifier trainiert werden. Am Anfang wurde in dem Abschnitt "News from trainNonTech" ein Fehler geworfen. Das Problem war, dass der "Spiegel"-Feed zu dem Zeitpunkt zwei `<item>` ohne `<title>` und ohne `<description>` enthielt. Somit konnten diese auch nicht gelesen werden. Um den Fehler zu beheben wird die Funktion `getattr()` eingesetzt, die einen Standardwert setzt, falls keiner vorhanden ist. 

2. In der 2. Aufgabe wird nach diesem Standardwert gefiltert, damit diese nicht mittrainiert werden. Die Methode `prob()` des Naive Bayes Classifiers trainiert die einzelnen Artikel und überprüft anschließend auf die jeweilige Kategorie. Für die Konfusionsmatrix benötigt man allerdings die "predicted"- und "true"-Labels. Wir benötigen also eine Liste an Tags und nicht nur die Ergebnisse die `prob()` liefert. Diese Ergebnisse werden genutzt um die Tagliste aus den "predicted"-Labels, je nachdem welche Zahl für welche Kategorie höher war, zu erstellen. Die Methoden aus sklearn.metrics berechnen die gewünschten Werte für die Konfusionsmatrix, Accuracy, etc.

3. Bei den Ergebnissen ist uns aufgefallen, dass der F1-Score, Recall-Score und Precision-Score der Kategorie "Tech" im Durchschnitt geringer ist, als bei der Kategorie "NonTech". Unsere Vermutung ist, dass das daran liegen könnte, dass wir bei den Testdaten zwei Feeds der Kategorie "NonTech" zugewiesen haben und nur einen für die Kategorie "Tech". Somit ist die Varianz der Wörter bei "NonTech" höher als bei "Tech", obwohl die Anzahl der Artikel für beide Kategorien identisch ist. Aufgrund dessen, dass die "NonTech" Artikel aus mehr Quellen kommen, als die "Tech" Artikel, wurden die Texte von unterschiedlichen Autoren verfasst und unterschiedliche Schreibstile verwendet. Das kann dazu führen, dass die Zahl der Synonyme erhöht und so die Worterkennung behindert wird.

4. Eine erste Idee war "Smoothing" einzubauen. Das ist aber bereits durch *initprop* in der Funktion `weightedprob()` mit dem standardmäßigen Wert von 0.5 vorhanden. Diese Idee fiel ebenfalls raus, da man nur die Funktion `getwords()` bearbeiten sollte.
Wir haben uns dann dafür entschieden die einzelnen Wörter des Dokuments nicht nur in ihrer vorliegenden Deklination bzw. Konjugation dem Dictionary hinzuzufügen. Die Idee war, das Dictionary um die Wortstämme, Grundformen zu erweitern. Dafür haben wir unser Wissen aus "NLP" angewendet und mithilfe von Stemming und Lemmatisierung die gewünschten Formen erhalten. Somit wollten wir den Fehler umgehen, dass einzelne Wörter wie "monatlichen" nicht an "Monat" angepasst werden. Uns ist jedoch aufgefallen, dass die Werte sich nicht verändert haben. Wir nehmen an, dass die Menge an Artikeln zu klein ist, als das unsere Änderungen einen nennenswerten Unterschied machen.

In [133]:
import feedparser

train_tech_news = []
train_non_tech_news = []
test_news = []
test_news_tech = []
test_news_non_tech = []

def stripHTML(h):
  p=''
  s=0
  for c in h:
    if c=='<': s=1
    elif c=='>':
      s=0
      p+=' '
    elif s==0:
      p+=c
  return p


trainTech=['http://rss.chip.de/c/573/f/7439/index.rss',
           #'http://feeds.feedburner.com/netzwelt',
           'http://rss1.t-online.de/c/11/53/06/84/11530684.xml',
           'http://www.computerbild.de/rssfeed_2261.xml?node=13',
           'http://www.heise.de/newsticker/heise-top-atom.xml']

trainNonTech=['http://newsfeed.zeit.de/index',
              'http://newsfeed.zeit.de/wirtschaft/index',
              'http://www.welt.de/politik/?service=Rss',
              'http://www.spiegel.de/schlagzeilen/tops/index.rss',
              #'http://www.sueddeutsche.de/app/service/rss/alles/rss.xml', link funktioniert nicht mehr
              'http://www.faz.net/rss/aktuell/'
              ]
test=["http://rss.golem.de/rss.php?r=sw&feed=RSS0.91",
          'http://newsfeed.zeit.de/politik/index',  
          'http://www.welt.de/?service=Rss'
           ]

countnews={}
countnews['tech']=0
countnews['nontech']=0
countnews['test']=0
print("--------------------News from trainTech------------------------")
for feed in trainTech:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
        print('\n---------------------------')
        fulltext=stripHTML(e.title+' '+e.description)
        train_tech_news.append(fulltext)
        print(fulltext)
        countnews['tech']+=1
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print("--------------------News from trainNonTech------------------------")
for feed in trainNonTech:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
        print('\n---------------------------')
        fulltext=stripHTML(getattr(e, 'title', "Fehlender Titel")+' '+ getattr(e, 'description', "Fehlender Text"))
        train_non_tech_news.append(fulltext)
        print(fulltext)
        countnews['nontech'] += 1
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print("--------------------News from test------------------------")
for feed in test:
    print("*"*30)
    print(feed)
    f=feedparser.parse(feed)
    for e in f.entries:
        print('\n---------------------------')
        fulltext=stripHTML(e.title+' '+e.description)
        test_news.append(fulltext)
        if feed == "http://rss.golem.de/rss.php?r=sw&feed=RSS0.91":
            test_news_tech.append(fulltext)
        else:
            test_news_non_tech.append(fulltext)
        print(fulltext)
        countnews['test'] += 1
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")
print("----------------------------------------------------------------")

print('Number of used trainings samples in categorie tech',countnews['tech'])
print('Number of used trainings samples in categorie notech',countnews['nontech'])
print('Number of used test samples',countnews['test'])
print('--'*30)

--------------------News from trainTech------------------------
******************************
http://rss.chip.de/c/573/f/7439/index.rss
******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml

---------------------------
Dieser Roboter wirkt erschreckend echt Ein britisches Unternehmen hat einen Roboter erschaffen, dessen Gesichtsausdrücke denen des Menschen ähneln. Das ist beeindruckend und verstörend zugleich.
Die britische Firma Engineered Arts hat einen humanoiden Roboter mit menschlicher Mimik entwickelt. In einem Video präsentierte der Hersteller den Roboter namens Ameca.
Das Besondere: Die Gesichtsausdrücke des Roboters wirken verblüffend ech...

---------------------------
Buntes Himmelsspektakel: App hilft bei der Polarlicht-Suche Hamburg (dpa/tmn) - Wer Polarlichter sehen möchte, reist am besten im dunklen Winterhalbjahr in den hohen Norden. Die Wahrscheinlichkeit, das bunte Spektakel am Himmel zu Gesicht zu bekommen, steigt dann in jedem Fall. Ob m


---------------------------
IKEA Nordmärke: Neue Ladepads im Sortiment Die schwedische Möbelkette IKEA erweitert ihre Auswahl an kabellosen Ladelösungen für Smartphones und bringt neue Modelle der Serie Nordmärke an den Start.

---------------------------
Saturn: MacBook Air dank Apple Days günstiger Bei Saturn erhalten Sie dank einer Aktion für kurze Zeit Apple-Produkte zum Sparpreis: Das MacBook Air (2020) mit 13,3-Zoll-Display gibt es gute 15 Prozent günstiger.

---------------------------
e.GO: Rückruf wegen Mängeln bei Airbag & Co. Besitzer eines e.GO sollten aufhorchen: Mängel führen zu einem Rückruf. Betroffen sind Modelle aus den Baujahren 2019 bis 2020. Die Infos hat COMPUTER BILD für Sie gesammelt.

---------------------------
AVM FritzBox 7510: Günstiges Wifi 6 mit Makel AVM erweitert sein Portfolio um die FritzBox 7510. Sie ist der günstigste AVM-Router mit dem neuen Wifi 6, besitzt aber eine große Schwäche.

---------------------------
Google Pixel: Feature Drop bringt fr


---------------------------
„Am grünen Wesen soll die Welt genesen“ – Altkanzler Schröder warnt neue Regierung Altkanzler Gerhard Schröder fürchtet, die neue Bundesregierung könnte die Maßstäbe der Grünen an China und andere Länder anlegen. Das werde nicht funktionieren. Man könne China nicht jeden zweiten Tag in den Senkel stellen. Mehr im Liveticker.

---------------------------
Die Regierung steht – jetzt muss sie Antworten auf die Corona-Wut liefern Der Start der Ampel-Koalition hat ein Begleitgeräusch: Es rumort in der Bundesrepublik. Sicherheitsbehörden rechnen mit der Aufwallung der Corona-Proteste. Die Scholz-Regierung muss mehr wollen, als nur mit sich selbst ins Reine zu kommen.

---------------------------
7000 Migranten befinden sich laut polnischer Regierung noch immer in Belarus Viele Migranten sollen aus Belarus nach Syrien und in den Irak zurückgeschickt worden sein. Etwa 7000 weitere befinden sich laut der polnischen Regierung noch in dem Land. Die Krise sei noch nich


---------------------------
Stütze für Lukaschenko: Henkel & Co. werben auf belarussischen Staatssendern     Zwischen Lukaschenkos agitatorischer Hetze läuft Werbung für deutsches Waschmittel: Das Unternehmern Henkel wirbt bisher eifrig auf den Propagandasendern des belarussischen Diktators. Doch nun deutet sich ein Rückzug an. Auch Nestlé hat auf Kritik reagiert. 

---------------------------
Rita Süssmuth: „Deshalb muss sich Wolfgang Kubicki nicht fürchten“     Sie hat Helmut Kohl mit ihrer offensiven Frauenpolitik oft genervt: Rita Süssmuth über das Jahr des Machtwechsels, Hosenanzüge im Bundestag und Tränen in der Politik. 

---------------------------
Ampel-Koalition steht: Fortschritt in zehn Minuten     SPD, Grüne und FDP unterzeichnen ihren Koalitionsvertrag im „Futurium“. Wer die Chefs der drei Koalitionspartner sind, ist dabei völlig klar. 

---------------------------
Alle Entwicklungen zur Pandemie im Corona-Liveblog     Innenminister der Länder warnen vor mehr Corona-Prot


---------------------------
Livestream: Der Bundestag debattiert die Impfpflicht für Kliniken und Pflegeheime Die Ampel-Regierung will das Infektionsschutzgesetz nachschärfen. Für einzelne Berufe soll ab Mitte März 2022 eine Impfpflicht gelten. Die Bundestagsdebatte im Livestream

---------------------------
Impfpflicht: Sorge um Radikalisierung von Querdenkern bei Impfpflicht Die Innenminister befürchten immer mehr Corona-Proteste in ihren Ländern. Rechtsextreme würden die Demonstrationen dafür nutzen.

---------------------------
Ampel-Koalition: "Jetzt beginnt die Zeit der Tat" Olaf Scholz, Robert Habeck und Christian Lindner wollen Deutschlands Rolle in Europa stärken. Die Frage nach einem Boykott der Winterspiele in China ließen sie offen.

---------------------------
Corona in Deutschland: Bahn lässt Schaffner 3G-Nachweise kontrollieren Die Bahn prüft stichprobenartig 3G-Nachweise in Zügen. Die Gesundheitsminister fordern eine Pflicht zum Mitführen des Digitalimpfnachweises. Cor

In [128]:
#1
RSS_Bayes_Classifier = Classifier(function=getwords, cats=["Tech", "NonTech"])
for text in train_tech_news:
    RSS_Bayes_Classifier.train(text, "Tech")

for text in train_non_tech_news:
    if not text == "Fehlender Titel Fehlender Text":
        RSS_Bayes_Classifier.train(text, "NonTech")

In [187]:
#2
from sklearn.metrics import confusion_matrix, accuracy_score, f1_score, recall_score, precision_score

#for text in test_news_tech:
#    print(RSS_Bayes_Classifier.prob(text, "Tech"))
#print("-"*40)
#for text in test_news_non_tech:
#    print(RSS_Bayes_Classifier.prob(text, "NonTech"))
real_tags = []
for text in test_news_tech:
    real_tags.append("Tech")
for text in test_news_non_tech:
    real_tags.append("NonTech")
predicted_tags = []

for text in test_news:
    p_tech = RSS_Bayes_Classifier.prob(text, "Tech")
    p_non_tech = RSS_Bayes_Classifier.prob(text, "NonTech")
    if p_tech <= p_non_tech:
        predicted_tags.append("Tech")
    else:
        predicted_tags.append("NonTech")
    
accuray = accuracy_score(real_tags, predicted_tags)
cm = confusion_matrix(real_tags, predicted_tags, labels=["Tech","NonTech"])
f1_tech = f1_score(real_tags, predicted_tags, pos_label="Tech")
recall_tech = recall_score(real_tags, predicted_tags, pos_label="Tech")
precision_tech = precision_score(real_tags, predicted_tags, pos_label="Tech")
f1_non_tech = f1_score(real_tags, predicted_tags, pos_label="NonTech")
recall_non_tech = recall_score(real_tags, predicted_tags, pos_label="NonTech")
precision_non_tech = precision_score(real_tags, predicted_tags, pos_label="NonTech")
print("Die Accuracy lautet: " + str(accuray))
print("Die Konfusionsmatrix sieht folgendermaßen aus:")
print(cm)
print("Der F1-Score für den Tag 'Tech' lautet: " + str(round(f1_tech, 2)) + " und für den Tag 'NonTech' lautet: "+ str(round(f1_non_tech, 2)))
print("Der Recall-Score für den Tag 'Tech' lautet: " + str(round(recall_tech, 2)) + " und für den Tag 'NonTech' lautet: "+ str(round(recall_non_tech, 2)))
print("Der Precision-Score für den Tag 'Tech' lautet: " + str(round(precision_tech, 2)) + " und für den Tag 'NonTech' lautet: "+ str(round(precision_tech, 2)))


Die Accuracy lautet: 0.3411764705882353
Die Konfusionsmatrix sieht folgendermaßen aus:
[[ 7 33]
 [23 22]]
Der F1-Score für den Tag 'Tech' lautet: 0.2 und für den Tag 'NonTech' lautet: 0.44
Der Recall-Score für den Tag 'Tech' lautet: 0.18 und für den Tag 'NonTech' lautet: 0.49
Der Precision-Score für den Tag 'Tech' lautet: 0.23 und für den Tag 'NonTech' lautet: 0.23


In [221]:
from textblob import TextBlob

def get_better_words(document):
    #Singularization
    document_blob = TextBlob(document)
    collected_words = []
    for word in document_blob.words:
        collected_words.append(word)
        if not word.singularize() in collected_words:
            collected_words.append(word.singularize())
        
    #Lemmatization for verbs
    for word in document_blob.words:
        if not word.lemmatize("v") in collected_words:
            collected_words.append(word.lemmatize("v"))
            
    #Lemmatization for adjectives/adverbs
    for word in document_blob.words:
        if not word.lemmatize("a") in collected_words:
            collected_words.append(word.lemmatize("a"))
            
    #Stemming 
    for word in document_blob.words:
        if not word.stem() in collected_words:
            collected_words.append(word.stem())

    return dict(zip(collected_words, [1 for x in range(len(collected_words))]))

In [222]:
Better_RSS_Bayes_Classifier = Classifier(function=get_better_words, cats=["Tech", "NonTech"])
for text in train_tech_news:
    Better_RSS_Bayes_Classifier.train(text, "Tech")

for text in train_non_tech_news:
    if not text == "Fehlender Titel Fehlender Text":
        Better_RSS_Bayes_Classifier.train(text, "NonTech")
        
        
better_accuray = accuracy_score(real_tags, predicted_tags)
better_cm = confusion_matrix(real_tags, predicted_tags, labels=["Tech","NonTech"])
better_f1_tech = f1_score(real_tags, predicted_tags, pos_label="Tech")
better_recall_tech = recall_score(real_tags, predicted_tags, pos_label="Tech")
better_precision_tech = precision_score(real_tags, predicted_tags, pos_label="Tech")
better_f1_non_tech = f1_score(real_tags, predicted_tags, pos_label="NonTech")
better_recall_non_tech = recall_score(real_tags, predicted_tags, pos_label="NonTech")
better_precision_non_tech = precision_score(real_tags, predicted_tags, pos_label="NonTech")
print("Die Accuracy lautet: " + str(better_accuray))
print("Die Konfusionsmatrix sieht folgendermaßen aus:")
print(better_cm)
print("Der F1-Score für den Tag 'Tech' lautet: " + str(round(better_f1_tech, 2)) + " und für den Tag 'NonTech' lautet: "+ str(round(better_f1_non_tech, 2)))
print("Der Recall-Score für den Tag 'Tech' lautet: " + str(round(better_recall_tech, 2)) + " und für den Tag 'NonTech' lautet: "+ str(round(better_recall_non_tech, 2)))
print("Der Precision-Score für den Tag 'Tech' lautet: " + str(round(better_precision_tech, 2)) + " und für den Tag 'NonTech' lautet: "+ str(round(better_precision_tech, 2)))


Die Accuracy lautet: 0.3411764705882353
Die Konfusionsmatrix sieht folgendermaßen aus:
[[ 7 33]
 [23 22]]
Der F1-Score für den Tag 'Tech' lautet: 0.2 und für den Tag 'NonTech' lautet: 0.44
Der Recall-Score für den Tag 'Tech' lautet: 0.18 und für den Tag 'NonTech' lautet: 0.49
Der Precision-Score für den Tag 'Tech' lautet: 0.23 und für den Tag 'NonTech' lautet: 0.23


## <span style="color:#900C3F">Fazit</span> 

Dieser Versuch lag uns deutlich besser als der letzte. Die Arbeit mit Texten hat uns sogar Spaß bereitet. Auch die Tatsache, dass dieser Versuch nicht so umfangreich war, hat dazu beigetragen, dass er uns leichter fiel und wir so einiges lernen konnten. Als sehr hilfreich haben wir die getAttr()-Funktion empfunden, welche wir planen, auch in anderen Projekten umzusetzen, sowie die Nutzung von Klassen in Python. Bisher kamen wir leider nie damit in Kontakt, aber sind froh auch mal Klassen angewandt zu haben. 
Als ebenfalls positiv beurteilen wir die Art der Aufgabenstellung des Classifiers, dass man die einzelnen Funktionen nacheinander abhaken konnte und stets schnell klar war, was man zu erledigen hatte.

Alles in allem unserer Meinung nach ein sehr gelungener und abwechslungsreicher Versuch, welcher uns  trotz seines geringen Umfangs noch etwas beibringen konnte.