# Data Mining Versuch Document Classification
* Autor: Prof. Dr. Johannes Maucher
* Datum: 06.11.2015

[Übersicht Versuche im Data Mining Praktikum](http://maucher.pages.mi.hdm-stuttgart.de/ai/page/dm/)

## Abgabe:

- **Abzugeben ist das Jupyter Notebook mit dem verlangten Implementierungen und den entsprechenden Ausgaben.**
- **Das Notebook ist als .ipynb und als .html abzugeben.**
- **Klausurelevante Fragen sind Dokument "Fragenkatalog Datamining" zu finden.**
- Antworten auf Fragen im Notebook, Diskussionen und Beschreibung der Ergebnisse sind optional (aber empfohlen) und werden nicht bewertet.

* [Übersicht Data Mining Praktikum](https://maucher.pages.mi.hdm-stuttgart.de/ai/page/dm/)


# Einführung

## Lernziele:

In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Dokumentklassifikation: Klassifikation von Dokumenten, insbesondere Emails und RSS Feed
* Naive Bayes Classifier: Weit verbreitete Klassifikationsmethode, welche unter bestimmten Randbedingungen sehr gut skaliert.


## Theorie zur Vorbereitung

### Parametrische Klassifikation und Naive Bayes Methode

Klassifikatoren müssen zu einer gegebenen Eingabe $\underline{x}$ die zugehörige Klasse $C_i$ bestimmen. Mithilfe der Wahrscheinlichkeitstheorie kann diese Aufgabe wie folgt beschrieben werden: Bestimme für alle möglichen Klassen $C_i$ die bedingte Wahrscheinlichkeit $P(C_i | \underline{x})$, also die Wahrscheinlichkeit, dass die gegebene Eingabe $\underline{x}$ in Klasse $C_i$ fällt. Wähle dann die Klasse aus, für welche diese Wahrscheinlichkeit maximal ist.

Die Wahrscheinlichkeite das ich für meine Input X die Klasse Y habe. Die Wahrscheinlichkeit die am höchsten ist soll man ausgeben

Die Entscheidungsregeln von Klassifikatoren können mit Methoden des "überwachten Lernens" aus Trainingsdaten ermittelt werden. Im Fall des **parametrischen Lernens** kann aus den Trainingsdaten die sogenannte **Likelihood-Funktion** $p(\underline{x} \mid C_i)$ bestimmt werden. _Anmerkung:_ Allgemein werden mit $p(...)$ kontinuierliche Wahrscheinlichkeitsfunktionen und mit $P(...)$ diskrete Wahrscheinlichkeitswerte bezeichnet. 

Mithilfe der **Bayes-Formel**
$$
P(C_i \mid \underline{x}) = \frac{p(\underline{x} \mid C_i) \cdot P(C_i)}{p(\underline{x})}
$$

kann aus der Likelihood die **a-posteriori-Wahrscheinlichkeit $P(C_i \mid \underline{x})$** berechnet werden. Darin wird $P(C_i)$ die **a-priori-Wahrscheinlichkeit** und $p(\underline{x})$ die **Evidenz** genannt. Die a-priori-Wahrscheinlichkeit kann ebenfalls aus den Trainingsdaten ermittelt werden. Die Evidenz ist für die Klassifikationsentscheidung nicht relevant, da sie für alle Klassen $C_i$ gleich groß ist.

Die Berechnung der Likelihood-Funktion $p(\underline{x} \mid C_i)$ ist dann sehr aufwendig, wenn $\underline{x}=(x_1,x_2,\ldots,x_Z)$ ein Vektor von voneinander abhängigen Variablen $x_i$ ist. Bei der **Naive Bayes Classification** wird jedoch von der vereinfachenden Annahme ausgegangen, dass die Eingabevariabeln $x_i$ voneinander unabhängig sind. Dann vereinfacht sich die bedingte Verbundwahrscheinlichkeits-Funktion $p(x_1,x_2,\ldots,x_Z \mid C_i)$ zu:

$$
p(x_1,x_2,\ldots,x_Z \mid C_i)=\prod\limits_{j=1}^Z p(x_j | C_i)
$$

### Anwendung der Naive Bayes Methode in der Dokumentklassifikation

Auf der rechten Seite der vorigen Gleichung stehen nur noch von den jeweils anderen Variablen unabhängige bedingte Wahrscheinlichkeiten. Im Fall der Dokumentklassifikation sind die einzelnen Worte die Variablen, d.h. ein Ausdruck der Form $P(x_j | C_i)$ gibt an mit welcher Wahrscheinlichkeit ein Wort $x_j=w$ in einem Dokument der Klasse $C_i$ vorkommt. 
Die Menge aller Variablen $\left\{x_1,x_2,\ldots,x_Z \right\}$ ist dann die Menge aller Wörter im Dokument. Damit gibt die linke Seite in der oben gegebenen Gleichung die *Wahrscheinlichkeit, dass die Wörter $\left\{x_1,x_2,\ldots,x_Z \right\}$ in einem Dokument der Klasse $C_i$ vorkommen*, an.

Für jedes Wort _w_ wird aus den Trainingsdaten die Wahrscheinlichkeit $P(w|G)$, mit der das Wort in Dokumenten der Kategorie _Good_ und die Wahrscheinlichkeit $P(w|B)$ mit der das Wort in Dokumenten der Kategorie _Bad_ auftaucht ermittelt. Trainingsdokumente werden in der Form

$$
tD=(String,Category)
$$
eingegeben. 

Wenn 

* mit der Variable $fc(w,cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ in denen das Wort $w$ enthalten ist
* mit der Variable $cc(cat)$ die Anzahl der Trainingsdokumente in Kategorie $cat$ 

gezählt wird, dann ist 

$$
P(w|G)=\frac{fc(w,G)}{cc(G)} \quad \quad P(w|B)=\frac{fc(w,B)}{cc(B)}.
$$

Wird nun nach der Eingabe von $L$ Trainingsdokumenten ein neu zu klassifizierendes Dokument $D$ eingegeben und sei $W(D)$ die Menge aller Wörter in $D$, dann berechnen sich unter der Annahme, dass die Worte in $W(D)$ voneinander unabhängig sind (naive Bayes Annahme) die a-posteriori Wahrscheinlichkeiten zu:

$$
P(G|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | G) \right) \cdot P(G)}{p(D)}
$$
und
$$
P(B|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | B) \right) \cdot P(B)}{p(D)}.
$$

Die hierfür notwendigen a-priori-Wahrscheinlichkeiten berechnen sich zu 

$$
P(G)=\frac{cc(G)}{L}
$$
und
$$
P(B)=\frac{cc(B)}{L}
$$

Die Evidenz $p(D)$ beeinflusst die Entscheidung nicht und kann deshalb ignoriert werden.


## Vor dem Versuch zu klärende Fragen


1. Wie wird ein Naive Bayes Classifier trainiert? Was muss beim Training für die spätere Klassifikation abgespeichert werden?
2. Wie teilt ein Naiver Bayes Classifier ein neues Dokument ein?
3. Welche naive Annahme liegt dem Bayes Classifier zugrunde? Ist diese Annahme im Fall der Dokumentklassifikation tatsächlich gegeben?
4. Betrachten Sie die Formeln für die Berechnung von $P(G|D)$ und $P(B|D)$. Welches Problem stellt sich ein, wenn in der Menge $W(D)$ ein Wort vorkommt, das nicht in den Trainingsdaten der Kategorie $G$ vorkommt und ein anderes Wort aus $W(D)$ nicht in den Trainingsdaten der Kategorie $B$ enthalten ist? Wie könnte dieses Problem gelöst werden? 


Aufgabe 1 - Wie wird ein Naive Bayes Classifier trainiert? Was muss beim Training für die spätere Klassifikation abgespeichert werden?
Der Naive Bayes Classifier geht davon aus, dass die Merkmale 𝑥
unabhängig voneinander sind (naive Annahme). Beim Training berechnet der Classifier, wie wahrscheinlich es ist, dass ein bestimmtes Wort zu einer bestimmten Klasse gehört. Dafür schaut er sich an, wie oft Wörter in Dokumenten der jeweiligen Klasse vorkommen.

Für das spätere Klassifizieren speichert man:

P(Klasse) = Wie oft kommt die Klasse im Training vor? (a-priori Wahrscheinlichkeit)

P(Wort | Klasse) = Wie oft kommt ein Wort in der Klasse vor? (bedingte Wahrscheinlichkeit)

Diese Wahrscheinlichkeiten braucht man später, um bei einem neuen Dokument zu entscheiden, zu welcher Klasse es wahrscheinlich gehört.

Nr.2 Wie teilt ein Naiver Bayes Classifier ein neues Dokument ein?

Es wird angenommen, dass die Wörter im neuen Dokument unabhängig voneinander sind. Dann wird für jede Klasse berechnet, wie wahrscheinlich es ist, dass das Dokument zu dieser Klasse gehört. Dazu nutzt man:
$$
P(G|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | G) \right) \cdot P(G)}{p(D)}
$$
und
$$
P(B|D)=\frac{\left( \prod\limits_{w \in W(D)} P(w | B) \right) \cdot P(B)}{p(D)}.
$$

Der Classifier entscheidet sich dann für die Klasse mit dem höheren Score.

Aufgabe 3 - Welche naive Annahme liegt dem Bayes Classifier zugrunde? Ist diese Annahme im Fall der Dokumentklassifikation tatsächlich gegeben?

Die naive Annahme ist, dass alle Merkmale (z. B. Wörter) unabhängig voneinander sind, also dass das Vorkommen eines Wortes nichts über das Vorkommen eines anderen aussagt.
In der Praxis stimmt das aber nicht wirklich – Wörter hängen oft voneinander ab (z. B. in festen Ausdrücken). Trotzdem funktioniert der Naive Bayes Classifier in vielen Fällen erstaunlich gut, weil er trotzdem sinnvolle Wahrscheinlichkeiten schätzt.
Aber: Häufig vorkommende oder unwichtige Wörter (z. B. "ja", "und", "der") können die Klassifikation beeinflussen. Deshalb filtert man oft sogenannte Stoppwörter raus oder gewichtet Wörter (z. B. mit TF-IDF).

Aufgabe 4 - Betrachten Sie die Formeln für die Berechnung von $P(G|D)$ und $P(B|D)$. Welches Problem stellt sich ein, wenn in der Menge $W(D)$ ein Wort     
vorkommt, das nicht in den Trainingsdaten der Kategorie $G$ vorkommt und ein anderes Wort aus $W(D)$ nicht in den Trainingsdaten der Kategorie $B$ enthalten ist? Wie könnte dieses Problem gelöst werden?

Problem: Wenn ein Wort im Training nicht in Klasse G vorkam, dann ist 𝑃(𝑤∣𝐺)=0. Da man alle Wahrscheinlichkeiten multipliziert, wird der gesamte Score für 
𝐺 dann 0, egal wie gut die anderen Wörter passen. Das ist schlecht!

- Zu wenig Trainingsdaten -> Mehr Daten sammeln. 
- Nutzen von Vortrainierten Models
- Generieren von Trainingsdaten.
- Kleine Wörter unter 4 Buchstaben nicht beachten


# Durchführung
## Feature Extraction/ -Selection

**Aufgabe:**
Implementieren Sie eine Funktion *getwords(doc)*, der ein beliebiges Dokument in Form einer String-Variablen übergeben wird. In der Funktion soll der String in seine Wörter zerlegt und jedes Wort in _lowercase_ transformiert werden. Wörter, die weniger als eine untere Grenze von Zeichen (z.B. 3) oder mehr als eine obere Grenze von Zeichen (z.B. 20) enthalten, sollen ignoriert werden. Die Funktion soll ein dictionary zurückgeben, dessen _Keys_ die Wörter sind. Die _Values_ sollen für jedes Wort zunächst auf $1$ gesetzt werden.

**Tipp:** Benutzen Sie für die Zerlegung des Strings und für die Darstellung aller Wörter mit ausschließlich kleinen Buchstaben die Funktionen *split(), strip('sep')* und *lower()* der Klasse *String*.  


In [2]:
#Your Code

doc = "Im Konstruktor der Klasse wird je ein Dictionary für die Instanzvariablen _fc_ und _cc_ (siehe oben) initialisiert. Dabei ist _fc_ ein verschachteltes Dictionary. Seine Keys sind die bisher gelernten Worte, die Values sind wiederum Dictionaries, deren Keys die Kategorien _Good_ und _Bad_ sind und deren Values zählen wie häufig das Wort bisher in Dokumenten der jeweiligen Kategorie auftrat. Das Dictionary _cc_ hat als Keys die Kategorien _Good_ und _Bad_. Die Values zählen wie häufig Dokumente der jeweiligen Kategorien bisher auftraten.  "

def getwords(doc):
    dic = {}
    lower = doc.lower()
    split = lower.split()
    
    for words in split:
        if len(words) > 20:
            continue
        elif len(words) <= 3:
            continue
        else:    
            dic.update({words:1})
    return dic

getwords(doc)

{'konstruktor': 1,
 'klasse': 1,
 'wird': 1,
 'dictionary': 1,
 'instanzvariablen': 1,
 '_fc_': 1,
 '_cc_': 1,
 '(siehe': 1,
 'oben)': 1,
 'initialisiert.': 1,
 'dabei': 1,
 'verschachteltes': 1,
 'dictionary.': 1,
 'seine': 1,
 'keys': 1,
 'sind': 1,
 'bisher': 1,
 'gelernten': 1,
 'worte,': 1,
 'values': 1,
 'wiederum': 1,
 'dictionaries,': 1,
 'deren': 1,
 'kategorien': 1,
 '_good_': 1,
 '_bad_': 1,
 'zählen': 1,
 'häufig': 1,
 'wort': 1,
 'dokumenten': 1,
 'jeweiligen': 1,
 'kategorie': 1,
 'auftrat.': 1,
 '_bad_.': 1,
 'dokumente': 1,
 'auftraten.': 1}

## Classifier

**Aufgabe:**
Implementieren Sie den Naive Bayes Classifier für die Dokumentklassifikation. Es bietet sich an die Funktionalität des Klassifikators und das vom Klassifikator gelernte Wissen in einer Instanz einer Klasse _Classifier_ zu kapseln. In diesem Fall kann wie folgt vorgegangen werden:

* Im Konstruktor der Klasse wird je ein Dictionary für die Instanzvariablen _fc_ und _cc_ (siehe oben) initialisiert. Dabei ist _fc_ ein verschachteltes Dictionary. Seine Keys sind die bisher gelernten Worte, die Values sind wiederum Dictionaries, deren Keys die Kategorien _Good_ und _Bad_ sind und deren Values zählen wie häufig das Wort bisher in Dokumenten der jeweiligen Kategorie auftrat. Das Dictionary _cc_ hat als Keys die Kategorien _Good_ und _Bad_. Die Values zählen wie häufig Dokumente der jeweiligen Kategorien bisher auftraten.
* Im Konstruktor wird ferner der Instanzvariablen _getfeatures_ die Funktion *getwords()* übergeben. Die Funktion _getwords()_ wurde bereits zuvor ausserhalb der Klasse definiert. Sinn dieses Vorgehens ist, dass andere Varianten um Merkmale aus Dokumenten zu extrahieren denkbar sind. Diese Varianten könnten dann ähnlich wie die *getwords()*-Funktion ausserhalb der Klasse definiert und beim Anlegen eines *Classifier*-Objekts der Instanzvariablen _getfeatures_ übergeben werden.  
* Der Methode _incf(self,f,cat)_ wird ein Wort _f_ und die zugehörige Kategorie _cat_ des Dokuments in welchem es auftrat übergeben. In der Methode wird der *fc*-Zähler angepasst.
* Der Methode _incc(self,cat)_ wird die Kategorie _cat_ des gerade eingelesenen Dokuments übergeben. In der Methode wird der *cc*-Zähler angepasst.
* Die Methode _fcount(self,f,cat)_ gibt die Häufigkeit des Worts _f_ in den Dokumenten der Kategorie _cat_ zurück.
* Die Methode _catcount(self,cat)_ gibt die Anzahl der Dokumente in der Kategorie _cat_ zurück.
* Die Methode _totalcount(self)_ gibt die Anzahl aller Dokumente zurück.
* Der Methode _train(self,item,cat)_ wird ein neues Trainingselement, bestehend aus der Betreffzeile (*item*) und der entsprechenden Kategorisierung (*cat*) übergeben. Der String _item_ wird mit der Instanzmethode _getfeatures_ (Diese referenziert *getwords()*) in Worte zerlegt. Für jedes einzelne Wort wird dann *incf(self,f,cat)* aufgerufen. Ausserdem wird für das neue Trainingsdokument die Methode _incc(self,cat)_ aufgerufen.
* Die Methode _fprob(self,f,cat)_ berechnet die bedingte Wahrscheinlichkeit $P(f | cat)$ des Wortes _f_ in der Kategorie _cat_ entsprechend der oben angegebenen Formeln, indem sie den aktuellen Stand des Zählers _fc(f,cat)_ durch den aktuellen Stand des Zählers _cc(cat)_ teilt.   
* Die Methode _fprob(self,f,cat)_ liefert evtl. ungewollt extreme Ergebnisse, wenn noch wenig Wörter im Klassifizierer verbucht sind. Kommt z.B. ein Wort erst einmal in den Trainingsdaten vor, so wird seine Auftrittswahrscheinlichkeit in der Kategorie in welcher es nicht vorkommt gleich 0 sein. Um extreme Wahrscheinlichkeitswerte im Fall noch selten vorkommender Werte zu vermeiden, soll zusätzlich zur Methode _fprob(self,f,cat)_ die Methode _weightedprob(self,f,cat)_ implementiert und angewandt werden. Der von ihr zurückgegebene Wahrscheinlichkeitswert könnte z.B. wie folgt berechnet werden:$$wprob=\frac{initprob+count \cdot fprob(self,f,cat)}{1+count},$$ wobei $initprob$ ein initialer Wahrscheinlichkeitswert (z.B. 0.5) ist, welcher zurückgegeben werden soll, wenn das Wort noch nicht in den Trainingsdaten aufgetaucht ist. Die Variable $count$ zählt wie oft das Wort $f$ bisher in den Trainingsdaten auftrat. Wie zu erkennen ist, nimmt der Einfluss der initialen Wahrscheinlichkeit ab, je häufiger das Wort in den Trainingsdaten auftrat.
* Nach dem Training soll ein beliebiges neues Dokument (Text-String) eingegeben werden können. Für dieses soll mit der Methode _prob(self,item,cat)_ die a-posteriori-Wahrscheinlichkeit $P(cat|item)$ (Aufgrund der Vernachlässigung der Evidenz handelt es sich hierbei genaugenommen um das Produkt aus a-posteriori-Wahrscheinlichkeit und Evidenz), mit der das Dokument _item_ in die Kategorie _cat_ fällt berechnet werden. Innerhalb der Methode _prob(self,item,cat)_ soll zunächst die Methode _weightedprob(self,f,cat)_ für alle Wörter $f$ im Dokument _item_ aufgerufen werden. Die jeweiligen Rückgabewerte von _weightedprob(self,f,cat)_ werden multipliziert. Das Produkt der Rückgabewerte von _weightedprob(self,f,cat)_ über alle Wörter $f$ im Dokument muss schließlich noch mit der a-priori Wahrscheinlichkeit $P(G)$ bzw. $P(B)$ entsprechend der oben aufgeführten Formeln multipliziert werden. Das Resultat des Produkts wird an das aufrufende Programm zurück gegeben, die Evidenz wird also vernachlässigt (wie oben begründet).



Ein Dokument _item_ wird schließlich der Kategorie _cat_ zugeteilt, für welche die Funktion _prob(self,item,cat)_ den höheren Wert zurück gibt. Da die Rückgabewerte in der Regel sehr klein sind, werden in der Regel folgende Werte angezeigt:
* Wenn mit $g$ der Rückgabewert von _prob(self,item,cat=G)_ und mit $b$ der Rückgabewert von _prob(self,item,cat=B)_ bezeichnet wird dann ist die Wahrscheinlichkeit, dass $item$ in die Kategorie $G$ fällt, gleich:
$$
\frac{g}{g+b}
$$
* und die Wahrscheinlichkeit, dass $item$ in die Kategorie $B$ fällt, gleich:
$$
\frac{b}{g+b}
$$

In [3]:
#Your Code



class Classifier:
    def __init__(self, getfeatures):
        self.fc = {}                    
        self.cc = {"Good": 0, "Bad": 0} 
        self.getfeatures = getfeatures

    def getfeatures(item):
         result = getwords(item)
         return result    

    def incf(self, f, cat):
        if f not in self.fc:
            self.fc[f] = {}
        if cat not in self.fc[f]:
            self.fc[f][cat] = 0
        self.fc[f][cat] += 1

    def incc(self,cat):
            if cat == "Bad":
                self.cc["Bad"] += 1
            elif cat == "Good":
                self.cc["Good"] += 1
    
    def fcount(self, f, cat):
        if f in self.fc and cat in self.fc[f]:
            return self.fc[f][cat]
        return 0
    
    def catcount(self, cat):
        return self.cc.get(cat, 0)

    def totalcount(self):
        good = self.cc["Good"]
        bad = self.cc["Bad"]
        return good + bad
    
    def train(self,item,cat):
        features = self.getfeatures(item)
        for word in features:
            self.incf(word,cat)
        self.incc(cat)    
        return None

    def fprob(self, f, cat):
        if f not in self.fc or cat not in self.fc[f]:
            return 0  
        word_count = self.fc[f][cat]
        category_count = self.cc[cat]
        if category_count == 0:
            return 0 
        return word_count / category_count
    
    def weightedprob(self, f, cat, initprob=0.5):
        count = 0
        if f in self.fc:
            count = sum(self.fc[f].values())
        basic_prob = self.fprob(f, cat)
        return (initprob + count * basic_prob) / (1 + count)
    
    def prob(self, item, cat):
        features = self.getfeatures(item)
        p = 1.0
        for f in features:
            p *= self.weightedprob(f, cat)
        p *= self.catcount(cat) / self.totalcount()
        return p
    
   
        

## Test

**Aufgabe:**
Instanzieren Sie ein Objekt der Klasse _Classifier_ und übergeben Sie der _train()_ Methode dieser Klasse mindestens 8 kategorisierte Dokumente (Betreffzeilen als Stringvariablen zusammen mit der Kategorie Good oder Bad). Definieren Sie dann ein beliebig neues Dokument und berechnen Sie für dieses die Kategorie, in welches es mit größter Wahrscheinlichkeit fällt. Benutzen Sie für den Test das in der
[NLP Vorlesung Document Classification](https://griesshaber.pages.mi.hdm-stuttgart.de/nlp/06classification/07classificationNaiveBayes.html)
ausführlich beschriebene Beispiel zu implementieren. Berechnen Sie die Klassifikatorausgabe des Satzes _the money jumps_.

In [4]:
classifier = Classifier(getwords)

training_data = [
    ("nobody owns the water", "Good"),
    ("the quick rabbit jumps fences", "Good"),
    ("the quick brown fox jumps", "Good"),
    ("next meeting is at night", "Good"),
    ("buy pharmaceuticals now", "Bad"),
    ("make quick money at the online casino", "Bad"),
    ("meeting with your superstar", "Bad"),
    ("money like water", "Bad")
]

for doc, cat in training_data:
    classifier.train(doc, cat)

test_doc = "the money jumps"
p_good = classifier.prob(test_doc, "Good")
p_bad = classifier.prob(test_doc, "Bad")

print(f"P(Good|'{test_doc}') = {p_good / (p_good + p_bad):.4f}")
print(f"P(Bad|'{test_doc}') = {p_bad / (p_good + p_bad):.4f}") #Rundet auf 4 dezimalstellen :.4f




P(Good|'the money jumps') = 0.5000
P(Bad|'the money jumps') = 0.5000


## Klassifikation von RSS Newsfeeds
Mit dem unten gegebenen Skript werden Nachrichten verschiedener Newsserver geladen und ausgegeben. Ändern Sie diese Methode ab, damit diese Strings gespeichert werden und für ein Training benutzt werden können. 

**Aufgaben:**
1. Trainieren Sie Ihren Naive Bayes Classifier mit allen Nachrichten der in den Listen _trainTech_ und _trainNonTech_ definierten Servern. Weisen Sie für das Training allen Nachrichten aus _trainTech_ die Kategorie _Tech_ und allen Nachrichten aus _trainNonTech_ die Kategorie _NonTech_ zu.
2. Nach dem Training sollen alle Nachrichten aus der Liste _test_ vom Naive Bayes Classifier automatisch klassifiziert werden. Gehen Sie davon aus, dass alle Nachrichten von [http://rss.golem.de/rss.php?r=sw&feed=RSS0.91](http://rss.golem.de/rss.php?r=sw&feed=RSS0.91) tatsächlich von der Kategorie _Tech_ sind und alle Nachrichten von den beiden anderen Servern in der Liste _test_ von der Kategorie _NonTech_ sind. Bestimmen Sie die _Konfusionsmatrix_ und die _Accuracy_ sowie für beide Klassen _Precision, Recall_ und _F1-Score_. Diese Qualitätsmetriken sind z.B. in [NLP Vorlesung Document Classification](https://griesshaber.pages.mi.hdm-stuttgart.de/nlp/06classification/06classificationMetrics.html) definiert.
3. Diskutieren Sie das Ergebnis
4. Wie könnte die Klassifikationsgüte durch Modifikation der *getwords()*-Methode verbessert werden? Implementieren Sie diesen Ansatz und vergleichen Sie das Ergebnis mit dem des ersten Ansatzes.

In [5]:
import feedparser

def countFeed(feedList, title, should_print=False):
    if should_print:
        print(f"--------------------News from {title}------------------------")
    count = 0
    texts = []
    for feed in feedList:
        if should_print:
            print()
            print("*"*30)
            print(feed)
        f=feedparser.parse(feed)
        for e in f.entries:
            if hasattr(e, 'title') and hasattr(e, 'description'):
                if should_print:
                    print('\n---------------------------')
                fulltext=stripHTML(e.title+' '+e.description)
                if should_print:
                    print(fulltext)
                texts.append(fulltext) 
                count += 1
    if should_print:
        print("----------------------------------------------------------------")
        print("----------------------------------------------------------------")
        print("----------------------------------------------------------------")
    return count, texts

def stripHTML(h):
    p=''
    s=0
    for c in h:
        if c=='<': 
            s=1
        elif c=='>':
            s=0
            p+=' '
        elif s==0:
            p+=c
    return p


trainTech=['http://rss.chip.de/c/573/f/7439/index.rss',
           #'http://feeds.feedburner.com/netzwelt',
           'http://rss1.t-online.de/c/11/53/06/84/11530684.xml',
           'http://www.computerbild.de/rssfeed_2261.xml?node=13',
           'http://www.heise.de/newsticker/heise-top-atom.xml']

trainNonTech=['http://newsfeed.zeit.de/index',
              'http://newsfeed.zeit.de/wirtschaft/index',
              'http://www.welt.de/politik/?service=Rss',
              'http://www.spiegel.de/schlagzeilen/tops/index.rss',
              'https://rss.sueddeutsche.de/alles',
              'http://www.faz.net/rss/aktuell/']

test=['http://rss.golem.de/rss.php?r=sw&feed=RSS0.91',
      'http://newsfeed.zeit.de/politik/index',  
      'http://www.welt.de/?service=Rss']

countnews = {}
texts = {}

countnews['tech'], texts['tech'] = countFeed(trainTech, 'trainTech', should_print=True)
countnews['nontech'], texts['nontech'] = countFeed(trainNonTech, 'trainNonTech')
countnews['test'], texts['test'] = countFeed(test, 'test')

print('Number of used trainings samples in categorie tech', countnews['tech'])
print('Number of used trainings samples in categorie notech', countnews['nontech'])
print('Number of used test samples', countnews['test'])
print('--'*30)
print(texts['tech'][0])


--------------------News from trainTech------------------------

******************************
http://rss.chip.de/c/573/f/7439/index.rss

******************************
http://rss1.t-online.de/c/11/53/06/84/11530684.xml

******************************
http://www.computerbild.de/rssfeed_2261.xml?node=13

---------------------------
Top-Zinsen ohne Mindesteinlage: Diese Tagesgeldkonten lohnen sich Sparerinnen und Sparer aufgepasst: Wer sein Geld flexibel und ohne Mindestanlage parken möchte, findet aktuell attraktive Tagesgeldangebote. Wir zeigen, welche Banken aus unserem Tagesgeldkonten-Vergleich die besten Zinsen für Neukunden bieten.

---------------------------
Handy-Jahrestarife: Die Jahrespakete von Vodafone, Telekom & Co. im Vergleich Einmal im Voraus zahlen und dann 365 Tage lang surfen, telefonieren und simsen? So funktionieren die Handy-Jahrespakete von Telekom, Vodafone, Tchibo & Co. Sie eignen sich zudem perfekt als Geschenk

---------------------------
KI-Training von Meta

In [6]:
#Your Code

classifier = Classifier(getwords)


_, tech_texts = countFeed(trainTech, 'trainTech')
_, nontech_texts = countFeed(trainNonTech, 'trainNonTech')


for text in tech_texts:
    classifier.train(text, "Good")

for text in nontech_texts:
    classifier.train(text, "Bad")

In [8]:
from collections import Counter
_, test_texts = countFeed(test, 'test', should_print=False)

true_labels = []
for url in test:
    _, texts = countFeed([url], 'test', should_print=False)
    if url == 'http://rss.golem.de/rss.php?r=sw&feed=RSS0.91':
        true_labels += ["Good"] * len(texts)
    else:
        true_labels += ["Bad"] * len(texts)


pred_labels = []
for text in test_texts:
    p_good = classifier.prob(text, "Good")
    p_bad = classifier.prob(text, "Bad")
    pred = "Good" if p_good > p_bad else "Bad"
    pred_labels.append(pred)



#<==================================== PRECISION, RECALL,F1 ========================================>

def precision_recall_f1(true, pred, positive_label):
    tp = sum(t == positive_label and p == positive_label for t, p in zip(true, pred)) #ZIP erstellt die Tupel
    fp = sum(t != positive_label and p == positive_label for t, p in zip(true, pred))
    fn = sum(t == positive_label and p != positive_label for t, p in zip(true, pred))
    
    precision = tp / (tp + fp)
    recall = tp / (tp + fn) 
    f1 = 2 * precision * recall / (precision + recall) 
    
    return precision, recall, f1

labels = ["Good", "Bad"]
confusion = {l: {k:0 for k in labels} for l in labels}
for t, p in zip(true_labels, pred_labels):
    confusion[t][p] += 1


print(f"\t\tPredicted Good\tPredicted Bad") #\t Absatz :)
for label in labels:
    print(f"Actual {label}\t{confusion[label]['Good']}\t\t{confusion[label]['Bad']}")


correct = sum(t == p for t, p in zip(true_labels, pred_labels))
accuracy = correct / len(true_labels)
print(f"\nAccuracy: {accuracy:.4f}")


for label in labels:
    precision, recall, f1 = precision_recall_f1(true_labels, pred_labels, label)
    print(f"Klasse {label}:")
    print(f"Precision: {precision:.4f}")
    print(f"Recall:    {recall:.4f}")
    print(f"F1-Score:  {f1:.4f}")

		Predicted Good	Predicted Bad
Actual Good	38		2
Actual Bad	14		31

Accuracy: 0.8118
Klasse Good:
Precision: 0.7308
Recall:    0.9500
F1-Score:  0.8261
Klasse Bad:
Precision: 0.9394
Recall:    0.6889
F1-Score:  0.7949


Das Modell ist insgesamt solide mit einer Accuracy von 81,18 %. Bei der Klasse Good ist der Recall mit 95 % sehr hoch, das heißt, fast alle Good-Fälle werden erkannt. Die Precision (Genauigkeit der Positiv-Vorhersagen) ist allerdings nur bei 
73,08 %, was bedeutet, dass das Modell auch öfter fälschlich Bad-Fälle als Good klassifiziert (False Positives).
Bei der Klasse Bad ist es genau andersrum: Die Precision ist mit 93,94 % sehr hoch, das heißt, wenn das Modell Bad vorhersagt, liegt es meistens richtig. Der Recall ist aber mit 68,89 % deutlich niedriger, was zeigt, dass viele Bad-Fälle nicht erkannt werden (False Negatives).
Die F1-Scores beider Klassen sind ähnlich, was auf ein insgesamt ausgewogenes Modell hindeutet, das beider Klasse Bad eher weniger korrekt klassifiziert und bei der Klasse Good eher besser klassifiziert.

Die getWords-Methode könnte durch folgende Änderungen verbessert werden.

- Stoppwörter entfernen wie (z. B. und, der, ist), da diese meistens keine Informationen zur Klasse enthalten
- Satzzeichen bei Wörtern entfernen z.B. "Hi!" -> "Hi"
- evt die Häufigkeite von Wörtern aufzählen damit diese Stärker gewichtet werden?