# Klassifikation 

In diesem Notebook trainieren wir einen Classifier. Aus Beispielen lernt der Classifier, zu welcher Klasse ein Element gehört, und kann neue Elemente mit den gelernten Regeln einordnen. 

Wir lesen zunächst Dokumente aus 4 Wikipedia-Kategorien ein.

### Texten sammeln (API)

In [2]:
import SaveWiki

SaveWiki.downloadWikiCat('Astronomisches Instrument','astroinstrument')
SaveWiki.downloadWikiCat('Astronomie','astro')
#SaveWiki.downloadWikiCat('Bösartige Tumorbildung','krebs')
#SaveWiki.downloadWikiCat('Krankheitsbild in der Kardiologie','kardiologie')

##### Texten aufmachen und lesen

In [5]:
import codecs 

def readtext(dateiname):
    text = ''
    d = codecs.open(dateiname,'r','utf8')
    for zeile in d:
        text += str(zeile)
    d.close()

    return text

In [6]:
bsptext= readtext('krebs/Adenokarzinom.txt')
print(bsptext[:300])

Als Adenokarzinom bezeichnet man einen bösartigen (malignen) von der Deckzellschicht (Epithel) ausgehenden Tumor, der aus Drüsengewebe hervorgegangen ist. Die gutartige (benigne) Zellveränderung von Drüsengewebe nennt man dagegen Adenom.
Adenokarzinome kommen vor allem im Bereich der Verdauungsorgan


### Merkmalen des Textes auswählen

***stopwords ausschließen***

***Zeichen ausschließen***

***closed class words ausschließen***

In [3]:
#stopwords

In [7]:
import nltk
import re
from HanTa import HanoverTagger as ht
from collections import Counter

stopwords = nltk.corpus.stopwords.words('german')
tagger = ht.HanoverTagger('morphmodel_ger.pgz')

def closed_class(pos):
    if pos[0] == '$':
        return True
    elif pos in ["APPR", "APPRART", "APPO", "APZR", "ART", "KOUI", "KOUS", "KON", "KOKOM", "PDS", "PDAT", "PIS", "PIAT", "PIDAT", "PPER", "PPOSS", "PPOSAT", "PRELS", "PRELAT", "PRF", "PWS", "PWAT", "PWAV", "PAV", "PTKZU", "PTKNEG", "VAFIN", "VAIMP", "VAINF", "VAPP", "VMFIN", "VMINF", "VMPP"]:
        return True
    
    return False

def features_from_text(text):
    wordcounts = Counter()
    tlen = 0
    
    satzliste =  nltk.sent_tokenize(text,language='german')
    for satz in satzliste:
        tokens =  nltk.word_tokenize(satz,language='german')
        tokens = [lemma for (word,lemma,pos) in tagger.tag_sent(tokens) if not closed_class(pos)]
        tokens = [t for t in tokens if t.lower() not in stopwords]
        tokens = [t for t in tokens if re.search('^\w+$',t)]
        tlen += len(tokens)
        wordcounts.update(tokens)

    return {w:wordcounts[w]/tlen for w in wordcounts}

Wir versuchen aus jede Klasse 50 Dokumente zu lesen, die nicht extrem kurz oder lang sind.

In [9]:
import glob

def read_data(directories):
    docs = []
    for directory in directories:
        dirsize = 0
        for file in glob.glob(directory+"/*.txt"):
            text = readtext(file)
            if len(text) > 500 and len(text) < 10000:
                docs.append((features_from_text(text),directory))
                dirsize += 1
            if dirsize >= 50:
                break
    return docs

data = read_data(['infekt','krebs','pneumologie','kardiologie'])

In [10]:
len(data)

200

Wir mischen die Daten und teilen in Test- und Trainingsdaten

In [6]:
import random

random.shuffle(data)
train_data = data[:160]
test_data = data[160:]

Wir schauen uns jetzt mal ein Dokument an:

In [7]:
len(train_data[27])

({'Leiomyosarkom': 0.027874564459930314,
  'griech': 0.003484320557491289,
  'lī': 0.003484320557491289,
  'ō': 0.003484320557491289,
  'sanft': 0.003484320557491289,
  'μυς': 0.003484320557491289,
  'mys': 0.003484320557491289,
  'σάρκωμα': 0.003484320557491289,
  'sárkoma': 0.003484320557491289,
  'σάρξ': 0.003484320557491289,
  'sárx': 0.003484320557491289,
  'Fleisch': 0.003484320557491289,
  'weichteile': 0.003484320557491289,
  'Geschwulst': 0.003484320557491289,
  'bösartig': 0.010452961672473868,
  'Maligner': 0.003484320557491289,
  'Tumor': 0.020905923344947737,
  'glatt': 0.006968641114982578,
  'Muskulatur': 0.006968641114982578,
  'ausgehen': 0.006968641114982578,
  'etwa': 0.006968641114982578,
  '1': 0.003484320557491289,
  'Gebärmuttergeschwülste': 0.003484320557491289,
  'treten': 0.006968641114982578,
  'meist': 0.010452961672473868,
  '30': 0.006968641114982578,
  'Lebensjahr': 0.003484320557491289,
  'Altersgipfel': 0.003484320557491289,
  '6': 0.003484320557491289,

Wir haben jetzt für jedes Dokument einene Merkmalsvektor. Man merke: der Vektor ist eigentlich so lang wie die Anzahl der unterschiedlichen Wörter in der ganzen Sammlung. Alle Wörter, die nicht erwähnt werden haben den Wert 0. 

Wörter, die nur in ein oder zwei Dokumementen vorkommen sind, für die Klassifikation nicht besonders nützlich. 
Wir nutzen nachher nur die Wörter, die in mindestens 5 Dokumente vorkommen. Um das vorzubereiten, berechnen wir für alle Wörter die Dokumentfrequenz>

In [8]:
docfreq = Counter()
for (wfreq,c) in train_data:
    docfreq.update(wfreq.keys())

In [21]:
#docfreq

## Klassifikation mit Scikit Learn

Die Bibliothek Scikit Learn stellt verschiedene Klassifikationsmodelle zur Verfügung. Wir müssen jetzt richtige Merkmalsvektoren aufbauen, bei denen die Position die Bedeutung einer Zahl bestimmt. Dazu machen wir erst eine feste Liste mit allen Wörtern. Wörter, die zu selten sind lassen wir weg.

In [9]:
from sklearn import linear_model, datasets


allfeatures = [w for w in docfreq if docfreq[w] > 4]

def make_feat_vec(featmap,featlist):
    vec = []
    for f in featlist:
        vec.append(featmap.get(f,0.0))
    return vec

train_vec =  [make_feat_vec(feats,allfeatures) for feats,cls in train_data]
train_label = [cls for feats,cls in train_data]

Wir schauen uns mal einen Vektor an:

In [22]:
#train_vec[137]

In [11]:
train_label[137]

'kardiologie'

Ein einfaches, aber effektives Klassifikationsmodell, das meistens gute Ergebnisse liefert, ist die logistische Regression.

In [12]:
logreg = linear_model.LogisticRegression(C=1e9,verbose=True)
logreg.fit(train_vec,train_label)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.1s finished


LogisticRegression(C=1000000000.0, verbose=True)

Wir können jetzt mit dem trainierten Classifier ein neues Dokument klassifizieren:

In [13]:
v = make_feat_vec(test_data[17][0],allfeatures) 
logreg.predict([v])

array(['krebs'], dtype='<U11')

Richtig ist:

In [14]:
test_data[17][1]

'krebs'

Oder direkt für alles Testdaten:

In [15]:
test_vec = [make_feat_vec(feats,allfeatures) for feats,cls in test_data]
test_label = [cls for feats,cls in test_data]

pred_label = list(logreg.predict(test_vec))

In [16]:
correct = 0
for i in range(len(test_label)):
    if test_label[i] == pred_label[i]:
        correct+=1
print("{0:.1f} Prozent korrekt".format(100* float(correct)/len(test_label)))

80.0 Prozent korrekt


### Evaluation

Wo sind aber die Fehler aufgetreten? Un diese Frage zu beantworten, ist sogenannte eine _Konfusionsmatrix_ sehr hilfreich. NLTK hat eine Funktion zum erstellen eines Konfusionsmatrizen:

In [17]:
cm = nltk.ConfusionMatrix(test_label, pred_label)
print(cm)

            |     k     p |
            |     a     n |
            |     r     e |
            |     d     u |
            |     i     m |
            |  i  o     o |
            |  n  l  k  l |
            |  f  o  r  o |
            |  e  g  e  g |
            |  k  i  b  i |
            |  t  e  s  e |
------------+-------------+
     infekt |<10> .  .  . |
kardiologie |  . <8> .  6 |
      krebs |  .  . <6> . |
pneumologie |  2  .  . <8>|
------------+-------------+
(row = reference; col = test)



Es gibt verschiedene andere Klassifikatorn, die wie nutzen können:

In [18]:
from sklearn import neighbors
knn = neighbors.KNeighborsClassifier(n_neighbors = 3)
knn.fit(train_vec,train_label)
pred_label = list(knn.predict(test_vec))
correct = 0
for i in range(len(test_label)):
    if test_label[i] == pred_label[i]:
        correct+=1
print("{0:.1f} Prozent korrekt".format(100* float(correct)/len(test_label)))

50.0 Prozent korrekt


In [19]:
from sklearn import ensemble
rf = ensemble.RandomForestClassifier()
rf.fit(train_vec,train_label)
pred_label = list(rf.predict(test_vec))
correct = 0
for i in range(len(test_label)):
    if test_label[i] == pred_label[i]:
        correct+=1
print("{0:.1f} Prozent korrekt".format(100* float(correct)/len(test_label)))

80.0 Prozent korrekt
