<span style="color:red">Abgegeben von (Name, Vorname):</span> 
Goxhufi, Driton

In [2]:
import nltk

Immer griffbereit:
- Website: https://www.nltk.org/
- Buch: https://www.nltk.org/book/
- Module: https://www.nltk.org/py-modindex.html
- Beispiele: http://www.nltk.org/howto/

# Sätze: POS-Tagging  

Das POS-Tagging ist wie die Tokenisierung ein wichtiger Vorverarbeitungsschritt bei der Analyse natürlicher Sprache.

Unter POS-Tagging versteht man die **Wortartenklassifizierung** von Wordtoken anhand sogenannter **POS-Tags**. Zum Beispiel wird im ersten Satz des Brown Corpus ein Wordtoken *place* mit dem POS-Tag `NN` versehen, um anzuzeigen, dass es sich hierbei um ein Nomen handelt. 

In [7]:
from nltk.corpus import brown

brown.tagged_sents()[0][23]

('place', 'NN')

Das POS-Tagging hilft dabei, von der konkreten Wortform eines Tokens zu abstrahieren und (statistische) Zusammenhänge zwischen Worttoken leichter zu erkennen. Damit lässt sich z.B. leichter der grobe Bauplan eines Satzes angeben, ohne alle Möglichkeiten aufzählen zu müssen. Wir können dann Beschreibungen benutzen wie: 

- Ein Nomen steht oft direkt hinter einem Artikel.
- Ein Artikel steht nie direkt hinter einem Artikel (zumindest im Englischen).
- Ein Adjektiv steht oft zwischen einem Artikel und einem Nomen. 
- usw.

POS-Tags könnnen auch bei Suchanfragen verwendet werden, etwa um [Konkordanzen](#Exkurs:-Konkordanzen) zu erstellen.

## Exkurs: Konkordanzen

Konkordanzen sind alignierte Trefferlisten ([Wikipedia](https://de.wikipedia.org/wiki/Konkordanz_\(Textwissenschaft\)#Konkordanzsoftware)), wobei die Suchanfragen nicht nur Wortformen, sondern auch POS-Tags enthalten können.

![](https://upload.wikimedia.org/wikipedia/de/d/d4/Konkordanz_Nationalrat.png)

Konkordanzen sind in der Linguistik sehr wichtig für die Datenrecherche, denn sie stellen gefundene Belege übersichtlich dar. NLTK enthält ebenfalls einen sogenannten **Concordancer**. 

In [8]:
nltk.app.concordance()

## Wortarten und Tagsets

Ein POS-Tag zeigt die [**Wortart**](https://de.wikipedia.org/wiki/Wortart) (engl.: part of speech) eines Wortokens an. Die Wortart wird abhängig von der Morphologie (d.h. Wortform), der Syntax (d.h. der Umgebung des Worttokens im Satz) und der Semantik (d.h. Wortbedeutung) bestimmt und soll wichtige Eigenschaften dieser Aspekte zusammenfassen.

**Beispiel:** Nomen (Substantiv, engl.: noun)
- Morphologie: hat bestimmte Merkmale (z.B. Kasus, Numerus, Genus), ggf. erkennbar an bestimmten Derivationsaffixen (-*ness*) und Flexionsaffixen (-*es*)
- Syntax: steht hinter einem Artikel oder Adjektiv und bildet mit diesen eine [Konstituente](https://de.wikipedia.org/wiki/Konstituente)
- Semantik: bezeichnet (im prototypischen Fall) eine Sache

Je nach Auswahl und Granularität der morphologischen, syntaktischen und semantischen Eigenschaften können unterschiedliche **Tagsets** definiert werden. Für das Englische gibt es zum Beispiel drei sehr weit verbreitete Tagsets:

- [Tagset des Brown Corpus](https://en.wikipedia.org/wiki/Brown_Corpus#Part-of-speech_tags_used)
- [Tagset der Penn Treebank (PTB)](https://www.sketchengine.eu/english-treetagger-pipeline-2/)
- [Tagset des Brittish National Corpus (BNC)](http://www.natcorp.ox.ac.uk/docs/c5spec.html)

Für das Deutsche hat sich das [Stuttgart-Tübingen Tagset (STTS)](https://homepage.ruhr-uni-bochum.de/Stephen.Berman/Korpuslinguistik/Tagsets-STTS.html) durchgesetzt.

Der Umfang eines Tagsets hängt nicht zuletzt davon ab, wie reich die Morphologie einer Sprache ist. Die Tagsets für morphologisch reichere Sprachen sind oft (aber nicht immer) umfangreicher als Tagsets für morphologisch einfachere Sprachen wie das Englische. Z.B. gibt es ein [Tagset für das Tschechische](https://www.sketchengine.eu/tagset-reference-for-czech/), das 4288 POS-Tags enthält.    

NLTK stellt bei den getaggted Corpora neben dem ursprünglichen Tagset auch ein sogenanntes **Universelles Tagset** zur Verfügung. Dieses enthält im Wesentlichen die Hauptwortarten, die auch im Schulunterricht behandelt werden (und aus der griechischen/lateinischen Grammatikschreibung stammen). 

Das Universelle Tagset wurde im Rahmen der [**Universal-Dependencies-Initiative**](https://universaldependencies.org/) definiert und soll die Tagsets sprachübergreifend vereinheitlichen (weitere Informationen gibt es [hier](https://universaldependencies.org/u/pos/) und [hier](http://petrovi.de/data/universal.pdf)).

Das Universelle Tagset kann mittels der Option `tagset='universal'` aufgerufen werden:

In [9]:
brown.tagged_sents(tagset='universal')

[[('The', 'DET'), ('Fulton', 'NOUN'), ('County', 'NOUN'), ('Grand', 'ADJ'), ('Jury', 'NOUN'), ('said', 'VERB'), ('Friday', 'NOUN'), ('an', 'DET'), ('investigation', 'NOUN'), ('of', 'ADP'), ("Atlanta's", 'NOUN'), ('recent', 'ADJ'), ('primary', 'NOUN'), ('election', 'NOUN'), ('produced', 'VERB'), ('``', '.'), ('no', 'DET'), ('evidence', 'NOUN'), ("''", '.'), ('that', 'ADP'), ('any', 'DET'), ('irregularities', 'NOUN'), ('took', 'VERB'), ('place', 'NOUN'), ('.', '.')], [('The', 'DET'), ('jury', 'NOUN'), ('further', 'ADV'), ('said', 'VERB'), ('in', 'ADP'), ('term-end', 'NOUN'), ('presentments', 'NOUN'), ('that', 'ADP'), ('the', 'DET'), ('City', 'NOUN'), ('Executive', 'ADJ'), ('Committee', 'NOUN'), (',', '.'), ('which', 'DET'), ('had', 'VERB'), ('over-all', 'ADJ'), ('charge', 'NOUN'), ('of', 'ADP'), ('the', 'DET'), ('election', 'NOUN'), (',', '.'), ('``', '.'), ('deserves', 'VERB'), ('the', 'DET'), ('praise', 'NOUN'), ('and', 'CONJ'), ('thanks', 'NOUN'), ('of', 'ADP'), ('the', 'DET'), ('City

NLTK dokumentiert die genutzen POS-Tags aus dem Universellen Tagset folgendermaßen:

| **Tag** | **Meaning**         | **English Examples**                     |
| :------- | :------------------- | :---------------------------------------- |
| `ADJ`   | adjective           | *new, good, high, special, big, local*   |
| `ADP`   | adposition          | *on, of, at, with, by, into, under*      |
| `ADV`   | adverb              | *really, already, still, early, now*     |
| `CONJ`  | conjunction         | *and, or, but, if, while, although*      |
| `DET`   | determiner, article | *the, a, some, most, every, no, which*   |
| `NOUN`  | noun                | *year, home, costs, time, Africa*        |
| `NUM`   | numeral             | *twenty-four, fourth, 1991, 14:24*       |
| `PRT`   | particle            | *at, on, out, over, per, that, up, with*  |
| `PRON`  | pronoun             | *he, their, her, its, my, I, us*         |
| `VERB`  | verb                | *is, say, told, given, playing, would*   |
| `.`     | punctuation marks   | *. , ; \!*                               |
| `X`     | other               | *ersatz, esprit, dunno, gr8, univeristy* |

Das vollständige Universelle Tagset enthält außerdem `AUX` ("auxiliary verb"), `INTJ` ("interjection"), `PROPN` ("proper noun"), `SCONJ` ("subordinating conjunction") und `SYM` ("symbol").

## <span style="color:red">Aufgaben I: Ambiguität beim POS-Tagging</span>

Für das POS-Tagging reicht es oft nicht aus, nur die Wortform eines Tokens zu betrachten, denn oft kann dieselbe Wortformen unterschiedlichen POS-Tags zugeordnet werden. Wortformen sind also hinsichtlich der POS-Tags mehrdeutig/ambig.

<span style="color:red">A1:</span> Bestimmen Sie den Grad der POS-Tag-Ambiguität der Wortformen im Brown Corpus anhand der folgenden Kennzahlen:
- durchschnittliche Anzahl der POS-Tags einer Wortform
- die 10 Wortformen mit der höchsten Anzahl an POS-Tags
- der %-Anteil der ambigen Wortformen bei den Wortformen
- der %-Anteil der Worttoken mit ambiger Wortformen bei den Wortoken 

In [14]:
# Lösung A1
from collections import defaultdict

counts = defaultdict(int)
for (word, tag) in brown.tagged_words(categories='news', tagset='universal'):
    counts[tag] += 1
    
n_pos_tags = len(counts.items())
sum_numb_pos = sum(counts.values())
avagerage_pos_tag_number = sum_numb_pos/12
print("Die durchschnittliche Anzahl der POS-Tags:", avagerage_pos_tag_number)

Die durchschnittliche Anzahl der POS-Tags: 8379.5


In [17]:
# first 10 most frequent Tags
from itertools import islice
from operator import itemgetter

def take(n, iterable):
    "return first n items"
    return list(islice(iterable, n))

take(10, sorted(counts.items(), key=itemgetter(1), reverse=True))

[('NOUN', 30654),
 ('VERB', 14399),
 ('ADP', 12355),
 ('.', 11928),
 ('DET', 11389),
 ('ADJ', 6706),
 ('ADV', 3349),
 ('CONJ', 2717),
 ('PRON', 2535),
 ('PRT', 2264)]

In [None]:
100 * len({word for word in postdict if len(posdict[word]) > 1}) / len(postdict.items())

In [None]:
# durchschinittliche Anzahl der POS-Tags pro Worttoken
mean([len(postdict[word]) for word in brown.words()])

## Methoden des POS-Taggings

Im Folgenden werden wir ein paar Methoden des POS-Taggings kennenlernen. Damit die jeweilige Leistungsfähigkeit gemessen und verglichen werden kann, müssen wir uns aber erst einmal mit dem Thema Evaluierung auseinander setzen.

### Evaluierung mit Trainings- und Testdaten

Für die Evaluierung der Tagger werden üblicherweise *Trainingsdaten* und *Testdaten* verwendet: Die Trainingsdaten enthalten bei überwachten Verfahren die POS-Tags, deren Zuweisung der Tagger anhand konkreter Einzeldaten lernen soll; die Testdaten stammen meist aus demselben (hand-)annotierten Corpus, aber hier fehlen die POS-Tags. **Wichtig ist, dass sich Trainings- und Testdaten nicht überschneiden!**

Mit Hilfe des Brown Corpus lassen sich beide Datentypen leicht erstellen:

In [19]:
from nltk.tag import untag

brown_train = brown.tagged_sents(categories='news', tagset='universal')[100:]
brown_testgold = brown.tagged_sents(categories='news', tagset='universal')[:100]
brown_test = [untag(sent) for sent in brown_testgold]

print("Testdaten: {}\n".format(brown_test[0]))
print("Trainingsdaten: {}".format(brown_train[0]))

Testdaten: ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.']

Trainingsdaten: [('Daniel', 'NOUN'), ('personally', 'ADV'), ('led', 'VERB'), ('the', 'DET'), ('fight', 'NOUN'), ('for', 'ADP'), ('the', 'DET'), ('measure', 'NOUN'), (',', '.'), ('which', 'DET'), ('he', 'PRON'), ('had', 'VERB'), ('watered', 'VERB'), ('down', 'PRT'), ('considerably', 'ADV'), ('since', 'ADP'), ('its', 'DET'), ('rejection', 'NOUN'), ('by', 'ADP'), ('two', 'NUM'), ('previous', 'ADJ'), ('Legislatures', 'NOUN'), (',', '.'), ('in', 'ADP'), ('a', 'DET'), ('public', 'ADJ'), ('hearing', 'NOUN'), ('before', 'ADP'), ('the', 'DET'), ('House', 'NOUN'), ('Committee', 'NOUN'), ('on', 'ADP'), ('Revenue', 'NOUN'), ('and', 'CONJ'), ('Taxation', 'NOUN'), ('.', '.')]


In [22]:
#---------------------------------------------------------
from nltk.probability import FreqDist

posdict = FreqDist([tag for sent in brown_train for word,tag in sent]).most_common(1)[0][0]
posdict

'NOUN'

**ACHTUNG:** Die POS-Tagger werden immer auf einzelne tokenisierte Sätze angewandt. Die Satz- und Worttokenisierung muss also schon durchgeführt sein.

Man kann nun zwei Dinge anhand der Testdaten und der Goldtestdaten messen:
- Wie gut werden alle Worte klassifiziert?  $\Rightarrow$ **Accurracy** (global precision)
- Wie gut funktioniert die Klassifikation bei einzelnen POS-Tags? $\Rightarrow$ **Precision**, **Recall**, **F1 Measure**

### Default-Tagger

Der Default-Tagger weist immer dasselbe POS-Tag zu, egal welches Wort vorliegt. Im Unterschied zu einem Random-Tagger, der aus den POS-Tags zufällig eines auswählt, kann der Default-Tagger aus den Testdaten immerhin "lernen", welches POS-Tag am häufigsten ist.

NLTK enthält bereits eine Klasse `DefaultTagger`, mit der in wenigen Zeilen ein Default-Tagger erstellt werden kann.

In [23]:
from nltk import DefaultTagger
dt = DefaultTagger('POS')
dt.tag(brown_test[0])

[('The', 'POS'),
 ('Fulton', 'POS'),
 ('County', 'POS'),
 ('Grand', 'POS'),
 ('Jury', 'POS'),
 ('said', 'POS'),
 ('Friday', 'POS'),
 ('an', 'POS'),
 ('investigation', 'POS'),
 ('of', 'POS'),
 ("Atlanta's", 'POS'),
 ('recent', 'POS'),
 ('primary', 'POS'),
 ('election', 'POS'),
 ('produced', 'POS'),
 ('``', 'POS'),
 ('no', 'POS'),
 ('evidence', 'POS'),
 ("''", 'POS'),
 ('that', 'POS'),
 ('any', 'POS'),
 ('irregularities', 'POS'),
 ('took', 'POS'),
 ('place', 'POS'),
 ('.', 'POS')]

Nun muss nur noch das häufigste POS-Tag in den Trainingsdaten ermittelt werden:

In [24]:
from nltk.probability import FreqDist

# Default-Tagger beim Lernen
mfpos = FreqDist([tag for sent in brown_train for word,tag in sent]).most_common(1)[0][0]

dt = DefaultTagger(mfpos)
dt.tag(brown_test[0])

[('The', 'NOUN'),
 ('Fulton', 'NOUN'),
 ('County', 'NOUN'),
 ('Grand', 'NOUN'),
 ('Jury', 'NOUN'),
 ('said', 'NOUN'),
 ('Friday', 'NOUN'),
 ('an', 'NOUN'),
 ('investigation', 'NOUN'),
 ('of', 'NOUN'),
 ("Atlanta's", 'NOUN'),
 ('recent', 'NOUN'),
 ('primary', 'NOUN'),
 ('election', 'NOUN'),
 ('produced', 'NOUN'),
 ('``', 'NOUN'),
 ('no', 'NOUN'),
 ('evidence', 'NOUN'),
 ("''", 'NOUN'),
 ('that', 'NOUN'),
 ('any', 'NOUN'),
 ('irregularities', 'NOUN'),
 ('took', 'NOUN'),
 ('place', 'NOUN'),
 ('.', 'NOUN')]

Für die Evaluation steht bei Tagger-Objekten glücklicherweise die Methode `evaluate()` zur Verfügung. Bitte daran denken, dass jetzt die Goldtestdaten verwendet werden müssen:

In [25]:
dt.evaluate(brown_testgold)

0.31790123456790126

Eine Accuracy von 31,8% ist wirklich sehr niedrig -- vor allem da wir wissen, dass nur ein POS-Tag verwendet wird. Der Informationsgewinn ist also gleich null.

### Regexp-Tagger

Während der Default-Tagger die Wortform ignoriert, geht es beim Regexp-Tagger darum, allein aus der Wortform das POS-Tag zu erschließen. Trainingsdaten werden also nicht benötigt. 

NLTK enthält hierfür die Klasse `RegexpTagger`, an die wie `DefaultTagger` bedient werden kann (beide implementieren das Interface `TaggerI`):

In [26]:
from nltk import RegexpTagger
rt = RegexpTagger([
    (r'(The|the|A|a|An|an)$', 'DET'),      # articles
    (r'.*able$', 'ADJ'),                   # adjectives
    (r'.*ness$', 'NOUN'),                  # nouns formed from adjectives
    (r'.*ly$', 'ADV'),                     # adverbs
    (r'.*ing$', 'VERB'),                   # gerunds
    (r'.*ed$', 'VERB'),                    # simple past
    (r'.*es$', 'VERB'),                    # 3rd singular present
    (r'.*ies$', 'NOUN'),
    (r'.*ould$', 'VERB'),                  # modals
    (r'.*\'s$', 'NOUN'),                   # possessive nouns
    (r'.*s$', 'NOUN'),                     # plural nouns
    (r'^-?[0-9]+(\.[0-9]+)?$', 'NUM'),     # cardinal numbers
    (r'(\.|\,|\(|\)|\;|\`\`|\'\')$', '.'), # punctuation
    (r'.*', 'NOUN'),                       # nouns (default)
    ])

rt.tag(brown_test[0])

[('The', 'DET'),
 ('Fulton', 'NOUN'),
 ('County', 'NOUN'),
 ('Grand', 'NOUN'),
 ('Jury', 'NOUN'),
 ('said', 'NOUN'),
 ('Friday', 'NOUN'),
 ('an', 'DET'),
 ('investigation', 'NOUN'),
 ('of', 'NOUN'),
 ("Atlanta's", 'NOUN'),
 ('recent', 'NOUN'),
 ('primary', 'NOUN'),
 ('election', 'NOUN'),
 ('produced', 'VERB'),
 ('``', '.'),
 ('no', 'NOUN'),
 ('evidence', 'NOUN'),
 ("''", '.'),
 ('that', 'NOUN'),
 ('any', 'NOUN'),
 ('irregularities', 'VERB'),
 ('took', 'NOUN'),
 ('place', 'NOUN'),
 ('.', '.')]

In [27]:
rt.evaluate(brown_testgold)

0.5868606701940036

Die Accuracy ist nun deutlich erhöht, aber immer noch zu niedrig. Das grundsätzliche Problem hier ist, dass die regulären Ausdrücke nicht immer eindeutig einem POS-Tag zugeordnet werden können. Außerdem vergisst man leicht eine Regel, wodurch sich die Abdeckung verringert.

### Lookup-Tagger

Die Idee beim Lookup-Tagger ist, für jedes Wort das POS-Tag in einem "Wörterbuch" nachzuschlagen. Dieses Wörterbuch kann ad hoc aus den Trainingsdaten generiert werden, indem für jede Wortform das häufigste POS-Tag gespeichert wird.

Da man hier nur einzelne Wortformen und Token betrachtet, spricht man auch von einem **Unigram-Tagger**. Wie schon beim Default-Tagger hält NLTK eine passende Klasse (`UnigramTagger`) bereit:

In [28]:
from nltk import UnigramTagger

# Unigram-Tagger beim Lernen
ut = UnigramTagger(brown_train)

ut.tag(brown_test[0])

[('The', 'DET'),
 ('Fulton', None),
 ('County', 'NOUN'),
 ('Grand', 'ADJ'),
 ('Jury', 'NOUN'),
 ('said', 'VERB'),
 ('Friday', 'NOUN'),
 ('an', 'DET'),
 ('investigation', 'NOUN'),
 ('of', 'ADP'),
 ("Atlanta's", 'NOUN'),
 ('recent', 'ADJ'),
 ('primary', 'NOUN'),
 ('election', 'NOUN'),
 ('produced', 'VERB'),
 ('``', '.'),
 ('no', 'DET'),
 ('evidence', 'NOUN'),
 ("''", '.'),
 ('that', 'ADP'),
 ('any', 'DET'),
 ('irregularities', None),
 ('took', 'VERB'),
 ('place', 'NOUN'),
 ('.', '.')]

Wieder können wir mit `evaluate()` die Accuracy des Taggers anhand von Goldtestdaten ermitteln:

In [29]:
ut.evaluate(brown_testgold)

0.8888888888888888

Das Ergebnis ist mit 88,9% deutlich besser als beim Default-Tagger und beim Regexp-Tagger. 

Kann man sich damit zufrieden geben? Leider nein! Da die Accuracy bezogen auf Worte berechnet wird, bedeutet das, dass durchschnittlich etwa jedes 10. Wort falsch getaggt wird. In jedem durschnittlich großen Satz von 20 Worten gibt es also durchschnittlich zwei Fehler. Das ist für eine Methode, die immer noch relativ am Anfang der Verarbeitungspipeline steht, zu viel. 

### <span style="color:red">Aufgaben II: Unbekannte Worte</span>

Wir müssen also weiterhin nach Verbesserungsmöglichkeiten Ausschau halten -- und in der Ausgabe von `ut` fällt sofort eine Verbesserungsmöglichkeit auf: Manche Wortformen haben das POS-Tag `none` erhalten, weil sie in den Trainingsdaten nicht gesehen wurden. Das sind die sogenannten **unbekannten Worte** ("unknown words").

<span style="color:red">A2:</span> Überlegen Sie sich eine Strategie, mit der der Unigram-Tagger auch bei unbekannten Worten ein sinnvolles POS-Tag zuweist, implementieren Sie diese Strategie als Tagger `utplus` und berechnen Sie die Accuracy von `utplus`!

In [30]:
# Lösung A2
# according to the documentation, UnigramTaggers can be extended by using a "backoff" 
# parameter to use if the UnigrammTagger does not find the corresponding tag
# so so can use a RegexpTagger if the unigramTagger fails tagging as backoff.

regexp_tagger = nltk.RegexpTagger([
    # added expressions
    (r'.*ies$', 'NOUN'),                   # plural nouns singularities
    (r'.*ize$', 'VERB'),                   # nouns formed from verbs verbal noun
    (r'(January|February|March|April|May|June|July|August|September|October|November|December)$', 'NOUN'),
    #------------------------------------------------
    (r'(The|the|A|a|An|an)$', 'DET'),      # articles
    (r'.*able$', 'ADJ'),                   # adjectives
    (r'.*ness$', 'NOUN'),                  # nouns formed from adjectives
    (r'.*ly$', 'ADV'),                     # adverbs
    (r'.*ing$', 'VERB'),                   # gerunds
    (r'.*ed$', 'VERB'),                    # simple past
    (r'.*es$', 'VERB'),                    # 3rd singular present
    (r'.*ould$', 'VERB'),                  # modals
    (r'.*\'s$', 'NOUN'),                   # possessive nouns
    (r'.*s$', 'NOUN'),                     # plural nouns
    (r'^-?[0-9]+(\.[0-9]+)?$', 'NUM'),     # cardinal numbers
    (r'(\.|\,|\(|\)|\;|\`\`|\'\')$', '.'), # punctuation
    (r'.*', 'NOUN'),                       # nouns (default)
    ])

utplus = UnigramTagger(brown_train, backoff=regexp_tagger)
utplus.evaluate(brown_testgold)

0.9519400352733686

In [31]:
utplus.tag(brown_test[0])

[('The', 'DET'),
 ('Fulton', 'NOUN'),
 ('County', 'NOUN'),
 ('Grand', 'ADJ'),
 ('Jury', 'NOUN'),
 ('said', 'VERB'),
 ('Friday', 'NOUN'),
 ('an', 'DET'),
 ('investigation', 'NOUN'),
 ('of', 'ADP'),
 ("Atlanta's", 'NOUN'),
 ('recent', 'ADJ'),
 ('primary', 'NOUN'),
 ('election', 'NOUN'),
 ('produced', 'VERB'),
 ('``', '.'),
 ('no', 'DET'),
 ('evidence', 'NOUN'),
 ("''", '.'),
 ('that', 'ADP'),
 ('any', 'DET'),
 ('irregularities', 'NOUN'),
 ('took', 'VERB'),
 ('place', 'NOUN'),
 ('.', '.')]

### N-Gram-Tagger

Eine grundlegende Einschränkung des Lookup-Taggers (bzw. des Unigram-Taggers) ist, dass der Kontext des Worttokens nicht berücksichtigt wird. Der Kontext ist aber oft wichtig, da vielen Wortformen mehr als ein POS-Tag zugewiesen werden kann.

In [32]:
ut.tag(nltk.word_tokenize("A fly flies to flies in order to fly."))

[('A', 'DET'),
 ('fly', 'NOUN'),
 ('flies', 'VERB'),
 ('to', 'PRT'),
 ('flies', 'VERB'),
 ('in', 'ADP'),
 ('order', 'NOUN'),
 ('to', 'PRT'),
 ('fly', 'NOUN'),
 ('.', '.')]

Der Ansatz des N-Gram-Taggers ist daher, den unmittelbaren, vorangehenden Kontext bei der Klassifizierung einzubeziehen. "N" steht für die festgelegte Größe des Kontexts: Ein **2-Gram-Tagger** (oder Bigram-Tagger) betrachtet z.B. das zu klassifizierende Wort und das POS-Tag des davorstehenden Worts. Der N-Gram-Tagger ist also eine Generalisierung des Unigram-Taggers. Schematisch kann das folgendermapßen dargestellt werden: 

![](https://www.nltk.org/images/tag-context.png)

In der Umsetzung bedeutet das, dass auch 2- oder 3-Gramme, d.h. Teilketten der Länge 2 bzw. 3, erstellt und statistisch gewichtet werden. N-Grams können mit Hilfe des NLTK-Moduls `ngrams` erstellt und veranschaulicht werden. 

In [33]:
from nltk import ngrams
n = 2 
input = brown_train[0]
[([tag for word,tag in ngram[:n-1]],ngram[n-1]) for ngram in ngrams(input, n)]

[(['NOUN'], ('personally', 'ADV')),
 (['ADV'], ('led', 'VERB')),
 (['VERB'], ('the', 'DET')),
 (['DET'], ('fight', 'NOUN')),
 (['NOUN'], ('for', 'ADP')),
 (['ADP'], ('the', 'DET')),
 (['DET'], ('measure', 'NOUN')),
 (['NOUN'], (',', '.')),
 (['.'], ('which', 'DET')),
 (['DET'], ('he', 'PRON')),
 (['PRON'], ('had', 'VERB')),
 (['VERB'], ('watered', 'VERB')),
 (['VERB'], ('down', 'PRT')),
 (['PRT'], ('considerably', 'ADV')),
 (['ADV'], ('since', 'ADP')),
 (['ADP'], ('its', 'DET')),
 (['DET'], ('rejection', 'NOUN')),
 (['NOUN'], ('by', 'ADP')),
 (['ADP'], ('two', 'NUM')),
 (['NUM'], ('previous', 'ADJ')),
 (['ADJ'], ('Legislatures', 'NOUN')),
 (['NOUN'], (',', '.')),
 (['.'], ('in', 'ADP')),
 (['ADP'], ('a', 'DET')),
 (['DET'], ('public', 'ADJ')),
 (['ADJ'], ('hearing', 'NOUN')),
 (['NOUN'], ('before', 'ADP')),
 (['ADP'], ('the', 'DET')),
 (['DET'], ('House', 'NOUN')),
 (['NOUN'], ('Committee', 'NOUN')),
 (['NOUN'], ('on', 'ADP')),
 (['ADP'], ('Revenue', 'NOUN')),
 (['NOUN'], ('and', 'CONJ

Glücklicherweise gibt es in NLTK bereits eine passende Klasse `NgramTagger`, mit der wir N-Gram-Tagger mit beliebigem N erzeugen können.

In [34]:
from nltk import NgramTagger

bigt = NgramTagger(2, brown_train)

Wenn wir nun den Satz von oben taggen wollen, werden wir allerdings feststellen, dass ab dem zweiten *flies* alle Worte das POS-Tag `None` erhalten.  

In [35]:
bigt.tag(nltk.word_tokenize("A fly flies to flies in order to fly."))

[('A', 'DET'),
 ('fly', 'NOUN'),
 ('flies', 'VERB'),
 ('to', 'PRT'),
 ('flies', None),
 ('in', None),
 ('order', None),
 ('to', None),
 ('fly', None),
 ('.', None)]

Das liegt daran, dass in den Trainingsdaten *flies* nicht hinter `PRT` auftritt und deswegen als `None` klassifiziert wird. Da aber `None` für den Bigram-Tagger auch ein unbekannter Kontext ist, setzt sich der Fehler bis zum Ende fort.

Um dem entgegenzuwirken, muss man eine Rückfall-Strategie ("backoff") angeben. Das ist mit der Option `backoff` möglich und hier setzen wir einfach den Unigram-Tagger von oben ein:

In [36]:
from nltk import NgramTagger

bigt = NgramTagger(2, brown_train,backoff=ut)
bigt.tag(nltk.word_tokenize("A fly flies to flies in order to fly."))

[('A', 'DET'),
 ('fly', 'NOUN'),
 ('flies', 'VERB'),
 ('to', 'PRT'),
 ('flies', 'VERB'),
 ('in', 'ADP'),
 ('order', 'NOUN'),
 ('to', 'PRT'),
 ('fly', 'VERB'),
 ('.', '.')]

In der Evaluation sehen wir, dass der Bigram-Tagger mit dem Unigram-Tagger als Backoff zu leicht verbesserter Accuracy führt:

In [37]:
bigt.evaluate(brown_testgold)

0.8963844797178131

Nun bedeutet "mehr" nicht notwendigerweise "besser". Wenn wir nämlich mehr Kontext berücksichtigen und stattdessen einen **Trigram-Tagger** implementieren, dann erhalten wir im Vergleich zum Bigram-Tagger eine leicht verringerte Accuracy: 

In [38]:
trigt = NgramTagger(3, brown_train, backoff=ut)
trigt.evaluate(brown_testgold)

0.892416225749559

Der Grund dafür ist die unentrinnbare Datenknappheit: Der Trigram-Tagger wird häufiger als der Bigram-Tagger in die Situation kommen, dass ein Trigram in den Lerndaten nicht gesehen wurde und daher das Ergebnis des Backoff-Taggers übernommen werden muss. Die Accuracy der N-Gram-Tagger nähert sich also mit wachsendem N der Accuracy des Backoffs an.

### <span style="color:red">Aufgaben III</span>

Wir sind nun bereit für den letzten Schritt.

<span style="color:red">A2:</span> Implementieren Sie einen POS-Tagger `ngt`, der die N-Gram-Tagger per `backoff` so kombiniert, dass die Accuracy möglichst hoch ausfällt! 

In [39]:
bigt = NgramTagger(2, brown_train,backoff=utplus)
trigt = NgramTagger(3, brown_train, backoff=bigt)
quagt = NgramTagger(4, brown_train, backoff=trigt)
fivgt = NgramTagger(5, brown_train, backoff=quagt)
sixgt = NgramTagger(6, brown_train, backoff=fivgt)
sevgt = NgramTagger(7, brown_train, backoff=sixgt)
eiggt = NgramTagger(8, brown_train, backoff=sevgt)
ningt = NgramTagger(9, brown_train, backoff=eiggt)
tengt = NgramTagger(10, brown_train, backoff=ningt)

In [40]:
# Lösung A3
# ngt = NgramTagger(1, brown_train) # Bitte überschreiben/ändern!
ngt = NgramTagger(2, brown_train,backoff=utplus)
# seems to be the strongest for now

In [50]:
# probably the strongs tagger
# 2-Gram-Tagger with utplus as backoff (utplus = UnigramTagger)
print(ngt.evaluate(brown_testgold))

0.9585537918871252


In [42]:
trigt.evaluate(brown_testgold)

0.9576719576719577

In [43]:
quagt.evaluate(brown_testgold)

0.955026455026455

In [44]:
fivgt.evaluate(brown_testgold)

0.9514991181657848

In [45]:
sixgt.evaluate(brown_testgold) # seems like with more than 6 the algorithm converges.

0.9484126984126984

In [46]:
sevgt.evaluate(brown_testgold)

0.9484126984126984

In [47]:
eiggt.evaluate(brown_testgold)

0.9484126984126984

In [48]:
ningt.evaluate(brown_testgold)

0.9484126984126984

In [49]:
tengt.evaluate(brown_testgold) # 11-gram-Tagger with nested 10-Gram-Tagger ...

0.9484126984126984