# Předpřipravený tagger

In [None]:
cs = "Proč chceš stát na dešti? Není o co stát."
en = "They refuse to permit us to obtain the refuse permit."

In [None]:
import nltk

In [None]:
en_tok = nltk.word_tokenize(en)
en_tok

In [None]:
nltk.pos_tag(en_tok)

In [None]:
from corpy.morphodita import Tagger

In [None]:
czech_pos_tagger = Tagger("/home/lukes/edu/python/czech-morfflex-pdt-161115/czech-morfflex-pdt-161115-pos_only.tagger")

In [None]:
list(czech_pos_tagger.tag(cs, sents=True))

# Otagovaný korpus

Možnost efektivně procházet (otagovaný) korpus po větách budeme potřebovat při trénování a testování (načti větu, otaguj, porovnej se standardem, načti další...) našich vlastních taggerů.

In [None]:
nltk.corpus.brown.tagged_words()

In [None]:
nltk.corpus.brown.tagged_words(tagset="universal")

In [None]:
!head -n11 /home/lukes/edu/python/pdt3.train.vrt

In [None]:
from collections import namedtuple

Token = namedtuple("Token", "word pos")

def vert_sents(vert_path):
    with open(vert_path) as file:
        sent = []
        for line in file:
            line = line.strip()
            if "\t" in line:
                word, _, tag = line.split("\t")
                pos = tag[0]
                sent.append(Token(word, pos))
            elif line.startswith("<s "):
                assert not sent
            elif line == "</s>":
                yield sent
                sent = []            

In [None]:
sent_generator = vert_sents("/home/lukes/edu/python/pdt3.train.vrt")

In [None]:
next(sent_generator)

# Vlastní tagger

Jak k problému vůbec přistoupit? Na jakém principu by měl tagger fungovat? Představte si, že chcete vymyslet formální postup, podle něhož by bez znalosti daného jazyka mohl značkování provést i člověk, ale místo člověku ho pak povíte počítači. Nesnažte se rovnou vyřešit všechno, zvolte "inženýrský" přístup -- přednostně se snažte identifikovat a řešit části problému, které mají při minimálním vynaloženém úsilí maximální účinek. Účinek v tomto případě měříme úspěšností taggeru -- procentem značek přidělených tak, aby odpovídaly referenčnímu korpusu (zlatému standardu).

# Nejčastější POS

In [None]:
pos_fdist = nltk.FreqDist(p for s in vert_sents("/home/lukes/edu/python/pdt3.train.vrt") for _, p in s)

In [None]:
def default_tagger(word):
    return pos_fdist.max()

In [None]:
default_tagger("kočka")

In [None]:
default_tagger("sadlfkas")

# Nejčastější POS pro daný tvar

In [None]:
unigram_cfdist = nltk.ConditionalFreqDist((w, p) for s in vert_sents("/home/lukes/edu/python/pdt3.train.vrt") for w, p in s)

In [None]:
unigram_cfdist["včera"].max()

In [None]:
unigram_cfdist["stát"].max()

In [None]:
unigram_cfdist["asdfsaf"].max()

# Přes regulární výrazy

In [None]:
regex_tagger = nltk.RegexpTagger([
    (r".*ání$", "N"),
    (r".*[áí]t$", "V"),
    (r"a|i|(proto|tak)?že|když|aby|nebo|ani", "J"),
], backoff=nltk.DefaultTagger("N"))

In [None]:
regex_tagger.tag(["tání"])

In [None]:
regex_tagger.tag(["kočka"])

In [None]:
regex_tagger.evaluate(list(vert_sents("/home/lukes/edu/python/pdt3.test.vrt")))

# N-gramový tagger

![n-gram tagger](http://www.nltk.org/images/tag-context.png)

In [None]:
bigram_cfdist = nltk.ConditionalFreqDist(((b1.pos, b2.word), b2.pos) for s in vert_sents("/home/lukes/edu/python/pdt3.train.vrt") for b1, b2 in nltk.bigrams(s))

In [None]:
for k, v in bigram_cfdist.items():
    if len(v) > 1:
        print(k, dict(v))

In [None]:
t2 = nltk.BigramTagger(vert_sents("/home/lukes/edu/python/pdt3.train.vrt"))
t2.evaluate(list(vert_sents("/home/lukes/edu/python/pdt3.test.vrt")))

In [None]:
t0 = nltk.DefaultTagger("N")
t1 = nltk.UnigramTagger(vert_sents("/home/lukes/edu/python/pdt3.train.vrt"), backoff=t0)
t2 = nltk.BigramTagger(vert_sents("/home/lukes/edu/python/pdt3.train.vrt"), backoff=t1)
t2.evaluate(list(vert_sents("/home/lukes/edu/python/pdt3.test.vrt")))