In [None]:
import nltk
import re

## Токенизация

In [None]:
# Чтение корпуса (=файла)
corpus = None
corpus_name = 'data.txt'
with open(corpus_name) as fin:
    corpus = fin.read()
print('Corpus length (in symbols) = %d' % len(corpus))

Разобьем текст на слова. Слово -- последовательность символов, разделенных чем-то кроме букв.

In [None]:
words = ##
print('Corpus length (in words) = %d' % len(words))
print(words[:50])

Что делать с знаками препинания?

In [None]:
words = ##
print('Corpus length (in words) = %d' % len(words))
print(words[:50])

Найдём все слова и посчитаем частоты.

In [None]:
from collections import Counter

In [None]:
words = ##
word_counts = Counter(words)
print(word_counts.most_common(20))

Что делать с регистром?

In [None]:
words_lower = ##
word_lower_counts = Counter(words_lower)

print(word_lower_counts.most_common(10))
print('Different words without lowering case:  %d' % len(word_counts))
print('Different words with lowering case: %d' % len(word_lower_counts))

## Библиотека NLTK

In [None]:
# Загрузка разных полезных данных
nltk.download()

In [None]:
from nltk.corpus import conll2000

In [None]:
conll2000.ensure_loaded()

In [None]:
?conll2000 # можно посмотреть справку по любому объекту Python

Встроенный токенизатор!

In [None]:
nltk.word_tokenize(corpus)

Встроенные теггеры!

In [None]:
train_sents = conll2000.tagged_sents()[:8000]

In [None]:
unigram_tagger = nltk.UnigramTagger(train_sents)
bigram_tagger = nltk.BigramTagger(train_sents)
combined_bigram_tagger = nltk.BigramTagger(train_sents, backoff=unigram_tagger)

Попробуем разметить предложение. Что пошло не так?

In [None]:
unigram_tagger.tag("Mary had a little lamb.")

Исправляемся!

In [None]:
###
###

# POS-tagging

In [None]:
# Функция, которая считает точность.
def accuracy(test_sents, postagger):
    errors = 0
    length = 0
    for sent in test_sents:
        length += len(sent)
        sent, real_tags = zip(*sent)  # что тут произошло?
        my_tags = ##
        for i in range(len(my_tags)):
            ##
    return ##

In [None]:
test_sents = conll2000.tagged_sents()[8000:]
accuracy(test_sents, combined_bigram_tagger)

### Простейший POS-теггер
Для каждого слова определим какими тегами оно бывает отмечено в обучающем корпусе, а для предсказания выбираем наиболее частотный тег:
$$
tag(w) = \arg \max_{i \in 1 .. |Tags| } P(tag_i \mid w).
$$
NB! Если какое-то слово в обучающем корпусе мы не встретили, то тег на нем никаким образом уже поставить не сможем.

In [None]:
# Нормализатор для получения распределения вероятностей из частот
class BaseNormalizer:
    def normalize(self, counter):
        ##

In [None]:
from collections import defaultdict

In [None]:
# Модель теггера
# Здесь будут храниться слова и вероятности их тегов, например:
# { 'content': Counter({'JJ': 0.3, 'NN': 0.7})}
class WordTagModel:
    def __init__(self, tagged_sents, normalizer=BaseNormalizer()):
        self.normalizer = normalizer
        self.model = defaultdict(Counter)
        # Для каждого слова добавим Counter с частотами тегов
        # Не забудем нормализовать частоты, чтобы получить вероятности
        ##
    
    def __getitem__(self, word):
        return self.model[word]

In [None]:
# Реализуем теггер наподобие nltk-шных
class SimplePOSTagger:
    # Инициализировать теггер будем моделью word_tag_model, реализация которой выше
    def __init__(self, word_tag_model):
        self.wts = word_tag_model
        
    def tag(self, sent):
        tags = []
        # sent - предложение в таком же виде, как для теггеров NLTK, то есть список слов (list).
        ##
        # Что делать со словами, которых нет в модели?
        ##
        return list(zip(sent, tags))

In [None]:
# Проверяем
wtm = WordTagModel(train_sents)
postagger = SimplePOSTagger(wtm)
print(accuracy(test_sents, postagger))

## Unigram tagger
Для каждого слова будем выбирать наиболее вероятный тег, учитывая общую вероятность самого тега. Тут можно будет добавить сглаживание для слов, которых в модели не было.
$$
     tag(w) = \arg \max_{i \in 1 .. |Tags| } P(w \mid tag_i)P(tag_i)
$$
Для этого нам понадобятся новые классы:

**EmissionModel**, хранящий для каждого тега вероятности быть присвоенным тому или иному слову.

**TransitionModel**, отвечающий за вероятность $P(tag_i)$.

**UnigramPOSTagger**, сопоставляющий последовательности слов последовательность тегов.

In [None]:
class EmissionModel:
    def __init__(self, tagged_sents, normalizer=BaseNormalizer()):
        self.normalizer = normalizer
        self.model = defaultdict(Counter)
        # self.model будет иметь вид 
        # defaultdict({'tag_1': Counter({'word_1': 0.3, 'word_2': 0.7}), 'tag_2': Counter({'word_1': 0.6, 'word_3': 0.3 ...})})
        ##
        
    def add_unk_token(self):
        # Для каждого тега добавим одинаковую вероятность быть приписанным любому слову, которого нет в модели
        ##
        
    def tags(self):
        # Добавим возможность возвращать все теги, которые есть в модели
        return self.model.keys()
    
    def __getitem__(self, tag):
        # Все слова для данного тега
        return self.model[tag]
    
    def __call__(self, word, tag):
        # Самое интересное - вероятность P(word|tag)
        if word not in self[tag]:
            return self[tag]['UNK']
        return self[tag][word]

In [None]:
class TransitionModel:
    def __init__(self, tag_seqs, normalizer=BaseNormalizer()):
        self.normalizer = normalizer
        # Это модель будет хранить вероятности P(tag): Counter({'tag_1': 0.34, 'tag_2': 0.1 ...})
        self.model = Counter()
        ##
        
    def tags(self):
        return self.model.keys()
    
    def __getitem__(self, tag):
        return self.model[tag]
    
    def __call__(self, tag):
        return self.model[tag]

In [None]:
class UnigramPOSTagger:
    def __init__(self, emission_model, transition_model):
        self.em = emission_model
        self.tm = transition_model
        
    def tag(self, sent):
        # Для списка слов возвращаем список пар (слово, тег)
        # Для каждого слова проходимся по всем тегам
        # И выбираем максимум по формуле
        tags = []
        for word in sent:
            ##
        return list(zip(sent, tags))

In [None]:
# Проверяем!
em = EmissionModel(train_sents)
tm = TransitionModel([[tag for word, tag in sent] for sent in train_sents])
unigram_postagger = UnigramPOSTagger(em, tm)

In [None]:
print(accuracy(test_sents, unigram_postagger))