## Задание на семинар 28 сентября по курсу анализа текстов ШАД

#### Тема: Определение частей речи с помощью скрытой марковской модели и алгоритма Витерби. 



**Дедлайн**:   9:00 утра 5 октября (для заочников 9.00 утра 8 октября)

**Среда выполнения**: Jupyter Notebook (Python 3)




В данной  работе вам предстоит:

- обучить скрытую марковскую модель на размеченных данных
- реализовать алгоритм Витерби для декодирования

Задание сдается в контест.

### Определение частей речи (POS)

Мы будем решать задачу определения частей речи (POS-теггинга) с помощью скрытой марковской модели (HMM). Формула совместной плотности наблюдаемых и скрытых переменных задается как

$$ p(X, T) = p(T) p(X|T) = p(t_1)  \prod_{i=2}^N p(t_i|t_{i-1}) \prod_{i=1}^N p(x_i|t_i)$$

В данном случае:

- наблюдаемые переменные $X$ - это слова корпуса;

- скрытые переменные $T$ - это POS-теги.

#### 1. Обучение HMM на размеченных данных

Требуется построить скрытую марковскую модель и настроить все ее параметры с помощью оценок максимального правдоподобия по размеченным данным (последовательности пар слово+тег):

- Вероятности переходов между скрытыми состояниями $p(t_i | t_{i - 1})$ посчитайте на основе частот биграмм POS-тегов.

- Вероятности эмиссий наблюдаемых состояний $p(x_i | t_i)$ посчитайте на основе частот "POS-тег - слово".

- Обратите внимание на проблему разреженности счетчиков и сделаейте все вероятности сглаженными по Лапласу (add-one smoothing).

- Распределение вероятностей начальных состояний $p(t_1)$ задайте равномерным.

Обратите внимание, что так как мы используем размеченные данные, то у нас нет необходимости в оценивании апостериорных вероятностей на скрытые переменные с помощью алгоритма forward-backword и использовании EM-алгоритма.

Загрузите brown корпус с универсальной системой тегирования. Для этого вам понадобятся ресурсы brown и universal_tagset из nltk.download().  В этой системе содержатся следующие теги:

- ADJ - adjective (new, good, high, ...)
- ADP - adposition	(on, of, at, ...)
- ADV - adverb	(really, already, still, ...)
- CONJ	- conjunction	(and, or, but, ...)
- DET - determiner, article	(the, a, some, ...)
- NOUN	- noun	(year, home, costs, ...)
- NUM - numeral	(twenty-four, fourth, 1991, ...)
- PRT -	particle (at, on, out, ...)
- PRON - pronoun (he, their, her, ...)
- VERB - verb (is, say, told, ...)
- .	- punctuation marks	(. , ;)
- X	- other	(ersatz, esprit, dunno, ...)

Тегсеты в корпусах текстов и в различных теггерах могут быть разными. Но есть маппер: http://www.nltk.org/_modules/nltk/tag/mapping.html

Проанализируйте данные, с которыми Вы работаете. В частности, ответьте на вопросы:
- Каков общий объем датасета, формат?
- Приведены ли слова к нижнему регистру? Чем  это нам может в дальнейшем помешать?
- Как распределены слова в корпусе?  Как распределены теги в корпусе?

Сделайте случайное разбиение выборки на обучение и контроль в отношении 9:1 и обучите скрытую марковскую модель из предыдущего пункта. Если впоследствии обучение моделей будет занимать слишком много времени, работайте с подвыборкой, например, только текстами определенных категорий.

In [1]:
from collections import Counter, defaultdict

import numpy as np
from nltk.corpus import brown


brown_tagged_sents = brown.tagged_sents(tagset="universal")


def train_hmm(tagged_sents):
    """
    Calucaltes p(tag), p(word|tag), p(tag|tag) from corpus.

    Args:
        tagged_sents: list of list of tagged tokens. 
            Example: 
            [[('dog', 'NOUN'), ('eats', 'VERB'), ...], ...]

    Returns:
        p_t, p_w_t, p_t_t - tuple of 3 elements:
        p_t - dict(float), tag -> proba
        p_w_t - dict(dict(float), tag -> word -> proba
        p_t_t - dict(dict(float), previous_tag -> tag -> proba
    """
    alpha=1e-24
    counter_tag = Counter()
    counter_tag_tag = Counter()
    counter_tag_word = Counter()
    tags = set()
    words = set()
    p_t_t = defaultdict(lambda: defaultdict(float))
    p_w_t = defaultdict(lambda: defaultdict(float))
    p_t = dict()
    
    # your code here
    for sent in tagged_sents:
        sent = [(word.lower(), tag) for word, tag in sent]
        sent_tags = [pair[1] for pair in sent]
        sent_words = [pair[0] for pair in sent]
        counter_tag.update(sent_tags)
        tags.update(sent_tags)
        counter_tag_tag.update([(ltag, rtag) for (_, ltag), (_, rtag) in zip(sent[:-1], sent[1:])])
        counter_tag_word.update(sent)
        words.update(sent_words)
    for (ltag, rtag), count in counter_tag_tag.items():
        p_t_t[ltag][rtag] = (count + alpha) / (counter_tag[ltag] + alpha * len(tags))
    for (word, tag), count in counter_tag_word.items():
        p_w_t[tag][word] = (count + alpha) / (counter_tag[tag] + alpha * (len(tags) + len(words)))
    for tag in tags:
        p_t[tag] = 1 / len(tags)
    return p_t, p_w_t, p_t_t

In [2]:
from sklearn.model_selection import train_test_split

In [3]:
train, test = train_test_split(brown_tagged_sents, test_size=0.1)
len(train), len(test)

(51606, 5734)

#### 2 Алгоритм Витерби для применения модели

Чтобы использовать обученную модель для определения частей речи на новых данных, необходимо реализовать алгоритм Витерби. Это алгоритм динамиеского программирования, с помощью которого мы будем находить наиболее вероятную последовательность скрытых состояний модели для фиксированной последовательности слов:

$$ \hat{T} = \arg \max_{T} p(T|X) = \arg \max_{T} p(X, T) $$

Определим функцию, определяющую максимальную вероятность последовательности, заканчивающейся на $i$-ой позиции в состоянии $k$:

$$\delta(k, i) = \max_{t_1, \dots t_{i-1}} p(x_1, \dots x_i, t_1, \dots t_i=k)$$

Тогда $\max_{k} \delta(k, N)$ - максимальная вероятность всей последовательности. А состояния, на которых эта вероятность достигается - ответ задачи.

Алгоритм Витерби заключается в последовательном пересчете функции $\delta(k, i)$ по формуле:

$$\delta(k, i) = \max_{m} \delta(m, i-1) p(t_i = k|t_{i-1} = m) p(x_i|t_i=k) $$

Аналогично пересчитывается функция, определяющая, на каком состоянии этот максимум достигается:

$$s(k, i) = \arg \max_{m} \delta(m, i-1) p(t_i = k|t_{i-1} = m) p(x_i|t_i=k) $$


На практике это означает заполнение двумерных массивов размерности: (длина последовательности) $\times$ (количество возможных состояний). Когда массивы заполнены, $\arg \max_{k} \delta(k, N)$ говорит о последнем состоянии. Начиная с него можно восстановить все состояния по массиву $s$. 

Осталось уточнить, как стартовать последовательный пересчет (чем заполнить первый столбец массива вероятностей):

$$\delta(k, 1) = p(k) p(x_1|t_1=k)$$

В реализации рекомендуется перейти к логарифмам, т.к. произведение большого числа маленьких вероятностей может приводить к вычислительным ошибкам.

In [4]:
p_t, p_w_t, p_t_t = train_hmm(train)

In [5]:
def viterbi_algorithm(test_tokens_list, p_t, p_w_t, p_t_t):
    """
    Args:
        test_tokens_list: list of tokens. 
            Example: 
            ['I', 'go']
        p_t: dict(float), tag->proba
        p_w_t: - dict(dict(float), tag -> word -> proba
        p_t_t: - dict(dict(float), previous_tag -> tag -> proba

    Returns:
        list of hidden tags
    """
    delta = np.zeros([len(p_t), len(test_tokens_list)])
    s = np.zeros([len(p_t), len(test_tokens_list)], dtype='int64')
    states = list(p_t.keys())
    delta[:, 0] = np.array([np.log(p_t[state] or 10 ** -300) + np.log(p_w_t[state][test_tokens_list[0]] or 10 ** -300)
                            for state in states])
    for i in range(1, len(test_tokens_list)):
        for j in range(len(states)):
            values = [
                delta[k, i-1] + np.log(p_t_t[states[k]][states[j]] or 10 ** -300) + np.log(p_w_t[states[j]][test_tokens_list[i]] or 10 ** -300)
                for k in range(len(states))
            ]
            delta[j, i] = np.max(values)
            s[j, i] = np.argmax(values)
    result = [np.argmax(delta[:, -1])]
    for i in range(1, len(test_tokens_list)):
        result.append(s[result[-1], -i])
    return [states[i] for i in reversed(result)]

Проверьте работу реализованного алгоритма на следующих модельных примерах, проинтерпретируйте результат.

- 'he can stay'
- 'a milk can'
- 'i saw a dog'
- 'an old saw'

In [6]:
viterbi_algorithm('language processing is extremely funny'.split(' '), p_t, p_w_t, p_t_t)

['NOUN', 'VERB', 'VERB', 'ADV', 'ADJ']

Примените модель к отложенной выборке Брауновского корпуса и подсчитайте точность определения тегов (accuracy). Сделайте выводы. 

In [7]:
correct_answers = 0
total = 0
for sent in test:
    words = [el[0] for el in sent]
    tags = [el[1] for el in sent]
    predicted_tags = viterbi_algorithm(words, p_t, p_w_t, p_t_t)
    for i in range(len(sent)):
        if tags[i] == predicted_tags[i]:
            correct_answers += 1
        total += 1
print('accuracy = {}'.format(correct_answers / total))

accuracy = 0.9018798124489181
