# HMM и Разметка частей речи

Мы не будем реализовывать алгоритмы HMM с нуля, а воспользуемся библиотекой ``hmmlearn`` 

In [1]:
# !pip install hmmlearn

In [2]:
from hmmlearn.hmm import MultinomialHMM
import numpy as np

## Строим POS-tagger для английского языка
- для обучения мы воспользуемся размеченными данными [Brown Corpus](https://en.wikipedia.org/wiki/Brown_Corpus), который можно скачать прямо из библитеки nltk
- мы будем использовать universal_tagset из nltk (это не таги Universal Dependencies, о которых мы говорили на лекции)

In [3]:
import nltk
nltk.download('brown')
nltk.download('universal_tagset')

[nltk_data] Downloading package brown to
[nltk_data]     /Users/antonina.goryacheva/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package universal_tagset to
[nltk_data]     /Users/antonina.goryacheva/nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!


True

### Вам нужно выполнить следующие шаги, чтобы построить POS-tagger

**Вопросы:**

1. Возьмите размеченные предложения из  ``nltk.corpus.brown.tagged_sents(tagset='universal')``  

    - Используйте ``sklearn.model_selection.train_test_split`` чтобы разделить корпус на  80% training data и 20% testing data.

In [4]:
from sklearn.model_selection import train_test_split
from collections import Counter, OrderedDict

In [5]:
test_size = 0.2

data = nltk.corpus.brown.tagged_sents(tagset='universal')
X_train, X_test = train_test_split(data, test_size=test_size)

In [6]:
len(data), len(X_train), len(X_test)

(57340, 45872, 11468)


2. Создайте  array ``pos_tags``  содержащий все уникальные POS таги, которые есть в трейн корпусе. Сколько уникальных тагов у вас получилось?

In [7]:
pos_tags = set([tag for text in X_train for (word, tag) in text])
print('Число уникальных POS тагов: ', len(pos_tags))

Число уникальных POS тагов:  12


3. Найдите 5000 наиболее частов токенов (используйте collections.Counter). 
    - Перед подсчетом сделайте все буквы в словах маленькими (lowercase)
    - Сохраните эти 5000 унаиболее частотных токенов в array ``vocab``. 
    -  Добавьте токен '[UNK]' в качестве первого элемента ``vocab`` для обозначения всех слов, не вошедших вчастотный словарь =  "out of vocabulary")
    - Проверьте себя: первые 5 элементов ``vocab`` должны быть \["\[UNK\]", "the", ",", ".", "of", ...\]

In [8]:
word_dict = Counter()
for pair in X_train: word_dict.update([word.lower() for word, _ in pair])

In [9]:
N = 5000
vocab = ['[UNK]'] + [word for word, _ in word_dict.most_common(N)]
vocab[:5]

['[UNK]', 'the', ',', '.', 'of']

4. Используйте ``hmmlearn.hmm.MultinomialHMM``, чтобы создать модель``pos_model`` для разметки частей речи (POS-tagging). 

  * Установите ``pos_model.startprob_`` используя информацию о доле предложений, начинающихся с каждого из POS тагов из вашего списка уникальных тагов. Например, какая доля предложений начинается с глагола и т.д. 
     -  Подсказка: это должен быть лист длины ``len(pos_tags)``, сумма вероятностей бытьв начале предложения должна бытьравна 1.
  
  * Установите ``pos_model.transmat_`` - вероятность перехода от одного тага к другому на основе данных трейн корпуса.
      - Подсказка: это должна быть матрица ``(len(pos_tags), len(pos_tags))``, сумма по каждой из строк матрицы должна быть равна 1.
  
  * Установите ``pos_model.emissionprob_`` - вероятность для каждого токена из ``vocab`` относится к какой-либо части речи. 
      - Убедитесь, что все токены состоят только из маленьких букв. 
      - Все токены не из ``vocab`` заменены на  "\[UNK\]". 
      - Подсказка: это должна быть матрица ``(len(pos_tags), len(vocab))`` , сумма по каждой из строк матрицы должна быть равна 1.

In [10]:
pos_idx = {tag: i for i, tag in enumerate(pos_tags)}
vocab_idx = {word: i for i, word in enumerate(vocab)}
print(pos_idx)

{'X': 0, 'NOUN': 1, 'PRT': 2, 'ADJ': 3, 'ADV': 4, 'PRON': 5, 'VERB': 6, 'DET': 7, 'NUM': 8, 'CONJ': 9, 'ADP': 10, '.': 11}


In [11]:
# априоорные вероятности
startprob = np.zeros(len(pos_tags))
for text in X_train:
    key = pos_idx[text[0][1]]
    startprob[key] += 1

n_texts = len(X_train)
startprob = startprob / n_texts

print('Check sum: ', sum(startprob))

Check sum:  1.0


In [12]:
# матрица перехдов
transmat =  np.zeros((len(pos_tags), len(pos_tags)))
for text in X_train:
    for i in range(len(text)-1):
        key_1 = pos_idx[text[i][1]]
        key_2 = pos_idx[text[i+1][1]]
        transmat[key_1, key_2] += 1
        
row_sums = transmat.sum(axis=1)
transmat_normed = transmat / row_sums[:, np.newaxis]

In [13]:
emissionprob = np.zeros((len(pos_tags), len(vocab)))
for text in X_train:
    for word, tag in text:
        word = word.lower()
        key_1 = pos_idx[tag]
        if word in vocab:
            key_2 = vocab_idx[word]
        else:
            key_2 = vocab_idx["[UNK]"]
        emissionprob[key_1, key_2] += 1
        
row_sums = emissionprob.sum(axis=1)
emissionprob_normed = emissionprob / row_sums[:, np.newaxis]

In [14]:
pos_model = MultinomialHMM(n_components=len(pos_tags))

pos_model.startprob_ = startprob
pos_model.transmat_ = transmat_normed
pos_model.emissionprob_ = emissionprob_normed

5. Напишите функцию``get_pos(sentence)``, которая возвращает наиболее вероятную последовательность тегов для некоторого предложения that (``sentence``) 
    - в этой функции используйте pos_model.decode(...). 

In [15]:
def get_pos(sentence, pos_model, vocab_idx, pos_idx):
    reverse_pos_idx = {v:k for k,v in pos_idx.items()}
    splited = sentence.split(' ')
    tokens = [vocab_idx.get(x.lower(), 0) for x in splited]
    logprob, seq = pos_model.decode(np.atleast_2d(tokens).T)
    return [reverse_pos_idx[x] for x in seq]

6. Попробуйте применить вашу модель к нескольким предложениям (слова только измаленьких букв, без пунктуации).
    - Обязательно попробуйте для предложений: "this is a test", "saint petersburg is the second-largest city in russia.", "i know how to use hmm". 
    - Прокомментируйте получившиеся результаты. Похоже на правду?
    - Если появились идеи, почему модель ошибается, напишите.

In [16]:
sentence = "this is a test"
get_pos(sentence, pos_model, vocab_idx, pos_idx)

['DET', 'VERB', 'DET', 'NOUN']

In [17]:
sentence = "saint petersburg is the second-largest city in russia."
get_pos(sentence, pos_model, vocab_idx, pos_idx)

# saint petersburg = PROPN
# russia = PROPN

['NOUN', 'NOUN', 'VERB', 'DET', 'ADJ', 'NOUN', 'ADP', 'NOUN']

In [18]:
sentence = "i know how to use hmm"
get_pos(sentence, pos_model, vocab_idx, pos_idx)

# to use - инфинитив, а не 'PRT' +'VERB'?

['PRON', 'VERB', 'ADV', 'PRT', 'VERB', 'VERB']

**Бонус:** Оцените правильность этой модели на тестовых данных

In [19]:
# просто посмотреть глазами
for i, text in enumerate(X_test[:5]):
    sentence = ' '.join([word.lower() for word, _ in text])
    true_res = [x[1] for x in text]
    model_res = get_pos(sentence, pos_model, vocab_idx, pos_idx)
    print(i, sentence)
    print('true: ', true_res)
    print('pred: ', model_res)
    print()

0 i sighed , thinking that among other things , people here seemed to be those who would have to cut down if they earned less than $85,000 yearly ; ;
true:  ['PRON', 'VERB', '.', 'VERB', 'ADP', 'ADP', 'ADJ', 'NOUN', '.', 'NOUN', 'ADV', 'VERB', 'PRT', 'VERB', 'DET', 'PRON', 'VERB', 'VERB', 'PRT', 'VERB', 'PRT', 'ADP', 'PRON', 'VERB', 'ADJ', 'ADP', 'NOUN', 'ADV', '.', '.']
pred:  ['PRON', 'VERB', '.', 'VERB', 'ADP', 'ADP', 'ADJ', 'NOUN', '.', 'NOUN', 'ADV', 'VERB', 'PRT', 'VERB', 'DET', 'PRON', 'VERB', 'VERB', 'PRT', 'VERB', 'PRT', 'ADP', 'PRON', 'VERB', 'ADV', 'ADP', 'ADJ', 'NOUN', '.', '.']

1 thus the films seen as they came in ( coordinated for the regular sections ) , were often out of context .
true:  ['ADV', 'DET', 'NOUN', 'VERB', 'ADP', 'PRON', 'VERB', 'PRT', '.', 'VERB', 'ADP', 'DET', 'ADJ', 'NOUN', '.', '.', 'VERB', 'ADV', 'PRT', 'ADP', 'NOUN', '.']
pred:  ['ADV', 'DET', 'NOUN', 'VERB', 'ADP', 'PRON', 'VERB', 'ADP', '.', 'NOUN', 'ADP', 'DET', 'ADJ', 'NOUN', '.', '.', 'VERB', 'A

In [20]:
result = []
for i, text in enumerate(X_test):
    sentence = ' '.join([word.lower() for word, _ in text])
    true_res = [x[1] for x in text]
    model_res = get_pos(sentence, pos_model, vocab_idx, pos_idx)
    res = [1 if true_ == pred_ else 0 for true_, pred_ in zip(true_res, model_res)]
    result.append(res)

In [21]:
# доля верно угаданных частей речи среди всех
np.mean([sum(r) / len(r) for r in result])

0.9292224195048822

In [22]:
# доля предложений, в которых угадано 100% верно
tmp = [sum(r) / len(r) for r in result]
sum([1 for x in tmp if x==1 ]) / len(tmp)

0.34365190094175097

Решение присылйте на почту  bdt-mf-ml-nlp-2020-q4@bigdatateam.org  

В теме письма укажите: ``HW2:CompLing. ФИО``

Пожалуйста, оставьте обратную связь о задании [по ссылке](http://rebrand.ly/mfnlp2020q4_feedback_hw02). Она (при желании) анонимна ;)