# Домашнее задание 2. Извлечение коллокаций.

При выполнении домашнего задания можно пользоваться тетрадками с семинаров.

### Описание задания:

1. Скачайте [корпус](https://github.com/sjut/HSE-Compling/blob/master/hw/testset2.txt) текстов, обработайте его с помощью UDPipe, извлеките все группы 
"глагол + прямое дополнение, выраженное существительным" 
(не учитывайте глаголы, которые встречаются в корпусе менее **50** раз).

2. Оцените полученные словосочетания следующими метриками: *log-likelihood*, *dice*, *PMI* (можно использовать `nltk.collocations`). 

3. Подготовьте "золотой стандарт" коллокаций (далее ЗС) для этого корпуса: 
возьмите словосочетания, которые попадают в топ-100 по всем метрикам,
пересеките со [словарем глагольной сочетаемости](https://yadi.sk/d/5WWwOr9ccemcZA).

4. Добавьте в ЗС словосочетания из топ-100 , которые не вошли в словарь, но являются коллокациями (если такие есть), объясните свой выбор.

5. Оцените ранговую корреляцию (коэффициент Спирмена) результатов по каждой метрике с ЗС. 
Как это работает, читайте, например, [тут](https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient#Example).
Можно использовать `scipy.stats.spearmanr`.
Опишите ошибки каждой метрики.

### Критерии оценки:

По 2 балла на каждый пункт.

### Формат сдачи задания:

Jupyter-notebook на гитхабе.

### Дедлайн: 

26 ноября 2019 10:00мск

In [255]:
import nltk

from collections import Counter
from itertools import chain
from nltk import collocations
from nltk.parse import DependencyGraph
from nltk.tokenize import RegexpTokenizer
from pymorphy2 import MorphAnalyzer
from scipy.stats import spearmanr

In [168]:
m = MorphAnalyzer()
tokenizer = RegexpTokenizer(r'\w+')

## 1. Corpus preprocessing

In [5]:
!C:/Users/Lenovo/V/studies/HSE/prog/AutoT/udpipe-1.2.0-bin/bin-win64/udpipe --input horizontal --output conllu \
--tokenize --tag --parse \
C:\Users\Lenovo\V\studies\HSE\prog\AutoT\russian-syntagrus-ud-2.4-190531.udpipe \
< corpus.txt > corpus.conllu

Loading UDPipe model: done.


In [7]:
trees = []

with open('corpus.conllu', 'r', encoding='utf-8') as f:
    parsed_sents = f.read().split('\n\n')

    for sent in parsed_sents:
        tree = [line for line in sent.split('\n') if line and line[0] != '#']
        trees.append('\n'.join(tree))

**let us find the verbs to filter the rare ones later**

In [122]:
verbs = []
lemmas = []
for tree in trees:
    for i in tree.split('\n'):
        line = i.split('\t')
        if len(line) > 3:
            if line[3] == "VERB":
                verbs.append(line[2])
            if line[3] != "PUNCT":
                lemmas.append(line[2])

In [126]:
' '.join(lemmas[0:30])

'я предложить бы единый Россия объединить в один окно не только депутат но и суд и прокуратура и милиция и собес заявить Ъ член политсовет СПС Борис Надеждин и тогда'

In [42]:
len(verbs)

17055

In [53]:
verb_counts = Counter(verbs) 
frequent_verbs = [el for el in verb_counts.elements() if verb_counts[el] >= 50]

In [54]:
Counter(frequent_verbs)

Counter({'заявить': 258,
         'подать': 274,
         'просить': 144,
         'признать': 345,
         'стать': 213,
         'сообщить': 217,
         'обратиться': 139,
         'отказаться': 117,
         'рассматривать': 99,
         'рассказать': 54,
         'рассмотреть': 90,
         'мочь': 349,
         'начаться': 74,
         'обвинить': 461,
         'решить': 86,
         'пытаться': 89,
         'использовать': 57,
         'напомнить': 97,
         'получить': 127,
         'передать': 68,
         'направить': 105,
         'удаться': 61,
         'сказать': 98,
         'иметь': 94,
         'делать': 77,
         'обжаловать': 102,
         'отказать': 59,
         'говорить': 139,
         'счесть': 55,
         'быть': 136,
         'оставить': 61,
         'дать': 70,
         'удовлетворить': 173,
         'вынести': 153,
         'требовать': 173,
         'являться': 113,
         'обвинять': 120,
         'принять': 151,
         'выплатить': 62,
       

In [55]:
frequent_verbs = set(frequent_verbs)

**let us find verb-noun object pairs**

In [16]:
g = DependencyGraph(trees[2], top_relation_label='root')

In [17]:
for t in g.triples():
    print(t)

(('подал', 'VERB'), 'nummod', ('20', 'NUM'))
(('20', 'NUM'), 'flat', ('ноября', 'NOUN'))
(('подал', 'VERB'), 'nsubj', ('он', 'PRON'))
(('подал', 'VERB'), 'obl', ('суд', 'NOUN'))
(('суд', 'NOUN'), 'case', ('в', 'ADP'))
(('суд', 'NOUN'), 'amod', ('арбитражный', 'ADJ'))
(('суд', 'NOUN'), 'nmod', ('Москвы', 'PROPN'))
(('подал', 'VERB'), 'obj', ('иск', 'NOUN'))
(('иск', 'NOUN'), 'acl:relcl', ('просит', 'VERB'))
(('просит', 'VERB'), 'punct', (',', 'PUNCT'))
(('просит', 'VERB'), 'obl', ('котором', 'PRON'))
(('котором', 'PRON'), 'case', ('в', 'ADP'))
(('просит', 'VERB'), 'xcomp', ('признать', 'VERB'))
(('признать', 'VERB'), 'obj', ('договор', 'NOUN'))
(('договор', 'NOUN'), 'amod', ('недействительным', 'ADJ'))
(('договор', 'NOUN'), 'nmod', ('присоединении', 'NOUN'))
(('присоединении', 'NOUN'), 'case', ('о', 'ADP'))
(('присоединении', 'NOUN'), 'nmod', ('Импэксбанка', 'PROPN'))
(('присоединении', 'NOUN'), 'nmod', ('Райффайзенбанку', 'PROPN'))
(('Райффайзенбанку', 'PROPN'), 'case', ('к', 'ADP'))
(

In [58]:
for t in g.triples():
    if 'VERB' in t[0] and 'NOUN' in t[2] and t[1] == 'obj':
        print(t[0][0], t[2][0])

подал иск
признать договор


In [222]:
verb_noun_pairs = []
strange_trees = []
for i, tree in enumerate(trees):
    try:
        g = DependencyGraph(tree, top_relation_label='root')
        for t in g.triples():
            if 'VERB' in t[0] and 'NOUN' in t[2] and t[1] == 'obj':
                if t[0][0] in frequent_verbs:
                    verb_noun_pairs.append((t[0][0], t[2][0]))
    except (TypeError, AssertionError):
        strange_trees.append(tree)

In [223]:
verb_noun_pairs[10:20]

[('дать', 'возможность'),
 ('взыскать', 'задолженность'),
 ('обжаловать', 'решение'),
 ('получить', 'средства'),
 ('предъявить', 'обвинение'),
 ('получить', 'комментарии'),
 ('получить', 'комментарии'),
 ('обжаловать', 'решение'),
 ('дать', 'показания'),
 ('признать', 'организацию')]

In [226]:
verb_noun_pairs = [(m.parse(pair[0])[0].normal_form, m.parse(pair[1])[0].normal_form) for pair in verb_noun_pairs]

In [227]:
verb_noun_pairs[10:20]

[('дать', 'возможность'),
 ('взыскать', 'задолженность'),
 ('обжаловать', 'решение'),
 ('получить', 'средство'),
 ('предъявить', 'обвинение'),
 ('получить', 'комментарий'),
 ('получить', 'комментарий'),
 ('обжаловать', 'решение'),
 ('дать', 'показание'),
 ('признать', 'организация')]

In [224]:
len(verb_noun_pairs)

445

In [228]:
DependencyGraph(strange_trees[0], top_relation_label='root')

AssertionError: 

In [229]:
DependencyGraph(strange_trees[17], top_relation_label='root')

Exception: Cannot find the dot binary from Graphviz package

<DependencyGraph with 1 nodes>

## 2. Collocation extraction

In [145]:
def normalize(text):
    tokens = tokenizer.tokenize(text.lower())
    lemmas = [m.parse(t)[0].normal_form for t in tokens]
    return lemmas

In [166]:
text = 'Учёная степень — степень квалификационной системы в науке, позволяющей ранжировать научных деятелей на отдельных этапах академической карьеры.'

In [190]:
finder2 = collocations.BigramCollocationFinder.from_documents([normalize(text)])
help(finder2)

Help on BigramCollocationFinder in module nltk.collocations object:

class BigramCollocationFinder(AbstractCollocationFinder)
 |  A tool for the finding and ranking of bigram collocations or other
 |  association measures. It is often useful to use from_words() rather than
 |  constructing an instance directly.
 |  
 |  Method resolution order:
 |      BigramCollocationFinder
 |      AbstractCollocationFinder
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __init__(self, word_fd, bigram_fd, window_size=2)
 |      Construct a BigramCollocationFinder, given FreqDists for
 |      appearances of words and (possibly non-contiguous) bigrams.
 |  
 |  score_ngram(self, score_fn, w1, w2)
 |      Returns the score for a given bigram using the given scoring
 |      function.  Following Church and Hanks (1990), counts are scaled by
 |      a factor of 1/(window_size - 1).
 |  
 |  ----------------------------------------------------------------------
 |  Class methods defined here

In [172]:
finder2.nbest(collocations.BigramAssocMeasures().likelihood_ratio, 20)

[('академический', 'карьера'),
 ('в', 'наука'),
 ('деятель', 'на'),
 ('квалификационный', 'система'),
 ('на', 'отдельный'),
 ('наука', 'позволять'),
 ('научный', 'деятель'),
 ('отдельный', 'этап'),
 ('позволять', 'ранжировать'),
 ('ранжировать', 'научный'),
 ('система', 'в'),
 ('этап', 'академический'),
 ('степень', 'квалификационный'),
 ('учёный', 'степень'),
 ('степень', 'степень')]

In [191]:
finder2.apply_ngram_filter(lambda w1, w2: (w1, w2) not in [('академический', 'карьера'),
 ('в', 'наука')])

In [192]:
finder2.nbest(collocations.BigramAssocMeasures().likelihood_ratio, 20)

[('академический', 'карьера'), ('в', 'наука')]

**let us scale it up**

In [230]:
finder_corpus = collocations.BigramCollocationFinder.from_documents([lemmas])

In [231]:
finder_corpus.apply_ngram_filter(lambda w1, w2: (w1, w2) not in verb_noun_pairs)

**log-likelyhood**

In [232]:
finder_corpus.score_ngrams(collocations.BigramAssocMeasures().likelihood_ratio)

[(('подать', 'иск'), 390.7469918313811),
 (('удовлетворить', 'иск'), 367.9421146832274),
 (('принять', 'решение'), 296.7262631069758),
 (('удовлетворить', 'ходатайство'), 227.81434468255617),
 (('вынести', 'решение'), 206.17171264048898),
 (('обжаловать', 'решение'), 197.25550965567118),
 (('иметь', 'право'), 189.0355350445676),
 (('просить', 'суд'), 175.41196696936686),
 (('вынести', 'приговор'), 135.92698508708463),
 (('предъявить', 'обвинение'), 116.95866622592024),
 (('подать', 'апелляция'), 116.51807466550632),
 (('рассмотреть', 'жалоба'), 116.24694538424626),
 (('отклонить', 'иск'), 110.85386875573855),
 (('отменить', 'решение'), 88.1360427417323),
 (('подтвердить', 'законность'), 79.94124462254973),
 (('отменить', 'постановление'), 74.24581090504788),
 (('оспаривать', 'решение'), 71.97322086523803),
 (('выплатить', 'компенсация'), 64.25504676390007),
 (('удовлетворить', 'жалоба'), 63.14618879984968),
 (('рассматривать', 'дело'), 61.346858270590275),
 (('рассматривать', 'иск'), 6

In [233]:
loglike_100best = finder_corpus.nbest(collocations.BigramAssocMeasures().likelihood_ratio, 100)

**dice**

In [234]:
finder_corpus.score_ngrams(collocations.BigramAssocMeasures().dice)

[(('удовлетворить', 'ходатайство'), 0.17142857142857143),
 (('подать', 'иск'), 0.14628297362110312),
 (('удовлетворить', 'иск'), 0.14188267394270124),
 (('иметь', 'право'), 0.13529411764705881),
 (('подтвердить', 'законность'), 0.12598425196850394),
 (('оспорить', 'предписание'), 0.1111111111111111),
 (('выплатить', 'компенсация'), 0.109375),
 (('предъявить', 'обвинение'), 0.1079136690647482),
 (('вынести', 'приговор'), 0.10734463276836158),
 (('рассмотреть', 'жалоба'), 0.10309278350515463),
 (('отменить', 'постановление'), 0.09836065573770492),
 (('отменить', 'регистрация'), 0.09375),
 (('принять', 'решение'), 0.09056603773584905),
 (('оспаривать', 'законность'), 0.08888888888888889),
 (('подать', 'апелляция'), 0.08414239482200647),
 (('дать', 'показание'), 0.08),
 (('вынести', 'решение'), 0.06981132075471698),
 (('решить', 'проблема'), 0.06779661016949153),
 (('рассмотреть', 'вопрос'), 0.06698564593301436),
 (('обжаловать', 'решение'), 0.06342913776015857),
 (('вынести', 'вердикт'), 

In [235]:
dice_100best = finder_corpus.nbest(collocations.BigramAssocMeasures().dice, 100)

**PMI**

In [236]:
finder_corpus.score_ngrams(collocations.BigramAssocMeasures().pmi)

[(('доказать', 'правность'), 11.253671275427315),
 (('использовать', 'женщинсмертница'), 11.253671275427315),
 (('выплатить', 'иркутянин'), 11.132364979205182),
 (('направить', 'альтернативщик'), 10.372315771925937),
 (('получить', 'компромат'), 10.097876602819891),
 (('предъявить', 'ультиматум'), 9.45720466951245),
 (('принять', 'резолюция'), 9.24421094617825),
 (('оспорить', 'правомерность'), 8.99909844834172),
 (('доказать', 'неправомерность'), 8.931743180539954),
 (('объявить', 'перерыв'), 8.916636288149745),
 (('оспорить', 'предписание'), 8.861594924591783),
 (('доказать', 'бездействие'), 8.446316353369712),
 (('подтвердить', 'законность'), 8.408841647951048),
 (('оспаривать', 'законность'), 8.161748785986276),
 (('выплатить', 'дивиденд'), 8.132364979205182),
 (('доказать', 'невиновность'), 8.083746273985005),
 (('дать', 'показание'), 8.050387677038573),
 (('отменить', 'указ'), 7.9041669361875275),
 (('выплатить', 'компенсация'), 7.895325781904335),
 (('оспаривать', 'предписание')

In [237]:
pmi_100best = finder_corpus.nbest(collocations.BigramAssocMeasures().pmi, 100)

## 3. Gold Standard

In [238]:
GS_metrics = set(pmi_100best).intersection(set(dice_100best)).intersection(set(loglike_100best))
GS_metrics

{('арестовывать', 'акция'),
 ('вынести', 'вердикт'),
 ('вынести', 'приговор'),
 ('вынести', 'решение'),
 ('выплатить', 'дивиденд'),
 ('выплатить', 'иркутянин'),
 ('выплатить', 'компенсация'),
 ('выплатить', 'штраф'),
 ('дать', 'возможность'),
 ('дать', 'заключение'),
 ('дать', 'определение'),
 ('дать', 'показание'),
 ('дать', 'указание'),
 ('делать', 'вид'),
 ('доказать', 'бездействие'),
 ('доказать', 'вина'),
 ('доказать', 'невиновность'),
 ('доказать', 'незаконность'),
 ('доказать', 'неправомерность'),
 ('доказать', 'правность'),
 ('запретить', 'деятельность'),
 ('иметь', 'право'),
 ('использовать', 'женщинсмертница'),
 ('назначить', 'наказание'),
 ('направить', 'альтернативщик'),
 ('направить', 'запрос'),
 ('обвинить', 'президент'),
 ('обжаловать', 'приговор'),
 ('обжаловать', 'решение'),
 ('обжаловать', 'санкция'),
 ('объявить', 'перерыв'),
 ('обязать', 'ответчик'),
 ('оспаривать', 'законность'),
 ('оспаривать', 'отказ'),
 ('оспаривать', 'предписание'),
 ('оспаривать', 'решение'),


In [239]:
verb_coll = []
with open("verb_coll.txt", 'r', encoding="utf-8") as f:
    text = f.read()

lines = text.split("\n")
for line in lines:
    entry = line.split("\t")
    if len(entry) > 2:
        coll = entry[2]
        words = coll.split()
        if len(words) == 2:
            coll_lemm = (m.parse(words[0])[0].normal_form, m.parse(words[1])[0].normal_form)
            verb_coll.append(coll_lemm)

In [240]:
verb_coll[80:100]

[('атака', 'захлебнуться'),
 ('атака', 'отбить'),
 ('атака', 'отбить'),
 ('начаться', 'атака'),
 ('начаться', 'атака'),
 ('начать', 'атака'),
 ('начать', 'атака'),
 ('повесть', 'атака'),
 ('дать', 'бал'),
 ('дать', 'бал'),
 ('конченый', 'бал'),
 ('править', 'бал'),
 ('найти', 'баланс'),
 ('найти', 'баланс'),
 ('соблюсти', 'баланс'),
 ('соблюсти', 'баланс'),
 ('состояться', 'банкет'),
 ('устроить', 'банкет'),
 ('устроить', 'банкет'),
 ('говорить', 'бас')]

In [252]:
GS = GS_metrics.intersection(set(verb_coll))
GS

{('вынести', 'приговор'),
 ('вынести', 'решение'),
 ('дать', 'возможность'),
 ('дать', 'заключение'),
 ('дать', 'определение'),
 ('дать', 'показание'),
 ('дать', 'указание'),
 ('делать', 'вид'),
 ('доказать', 'вина'),
 ('направить', 'запрос'),
 ('обжаловать', 'приговор'),
 ('обжаловать', 'решение'),
 ('объявить', 'перерыв'),
 ('оспаривать', 'решение'),
 ('отменить', 'постановление'),
 ('отменить', 'решение'),
 ('подать', 'жалоба'),
 ('подать', 'иск'),
 ('получить', 'контроль'),
 ('предъявить', 'обвинение'),
 ('предъявить', 'претензия'),
 ('принять', 'мера'),
 ('принять', 'резолюция'),
 ('принять', 'решение'),
 ('пройти', 'курс'),
 ('пройти', 'проверка'),
 ('рассматривать', 'вопрос'),
 ('рассматривать', 'дело'),
 ('рассмотреть', 'вопрос'),
 ('рассмотреть', 'жалоба'),
 ('решить', 'вопрос'),
 ('решить', 'проблема'),
 ('решить', 'судьба'),
 ('удовлетворить', 'запрос'),
 ('удовлетворить', 'иск')}

In [253]:
len(GS)

35

## 4. Add absent collocations

**absent in dictionary**

In [243]:
GS_metrics.difference(GS)

{('арестовывать', 'акция'),
 ('вынести', 'вердикт'),
 ('выплатить', 'дивиденд'),
 ('выплатить', 'иркутянин'),
 ('выплатить', 'компенсация'),
 ('выплатить', 'штраф'),
 ('доказать', 'бездействие'),
 ('доказать', 'невиновность'),
 ('доказать', 'незаконность'),
 ('доказать', 'неправомерность'),
 ('доказать', 'правность'),
 ('запретить', 'деятельность'),
 ('иметь', 'право'),
 ('использовать', 'женщинсмертница'),
 ('назначить', 'наказание'),
 ('направить', 'альтернативщик'),
 ('обвинить', 'президент'),
 ('обжаловать', 'санкция'),
 ('обязать', 'ответчик'),
 ('оспаривать', 'законность'),
 ('оспаривать', 'отказ'),
 ('оспаривать', 'предписание'),
 ('оспорить', 'доначисление'),
 ('оспорить', 'правомерность'),
 ('оспорить', 'предписание'),
 ('оспорить', 'претензия'),
 ('оспорить', 'решение'),
 ('оспорить', 'указ'),
 ('оставить', 'приговор'),
 ('отклонить', 'иск'),
 ('отменить', 'запрет'),
 ('отменить', 'определение'),
 ('отменить', 'регистрация'),
 ('отменить', 'указ'),
 ('подать', 'апелляция'),
 

**I think, these are collocations:**

In [244]:
add_back = {('вынести', 'вердикт'),
            ('выплатить', 'дивиденд'),
            ('выплатить', 'компенсация'),
            ('выплатить', 'штраф'),
            ('доказать', 'невиновность'),
            ('доказать', 'незаконность'),
            ('доказать', 'неправомерность'),
            ('иметь', 'право'),
            ('обжаловать', 'санкция'),
            ('обязать', 'ответчик'),
            ('оспорить', 'решение'),
            ('подать', 'апелляция'),
            ('подать', 'ходатайство'),
            ('рассматривать', 'иск'),
            ('рассмотреть', 'иск'),
            ('удовлетворить', 'апелляция'),
            ('удовлетворить', 'ходатайство')}

**The reason they are absent from the dictionary is that they are mostly terminological and thus rare in general, but they are still collocations.**

In [254]:
GS = GS.union(add_back)
len(GS)

52

## 5. Compute the correlations

In [258]:
rho, pval = spearmanr([1, 2, 3], [10, 8, 11])
pval

0.6666666666666667

In [263]:
rho, pval = spearmanr([1, 2, 3], [10, 8, 11, 13])
pval

ValueError: all the input array dimensions for the concatenation axis must match exactly, but along dimension 0, the array at index 0 has size 3 and the array at index 1 has size 4

as one can see, datasets should have the same length

**Let us only take 52 best from each metric and then compute speamans rank correlation**

In [262]:
loglike_52best = finder_corpus.nbest(collocations.BigramAssocMeasures().likelihood_ratio, 52)
dice_52best = finder_corpus.nbest(collocations.BigramAssocMeasures().dice, 52)
pmi_52best = finder_corpus.nbest(collocations.BigramAssocMeasures().pmi, 52)
gs_52 = list(GS)

**But first, how do we order our Gold Standard??**

**log-likelyhood**