## Колокації

Окрім граматики, на аналіз мови також впливає сполучуваність слів. В англійській мові поняття сполучуваності дуже відчутне і присутнє у всіх мовних структурах: ми кажемо "make a mistake", але "do a favour"; ми кажемо "big surprise", але "great anger"; ми кажемо "highly unlikely", але "seriously wrong".

У цьому завданні вам потрібно дослідити сполучуваність дієслів одного синонімного ряду з прислівниками. Наприклад, ми частіше кажемо "love somebody dearly", "honor somebody highly", але "admire somebody greatly".

Завдання:
1. продовжте синонімний ряд дієслів: "say", "tell", "speak", "claim", "communicate"
2. напишіть функцію, яка знаходить у реченні дієслово (за складеним раніше синонімним рядом) і витягає усі можливі прислівники на "-ly", якими це дієслово керує
3. напишіть програму, яка знайде усі можливі прислівники для наших дієслів у [корпусі блогів]("blog2008.txt")
4. на виході програма повинна видати десять найчастотніших прислівників для кожного дієслова

Приклад виводу:
say: (loudly, 51), (silently, 45), (quietly, 10)
tell: (quietly, 100), (loudly, 61), (seriously, 5)

Збережіть програму та результати аналізу на корпусі (вивід) у директорії з Вашим іменем.

Синоніми можна знайти у тезаурусах (http://www.thesaurus.com/, https://www.merriam-webster.com/thesaurus) чи [WordNet](http://wordnetweb.princeton.edu/perl/webwn)

Корпус блогів взятий з [Political Blog Corpora](http://www.cs.cmu.edu/~ark/blog-data/).


In [1]:
import spacy, re, requests, pdb
from spacy import displacy
from nltk.corpus import wordnet
from collections import Counter
from tqdm import tqdm
nlp = spacy.load('en_core_web_md')

In [2]:
blogs_url = 'https://raw.githubusercontent.com/vseloved/prj-nlp/master/tasks/02-structural-linguistics/blog2008.txt'
blogs = requests.get(blogs_url).text.strip().split('\n')

In [3]:
[ss.lemma_names() for ss in wordnet.synsets('say', pos=wordnet.VERB)]

[['state', 'say', 'tell'],
 ['allege', 'aver', 'say'],
 ['suppose', 'say'],
 ['read', 'say'],
 ['order', 'tell', 'enjoin', 'say'],
 ['pronounce', 'articulate', 'enounce', 'sound_out', 'enunciate', 'say'],
 ['say'],
 ['say'],
 ['say'],
 ['say'],
 ['say']]

In [4]:
words = {
    'say': Counter(),
    'tell': Counter(),
    'speak': Counter(),
    'claim': Counter(),
    'communicate': Counter(),
    'state': Counter(),
    'aver': Counter(),
    'allege': Counter(),
    'enjoin': Counter(),
    'pronounce': Counter(),
    'articulate': Counter(),
    'enounce': Counter(),
    'enunciate': Counter(),
}

In [5]:
def count_advs(match):
    words[match.lemma_].update(
        [child.lemma_ for child in match.children
         if child.tag_ in ['RB', 'RBR', 'RBS'] and child.text not in ['n\'t', 'not']]
    )
            
def process_blogs(blog):
    matched = list(filter(lambda t: t.lemma_ in words and t.pos_ == 'VERB', nlp(blog)))
    if len(matched) == 0:
        return
    for match in matched:
        count_advs(match)

In [None]:
for blog in tqdm(blogs):
# for blog in blogs:
    process_blogs(blog)
    
# import pickle
# with open('adv_count_dict_counters.pkl', 'wb') as f:
#     pickle.dump(words, f)

In [14]:
for say_syn in words.keys():
    print(say_syn, ': ', words[say_syn].most_common(10), '\n')

say :  [('also', 317), ('now', 213), ('just', 168), ('so', 140), ('then', 123), ('recently', 78), ('even', 78), ('ago', 75), ('actually', 74), ('never', 72)] 

tell :  [('also', 58), ('now', 53), ('so', 52), ('just', 43), ('then', 43), ('ago', 30), ('again', 27), ('recently', 26), ('later', 25), ('even', 17)] 

speak :  [('directly', 32), ('now', 22), ('well', 22), ('also', 19), ('publicly', 15), ('just', 15), ('even', 15), ('never', 15), ('louder', 14), ('only', 12)] 

claim :  [('falsely', 65), ('now', 62), ('also', 57), ('then', 31), ('however', 14), ('later', 12), ('still', 11), ('even', 11), ('previously', 9), ('first', 8)] 

communicate :  [('effectively', 3), ('directly', 3), ('sure', 1), ('freely', 1), ('really', 1), ('often', 1), ('instead', 1), ('that', 1), ('apparently', 1), ('of', 1)] 

state :  [('publicly', 22), ('also', 21), ('clearly', 19), ('explicitly', 13), ('unequivocally', 12), ('bluntly', 7), ('simply', 7), ('oft', 6), ('previously', 6), ('recently', 6)] 

aver : 