## Колокації

Одним із важливих аспектів будь-якої природної мови є сполучуваність слів. В англійській мові поняття сполучуваності дуже відчутне і присутнє у всіх мовних структурах: ми кажемо _"make a mistake",_ але _"do a favour";_ ми кажемо _"big surprise",_ але _"great anger";_ ми кажемо _"highly unlikely",_ але _"seriously wrong"._

### 1. Англійська мова

У цьому завданні вам потрібно дослідити сполучуваність дієслів одного синонімного ряду з прислівниками. Наприклад, ми частіше кажемо _"love somebody dearly", "honor somebody highly",_ але _"admire somebody greatly"._

**Завдання:**
1. продовжте синонімний ряд дієслів: _"say", "tell", "speak", "claim", "communicate"_
2. напишіть функцію, яка знаходить у реченні дієслово (за складеним раніше синонімним рядом) і витягає усі можливі прислівники на "-ly", якими це дієслово керує
3. напишіть програму, яка знайде усі можливі прислівники для ваших дієслів у [корпусі блогів](data/blog2008.txt)
4. на виході програма повинна видати десять найчастотніших прислівників для кожного дієслова (разом із частотою). Приклад виводу:
	```
	say: (loudly, 51), (silently, 45), (quietly, 10)
	tell: (quietly, 100), (loudly, 61), (seriously, 5)
	```
5. збережіть програму та результати аналізу на корпусі (вивід) у директорії з вашим іменем

Синоніми можна знайти у тезаурусах (http://www.thesaurus.com/, https://www.merriam-webster.com/thesaurus) чи [WordNet](http://wordnetweb.princeton.edu/perl/webwn).

Підказка: зверніть увагу на те, що у природній мові дієслова можуть мати різні форми, а прислівників може бути по декілька.

In [1]:
import spacy
import en_core_web_sm

nlp = spacy.load('en_core_web_sm', disable=['ner'])

In [2]:
# 1. продовжте синонімний ряд дієслів: "say", "tell", "speak", "claim", "communicate"
verbs = [
    'say', 'tell', 'speak', 'claim', 'communicate',
    'convey', 'declare', 'express', 'broadcast', 
    'chat', 'shout', 'utter', 'pronounce', 'verbalize',
    'state', 'articulate', 'announce', 'inform'
]

In [3]:
# 2. напишіть функцію, яка знаходить у реченні дієслово (за складеним раніше синонімним рядом) і витягає усі можливі прислівники на "-ly", якими це дієслово керує

def is_verb(t):
    return t.pos_ == 'VERB' and t.lemma_ in verbs

def is_adv(t):
    return t.pos_ == 'ADV' and t.text.endswith('ly')

def get_advs(s):
    doc = nlp(s)   
    
    # import code; code.interact(local=dict(globals(), **locals()))
    return [t for t in doc if is_adv(t) and is_verb(t.head)]

In [4]:
assert list(map(str, get_advs("I definitely tell you not to do this!"))) == ['definitely']

In [5]:
# 3. напишіть програму, яка знайде усі можливі прислівники для ваших дієслів у корпусі блогів

def get_all_advs(path):
    with open(path) as lines:
        result = []
        count = 0
        
        for l in lines:
            # if count > 1000: break
            # if count % 1000 == 0: print(count)
            
            result += get_advs(l)
            count += 1
            
        return result

In [6]:
# 4. на виході програма повинна видати десять найчастотніших прислівників для кожного дієслова (разом із частотою)

from collections import defaultdict, Counter

def count_advs(data):
    result = defaultdict(list)
    
    for a in data:
        result[a.head.lemma_].append(a.lower_)

    return [(v, Counter(advs)) for v, advs in result.items()]

def filter_results(data):
    return [(v, sorted(advs.items(), key=lambda x: x[1], reverse=True)[:10])
            for v, advs in data]

def main():
    blog_file = '../../../tasks/02-structural-linguistics/data/blog2008.txt'
    # get adverbs for all verbs
    result = get_all_advs(blog_file)
    # count adverbs
    result = count_advs(result)
    # sort & filter adverbs
    return filter_results(result)

In [7]:
# 5. збережіть програму та результати аналізу на корпусі (вивід) у директорії з вашим іменем

data = main()

for v, advs in data:
    print('> {}:'.format(v))
    for a, c in advs:
        print('{} - {}'.format(a, c))
    print('')

> claim:
falsely - 76
previously - 9
repeatedly - 8
recently - 4
initially - 3
actually - 3
absurdly - 3
originally - 3
credibly - 3
publicly - 3

> say:
recently - 75
actually - 75
repeatedly - 55
simply - 46
explicitly - 41
basically - 35
publicly - 35
really - 32
only - 27
previously - 22

> speak:
directly - 34
publicly - 15
fiercely - 12
only - 11
generally - 9
openly - 8
briefly - 7
politically - 7
loudly - 7
recently - 7

> tell:
recently - 25
reportedly - 15
privately - 12
finally - 10
specifically - 9
only - 9
basically - 9
repeatedly - 8
actually - 8
really - 8

> announce:
recently - 15
officially - 10
publicly - 8
early - 5
proudly - 4
openly - 3
previously - 3
quickly - 3
shortly - 3
newly - 3

> declare:
publicly - 13
falsely - 4
suddenly - 4
recently - 4
openly - 3
proudly - 3
triumphantly - 3
ominously - 2
famously - 2
officially - 2

> express:
repeatedly - 6
actually - 3
privately - 3
freely - 3
openly - 2
publicly - 2
starkly - 2
finally - 2
verbally - 1
famously - 1