In [1]:
import os

from IPython.display import display, Markdown, Image

In [2]:
REPO_PATH = os.path.dirname(os.path.dirname(os.path.dirname(os.getcwd())))
TASK_PATH = os.path.join(REPO_PATH, "tasks", "02-structural-linguistics")
DATA_PATH = os.path.join(TASK_PATH, "data")

In [3]:
def show_markdown(path):
    with open(path, 'r') as fh:
        content = fh.read()
    display(Markdown(content))

In [4]:
show_markdown(os.path.join(TASK_PATH, "3-collocations.md"))

## Колокації

Одним із важливих аспектів будь-якої природної мови є сполучуваність слів. В англійській мові поняття сполучуваності дуже відчутне і присутнє у всіх мовних структурах: ми кажемо _"make a mistake",_ але _"do a favour";_ ми кажемо _"big surprise",_ але _"great anger";_ ми кажемо _"highly unlikely",_ але _"seriously wrong"._

### 1. Англійська мова

У цьому завданні вам потрібно дослідити сполучуваність дієслів одного синонімного ряду з прислівниками. Наприклад, ми частіше кажемо _"love somebody dearly", "honor somebody highly",_ але _"admire somebody greatly"._

**Завдання:**
1. продовжте синонімний ряд дієслів: _"say", "tell", "speak", "claim", "communicate"_
2. напишіть функцію, яка знаходить у реченні дієслово (за складеним раніше синонімним рядом) і витягає усі можливі прислівники на "-ly", якими це дієслово керує
3. напишіть програму, яка знайде усі можливі прислівники для ваших дієслів у [корпусі блогів](data/blog2008.txt)
4. на виході програма повинна видати десять найчастотніших прислівників для кожного дієслова (разом із частотою). Приклад виводу:
	```
	say: (loudly, 51), (silently, 45), (quietly, 10)
	tell: (quietly, 100), (loudly, 61), (seriously, 5)
	```
5. збережіть програму та результати аналізу на корпусі (вивід) у директорії з вашим іменем

Синоніми можна знайти у тезаурусах (http://www.thesaurus.com/, https://www.merriam-webster.com/thesaurus) чи [WordNet](http://wordnetweb.princeton.edu/perl/webwn).

Підказка: зверніть увагу на те, що у природній мові дієслова можуть мати різні форми, а прислівників може бути по декілька.

### 2. Українська мова

У цьому завданні вам потрібно дослідити сполучуваність іменників-істот з прикметниками.

**Завдання:**
1. напишіть функцію, яка знаходить у реченні іменник, що позначає істоту, і витягає усі прикметники, якими цей іменник керує
2. напишіть програму, яка знайде усі можливі словосполучення прикметників та іменників-істот у [романі "Тигролови"](data/tyhrolovy.txt)
3. на виході програма повинна видати усі знайдені словосполучення та їх частоти. Приклад виводу:
	```
	84: старий сірко
	5: великий начальник
	```
4. збережіть програму та результати виводу в директорії з вашим іменем

Підказка: можна шукати послідовність прикметника та іменника і визначати словосполучення через pymorphy2. Також можна попрацювати з деревами залежностей через StanfordNLP, але можливо доведеться запускати код десь на Google Colab, бо там дуже великі моделі для української мови.

### Джерела

Ви можете використати будь-яку мову програмування та будь-яку NLP-бібліотеку.

Корпус блогів взятий з [Political Blog Corpora](http://www.cs.cmu.edu/~ark/blog-data/).


### Part 1

In [5]:
import re
import gc
import json
import spacy
import pandas as pd

from collections import Counter, OrderedDict
from functools import reduce
from multiprocessing import cpu_count
from tqdm import tqdm
from tqdm.contrib.concurrent import process_map

In [6]:
nlp_en = spacy.load('en_core_web_md')

In [7]:
synonyms = ["say", 
            "add", "announce", "answer", "assert", "claim", "convey", "declare", "deliver",
            "disclose", "do", "estimate", "express", "maintain", "mention", "read", "repeat", "reply",
            "report", "respond", "reveal", "speak", "state", "suggest", "tell", "voice", "affirm", "communicate"]

In [8]:
def count_adv(sentence, verbs=synonyms):
    tokens = nlp_en(sentence)
    cnt = Counter()
    
    for token in tokens:
        if token.pos_ == 'ADV' and token.text[-2:] == 'ly' and token.dep_ == 'advmod':
            first_ancestor = next(token.ancestors, "")
            if first_ancestor:
                if first_ancestor.lemma_ in verbs and first_ancestor.pos_ == 'VERB':
                    cnt.update({(first_ancestor.lemma_, token.lower_):1})
    return cnt

In [9]:
corpus_df = pd.read_table(os.path.join(DATA_PATH, 'blog2008.txt'), names=["text"])

In [10]:
%%time

try:
    with open('collocations_en.json', 'r') as file_:
        collocations = json.load(file_)
except FileNotFoundError:
    lst = process_map(count_adv, corpus_df.text.values, max_workers=cpu_count())
    total_cntr = reduce((lambda x, y: x + y), lst)

    collocations = {}
    for (verb, adv), count in total_cntr.items():
        collocations[verb] = collocations.get(verb, []) + [(adv, count)]
        
    collocations = {verb: sorted(cnt, key=lambda x: x[1], reverse=True)[:10] for verb, cnt in collocations.items()}
    
    with open('collocations_en.json', 'w') as file_:
        json.dump(collocations, file_, sort_keys=True, indent=4)
    
    del lst, total_cntr
    gc.collect()

HBox(children=(FloatProgress(value=0.0, max=300894.0), HTML(value='')))


CPU times: user 3min 19s, sys: 14.1 s, total: 3min 33s
Wall time: 9min 27s


### Part 2

In [11]:
import stanfordnlp
import warnings

warnings.filterwarnings("ignore")

In [12]:
nlp_uk = stanfordnlp.Pipeline(lang='uk')

Use device: gpu
---
Loading: tokenize
With settings: 
{'model_path': '/home/dima/stanfordnlp_resources/uk_iu_models/uk_iu_tokenizer.pt', 'lang': 'uk', 'shorthand': 'uk_iu', 'mode': 'predict'}
---
Loading: pos
With settings: 
{'model_path': '/home/dima/stanfordnlp_resources/uk_iu_models/uk_iu_tagger.pt', 'pretrain_path': '/home/dima/stanfordnlp_resources/uk_iu_models/uk_iu.pretrain.pt', 'lang': 'uk', 'shorthand': 'uk_iu', 'mode': 'predict'}
---
Loading: lemma
With settings: 
{'model_path': '/home/dima/stanfordnlp_resources/uk_iu_models/uk_iu_lemmatizer.pt', 'lang': 'uk', 'shorthand': 'uk_iu', 'mode': 'predict'}
Building an attentional Seq2Seq model...
Using a Bi-LSTM encoder
Using soft attention for LSTM.
Finetune all embeddings.
[Running seq2seq lemmatizer with edit classifier]
---
Loading: depparse
With settings: 
{'model_path': '/home/dima/stanfordnlp_resources/uk_iu_models/uk_iu_parser.pt', 'pretrain_path': '/home/dima/stanfordnlp_resources/uk_iu_models/uk_iu.pretrain.pt', 'lang': '

In [13]:
corpus_df = pd.read_table(os.path.join(DATA_PATH, 'tyhrolovy.txt'), names=["text"])

In [14]:
corpus_df

Unnamed: 0,text
0,Тигролови
1,Іван Багряний
2,ЧАСТИНА ПЕРША
3,Розділ перший
4,ДРАКОН
...,...
2653,"Гриць прип'яв Заливая, щоб не втік. Так звеліл..."
2654,Але Заливай скучав. Скучав смертельно. Вірний ...
2655,Подався доганяти без надії догнати.
2656,Але — сміливі завжди мають щастя.


In [15]:
def count_adj_uk(string):
    sentences = nlp_uk(string).sentences
    cnt = Counter()
    
    for sentence in sentences:
        for token in sentence.words:
            if token.upos in {'NOUN', 'PROPN'} and re.findall(r"Animacy=(.*?)\|", token.feats)[0] == 'Anim':
                res = [tkn.lemma.lower() for tkn in sentence.words 
                                         if tkn.upos == 'ADJ' and tkn.governor == int(token.index)]
                for _ in res:
                    cnt.update({(token.lemma.lower(), _):1})
    return cnt

In [16]:
# from torch.multiprocessing import Pool, Process, set_start_method
# try:
#      set_start_method('spawn', force=True)
# except RuntimeError:
#     pass

In [17]:
count_adj_uk("""Кожен чистив свою. Наталка вінчестера. Старий Сірко теж вінчестера. Гриць свою "японку". А Григорій — трилінійку. Гвинтівка була новесенька, але Григорій розібрав її до шрубика. Хотів перевірити, чи все в ній в порядку та й для вправи — чи не забув, як те все робиться.""")

Counter({('сірко', 'старий'): 1})

In [18]:
corpus_df.loc[corpus_df.text.str.contains('Сірко')]

Unnamed: 0,text
590,"— Сірківна, — вимовила дівчина з гордістю. — М..."
716,"— А так. Я сама, синку, довго не могла звикнут..."
717,"Перевелись люди, і звелось життя нінащо... Вже..."
762,"Обоє забачили Григорія, посміхаються. — Ого, с..."
769,"А вже як розв'ючували коней гуртом, старий Сір..."
...,...
2620,"Ідучи додому, старий Сірко всю дорогу тільки т..."
2627,"Приїхавши, старий Сірко розіклав газети на сто..."
2629,"Другого дня після приїзду Сірка з Хабаровська,..."
2636,То був радісний день у Сірків. Старий розправи...


In [19]:
%%time

try:
    with open('collocations_uk.json', 'r') as file_:
        collocations = json.load(file_)
except FileNotFoundError:
#     lst = list(map(count_adj_uk, corpus_df.text.values))
    lst = []
    for item in tqdm(corpus_df.text.values):
        lst.append(count_adj_uk(item))
    total_cntr = reduce((lambda x, y: x + y), lst)

    collocations = {}
    for (verb, adv), count in total_cntr.items():
        collocations[verb] = collocations.get(verb, []) + [(adv, count)]
        
    collocations = {verb: sorted(cnt, key=lambda x: x[1], reverse=True)[:10] for verb, cnt in collocations.items()}
    
    with open('collocations_uk.json', 'w') as file_:
        json.dump(collocations, file_, sort_keys=True, indent=4, ensure_ascii=False)
    
    del lst, total_cntr
    gc.collect()

100%|██████████| 2658/2658 [03:45<00:00, 11.78it/s]


CPU times: user 3min 45s, sys: 322 ms, total: 3min 46s
Wall time: 3min 45s


In [20]:
OrderedDict(sorted(collocations.items()))

OrderedDict([('авантюрник', [('індустріальний', 1)]),
             ('аввакума', [('вільнодумний', 1)]),
             ('аматор', [('новітний', 1), ('пржевальський', 1)]),
             ('амба', [('всемогутній', 1), ('славніший', 1)]),
             ('амурець', [('другий', 1), ('здоровенний', 1)]),
             ('арештант', [('виснажений', 1)]),
             ('арсеньев', [('екзотичніший', 1)]),
             ('баб', [('голоспинний', 1)]),
             ('байда', [('перевернутий', 1)]),
             ('байкал', [('священний', 1)]),
             ('банда', [('великий', 1), ('озброєний', 1)]),
             ('батьки', [('розкуркулений', 1), ('розкиданий', 1)]),
             ('батько',
              [('давніш', 1),
               ('хрещений', 1),
               ('задоволений', 1),
               ('старий', 1)]),
             ('безвірник', [('правовірний', 1)]),
             ('бик', [('розпалений', 1), ('другий', 1)]),
             ('бог',
              [('дивний', 2),
               ('волохатий', 2

In [21]:
collocations.get('сірко')

[('старий', 84),
 ('хитріший', 1),
 ('залитий', 1),
 ('навколишній', 1),
 ('поглядаючія', 1)]

**IMPORTANT!!!**

Чомусь ``json`` не зберігає корректно весь ``dict``, тому краще перезапустити самостійно, щоб впевнитись в результаті