## Извлечение коллокаций

Коллокации — устойчивые n-граммы (обычно биграммы; есть множество определений, мы пока будем использовать интуитивное представление об устойчивом выражении).

Сначала давайте научимся доставать из текста биграммы и заодно фильтровать их по морфологическим характеристикам.

In [3]:
from pymorphy2 import MorphAnalyzer
m = MorphAnalyzer()

In [4]:
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')

In [5]:
tokenizer.tokenize('Я ненавижу программировать! Убейте меня плз111')

['Я', 'ненавижу', 'программировать', 'Убейте', 'меня', 'плз111']

In [6]:
def normalize(text):
    tokens = tokenizer.tokenize(text.lower())
    lemmas = [m.parse(t)[0].normal_form for t in tokens]
    return lemmas

In [7]:
normalize('Я ненавижу программировать! Убейте меня плз111')

['я', 'ненавидеть', 'программировать', 'убить', 'я', 'плз111']

In [8]:
[m.parse(t)[0].tag.POS for t in ['а', 'я', 'дурак']]

['CONJ', 'NPRO', 'NOUN']

In [9]:
def get_ngrams(tokens, n=2, patterns=None):
    """
    Если patterns не None, давайте проверять, что части речи биграммы есть в patterns.
    Например, patterns = (['ADJF', 'NOUN'], ['CONJ', 'NPRO', 'NOUN')
    Подумаем о том, хотим ли мы склеивать два слова из разных предложений.
    Можно использовать itertools.islice
    """
    ngrams = []
    for i in range(len(tokens) - (n - 1)):
        ngram = tokens[i:i+n]
        tags = [m.parse(t)[0].tag.POS for t in ngram]
        if patterns is not None:
            if tags in patterns:
                ngrams.append(ngram)
        else:
            ngrams.append(ngram)
    return ngrams

In [10]:
get_ngrams(normalize('Красивая девочка дурочка'), n=2, patterns=[['ADJF', 'NOUN']])

[['красивый', 'девочка']]

Теперь протестируем на каком-нибудь тексте (давайте считать, что каждая строчка = предложение):

In [11]:
text = """
Кречет (лат. Falco rusticolus) — птица из отряда соколообразных семейства соколиных.
Самый крупный из соколов. 
Масса самца чуть больше 1 кг, самки — до 2 кг. 
Окраска сибирского кречета светлая (светлее лапландских кречетов), но изменчивая: от буровато-серой до почти белой сверху; брюшная сторона беловатая с темным рисунком. 
Темная полоска у разреза рта («усы») почти незаметна. 
На надклювье, как у всех соколов, характерный зубец. 
Лапы жёлтые. 
Скорость в полёте высокая, после нескольких взмахов птица быстро несётся вперёд, не парит. 
Сидящий кречет держится прямо.
Кречет похож на сапсана, но крупнее и имеет относительно более длинный хвост. 
Голос также похож на голос сапсана, но грубее и ниже: хриплое «кьяк-кьяк-кьяк» или протяжное «кеек-кеек-кеек». 
Весной может издавать довольно тихую и высокую трель. 
Южный горный подвид — алтайский кречет, которого многие специалисты считают подвидом или морфой балобана, — отличается более однообразной темной окраской."""

In [12]:
get_ngrams(normalize(text))

[['кречет', 'лата'],
 ['лата', 'falco'],
 ['falco', 'rusticolus'],
 ['rusticolus', 'птица'],
 ['птица', 'из'],
 ['из', 'отряд'],
 ['отряд', 'соколообразный'],
 ['соколообразный', 'семейство'],
 ['семейство', 'соколиный'],
 ['соколиный', 'самый'],
 ['самый', 'крупный'],
 ['крупный', 'из'],
 ['из', 'соколов'],
 ['соколов', 'масса'],
 ['масса', 'самец'],
 ['самец', 'чуть'],
 ['чуть', 'большой'],
 ['большой', '1'],
 ['1', 'килограмм'],
 ['килограмм', 'самка'],
 ['самка', 'до'],
 ['до', '2'],
 ['2', 'килограмм'],
 ['килограмм', 'окраска'],
 ['окраска', 'сибирский'],
 ['сибирский', 'кречет'],
 ['кречет', 'светлый'],
 ['светлый', 'светлый'],
 ['светлый', 'лапландский'],
 ['лапландский', 'кречетовый'],
 ['кречетовый', 'но'],
 ['но', 'изменчивый'],
 ['изменчивый', 'от'],
 ['от', 'буроватый'],
 ['буроватый', 'сера'],
 ['сера', 'до'],
 ['до', 'почти'],
 ['почти', 'бела'],
 ['бела', 'сверху'],
 ['сверху', 'брюшной'],
 ['брюшной', 'сторона'],
 ['сторона', 'беловатый'],
 ['беловатый', 'с'],
 ['с', '

In [13]:
get_ngrams(normalize(text), n=3)

[['кречет', 'лата', 'falco'],
 ['лата', 'falco', 'rusticolus'],
 ['falco', 'rusticolus', 'птица'],
 ['rusticolus', 'птица', 'из'],
 ['птица', 'из', 'отряд'],
 ['из', 'отряд', 'соколообразный'],
 ['отряд', 'соколообразный', 'семейство'],
 ['соколообразный', 'семейство', 'соколиный'],
 ['семейство', 'соколиный', 'самый'],
 ['соколиный', 'самый', 'крупный'],
 ['самый', 'крупный', 'из'],
 ['крупный', 'из', 'соколов'],
 ['из', 'соколов', 'масса'],
 ['соколов', 'масса', 'самец'],
 ['масса', 'самец', 'чуть'],
 ['самец', 'чуть', 'большой'],
 ['чуть', 'большой', '1'],
 ['большой', '1', 'килограмм'],
 ['1', 'килограмм', 'самка'],
 ['килограмм', 'самка', 'до'],
 ['самка', 'до', '2'],
 ['до', '2', 'килограмм'],
 ['2', 'килограмм', 'окраска'],
 ['килограмм', 'окраска', 'сибирский'],
 ['окраска', 'сибирский', 'кречет'],
 ['сибирский', 'кречет', 'светлый'],
 ['кречет', 'светлый', 'светлый'],
 ['светлый', 'светлый', 'лапландский'],
 ['светлый', 'лапландский', 'кречетовый'],
 ['лапландский', 'кречетовы

In [14]:
get_ngrams(normalize(text), patterns=[['NOUN', 'NOUN']])

[['кречет', 'лата'],
 ['соколов', 'масса'],
 ['масса', 'самец'],
 ['килограмм', 'самка'],
 ['килограмм', 'окраска'],
 ['разрез', 'рот'],
 ['рот', 'уса'],
 ['зубец', 'лапа'],
 ['взмах', 'птица'],
 ['хвост', 'голос'],
 ['голос', 'сапсан'],
 ['кьяк', 'кьяк'],
 ['кьяк', 'кьяк'],
 ['кейка', 'кейка'],
 ['кейка', 'кейка'],
 ['морфа', 'балобан']]

Теперь возьмем небольшой корпус, который лежит тут же в папке data/

In [15]:
import pandas as pd

In [19]:
data = pd.read_json("data/ng_1.jsonlines", encoding='utf-8', lines=True)

In [20]:
pd.set_option('display.max_colwidth', 1000)

In [21]:
data.head(1)

Unnamed: 0,keywords,title,url,content,summary
0,"[школа, образовательные стандарты, литература, история, фгос]","Ольга Васильева обещала ""НГ"" не перегружать школьников",https://amp.ng.ru/?p=http://www.ng.ru/education/2018-03-22/8_7195_school.html,"В среду состоялось отложенное заседание Совета по федеральным государственным образовательным стандартам (ФГОС) при Министерстве образования и науки РФ. Собрание должно было состояться еще в понедельник, но было перенесено по просьбе членов совета. И вот пришло сообщение, что общественники выразили согласие с позицией министерства. Новые ФГОСы приняты.\nНа вчерашнем заседании был принят ФГОС по начальной общеобразовательной школе. До 28 марта продлятся косультации по ФГОСам для средней школы.\nНапомним, что накануне Гильдия словесников разместила открытое письмо на имя министра образования и науки РФ Ольги Васильевой. По мнению авторов письма, новые ФГОСы грубо нарушают права детей, уже проучившихся по существующему стандарту до 6-го класса. Приняв новый стандарт, Министерство образования дает право контролирующим органам ловить детей на незнании большого списка произведений (235 за пять лет обучения). «Это исключает возможность полноценного их освоения, создает риск формального, п...","Глава Минобрнауки считает, что в нездоровом ажиотаже вокруг новых образовательных стандартов виноваты издательства учебной литературы"


Соберем биграммы из первого текста и попробуем просто найти самые частотные:

In [22]:
from collections import Counter

In [24]:
bigrams = get_ngrams(normalize(data['content'][0]))
c = Counter()
for n in bigrams:
    c[tuple(n)] += 1

In [25]:
c.most_common(10)

[(('ольга', 'васильев'), 6),
 (('исторический', 'источник'), 6),
 (('что', 'читать'), 3),
 (('предметный', 'результат'), 3),
 (('в', 'прежний'), 3),
 (('заседание', 'совет'), 2),
 (('совет', 'по'), 2),
 (('федеральный', 'государственный'), 2),
 (('государственный', 'образовательный'), 2),
 (('образовательный', 'стандарт'), 2)]

Можно не включать энграммы, которые содержат предлоги, союзы и т.д.
Попробуем использовать список стоп-слов:

In [26]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [43]:
from nltk.corpus import stopwords
stop = stopwords.words('russian')

def get_ngrams_stopwords(tokens, n=2, patterns=None, stoplist=[]):
    tokens = list(filter(lambda x: x not in stoplist, tokens))
    ngrams = []
    for i in range(len(tokens) - (n - 1)):
        ngram = tokens[i:i+n]
        tags = [m.parse(t)[0].tag.POS for t in ngram]
        if patterns is not None:
            if tags in patterns:
                ngrams.append(tuple(ngram))
        else:
            ngrams.append(tuple(ngram))
    return ngrams

In [34]:
get_ngrams_stopwords(['я', 'и', 'оно', 'абырвалг'], n=2, stoplist=stop)

[['оно', 'абырвалг']]

В списке есть сочетания, которые попали в список из-за того, что одно слово очень частотное и вообще встречается много в каких контекстах. Нас скорее интересуют случаи, когда слова в большинстве случаев встречаются вместе. Для этого мы можем придумать какие-нибудь формулы, учитывающие частоты слов по отдельности и общую частоту.

Самый простой способ - взять частоту энграммы и поделить на сумму количеств упоминаний слов по отдельности.

In [35]:
def scorer_simple(word_count_a, word_count_b, bigram_count, _):
    try:
        score = bigram_count / ((word_count_a + word_count_b) - bigram_count)
    except ZeroDivisionError:
        return 0
    return score

Заведем функцию, которая будет считать частоты для биграмм и слов:

In [37]:
def collect_stats(texts, n=2):
    word_counter = Counter()
    ngram_counter = Counter()
    for text in texts:
        word_counter.update(text)
        ngram_counter.update(get_ngrams_stopwords(text, 2, stoplist=stop))
    
    return word_counter, ngram_counter

И функцию, которая считает значение метрики для каждой энграммы:

In [45]:
def score_bigrams(word_counter, bigram_counter, scorer, threshold=-100000):
    ### YOUR CODE HERE
    bigram2score = Counter()
    for bigram in bigram_counter.keys():
        score = scorer(word_counter[bigram[0]], word_counter[bigram[0]], bigram_counter[bigram], len(word_counter))
        if score > threshold:
            bigram2score[bigram] = score
    ## если метрика выше порога, добавляем в словарь
    return bigram2score

In [48]:
texts = [normalize(data['content'][0])]
word_counter, bigram_counter = collect_stats(texts)
bigram2score = score_bigrams(word_counter, bigram_counter, scorer_simple)

In [49]:
bigram2score.most_common(10)

[(('среда', 'состояться'), 1.0),
 (('отложить', 'заседание'), 1.0),
 (('федеральный', 'государственный'), 1.0),
 (('государственный', 'образовательный'), 1.0),
 (('наука', 'рф'), 1.0),
 (('собрание', 'должный'), 1.0),
 (('понедельник', 'перенести'), 1.0),
 (('перенести', 'просьба'), 1.0),
 (('просьба', 'член'), 1.0),
 (('член', 'совет'), 1.0)]

Что пошло не так?

In [53]:
def scorer_simple_smoothed(word_count_a, word_count_b, bigram_count, _, min_count=2):
    try:
        score = (bigram_count - min_count) / ((word_count_a + word_count_b) - bigram_count)
    except ZeroDivisionError:
        return 0
    return score

In [54]:
bigram2score = score_bigrams(word_counter, bigram_counter, scorer_simple_smoothed)

In [55]:
bigram2score.most_common(15)

[(('ольга', 'васильев'), 0.6666666666666666),
 (('исторический', 'источник'), 0.6666666666666666),
 (('предметный', 'результат'), 0.2),
 (('событие', 'явление'), 0.2),
 (('заседание', 'совет'), 0.0),
 (('федеральный', 'государственный'), 0.0),
 (('государственный', 'образовательный'), 0.0),
 (('образовательный', 'стандарт'), 0.0),
 (('министерство', 'образование'), 0.0),
 (('образование', 'наука'), 0.0),
 (('наука', 'рф'), 0.0),
 (('новое', 'фгоса'), 0.0),
 (('вчерашний', 'заседание'), 0.0),
 (('гильдия', 'словесник'), 0.0),
 (('открытый', 'письмо'), 0.0)]

Уже приличнее. В [статье](https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf) про word2vec для склейки устойчивых словосочетаний используют такую штуку (стр. 6):

In [58]:
def scorer_mwe(word_count_a, word_count_b, bigram_count, len_vocab, min_count=2):
    try:
        score = ((bigram_count - min_count) / (word_count_a * word_count_b)) * len_vocab
    except ZeroDivisionError:
        return 0
    return score

In [59]:
bigram2score = score_bigrams(word_counter, bigram_counter, scorer_mwe)
bigram2score.most_common(10)

[(('ольга', 'васильев'), 38.77777777777778),
 (('исторический', 'источник'), 38.77777777777778),
 (('предметный', 'результат'), 21.8125),
 (('событие', 'явление'), 21.8125),
 (('заседание', 'совет'), 0.0),
 (('федеральный', 'государственный'), 0.0),
 (('государственный', 'образовательный'), 0.0),
 (('образовательный', 'стандарт'), 0.0),
 (('министерство', 'образование'), 0.0),
 (('образование', 'наука'), 0.0)]

Ещё одна популярная метрика - Pointwise Mutual Information (PMI, взаимная информация). 

$$PMI = \log{\frac{p(a,b)}{p(a)p(b)}}$$

Для её вычисления используются нормализованные частоты:

In [67]:
import numpy as np
def scorer_pmi(word_count_a, word_count_b, bigram_count, _, corpus_size, minimum_count=2):
    score = (((bigram_count - minimum_count) /corpus_size) / ((word_count_a/corpus_size) * (word_count_b/corpus_size)))
    if score == 0:
        return score
    return np.log(score) / -np.log((bigram_count/corpus_size))

Придется переписать функцию, которая применяет метрику к биграммам, потому что теперь мы хотим учитывать размер корпуса, а не словаря:

In [68]:
def score_bigrams(word_counter, bigram_counter, scorer, threshold=-100000):
    bigram2score = Counter()
    len_vocab = len(word_counter)
    corpus_size = sum(word_counter.values())
    for bigram in bigram_counter:
        score = scorer(word_counter[bigram[0]], word_counter[bigram[1]], 
                       bigram_counter[bigram], len_vocab, corpus_size)
        if score > threshold:
            bigram2score[bigram] = score
    return bigram2score

In [69]:
bigram2score = score_bigrams(word_counter, bigram_counter, scorer_pmi)
bigram2score.most_common(10)

  


[(('ольга', 'васильев'), 0.9145738272491452),
 (('исторический', 'источник'), 0.8539629931054739),
 (('событие', 'явление'), 0.7451443434793612),
 (('предметный', 'результат'), 0.6177165152190418),
 (('заседание', 'совет'), 0.0),
 (('федеральный', 'государственный'), 0.0),
 (('государственный', 'образовательный'), 0.0),
 (('образовательный', 'стандарт'), 0.0),
 (('министерство', 'образование'), 0.0),
 (('образование', 'наука'), 0.0)]

Вообще метрики для выделения коллокаций — это статистические меры/критерии ассоциации/связи. Популярная в статистике мера — [t-test](https://en.wikipedia.org/wiki/Student%27s_t-test) (он же по-русски T-критерий Стьюдента):

$$t = \frac{\bar{x} - \mu}{\sqrt{\frac{s^2}{n}}}$$

где $\bar{x}$ — наблюдаемое среднее (нормализованная частота биграммы)

$\mu$ — ожидаемое среднее (считаем, что появление каждого слова независимо, то есть произведение вероятностей)

$s$ — стандартное отклонение ($s^2$ — дисперсия; 
выбор слова описывается распределением Бернулли, поэтому $s^2 = p(1-p)$)

$n$ — размер выборки (размер корпуса)

In [70]:
def scorer_ttest(word_count_a, word_count_b, bigram_count, _, corpus_size, minimum_count=5):
    mu = ((word_count_a/corpus_size) * (word_count_b/corpus_size))
    x_ = (bigram_count/corpus_size)
    score = (x_ - mu) / np.sqrt(x_/corpus_size)
    return score

In [71]:
bigram2score = score_bigrams(word_counter, bigram_counter, scorer_ttest)
bigram2score.most_common(10)

[(('ольга', 'васильев'), 2.4282206567387514),
 (('исторический', 'источник'), 2.4211309613906087),
 (('событие', 'явление'), 1.722024464254441),
 (('предметный', 'результат'), 1.7119981209400046),
 (('федеральный', 'государственный'), 1.4101203248553726),
 (('гильдия', 'словесник'), 1.4101203248553726),
 (('количество', 'лирический'), 1.4101203248553726),
 (('наука', 'рф'), 1.4080737060965114),
 (('вчерашний', 'заседание'), 1.4080737060965114),
 (('год', 'обучение'), 1.4080737060965114)]

Есть ещё много замечательных метрик, и многие из них реализованы в модуле `nltk.collocations`

In [72]:
import nltk
from nltk.collocations import *

In [73]:
bigram_measures = nltk.collocations.BigramAssocMeasures()
finder2 = BigramCollocationFinder.from_documents(texts)

In [74]:
finder2.nbest(bigram_measures.likelihood_ratio, 20)

[('ольга', 'васильев'),
 ('исторический', 'источник'),
 ('гильдия', 'словесник'),
 ('количество', 'лирический'),
 ('федеральный', 'государственный'),
 ('что', 'читать'),
 ('предметный', 'результат'),
 ('большой', 'количество'),
 ('вчерашний', 'заседание'),
 ('год', 'обучение'),
 ('наука', 'рф'),
 ('самый', 'важный'),
 ('в', 'прежний'),
 ('лирический', 'произведение'),
 ('открытый', 'письмо'),
 ('требование', 'к'),
 ('заседание', 'совет'),
 ('государственный', 'образовательный'),
 ('единый', 'образовательный'),
 ('новое', 'фгоса')]

In [75]:
finder2.nbest(bigram_measures.pmi, 20)

[('15', '20'),
 ('28', 'март'),
 ('авторство', 'время'),
 ('взяться', 'такой'),
 ('внутренний', 'возраст'),
 ('возможность', 'полноценный'),
 ('восприниматься', 'общество'),
 ('вот', 'пришлый'),
 ('всегда', 'разный'),
 ('выразить', 'согласие'),
 ('говорить', 'детализовать'),
 ('грубо', 'нарушать'),
 ('дополнить', 'предложение'),
 ('доработка', 'действующий'),
 ('думать', 'любой'),
 ('душить', 'интеллект'),
 ('есть', 'стихотворение'),
 ('жёстко', 'прикрепить'),
 ('закрепить', 'перечень'),
 ('замечательный', 'вещь')]

In [76]:
scores = finder2.score_ngrams(bigram_measures.dice)

In [77]:
sorted([x for x in scores if x[1] != 1.0], key=lambda x: x[1], reverse=True)[:20]

[(('исторический', 'источник'), 0.8571428571428571),
 (('большой', 'количество'), 0.8),
 (('вчерашний', 'заседание'), 0.8),
 (('год', 'обучение'), 0.8),
 (('наука', 'рф'), 0.8),
 (('20', 'конкретный'), 0.6666666666666666),
 (('235', 'за'), 0.6666666666666666),
 (('5', '6'), 0.6666666666666666),
 (('6', 'го'), 0.6666666666666666),
 (('facebook', 'учитель'), 0.6666666666666666),
 (('ажиотаж', 'вокруг'), 0.6666666666666666),
 (('атрибуция', 'текстовый'), 0.6666666666666666),
 (('большинство', 'вопрос'), 0.6666666666666666),
 (('весь', 'изменение'), 0.6666666666666666),
 (('господин', 'волков'), 0.6666666666666666),
 (('до', '28'), 0.6666666666666666),
 (('ещё', 'три'), 0.6666666666666666),
 (('за', 'пять'), 0.6666666666666666),
 (('заседание', 'совет'), 0.6666666666666666),
 (('здесь', 'нормативный'), 0.6666666666666666)]