# Автоматическое извлечение коллокаций
## С помощью nltk
Итак, на прошлой лекции вы узнали что такое коллокации и как какие существуют меры оценки коллокационной связи.
Теперь мы попытаемся научиться со всем этим работать при помощи nltk, а точнее его подмодуля nltk.collocations

In [1]:
import nltk
from nltk.collocations import *
bigram_measures = nltk.collocations.BigramAssocMeasures()
trigram_measures = nltk.collocations.TrigramAssocMeasures()

_nltk_ - довольно высокоуровневый модуль, поэтому мы можем дать ему на вход просто текст, поделенный на слова, не выделяя биграммы самим, и он за нас сам разделит наш массив слов на биграммы.

Мы возьмем небольшой корпус, составленный из текстов интернет-новостей. В нем 171 тыс. слов - не очень много, но для экспериментов хватит. Для начала поделим текст на слова просто по пробелам.

In [2]:
words = open('news.txt').read().split()
words

['Губернаторы',
 'отвыкли',
 'от',
 'публичной',
 'политики,',
 'и',
 'их',
 'придется',
 'учить',
 'общаться',
 'с',
 'избирателями',
 '—',
 'об',
 'этом',
 'говорили',
 'на',
 'встрече',
 'в',
 'Кремле',
 'с',
 'политологами',
 'Вячеслав',
 'Володин',
 'и',
 'другие',
 'кураторы',
 'внутренней',
 'политики.',
 'Но',
 'недовольство',
 'руководства',
 'страны',
 'вызывают',
 'только',
 'главы',
 'тех',
 'регионов,',
 'где',
 'нет',
 'реальной',
 'угрозы',
 'власти,',
 'объясняет',
 'участник',
 'встречи.',
 'С',
 'реальными',
 'оппонентами',
 'местных',
 'властей',
 'Кремль',
 'сам',
 'помогает',
 'бороться.',
 'На',
 'встречу',
 'с',
 'первым',
 'замглавы',
 'администрации',
 'президента',
 'Вячеславом',
 'Володиным',
 'пригласили',
 'около',
 '30',
 'политологов,',
 'в',
 'первую',
 'очередь',
 'тех,',
 'кто',
 'назначен',
 'Кремлем',
 'наблюдать',
 'за',
 'ходом',
 'избирательных',
 'кампаний',
 'на',
 'местах,',
 'рассказали',
 'РБК',
 'несколько',
 'участников',
 'встречи.',
 'По'

Можно однако вспомнить, что мы тут компьютерные лингвисты, и осуществить простейшую предобработку текста - очистку от знаков препинания и лемматизацию.

Для лемматизации в данном случае используем pymorphy.

In [3]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()
punct = '.,!?():;'
words = [word.strip(punct) for word in open('news.txt').read().split()]
words_tagged = [morph.parse(word)[0].normal_form for word in words]
words_tagged

['губернатор',
 'отвыкнуть',
 'от',
 'публичный',
 'политика',
 'и',
 'они',
 'прийтись',
 'учить',
 'общаться',
 'с',
 'избиратель',
 '—',
 'о',
 'это',
 'говорить',
 'на',
 'встреча',
 'в',
 'кремль',
 'с',
 'политолог',
 'вячеслав',
 'володин',
 'и',
 'другой',
 'куратор',
 'внутренний',
 'политика',
 'но',
 'недовольство',
 'руководство',
 'страна',
 'вызывать',
 'только',
 'глава',
 'тот',
 'регион',
 'где',
 'нет',
 'реальный',
 'угроза',
 'власть',
 'объяснять',
 'участник',
 'встреча',
 'с',
 'реальный',
 'оппонент',
 'местный',
 'власть',
 'кремль',
 'сам',
 'помогать',
 'бороться',
 'на',
 'встреча',
 'с',
 'один',
 'замглавы',
 'администрация',
 'президент',
 'вячеслав',
 'володин',
 'пригласить',
 'около',
 '30',
 'политолог',
 'в',
 'один',
 'очередь',
 'тот',
 'кто',
 'назначить',
 'кремль',
 'наблюдать',
 'за',
 'ход',
 'избирательный',
 'кампания',
 'на',
 'место',
 'рассказать',
 'рбк',
 'несколько',
 'участник',
 'встреча',
 'по',
 'слово',
 'собеседник',
 'от',
 'адм

Так-то лучше. Теперь инициализируем объект класса BigramCollocationFinder, который за нас выделяет в массиве слов биграммы и считает для них всякие характеристики.

In [4]:
finder = BigramCollocationFinder.from_words(words_tagged)

Распечатаем, например, 10 самых сильных коллокаций по версии метрики Pointwise Mutual Information.

Полный набор доступных мер оценки коллокационной связи см. [здесь](http://www.nltk.org/_modules/nltk/metrics/association.html)

In [5]:
finder.nbest(bigram_measures.pmi, 10)

[('"закручивание', 'гаек"'),
 ('+', '4,65%»'),
 ('0,58', 'евро»'),
 ('12–15', 'контрольно-надзорный'),
 ('1400', 'полувагон'),
 ('1577', 'lada'),
 ('17,2%', 'заболевание'),
 ('18,49%', 'ppf'),
 ('2,68%', '«сделка'),
 ('2010–2020', 'годы)»')]

Видим, что среди мнимых коллокаций попадается много мусора. Попробуем от него избавиться, установив для finder'а фильтр по частотности. Таким образом мы отсеем биграммы, которые встретились в корпусе 1 или 2 раза.

In [6]:
finder.apply_freq_filter(3)
finder.nbest(bigram_measures.pmi, 10)

[('kyodo', 'news'),
 ('ponars', 'eurasia'),
 ('small', 'letters'),
 ('synovate', 'comcon'),
 ('«наблюдатель', 'петербурга»'),
 ('«негативный', 'консенсус»'),
 ('«утрата', 'доверия»'),
 ('андерс', 'фог'),
 ('гаснуть', '«выборы»'),
 ('goltsblat', 'blp')]

Так-то лучше, но ещё есть, что улучшать. Например, можем удалить из коллокаций стоп-слова (предлоги, союзы, местоимения) и просто слова короче 3 символов.

Заодно помимо pmi попробуем ещё другую метрику - Log-Likelihood.

In [7]:
stopwords = nltk.corpus.stopwords.words('russian')
finder.apply_word_filter(lambda w: len(w) < 3 or w.lower() in stopwords)
finder.nbest(bigram_measures.likelihood_ratio, 10)

[('миллиард', 'рубль'),
 ('2014', 'год'),
 ('2013', 'год'),
 ('2015', 'год'),
 ('точка', 'зрение'),
 ('сказать', 'рбк'),
 ('миллион', 'рубль'),
 ('владимир', 'путин'),
 ('«единый', 'россии»'),
 ('афк', '«система»')]

До сих пор мы распечатывали N биграмм, имеющих наибольшую меру коллокационной связи. Но можно распечатать и все биграммы и их оценки.

Допустим, мы хотим распечатать просто частоту биграммы в корпусе.

In [8]:
scored_bigrams = finder.score_ngrams(bigram_measures.raw_freq)
sorted(scored_bigrams, key = lambda x: x[1])

[(('$1,5', 'миллиард'), 1.6956624953369282e-05),
 (('$10', 'миллиард'), 1.6956624953369282e-05),
 (('$25', 'миллион'), 1.6956624953369282e-05),
 (('$30', 'миллион'), 1.6956624953369282e-05),
 (('$50', 'миллиард'), 1.6956624953369282e-05),
 (('0,5', 'п.п'), 1.6956624953369282e-05),
 (('1,5', 'миллиард'), 1.6956624953369282e-05),
 (('1,5', 'триллион'), 1.6956624953369282e-05),
 (('1,6', 'миллиард'), 1.6956624953369282e-05),
 (('1,8', 'миллиард'), 1.6956624953369282e-05),
 (('120', 'тысяча'), 1.6956624953369282e-05),
 (('19.00', 'мск'), 1.6956624953369282e-05),
 (('1992', 'год'), 1.6956624953369282e-05),
 (('1998', 'год'), 1.6956624953369282e-05),
 (('2,3', 'миллиард'), 1.6956624953369282e-05),
 (('2,99', 'миллиард'), 1.6956624953369282e-05),
 (('200', 'километр'), 1.6956624953369282e-05),
 (('2012–2013', 'год'), 1.6956624953369282e-05),
 (('2017', 'годов»'), 1.6956624953369282e-05),
 (('2030', 'год'), 1.6956624953369282e-05),
 (('3,8', 'миллиард'), 1.6956624953369282e-05),
 (('300', 'мил

Допустим, нас интересуют биграммы, частотность которых больше, чем какой-то порог. This is also possible in ntlk.

In [9]:
frequent_bigrams = finder.above_score(bigram_measures.raw_freq, 0.0005)
for b in frequent_bigrams:
    print(b)

('миллиард', 'рубль')
('2014', 'год')
('2013', 'год')
('2015', 'год')
('миллион', 'рубль')
('сказать', 'рбк')
('это', 'год')


Все, что мы до настоящего момента делали на материале биграмм, можно сделать и с триграммами. В nltk для них доступны аналогичные функции.

For your interest: в nltk есть ещё и функции для 4-грамм, которые там называются Quadgram.

In [10]:
tr_finder = TrigramCollocationFinder.from_words(words_tagged)
tr_finder.apply_word_filter(lambda w: len(w) < 3 or w.lower() in stopwords)
tr_finder.apply_freq_filter(10)
tr_finder.nbest(trigram_measures.likelihood_ratio, 10)

[('квартал', '2014', 'год'),
 ('полугодие', '2014', 'год'),
 ('конец', '2014', 'год'),
 ('апрель', '2014', 'год'),
 ('начало', '2014', 'год'),
 ('сентябрь', '2014', 'год'),
 ('точка', 'зрение', 'автор'),
 ('сказать', 'рбк', 'представитель'),
 ('президент', 'владимир', 'путин'),
 ('сказать', 'рбк', 'источник')]

Ну ок. Научились мы извлекать коллокации, но бездумно это делать не хочется. Как же это работает?

На самом деле, когда мы создаем объект класса CollocationFinder, он берет все биграммы/триграммы/whatever в наших данных и считает для них для всех несколько характеристик.

Затем, когда мы запрашиваем какую-то меру коллокационной связи, nltk берет эти характеристики и считает нужную нам меру.

Что это за характеристики?

На самом деле nltk считает для каждой пары слов в массиве такую матрицу: частота слова1 в корпусе, частота слова2 в корпусе, частота совместной встречаемости слова1 и слова2 в корпусе, общее количество биграмм в корпусе.

        w1    ~w1
     ------ ------
 w2 | n_ii | n_oi | = n_xi
     ------ ------
~w2 | n_io | n_oo |
     ------ ------
     = n_ix        TOTAL = n_xx
     
То есть для биграмм мы считаем данные такой матрицы: (n_ii, (n_ix, n_xi), n_xx) и все их складываем в массив. Затем, когда мы запрашиваем коллокации с какими-то характеристиками, nltk быстренько их подсчитывает, поскольку готовые данные у него уже есть, и отдает нам результат.

Обладая этим сакральным знанием, мы можем понаблюдать, как себя ведут различные коэффициенты на разных выдуманных данных.

In [11]:
print('%0.4f' % bigram_measures.student_t(8, (15828, 4675), 14307668))

0.9999


In [12]:
print('%0.4f' % bigram_measures.student_t(20, (42, 20), 14307668))

4.4721


In [13]:
print('%0.2f' % bigram_measures.chi_sq(8, (15828, 4675), 14307668))

1.55


In [14]:
print('%0.0f' % bigram_measures.chi_sq(59, (67, 65), 571007))

456400


Ну в общем, понятно.

In [15]:
print('%0.2f' % bigram_measures.likelihood_ratio(110, (2552, 221), 31777))
print('%0.2f' % bigram_measures.likelihood_ratio(8, (13, 32), 31777))
print('%0.2f' % bigram_measures.pmi(20, (42, 20), 14307668))
print('%0.2f' % bigram_measures.pmi(20, (15019, 15629), 14307668))

270.72
95.29
18.38
0.29


Теперь мы умеем считать для коллокаций различные меры коллокационной связи, понимаем, как это работает, но в большинстве исследовательских задач мы не используем готовые алгоритмы, а как-то их модифицируем для своей конкретной задачи. Поэтому возникает необходимость оценить качество работы нашего алгоритма. Для этого можно сравнить результаты с золотым стандартом при помощи коэффициента ранговой корреляции Спирмена.

Ранговой - потому что учитывается порядок следования результатов друг за другом.
Корреляции - потому что мы считаем, насколько два списка с результатами друг с другом коррелируют.

В nltk есть модуль nltk.metrics, который умеет разные метрики считать.
Импортируем функции для нужной нам метрики. В частности, есть функции rank_from_sequence() и rank_from_scores(), которые превращают массивы с результатами в ранги.

In [16]:
from nltk.metrics.spearman import *
results_list = ['item1', 'item2', 'item3', 'item4', 'item5']
print(list(ranks_from_sequence(results_list)))

[('item1', 0), ('item2', 1), ('item3', 2), ('item4', 3), ('item5', 4)]


Для списков объектов, для которых у нас имеются оценки, можно задавать промежуток оценки, в течение которого мы считаем ранг неизменным.

In [17]:
results_scored = [('item1', 50.0), ('item2', 40.0), ('item3', 38.0), ('item4', 35.0), ('item5', 14.0)]
print(list(ranks_from_scores(results_scored, rank_gap=5)))

[('item1', 0), ('item2', 1), ('item3', 1), ('item4', 1), ('item5', 4)]


Но довольно слов: вот у нас список с некоторыми результатами, посчитаем корреляцию.

In [18]:
results_list2 = ['item2', 'item3', 'item1', 'item5', 'item4']

Корреляция золотого стандарта самого с собой.

In [19]:
print('%0.1f' % spearman_correlation(ranks_from_sequence(results_list), ranks_from_sequence(results_list)))

1.0


Корреляция золотого стандарта с ним самим, но в обратном порядке.

In [20]:
print('%0.1f' % spearman_correlation(ranks_from_sequence(reversed(results_list)), ranks_from_sequence(results_list)))

-1.0


Корреляция между золотым стандартом и нашими данными.

In [21]:
print('%0.1f' % spearman_correlation(ranks_from_sequence(results_list), ranks_from_sequence(results_list2)))

0.6
