In [2]:
import nltk
from nltk.collocations import *
bigram_measures = nltk.collocations.BigramAssocMeasures()
trigram_measures = nltk.collocations.TrigramAssocMeasures()

In [3]:
words = open('news.txt').read().split()
words

['Губернаторы',
 'отвыкли',
 'от',
 'публичной',
 'политики,',
 'и',
 'их',
 'придется',
 'учить',
 'общаться',
 'с',
 'избирателями',
 '—',
 'об',
 'этом',
 'говорили',
 'на',
 'встрече',
 'в',
 'Кремле',
 'с',
 'политологами',
 'Вячеслав',
 'Володин',
 'и',
 'другие',
 'кураторы',
 'внутренней',
 'политики.',
 'Но',
 'недовольство',
 'руководства',
 'страны',
 'вызывают',
 'только',
 'главы',
 'тех',
 'регионов,',
 'где',
 'нет',
 'реальной',
 'угрозы',
 'власти,',
 'объясняет',
 'участник',
 'встречи.',
 'С',
 'реальными',
 'оппонентами',
 'местных',
 'властей',
 'Кремль',
 'сам',
 'помогает',
 'бороться.',
 'На',
 'встречу',
 'с',
 'первым',
 'замглавы',
 'администрации',
 'президента',
 'Вячеславом',
 'Володиным',
 'пригласили',
 'около',
 '30',
 'политологов,',
 'в',
 'первую',
 'очередь',
 'тех,',
 'кто',
 'назначен',
 'Кремлем',
 'наблюдать',
 'за',
 'ходом',
 'избирательных',
 'кампаний',
 'на',
 'местах,',
 'рассказали',
 'РБК',
 'несколько',
 'участников',
 'встречи.',
 'По'

In [None]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()
punct = '.,!?():;'
words = [word.strip(punct) for word in open('news.txt').read().split()]
words_tagged = [morph.parse(word)[0].normal_form for word in words]
words_tagged

In [4]:
finder = BigramCollocationFinder.from_words(words)

In [5]:
finder.nbest(bigram_measures.pmi, 10)

[('"закручивания', 'гаек"'),
 ('"не', 'провоцировать'),
 ('$884', 'млн),'),
 ('(+6,43%).', 'Абсолютным'),
 ('(10,1%).', 'Ушедшего'),
 ('(101-я', 'форма),'),
 ('(13,6%).', 'Данные'),
 ('(18,49%),', 'PPF'),
 ('(2010–2020', 'годы)»'),
 ('(360', 'МВт),')]

In [6]:
finder.apply_freq_filter(3)
finder.nbest(bigram_measures.pmi, 10)

[('Small', 'Letters'),
 ('«Российским', 'железным'),
 ('«негативный', 'консенсус»'),
 ('Белорусской', 'калийной'),
 ('железным', 'дорогам»'),
 ('сберегательные', 'сертификаты'),
 ('свободное', 'плавание'),
 ('Goltsblat', 'BLP'),
 ('Red', 'Wings'),
 ('«Альянса', 'Зеленых»')]

In [None]:
stopwords = nltk.corpus.stopwords.words('russian')
finder.apply_word_filter(lambda w: len(w) < 3 or w.lower() in stopwords)
finder.nbest(bigram_measures.likelihood_ratio, 10)

In [None]:
scored_bigrams = finder.score_ngrams(bigram_measures.raw_freq)
sorted(scored_bigrams, key = lambda x: x[1])

In [None]:
frequent_bigrams = finder.above_score(bigram_measures.raw_freq, 0.0005)
for b in frequent_bigrams:
    print(b)

In [None]:
tr_finder = TrigramCollocationFinder.from_words(words_tagged)
tr_finder.apply_word_filter(lambda w: len(w) < 3 or w.lower() in stopwords)
tr_finder.apply_freq_filter(10)
tr_finder.nbest(trigram_measures.likelihood_ratio, 10)

        w1    ~w1
     ------ ------
 w2 | n_ii | n_oi | = n_xi
     ------ ------
~w2 | n_io | n_oo |
     ------ ------
     = n_ix        TOTAL = n_xx
     
для биграмм мы считаем критерии для такой матрицы: (n_ii, (n_ix, n_xi), n_xx)

In [None]:
print('%0.4f' % bigram_measures.student_t(8, (15828, 4675), 14307668))
print('%0.4f' % bigram_measures.student_t(20, (42, 20), 14307668))
print('%0.2f' % bigram_measures.chi_sq(8, (15828, 4675), 14307668))
print('%0.0f' % bigram_measures.chi_sq(59, (67, 65), 571007))
print('%0.2f' % bigram_measures.likelihood_ratio(110, (2552, 221), 31777))
print('%0.2f' % bigram_measures.likelihood_ratio(8, (13, 32), 31777))
print('%0.2f' % bigram_measures.pmi(20, (42, 20), 14307668))
print('%0.2f' % bigram_measures.pmi(20, (15019, 15629), 14307668))

In [None]:
from nltk.metrics import ContingencyMeasures
cont_bigram_measures = ContingencyMeasures(bigram_measures)
print('%0.2f' % cont_bigram_measures.chi_sq(8, 15820, 4667, 14287173))

In [None]:
from nltk.metrics.spearman import *
results_list = ['item1', 'item2', 'item3', 'item4', 'item5']
print(list(ranks_from_sequence(results_list)))

In [None]:
results_scored = [('item1', 50.0), ('item2', 40.0), ('item3', 38.0), ('item4', 35.0), ('item5', 14.0)]
print(list(ranks_from_scores(results_scored, rank_gap=5)))

In [None]:
results_list2 = ['item2', 'item3', 'item1', 'item5', 'item4']

In [None]:
print('%0.1f' % spearman_correlation(ranks_from_sequence(results_list), ranks_from_sequence(results_list)))

In [None]:
print('%0.1f' % spearman_correlation(ranks_from_sequence(reversed(results_list)), ranks_from_sequence(results_list)))

In [None]:
print('%0.1f' % spearman_correlation(ranks_from_sequence(results_list), ranks_from_sequence(results_list2)))