In [44]:
import itertools
from razdel import sentenize
from razdel import tokenize as razdel_tokenize
from pymorphy2 import MorphAnalyzer
from collections import Counter, defaultdict
import numpy as np
import re
from string import punctuation
from nltk.corpus import stopwords
import gensim

stops = set(stopwords.words('russian') + ["это", "весь"])
morph = MorphAnalyzer()

def normalize(text):
    tokens = re.findall('[а-яёa-z0-9]+', text.lower())
    normalized_text = [morph.parse(word)[0].normal_form for word \
                                                            in tokens]
    normalized_text = [word for word in normalized_text if len(word) > 2 and word not in stops]
    
    return normalized_text

def preprocess(text):
    sents = sentenize(text)
    return [normalize(sent.text) for sent in sents]

def ngrammer(tokens, stops, n=2):
    ngrams = []
    tokens = [token for token in tokens if token not in stops]
    for i in range(0,len(tokens)-n+1):
        ngrams.append(tuple(tokens[i:i+n]))
    return ngrams

In [45]:
corpus = open('Рабочий стол/2ch_corpus.txt').read()[:100000]
corpus = preprocess(corpus)

In [55]:
def scorer(worda_count, wordb_count, bigram_count, len_vocab, min_count, corpus_word_count):
    if bigram_count >= min_count:
        corpus_word_count = float(corpus_word_count)
        pres_a = worda_count / corpus_word_count
        pres_b = wordb_count / corpus_word_count
        pres_ab = bigram_count / corpus_word_count
        return np.log(pres_ab / (pres_a * pres_b))
    else:
        return 0


In [66]:
ph = gensim.models.Phrases(corpus, scoring=scorer, min_count=1, threshold=0)
p = gensim.models.phrases.Phraser(ph)
ph2 = gensim.models.Phrases(p[corpus], scoring=scorer, min_count=1, threshold=0)
p2 = gensim.models.phrases.Phraser(ph2)

In [67]:
p2[p[corpus[333]]]

['дело_пикча_сильно_сужать',
 'общий_картина_отсекать_актуальный',
 'технология_реальный_практика_просто',
 'идейный_прототип_теория_пример',
 'качество_первый_вполне_мочь',
 'подойти_scheme_smalltalk_семейство']

In [68]:
ph = gensim.models.Phrases(corpus, scoring=scorer, min_count=2, threshold=2)
p = gensim.models.phrases.Phraser(ph)
ph2 = gensim.models.Phrases(p[corpus], scoring=scorer, min_count=2, threshold=2)
p2 = gensim.models.phrases.Phraser(ph2)

In [69]:
p2[p[corpus[333]]]

['дело',
 'пикча',
 'сильно',
 'сужать',
 'общий_картина',
 'отсекать',
 'актуальный',
 'технология',
 'реальный',
 'практика_просто',
 'идейный',
 'прототип',
 'теория',
 'пример',
 'качество',
 'первый',
 'вполне_мочь',
 'подойти',
 'scheme_smalltalk',
 'семейство']

In [70]:
ph = gensim.models.Phrases(corpus, scoring=scorer, min_count=3, threshold=3)
p = gensim.models.phrases.Phraser(ph)
ph2 = gensim.models.Phrases(p[corpus], scoring=scorer, min_count=3, threshold=3)
p2 = gensim.models.phrases.Phraser(ph2)

In [71]:
p2[p[corpus[333]]]

['дело',
 'пикча',
 'сильно',
 'сужать',
 'общий',
 'картина',
 'отсекать',
 'актуальный',
 'технология',
 'реальный',
 'практика',
 'просто',
 'идейный',
 'прототип',
 'теория',
 'пример',
 'качество',
 'первый',
 'вполне',
 'мочь',
 'подойти',
 'scheme_smalltalk',
 'семейство']

In [72]:
ph = gensim.models.Phrases(corpus, scoring=scorer, min_count=4, threshold=4)
p = gensim.models.phrases.Phraser(ph)
ph2 = gensim.models.Phrases(p[corpus], scoring=scorer, min_count=4, threshold=4)
p2 = gensim.models.phrases.Phraser(ph2)

In [73]:
p2[p[corpus[333]]]

['дело',
 'пикча',
 'сильно',
 'сужать',
 'общий',
 'картина',
 'отсекать',
 'актуальный',
 'технология',
 'реальный',
 'практика',
 'просто',
 'идейный',
 'прототип',
 'теория',
 'пример',
 'качество',
 'первый',
 'вполне',
 'мочь',
 'подойти',
 'scheme',
 'smalltalk',
 'семейство']