In [5]:
import pandas as pd
from lxml import html

In [11]:
corpus_xml = html.fromstring(open('paraphraser/paraphrases.xml', 'rb').read())

In [27]:
texts_1 = []
texts_2 = []
classes = []

for p in corpus_xml.xpath('//paraphrase'):
    texts_1.append(p.xpath('./value[@name="text_1"]/text()')[0])
    texts_2.append(p.xpath('./value[@name="text_1"]/text()')[0])
    classes.append(p.xpath('./value[@name="class"]/text()')[0])

In [29]:
data = pd.DataFrame({'text_1':texts_1, 'text_2':texts_2, 'label':classes})

In [30]:
data

Unnamed: 0,label,text_1,text_2
0,0,Полицейским разрешат стрелять на поражение по ...,Полицейским разрешат стрелять на поражение по ...
1,0,Право полицейских на проникновение в жилище ре...,Право полицейских на проникновение в жилище ре...
2,0,Президент Египта ввел чрезвычайное положение в...,Президент Египта ввел чрезвычайное положение в...
3,-1,Вернувшихся из Сирии россиян волнует вопрос тр...,Вернувшихся из Сирии россиян волнует вопрос тр...
4,0,В Москву из Сирии вернулись 2 самолета МЧС с р...,В Москву из Сирии вернулись 2 самолета МЧС с р...
5,1,Приставы соберут отпечатки пальцев российских ...,Приставы соберут отпечатки пальцев российских ...
6,-1,На саратовского дебошира с борта самолета Моск...,На саратовского дебошира с борта самолета Моск...
7,0,ЦИК хочет отказаться от электронной системы по...,ЦИК хочет отказаться от электронной системы по...
8,-1,Суд Петербурга оставил на потом дело о гибели ...,Суд Петербурга оставил на потом дело о гибели ...
9,-1,Страны ОПЕК сократили добычу нефти на 1 млн ба...,Страны ОПЕК сократили добычу нефти на 1 млн ба...


In [36]:
texts = pd.concat([data['text_1'], data['text_2']], ignore_index=True)

In [87]:

from string import punctuation
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()
punct = punctuation+'«»—…“”*№–'
stops = set(stopwords.words('russian'))

def normalize(text):
    
    words = [word.strip(punct) for word in text.lower().split()]
    words = [morph.parse(word)[0].normal_form for word in words if word and word not in stops]

    return ' '.join(words)

In [88]:
texts_norm = texts.apply(normalize)

In [105]:
from sklearn.decomposition import TruncatedSVD, NMF
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_distances

In [89]:
tfidf = TfidfVectorizer(min_df=3, max_df=0.4)
X = tfidf.fit_transform(texts_norm)

In [90]:
svd = TruncatedSVD(200)

In [111]:
nmf = NMF(20)

In [91]:
svd.fit(X)

TruncatedSVD(algorithm='randomized', n_components=200, n_iter=5,
       random_state=None, tol=0.0)

In [112]:
nmf.fit(X)

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
  n_components=20, random_state=None, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

In [114]:
id2vec = nmf.components_.T

In [92]:
id2vec = svd.components_.T

In [51]:
id2vec[0].re

(20,)

In [115]:
id2word = {i:w for i,w in enumerate(tfidf.get_feature_names())}
word2id = {w:i for i,w in id2word.items()}

In [121]:
[id2word[i] for i in cosine_distances(id2vec[word2id['май']].reshape(1, -1), id2vec).argsort()[0][:10]]

['май',
 'осло',
 'бегун',
 'собирать',
 'голодовка',
 'привезти',
 'парад',
 'кпу',
 'автозак',
 'орден']

In [62]:
cosine_distances(id2vec[word2id['день']].reshape(1, -1), id2vec)[0].argsort()[:10]

array([1450, 5598, 4256, 5985, 2717, 2530, 4735,  256, 1512, 2788])