In [49]:
import json
import gensim
from gensim.models.wrappers import FastText
import numpy as np
import pandas as pd
import re
import nltk
from nltk.tokenize import word_tokenize
from pymystem3 import Mystem
from nltk.corpus import stopwords
from sklearn.metrics.pairwise import cosine_similarity
import pickle
import scipy
from scipy import sparse
nltk.download("stopwords")
russian_stopwords = stopwords.words("russian")
mystem = Mystem()
model_ft = gensim.models.KeyedVectors.load('../vectorizers/araneum_none_fasttextcbow_300_5_2018.model')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/pikachu/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [4]:
def make_ft_embedding(line:str):
    emb_list = []
    for word in line.split():
        emb_list .append(model_ft[word])
    emb_list = np.array(emb_list)
    return emb_list.mean(axis=0)


def preprocess_line(text: str) -> str:
    # убираем пунктуацию, оставляем только дефисы
    no_punct = re.sub('[,\?\!\."\:]|[a-zA-Z]+', '', ''.join(text))
    # токенизируем и лемматизируем текст, приводим к нижнему регистру
    lem_words = mystem.lemmatize(text.lower())
    ans = ' '.join([w for w in lem_words if w not in russian_stopwords and w.isalpha()])
    if ans == " ":
        return 'пустой текст'
    elif ans == '':
        return 'пустой текст'
    else:
        return re.sub('\n', '', ans)

In [35]:
# query = input('Введите фразу, которую хотите найти в корпусе: ')
# query = preprocess_line(query)
# ans = cs_FastText(query)
def cs_FastText(query):
    path_to_corpus = '../corpora/corpus_ft.csv'
    df = pd.read_csv(path_to_corpus)
    cols = [col for col in df.columns if 'word' in col]
    scores = cosine_similarity(model_ft[query].reshape((1,300)), df[cols].values)[0]
    argx = np.argsort(scores)[::-1]
    return df['doc_name'][argx.ravel()]

In [13]:
df = pd.read_csv('../data/questions_about_love.csv')

In [21]:
def get_cosine_similarity(sparse_matrix, query):
    return np.dot(sparse_matrix, query.T).toarray()

In [32]:
# query = input('Введите фразу, которую хотите найти в корпусе: ')
# query = preprocess_line(query)
def cs_CountVectorizer(query):
    count_vectorizer = pickle.load(open('../vectorizers/count_vectorizer.pickle', 'rb'))
    sparse_matrix = sparse.load_npz('../corpora/count_vectorizer.npz')
    query = count_vectorizer.transform([query])
    scores = get_cosine_similarity(sparse_matrix, query)
    argx = np.argsort(scores, axis=0)[::-1]
    return df['answers'][argx.ravel()]

In [33]:
cs_CountVectorizer(query)

7034    Если человек оскорбляет - значит он не любит. ...
3788    Какая разница любит он тебя или нет? Любовь - ...
4688    Поскольку те, кто сохраняет девственность, обл...
9713    У нам с молодым человеком что-то на подобие эт...
9034    Ты правильно решила сохранить ребёнка. Из всег...
                              ...                        
6587                    Соответствовать его темпераменту)
6586               Девушки созданы более эмоциональными:)
6585          женись и тогда секс будет супружеский долг.
6583    Уйгурки довольно симпатичные. Здесь есть одна ...
0                скажи давай встретимся, тяжело сказать ?
Name: answers, Length: 10000, dtype: object

In [36]:
cs_FastText(query)

9897                                            Не любит.
7561                         Да за что только не любил...
7861                                   Что он любит тебя!
8100                                      Не любящий всех
3413                                               Любят.
                              ...                        
8498                                            цкупукцап
2941    Здравствуй . Это недоработки сервиса и правоох...
5178                                        протеестовать
9644                в дальневосточном федеральном округе!
5480                                 синхронизация карбов
Name: doc_name, Length: 10000, dtype: object

In [37]:
# query = input('Введите фразу, которую хотите найти в корпусе: ')
# query = preprocess_line(query)
def cs_TfidfVectorizer(query):
    tfidf_vectorizer = pickle.load(open('../vectorizers/tfidf_vectorizer.pickle', 'rb'))
    sparse_matrix = sparse.load_npz('../corpora/tfidf_vectorizer.npz')
    query = tfidf_vectorizer.transform([query])
    sim_array = get_cosine_similarity(sparse_matrix, query)
    sorted_scores_indx = np.argsort(sim_array, axis=0)[::-1]
    return df['answers'][sorted_scores_indx.ravel()]

In [40]:
cs_TfidfVectorizer(query)

7034    Если человек оскорбляет - значит он не любит. ...
3788    Какая разница любит он тебя или нет? Любовь - ...
4688    Поскольку те, кто сохраняет девственность, обл...
9713    У нам с молодым человеком что-то на подобие эт...
9034    Ты правильно решила сохранить ребёнка. Из всег...
                              ...                        
6587                    Соответствовать его темпераменту)
6586               Девушки созданы более эмоциональными:)
6585          женись и тогда секс будет супружеский долг.
6583    Уйгурки довольно симпатичные. Здесь есть одна ...
0                скажи давай встретимся, тяжело сказать ?
Name: answers, Length: 10000, dtype: object

In [46]:
def cs_BM25(query):
    query = preprocess_line(query)
    count_vectorizer = pickle.load(open('../vectorizers/count_vectorizer.pickle', 'rb'))
    query_vec = count_vectorizer.transform([query])
    sparse_matrix = sparse.load_npz('../corpora/BM25.npz')
    scores = sparse_matrix.dot(query_vec.T).toarray()
    sorted_scores_indx = np.argsort(scores, axis=0)[::-1]
    return df['answers'][sorted_scores_indx.ravel()]

In [47]:
cs_BM25(query)

3413                                               Любят.
8100                                      Не любящий всех
7861                                   Что он любит тебя!
800                        Если она тебя любит то конечно
8618                               он любит себя а не вас
                              ...                        
6587                    Соответствовать его темпераменту)
6586               Девушки созданы более эмоциональными:)
6585          женись и тогда секс будет супружеский долг.
6583    Уйгурки довольно симпатичные. Здесь есть одна ...
0                скажи давай встретимся, тяжело сказать ?
Name: answers, Length: 10000, dtype: object

In [57]:
import torch
from transformers import AutoTokenizer, AutoModel
bert_tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny")
bert_model = AutoModel.from_pretrained("cointegrated/rubert-tiny")



def get_query_bert(query):
    embeddings = embed_bert_cls(query, bert_model, bert_tokenizer)
    return sparse.csr_matrix(embeddings)

def get_cosine_similarity(sparse_matrix, query):
    return np.dot(sparse_matrix, query.T).toarray()


def cs_BERT(query):
#     scores = get_cosine_similarity(sparse_matrix, query)
#     sorted_scores_indx = np.argsort(scores, axis=0)[::-1]
    query = get_query_bert(query)
    sparse_matrix = sparse.load_npz('../corpora/BERT.npz')
    scores = sparse_matrix.dot(query.T).toarray()
    sorted_scores_indx = np.argsort(scores, axis=0)[::-1]
#     corpus = corpus[sorted_scores_indx.ravel()]
    return df['answers'][sorted_scores_indx.ravel()]

def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

Some weights of the model checkpoint at cointegrated/rubert-tiny were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.dense.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [58]:
cs_BERT(query)

8185                                            танцевать
3259                                             отвлекся
4678                                           отношаться
900                                                злость
1239                                             залететь
                              ...                        
519     Он раскрыл твой секрет не понимая что ты обозн...
1577    Пардон, что не по теме. В твоем сегодняшнем во...
9966    ваша ошибка в том, что вы не объяснили парню д...
2482    Что я могу сказать по этому поводу. С данной с...
1753    В СССР было очень много разводов, тем не менее...
Name: answers, Length: 10000, dtype: object

In [64]:
make_ft_embedding(query).shape

(300,)

In [66]:
model_ft[query].shape

(300,)

In [None]:
def doc_term_matrix(corpus, tfidf_vectorizer, tf_vectorizer):
    tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)
    corpus_vocab = tfidf_vectorizer.get_feature_names()
    tf_matrix = tf_vectorizer.fit_transform(corpus)
    cv_matrix = count_vectorizer.fit_transform(corpus)
    idf = tfidf_vectorizer.idf_
    idf = np.expand_dims(idf, axis=0)
    idf = sparse.csr_matrix(idf)
    tf = tf_vectorizer
    pickle.dump(idf, open('../vectorizers/idf_vectorizer.pickle', 'wb'))
    pickle.dump(tf, open('../vectorizers/tf_vectorizer.pickle', 'wb'))
    pickle.dump(count_vectorizer, open('../vectorizers/cv_vectorizer.pickle', 'wb'))
    return tf_matrix, idf, cv_matrix

def BM_25(tf_matrix, idf_matrix, cv_matrix, k=2, b=0.75):
    values = []
    rows = []
    cols = []
    len_d = cv_matrix.sum(axis=1).T
    avgdl = len_d.mean()
    for i, j in zip(*tf_matrix.nonzero()):
        A = idf_matrix[0,j] * tf_matrix[i, j] * (k+1)
        B_1 = (k * (1 - b + b * len_d[0,i] / avgdl))
        B_1 = np.expand_dims(B_1, axis=-1) 
        B = tf_matrix[i, j] + B_1
        B = B[0]
        values.append(A/B)
        rows.append(i)
        cols.append(j)
    sparse_matrix = sparse.csr_matrix((values, (rows, cols)))
    scipy.sparse.save_npz('../corpora/BM25.npz', sparse_matrix)
#     pickle.dump(sparse_matrix, open('./BM25.pickle', 'wb'))
    return sparse_matrix


if __name__ == "__main__":
    df = make_df_from_corpus('../data/questions_about_love.jsonl')
    df = df.head(10000)
    corpus = df.ans_lemmas.to_list()
    count_vectorizer = CountVectorizer()
    tf_vectorizer = TfidfVectorizer(use_idf=False, norm='l2')
    tfidf_vectorizer = TfidfVectorizer(use_idf=True, analyzer='word', norm='l2')
    tf_matrix, idf_matrix, cv_matrix = doc_term_matrix(corpus, tfidf_vectorizer, tf_vectorizer)
    BM_25(tf_matrix, idf_matrix, cv_matrix)

In [7]:
import time

In [9]:
print(time.time(), time.time())

1634719222.502677 1634719222.502677


In [1]:
import json
import gensim
from gensim.models.wrappers import FastText
import numpy as np
import pandas as pd
import re
import nltk
from nltk.tokenize import word_tokenize
from pymystem3 import Mystem
from nltk.corpus import stopwords
import pickle
import scipy
from scipy import sparse
import torch
from transformers import AutoTokenizer, AutoModel
mystem = Mystem()
model_ft = gensim.models.KeyedVectors.load('../vectorizers/araneum_none_fasttextcbow_300_5_2018.model')
bert_tokenizer = AutoTokenizer.from_pretrained("cointegrated/rubert-tiny")
bert_model = AutoModel.from_pretrained("cointegrated/rubert-tiny")
df = pd.read_csv('../data/questions_about_love.csv')

def vec_normalization(vec):
    return vec / np.linalg.norm(vec)

def make_ft_embedding(line:str):
    emb_list = []
    for word in line.split():
        emb_list .append(model_ft[word])
    emb_list = vec_normalization(np.array(emb_list))
    return emb_list.mean(axis=0)


def preprocess_line(text: str) -> str:
    # убираем пунктуацию, оставляем только дефисы
    no_punct = re.sub('[,\?\!\."\:]|[a-zA-Z]+', '', ''.join(text))
    # токенизируем и лемматизируем текст, приводим к нижнему регистру
    lem_words = mystem.lemmatize(text.lower())
    ans = ' '.join([w for w in lem_words if w.isalpha()])
    if ans == " ":
        return 'пустой текст'
    elif ans == '':
        return 'пустой текст'
    else:
        return re.sub('\n', '', ans)


def cs_FastText(query, corpus_ft, cols):
    query = preprocess_line(query)
    scores = np.dot(corpus_ft[cols].values, make_ft_embedding(query).T)
    argx = np.argsort(scores)[::-1]
    return corpus_ft['doc_name'][argx.ravel()]


def cosine_similarity_matrix_query(sparse_matrix, query):
    return np.dot(sparse_matrix, query.T).toarray()


def make_bert_embedding(query):
    embeddings = embed_bert_cls(query, bert_model, bert_tokenizer)
    return sparse.csr_matrix(embeddings)


def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].numpy()

def cs_BERT(query, sparse_matrix):
    query = make_bert_embedding(query)
    scores = cosine_similarity_matrix_query(sparse_matrix, query)
    argx = np.argsort(scores, axis=0)[::-1]
    return df['answers'][argx.ravel()]


def main(query:str, top_n:int):
    path_to_corpus = '../corpora/corpus_ft.csv'
    corpus_ft = pd.read_csv(path_to_corpus)
    cols = [col for col in corpus_ft.columns if 'word' in col]
    tf_answers = cs_FastText(query, corpus_ft, cols)[:top_n].to_numpy()
    sparse_matrix = sparse.load_npz('../corpora/BERT_answers.npz')
    bert_answers = cs_BERT(query, sparse_matrix)[:top_n].to_numpy()
    return tf_answers, bert_answers

if __name__ == "__main__":
    query = input('Введите фразу, которую хотите найти в корпусе: ')
    top_n = int(input('Напишите число n, топ-n результатов выдачи моделей вы хотите видеть: '))
    tf_answers, bert_answers = main(query, top_n)
    tf_answers = ',\n'.join(tf_answers)
    bert_answers = ',\n'.join(bert_answers)
    print(f'Вот топ-{top_n} ответов, найденных с помощью FastText: \n', tf_answers, '\n\n')
    print(f'Вот топ-{top_n} ответов, найденных с помощью BERT: \n', bert_answers)

Some weights of the model checkpoint at cointegrated/rubert-tiny were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.decoder.weight', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Введите фразу, которую хотите найти в корпусе:  не любит
Напишите число n, топ-n результатов выдачи моделей вы хотите видеть:  6


FileNotFoundError: [Errno 2] No such file or directory: '../corpora/BERT.npz'