In [1]:
import json
import gensim
from gensim.models.wrappers import FastText
import numpy as np
import pandas as pd
import re
import nltk
from nltk.tokenize import word_tokenize
from pymystem3 import Mystem
from nltk.corpus import stopwords
nltk.download("stopwords")
russian_stopwords = stopwords.words("russian")
mystem = Mystem()
model_ft = gensim.models.KeyedVectors.load('araneum_none_fasttextcbow_300_5_2018.model')

def make_ft_embedding(line:str):
    emb_list = []
    for word in line.split():
        emb_list .append(model_ft[word])
    emb_list = np.array(emb_list)
    return emb_list.mean(axis=0)


def preprocess_line(text: str) -> str:
    # убираем пунктуацию, оставляем только дефисы
    no_punct = re.sub('[,\?\!\."\:]|[a-zA-Z]+', '', ''.join(text))
    # токенизируем и лемматизируем текст, приводим к нижнему регистру
    lem_words = mystem.lemmatize(text.lower())
    ans = ' '.join([w for w in lem_words if w not in russian_stopwords and w.isalpha()])
    if ans == " ":
        return 'пустой текст'
    elif ans == '':
        return 'пустой текст'
    else:
        return re.sub('\n', '', ans)

def make_df_from_corpus(path_to_json:str):
    with open(path_to_json, 'r') as f:
        qa_corpus = list(f)[:11000]
    questions = []
    answers = []
    for qa in qa_corpus:
      qa = json.loads(qa)
      if qa['answers'] != []:
        max_value = -10 ** 6
        max_text = ''
        for answer in qa['answers']:
          if answer['author_rating']['value'] != '':
            cur_value = int(answer['author_rating']['value'])
            if cur_value >= max_value:
              max_text = answer['text']
        if max_text != '':
          answers.append(max_text)
          questions.append(qa['question'])
    df = pd.DataFrame({'questions': questions, 'answers': answers})
    df['ans_lemmas'] = df['answers'].apply(preprocess_line)
    return df

def save_embed_corpus(df, text_column):
    df['ans_embeds'] = df['ans_lemmas'].apply(make_ft_embedding)
    split_df = pd.DataFrame(df['ans_embeds'].tolist(),
                        columns=[f'word{i}' for i in range(300)])
    split_df['doc_name'] = df['answers']
    split_df.to_csv('../corpora/corpus_ft.csv')

if __name__ == "__main__":
    df = make_df_from_corpus(path_to_json='../data/questions_about_love.jsonl')
    df = df.head(10000)
    save_embed_corpus(df, text_column='answers')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/pikachu/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
import gensim
from gensim.models.wrappers import FastText
import numpy as np
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
model_ft = gensim.models.KeyedVectors.load('araneum_none_fasttextcbow_300_5_2018.model')

query = input('Введите фразу, которую хотите найти в корпусе: ')
query = preprocess_line(query)
path_to_corpus = '../corpora/corpus_ft.csv'
df = pd.read_csv(path_to_corpus)

cols = [col for col in df.columns if 'word' in col]
scores = cosine_similarity(model_ft[query].reshape((1,300)), df[cols].as_matrix())[0]
argx = np.argsort(scores)[::-1]
df['doc_name'].to_numpy()[argx.ravel()]

Введите фразу, которую хотите найти в корпусе:  не любит


  


array(['Не любит.', 'Да за что только не любил...', 'Что он любит тебя!',
       ..., 'протеестовать', 'в дальневосточном федеральном округе!',
       'синхронизация карбов'], dtype=object)

In [3]:
import os
import nltk
import pandas as pd
import numpy as np
import random
import re
from nltk.tokenize import word_tokenize
from pymystem3 import Mystem
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
import pickle
import scipy
from scipy import sparse

count_vectorizer = CountVectorizer()
# Функция индексирования данных.
# На выходе создает обратный индекс, он же матрица Term-Document.
def inverted_indexing(corpus, df, vectorizer):
    X = vectorizer.fit_transform(corpus)
    return X

# def similarity_array(query, df):
#     return cosine_similarity(query, df.values)
def get_cosine_similarity(sparse_matrix, query):
    return np.dot(sparse_matrix, query.T).toarray()

if __name__ == "__main__":
    df = make_df_from_corpus(path_to_json='../data/questions_about_love.jsonl')
    df = df.head(10000)
    corpus = df['ans_lemmas'].tolist()
    X = inverted_indexing(corpus, df, count_vectorizer)
    pickle.dump(count_vectorizer, open('../vectorizers/count_vectorizer.pickle', 'wb'))
    scipy.sparse.save_npz('../corpora/count_vectorizer.npz', X)

In [4]:
count_vectorizer = pickle.load(open('../vectorizers/count_vectorizer.pickle', 'rb'))
sparse_matrix = sparse.load_npz('../corpora/count_vectorizer.npz')


query = input('Введите фразу, которую хотите найти в корпусе: ')
query = preprocess_line(query)
query = count_vectorizer.transform([query])
sparse_matrix = sparse.load_npz('../corpora/count_vectorizer.npz')
sim_array = get_cosine_similarity(sparse_matrix, query)
sorted_scores_indx = np.argsort(sim_array, axis=0)[::-1]
df['answers'][sorted_scores_indx.ravel()]

Введите фразу, которую хотите найти в корпусе:  не любит


7034    Если человек оскорбляет - значит он не любит. ...
3788    Какая разница любит он тебя или нет? Любовь - ...
4688    Поскольку те, кто сохраняет девственность, обл...
9713    У нам с молодым человеком что-то на подобие эт...
9034    Ты правильно решила сохранить ребёнка. Из всег...
                              ...                        
6587                    Соответствовать его темпераменту)
6586               Девушки созданы более эмоциональными:)
6585          женись и тогда секс будет супружеский долг.
6583    Уйгурки довольно симпатичные. Здесь есть одна ...
0                скажи давай встретимся, тяжело сказать ?
Name: answers, Length: 10000, dtype: object

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [7]:
tfidf_vectorizer = TfidfVectorizer(use_idf=True, analyzer='word', norm='l2')
# Функция индексирования данных.
# На выходе создает обратный индекс, он же матрица Term-Document.
def inverted_indexing(corpus, df, vectorizer):
    X = vectorizer.fit_transform(corpus)
    return X

# def similarity_array(query, df):
#     return cosine_similarity(query, df.values)
def get_cosine_similarity(sparse_matrix, query):
    return np.dot(sparse_matrix, query.T).toarray()

if __name__ == "__main__":
    df = make_df_from_corpus(path_to_json='../data/questions_about_love.jsonl')
    df = df.head(10000)
    corpus = df['ans_lemmas'].tolist()
    X = inverted_indexing(corpus, df, count_vectorizer)
    pickle.dump(count_vectorizer, open('../vectorizers/tfidf_vectorizer.pickle', 'wb'))
    scipy.sparse.save_npz('../corpora/tfidf_vectorizer.npz', X)

In [8]:
tfidf_vectorizer = pickle.load(open('../vectorizers/tfidf_vectorizer.pickle', 'rb'))
sparse_matrix = sparse.load_npz('../corpora/tfidf_vectorizer.npz')


query = input('Введите фразу, которую хотите найти в корпусе: ')
query = preprocess_line(query)
query = tfidf_vectorizer.transform([query])
sparse_matrix = sparse.load_npz('../corpora/tfidf_vectorizer.npz')
sim_array = get_cosine_similarity(sparse_matrix, query)
sorted_scores_indx = np.argsort(sim_array, axis=0)[::-1]
df['answers'][sorted_scores_indx.ravel()]

Введите фразу, которую хотите найти в корпусе:  не любит


7034    Если человек оскорбляет - значит он не любит. ...
3788    Какая разница любит он тебя или нет? Любовь - ...
4688    Поскольку те, кто сохраняет девственность, обл...
9713    У нам с молодым человеком что-то на подобие эт...
9034    Ты правильно решила сохранить ребёнка. Из всег...
                              ...                        
6587                    Соответствовать его темпераменту)
6586               Девушки созданы более эмоциональными:)
6585          женись и тогда секс будет супружеский долг.
6583    Уйгурки довольно симпатичные. Здесь есть одна ...
0                скажи давай встретимся, тяжело сказать ?
Name: answers, Length: 10000, dtype: object

In [12]:
def doc_term_matrix(corpus, tfidf_vectorizer, tf_vectorizer):
    tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)
    corpus_vocab = tfidf_vectorizer.get_feature_names()
    tf_matrix = tf_vectorizer.fit_transform(corpus)
    cv_matrix = count_vectorizer.fit_transform(corpus)
    idf = tfidf_vectorizer.idf_
    idf = np.expand_dims(idf, axis=0)
    idf = sparse.csr_matrix(idf)
    tf = tf_vectorizer
    pickle.dump(idf, open('../vectorizers/idf_vectorizer.pickle', 'wb'))
    pickle.dump(tf, open('../vectorizers/tf_vectorizer.pickle', 'wb'))
    pickle.dump(count_vectorizer, open('../vectorizers/cv_vectorizer.pickle', 'wb'))
    return tf_matrix, idf, cv_matrix

def BM_25(tf_matrix, idf_matrix, cv_matrix, k=2, b=0.75):
    values = []
    rows = []
    cols = []
    len_d = cv_matrix.sum(axis=1).T
    avgdl = len_d.mean()
    for i, j in zip(*tf_matrix.nonzero()):
        A = idf_matrix[0,j] * tf_matrix[i, j] * (k+1)
        B_1 = (k * (1 - b + b * len_d[0,i] / avgdl))
        B_1 = np.expand_dims(B_1, axis=-1) 
        B = tf_matrix[i, j] + B_1
        B = B[0]
        values.append(A/B)
        rows.append(i)
        cols.append(j)
    sparse_matrix = sparse.csr_matrix((values, (rows, cols)))
    scipy.sparse.save_npz('../corpora/BM25.npz', sparse_matrix)
#     pickle.dump(sparse_matrix, open('./BM25.pickle', 'wb'))
    return sparse_matrix


if __name__ == "__main__":
    df = make_df_from_corpus('../data/questions_about_love.jsonl')
    df = df.head(10000)
    corpus = df.lemmas.to_list()
    count_vectorizer = CountVectorizer()
    tf_vectorizer = TfidfVectorizer(use_idf=False, norm='l2')
    tfidf_vectorizer = TfidfVectorizer(use_idf=True, analyzer='word', norm='l2')
    tf_matrix, idf_matrix, cv_matrix = doc_term_matrix(corpus, tfidf_vectorizer, tf_vectorizer)
    BM_25(tf_matrix, idf_matrix, cv_matrix)

BrokenPipeError: [Errno 32] Broken pipe

In [74]:
import os
import nltk
import pandas as pd
import numpy as np
import random
import re
from nltk.tokenize import word_tokenize
from pymystem3 import Mystem
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
import pickle


# Функция индексирования данных.
# На выходе создает обратный индекс, он же матрица Term-Document.
def inverted_indexing(corpus, df):
    X = count_vectorizer.fit_transform(corpus)
    data = vectorizer.fit_transform(corpus).toarray()
    vocab = count_vectorizer.get_feature_names()
    df_ans = pd.DataFrame(data=data,columns=vocab)
    df_ans['doc_name'] = df['answers']
    return df_ans, X

def similarity_array(query, df):
    return cosine_similarity(query, df.values)

if __name__ == "__main__":
    df = make_df_from_corpus(path_to_json='../data/questions_about_love.jsonl')
    df = df.head(10000)
    corpus = df['ans_lemmas'].tolist()
    corpus_df, X = inverted_indexing(corpus, df)
    pickle.dump(count_vectorizer, open('../vectorizers/count_vectorizer.pickle', 'wb'))
    corpus_df.to_csv('../corpora/count_vectorizer.csv', index=False)

In [78]:
query = input('Введите фразу, которую хотите найти в корпусе: ')
query = preprocess_line(query)
count_vectorizer = pickle.load(open('../vectorizers/count_vectorizer.pickle', 'rb'))
query = count_vectorizer.transform([query])
df = pd.read_csv('../corpora/count_vectorizer.csv')
cols = [col for col in df.columns if col != 'doc_name']
sim_array = similarity_array(query, df[cols])
ans_list = df.loc[sim_array.argsort()[0][::-1]]['doc_name'].to_list()

In [80]:
import os
import nltk
import pandas as pd
import numpy as np
import random
import re
from nltk.tokenize import word_tokenize
from pymystem3 import Mystem
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
import pickle

tfidf_vectorizer = TfidfVectorizer(use_idf=True, analyzer='word', norm='l2')

# Функция индексирования данных.
# На выходе создает обратный индекс, он же матрица Term-Document.
def inverted_indexing(corpus, df):
    X = tfidf_vectorizer.fit_transform(corpus)
    data = tfidf_vectorizer.fit_transform(corpus).toarray()
    vocab = tfidf_vectorizer.get_feature_names()
    df_ans = pd.DataFrame(data=data,columns=vocab)
    df_ans['doc_name'] = df['answers']
    return df_ans, X

def similarity_array(query, df):
    return cosine_similarity(query, df.values)

if __name__ == "__main__":
    df = make_df_from_corpus(path_to_json='../data/questions_about_love.jsonl')
    df = df.head(10000)
    corpus = df['ans_lemmas'].tolist()
    corpus_df, X = inverted_indexing(corpus, df)
    pickle.dump(count_vectorizer, open('../vectorizers/tfidf_vectorizer.pickle', 'wb'))
    corpus_df.to_csv('../corpora/tfidf_vectorizer.csv', index=False)

In [81]:
query = input('Введите фразу, которую хотите найти в корпусе: ')
query = preprocess_line(query)
tfidf_vectorizer = pickle.load(open('../vectorizers/tfidf_vectorizer.pickle', 'rb'))
query = tfidf_vectorizer.transform([query])
df = pd.read_csv('../corpora/tfidf_vectorizer.csv')
cols = [col for col in df.columns if col != 'doc_name']
sim_array = similarity_array(query, df[cols])
ans_list = df.loc[sim_array.argsort()[0][::-1]]['doc_name'].to_list()

Введите фразу, которую хотите найти в корпусе:  не любит


In [None]:
import json
import pandas as pd
import numpy as np
import re
import os
import nltk
from nltk.tokenize import word_tokenize
from pymystem3 import Mystem
from nltk.corpus import stopwords
nltk.download("stopwords")
russian_stopwords = stopwords.words("russian")
mystem = Mystem()
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from scipy import sparse
import pickle


def doc_term_matrix(corpus, tfidf_vectorizer, tf_vectorizer):
    tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)
    corpus_vocab = tfidf_vectorizer.get_feature_names()
    tf_matrix = tf_vectorizer.fit_transform(corpus)
    cv_matrix = count_vectorizer.fit_transform(corpus)
    idf = tfidf_vectorizer.idf_
    idf = np.expand_dims(idf, axis=0)
    idf = sparse.csr_matrix(idf)
    tf = tf_vectorizer
    pickle.dump(idf, open('../vectorizers/idf.pickle', 'wb'))
    pickle.dump(tf, open('../vectorizers/tf.pickle', 'wb'))
    pickle.dump(count_vectorizer, open('../vectorizers/cv.pickle', 'wb'))
    return tf_matrix, idf, cv_matrix

def BM_25(tf_matrix, idf_matrix, cv_matrix, k=2, b=0.75):
    values = []
    rows = []
    cols = []
    len_d = cv_matrix.sum(axis=1).T
    avgdl = len_d.mean()
    for i, j in zip(*tf_matrix.nonzero()):
        A = idf_matrix[0,j] * tf_matrix[i, j] * (k+1)
        B_1 = (k * (1 - b + b * len_d[0,i] / avgdl))
        B_1 = np.expand_dims(B_1, axis=-1) 
        B = tf_matrix[i, j] + B_1
        B = B[0]
        values.append(A/B)
        rows.append(i)
        cols.append(j)
    sparse_matrix = sparse.csr_matrix((values, (rows, cols)))
    pickle.dump(sparse_matrix, open('../corpora/sparse_matrix.pickle', 'wb'))
    return sparse_matrix


if __name__ == "__main__":
    df = make_df('../data/questions_about_love.jsonl')
    corpus = df.lemmas.to_list()
    count_vectorizer = CountVectorizer()
    tf_vectorizer = TfidfVectorizer(use_idf=False, norm='l2')
    tfidf_vectorizer = TfidfVectorizer(use_idf=True, analyzer='word', norm='l2')
    tf_matrix, idf_matrix, cv_matrix = doc_term_matrix(corpus, tfidf_vectorizer, tf_vectorizer)
    BM_25(tf_matrix, idf_matrix, cv_matrix)

In [None]:
import json
import pandas as pd
import numpy as np
import re
import os
import nltk
from nltk.tokenize import word_tokenize
from pymystem3 import Mystem
from nltk.corpus import stopwords
nltk.download("stopwords")
russian_stopwords = stopwords.words("russian")
mystem = Mystem()
from scipy import sparse
import pickle
count_vectorizer = pickle.load(open('./cv.pickle', 'rb'))
corpus_matrix = pickle.load(open('./sparse_matrix.pickle', 'rb'))


def preprocess_line(text: str) -> str:
    # убираем пунктуацию, оставляем только дефисы
    no_punct = re.sub('[,\?\!\."\:]|[a-zA-Z]+', '', ''.join(text))
    # токенизируем и лемматизируем текст, приводим к нижнему регистру
    lem_words = mystem.lemmatize(text.lower())
    ans = ' '.join([w for w in lem_words if w not in russian_stopwords and w.isalpha()])
    return re.sub('\n', '', ans)

def count_query(query:str, corpus_matrix, doc_name):
    query = preprocess_line(query)
    query_vec = count_vectorizer.transform([query])
    scores = corpus_matrix.dot(query_vec.T).toarray()
    sorted_scores_indx = np.argsort(scores, axis=0)[::-1]
    ans = doc_name[sorted_scores_indx.ravel()]
    return ans

def main(query:str):
    df = pd.read_csv('./df.csv')
    doc_name = pd.read_csv('./df.csv')['answers'].to_numpy()
    ans = 'Найденные в порядке релевантности документы: ' + ', '.join(count_query(query, corpus_matrix, doc_name))
    return ans


if __name__ == "__main__":
    query = input('Введите фразу, которую хотите найти в корпусе: ')
    print(main(query))

