In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
df = pd.read_json("data.json")

In [3]:
df.head(5)

Unnamed: 0,author,book,text,url
0,Александр Онисимович Аблесимов,"Мельник — колдун, обманщик и сват",На краю леса перед мельницей мельник Фаддей ст...,https://briefly.ru/ablesimov/melnik_koldun_obm...
1,Кобо Абэ,Женщина в песках,Однажды в августе человек отправляется в трехд...,https://briefly.ru/abe/zhencshina_v_peskah/
2,Кобо Абэ,Чужое лицо,"Исследователь, заведующий лабораторией в инсти...",https://briefly.ru/abe/chuzhoe_lico/
3,Кобо Абэ,Человек-ящик,"Человек-ящик, сидя в своём ящике, приступает к...",https://briefly.ru/abe/chelovek-jacshik/
4,Кобо Абэ,Сожжённая карта,В частное сыскное агентство подано заявление о...,https://briefly.ru/abe/sozhzhennaia_karta/


## Предобработка данных

In [4]:
def preprocess_df(df):
    
    df.text = df.text.apply(lambda x: re.sub(r'[^\w\s]', ' ', x))
    
    for index in range(0, len(df)):
        result = ''.join((x for x in df[df.index == index].text.values[0] if not x.isdigit()))
        result = re.sub("_", " ", result)
        result = re.sub(r'\s*[A-Za-z]+\b', '' , result)
        result = re.sub("\n"," ",result)
        df.loc[df.index == index, 'text'] = result
    
    return df
    

In [5]:
df = preprocess_df(df)
df.head(10)

Unnamed: 0,author,book,text,url
0,Александр Онисимович Аблесимов,"Мельник — колдун, обманщик и сват",На краю леса перед мельницей мельник Фаддей ст...,https://briefly.ru/ablesimov/melnik_koldun_obm...
1,Кобо Абэ,Женщина в песках,Однажды в августе человек отправляется в трехд...,https://briefly.ru/abe/zhencshina_v_peskah/
2,Кобо Абэ,Чужое лицо,Исследователь заведующий лабораторией в инсти...,https://briefly.ru/abe/chuzhoe_lico/
3,Кобо Абэ,Человек-ящик,Человек ящик сидя в своём ящике приступает к...,https://briefly.ru/abe/chelovek-jacshik/
4,Кобо Абэ,Сожжённая карта,В частное сыскное агентство подано заявление о...,https://briefly.ru/abe/sozhzhennaia_karta/
5,Аввакум,Житие протопопа Аввакума,Протопоп Аввакум написал житие по благословени...,https://briefly.ru/avvakum/zhitie_protopopa_av...
6,Аркадий Тимофеевич Аверченко,Дюжина ножей в спину революции,ПредисловиеЗдесь автор обосновывает мысль что...,https://briefly.ru/averchenko/diuzhina_nozhei/
7,Дмитрий Гаврилович Агарунов,Бизнес в стиле Ж***,Реальный бизнес далёк от того чтобы быть непр...,https://briefly.ru/agarunov/biznes_v_stile_zh/
8,Алесь Адамович,Каратели,Действие происходит во время Великой Отечестве...,https://briefly.ru/adamovich/karateli/
9,Ицхак Калдерон Адизес,Идеальный руководитель,Не Я а командаВсе знают легенды бизнеса кино...,https://briefly.ru/adizes/idealnyy_rukovoditel/


## Поиск ближайших твитов

In [6]:
import string
from pymorphy2 import MorphAnalyzer
from stop_words import get_stop_words
import annoy
from gensim.models import Word2Vec, FastText

In [7]:
# Препроцессинг текста

def preprocess_txt(line):
    line = re.sub(r'RT*', '', line)
    line = re.sub(r'@[\w]*', ' ', line)
    spls = "".join(i for i in line.strip() if i not in exclude).split()
    spls = [morpher.parse(i.lower())[0].normal_form for i in spls]
    spls = [i for i in spls if i not in sw and i != ""]
    return spls

In [8]:
assert True

sentences = []

morpher = MorphAnalyzer()
sw = set(get_stop_words("ru"))
exclude = set(string.punctuation)

for line in df['text']:
    spls = preprocess_txt(line)
    sentences.append(spls)

In [9]:
sentences = [i for i in sentences if len(i) > 2]

In [None]:
modelW2V = Word2Vec(sentences=sentences, vector_size=300, window=5, min_count=1)
modelFT = FastText(sentences=sentences, vector_size=300, min_count=1, window=5, workers=8)

In [None]:
w2v_index = annoy.AnnoyIndex(300 ,'angular')
ft_index = annoy.AnnoyIndex(300 ,'angular')

counter = 0
index_map = {}

for line in df['text']:
    n_w2v = 0
    n_ft = 0
    index_map[counter] = line
    tweet = preprocess_txt(line)
    
    vector_w2v = np.zeros(300)
    vector_ft = np.zeros(300)
    for word in tweet:
        if word in modelW2V.wv:
            vector_w2v += modelW2V.wv[word]
            n_w2v += 1
        if word in modelFT.wv:
            vector_ft += modelFT.wv[word]
            n_ft += 1
    if n_w2v > 0:
        vector_w2v = vector_w2v / n_w2v
    if n_ft > 0:
        vector_ft = vector_ft / n_ft
    w2v_index.add_item(counter, vector_w2v)
    ft_index.add_item(counter, vector_ft)
    counter += 1

    if counter > 100000:
        break

w2v_index.build(10)
ft_index.build(10)

In [None]:
def get_response(question, index, model, index_map):
    question = preprocess_txt(question)
    vector = np.zeros(300)
    norm = 0
    for word in question:
        if word in model.wv:
            vector += model.wv[word]
            norm += 1
    if norm > 0:
        vector = vector / norm
    answers = index.get_nns_by_vector(vector, 5, )
    return [index_map[i] for i in answers]

In [13]:
TEXT = "всем хорошего дня!"

In [14]:
get_response(TEXT, w2v_index, modelW2V, index_map)

['  Сегодня хороший день',
 ' хорошего тебе дня',
 '  Они лучшие ',
 ' и тебе  и тебе   хорошего дня',
 ' спасибо моя хорошая ']