In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
# считываем данные и заполняем общий датасет
positive = pd.read_csv('positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = ['positive'] * len(positive)
negative = pd.read_csv('negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = ['negative'] * len(negative)
df = positive.append(negative, ignore_index=True)

In [3]:
df.head(5)

Unnamed: 0,text,label
0,"@first_timee хоть я и школота, но поверь, у на...",positive
1,"Да, все-таки он немного похож на него. Но мой ...",positive
2,RT @KatiaCheh: Ну ты идиотка) я испугалась за ...,positive
3,"RT @digger2912: ""Кто то в углу сидит и погибае...",positive
4,@irina_dyshkant Вот что значит страшилка :D\nН...,positive


## Предобработка данных

In [4]:
def preprocess_df(df):
    
    df.text = df.text.apply(lambda x: re.sub(r'[^\w\s]', ' ', x))
    
    for index in range(0, len(df)):
        result = ''.join((x for x in df[df.index == index].text.values[0] if not x.isdigit()))
        result = re.sub("_", " ", result)
        result = re.sub(r'\s*[A-Za-z]+\b', '' , result)
        result = re.sub("\n"," ",result)
        df.loc[df.index == index, 'text'] = result
    
    return df
    

In [5]:
df = preprocess_df(df)
df.head(10)

Unnamed: 0,text,label
0,хоть я и школота но поверь у нас то же само...,positive
1,Да все таки он немного похож на него Но мой ...,positive
2,Ну ты идиотка я испугалась за тебя,positive
3,Кто то в углу сидит и погибает от голода а...,positive
4,Вот что значит страшилка Но блин посмотрев вс...,positive
5,ну любишь или нет Я не знаю кто ты бля,positive
6,Ох ну это конечно же Чтобы у нее было мног...,positive
7,У тебя есть ухажёр Нет мои уши не кто не ...,positive
8,Поприветствуем моего нового читателя,positive
9,Теперь у меня есть частичка Сиднея,positive


## Поиск ближайших твитов

In [6]:
import string
from pymorphy2 import MorphAnalyzer
from stop_words import get_stop_words
import annoy
from gensim.models import Word2Vec, FastText

In [7]:
# Препроцессинг текста

def preprocess_txt(line):
    line = re.sub(r'RT*', '', line)
    line = re.sub(r'@[\w]*', ' ', line)
    spls = "".join(i for i in line.strip() if i not in exclude).split()
    spls = [morpher.parse(i.lower())[0].normal_form for i in spls]
    spls = [i for i in spls if i not in sw and i != ""]
    return spls

In [8]:
assert True

sentences = []

morpher = MorphAnalyzer()
sw = set(get_stop_words("ru"))
exclude = set(string.punctuation)

for line in df['text']:
    spls = preprocess_txt(line)
    sentences.append(spls)

In [9]:
sentences = [i for i in sentences if len(i) > 2]

In [10]:
modelW2V = Word2Vec(sentences=sentences, vector_size=300, window=5, min_count=1)
modelFT = FastText(sentences=sentences, vector_size=300, min_count=1, window=5, workers=8)

In [11]:
w2v_index = annoy.AnnoyIndex(300 ,'angular')
ft_index = annoy.AnnoyIndex(300 ,'angular')

counter = 0
index_map = {}

for line in df['text']:
    n_w2v = 0
    n_ft = 0
    index_map[counter] = line
    tweet = preprocess_txt(line)
    
    vector_w2v = np.zeros(300)
    vector_ft = np.zeros(300)
    for word in tweet:
        if word in modelW2V.wv:
            vector_w2v += modelW2V.wv[word]
            n_w2v += 1
        if word in modelFT.wv:
            vector_ft += modelFT.wv[word]
            n_ft += 1
    if n_w2v > 0:
        vector_w2v = vector_w2v / n_w2v
    if n_ft > 0:
        vector_ft = vector_ft / n_ft
    w2v_index.add_item(counter, vector_w2v)
    ft_index.add_item(counter, vector_ft)
    counter += 1

    if counter > 100000:
        break

w2v_index.build(10)
ft_index.build(10)

True

In [12]:
def get_response(question, index, model, index_map):
    question = preprocess_txt(question)
    vector = np.zeros(300)
    norm = 0
    for word in question:
        if word in model.wv:
            vector += model.wv[word]
            norm += 1
    if norm > 0:
        vector = vector / norm
    answers = index.get_nns_by_vector(vector, 5, )
    return [index_map[i] for i in answers]

In [13]:
TEXT = "всем хорошего дня!"

In [14]:
get_response(TEXT, w2v_index, modelW2V, index_map)

['  Сегодня хороший день',
 ' хорошего тебе дня',
 '  Они лучшие ',
 ' и тебе  и тебе   хорошего дня',
 ' спасибо моя хорошая ']