### Создание модели FastText для поиска наиболее релевантной шутки к введенному пользователем запросу

##### 1. Импорт библиотек

In [3]:
import pandas as pd
import string
import emoji
import re
from tqdm import tqdm
from stop_words import get_stop_words
import razdel
import nltk
from pymorphy2 import MorphAnalyzer
from gensim.models import FastText
import numpy as np
import random
import string
import dill
tqdm.pandas()

##### 2. Подготовка к препроцессингу датасета

In [2]:
df = pd.read_csv(r'D:\Chat-bot\jokes\df.csv', sep='\t', encoding='utf-8')
df.drop(columns=['Unnamed: 0'], inplace=True)

In [3]:
df.rename(columns={'0':'question_answer'}, inplace=True)

In [1]:
# Размерность вектора эмбеддингов для слов
embedding_dim=128

In [14]:
# Импорт знаков пунктуации для препроцессинга
punctuations = string.punctuation
punctuations

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [15]:
# Импорт Стоп-слов
stop_words = get_stop_words('ru')
stops = nltk.corpus.stopwords.words('russian')
stop_words.extend(stops)
stop_words = list(set(stop_words))
print(f'Всего найдено {len(stop_words)} стоп-слов')

Всего найдено 422 стоп-слов


In [16]:
morph_analyzer = MorphAnalyzer()

In [8]:
df = df[df['question_answer'].notnull()]
df

Unnamed: 0,question_answer
0,"Как водичка ?;;; А я здесь как женшина сижу, а..."
1,Я затрудняюсь поставить вам диагноз ... Наверн...
2,Что такое дефицит в маркистском понимании?;;; ...
3,Можно у вас срочно отремонтировать часы?;;; Не...
4,Из-за тебя я проиграл уйму денег!;;; Почему ты...
...,...
87715,"Дорогая, выходи за меня замуж.;;; А что ты мне..."
87716,Поздравляем! У вас сегодня родились сразу три ...
87717,"Что ты там делаешь, сынок?;;; Не сейчас, мам!;..."
87718,"Алло, милиция?!;;; Да!;;; Быстрее приезжайте, ..."


##### 3. Препроцессинг: удаление знаков пунктуаций, эмоджи, чисел и т.д.

In [19]:
def preprocess_text(text:str, punctuations=punctuations, stop_words=stop_words, morph=morph_analyzer):
    
    text = str(text)
    text = text.lower()                 # Изменяем регистр на нижний
    
    # Замена пунктуации пробелами:
    for el in string.punctuation:
        text = text.replace(el, ' ')
    
#    # Замена специальных символов на пробелы
#    text = re.sub(r'[^a-Za-Z0-9]', ' ', text)
#    print(text)

    # Удаляем эмоджи из текста
    emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           "]+", flags=re.UNICODE)
    text = emoji_pattern.sub(r'a', text)
    
    # Сличение частицы "не" с глаголом
    text = re.sub(r'не ', r'не', text)

    # Замена чисел на пробелы
    text = re.sub(r'\d+', ' ', text)
   
    # Удаляем слова длиной в 1 символ
    # Удаляем слова из словаря стоп-слов
    # Получаем нормальную форму слова
    text = ' '.join([morph.parse(w)[0].normal_form for w in text.split() if len(w)>1 and w not in stop_words])
  
    return text

In [10]:
# Препроцессинг
df['preprocessed'] = df['question_answer'].progress_apply(lambda x: preprocess_text(x))

100%|██████████| 87720/87720 [02:48<00:00, 521.23it/s]


In [11]:
# Токенезация
df['tokenized'] = df['preprocessed'].progress_apply(lambda x: [_.text for _ in  list(razdel.tokenize(x))])

100%|██████████| 87720/87720 [00:06<00:00, 14265.11it/s]


In [12]:
# Максимальное количество значимых токенов в предложении
df['количество токенов'] = df['tokenized'].apply(lambda x: len(x))
df['количество токенов'].max()

83

In [13]:
# Удаление предложений с количеством значимых токенов = 0
df = df[df['количество токенов'] > 0]
df.reset_index(drop=True, inplace=True)
df.shape

(87651, 4)

##### 4. Сохранение подготовленного датасета на диск

In [16]:
with open(r'D:\Chat-bot\jokes\df_preprocessed.dill', 'wb') as f:
    dill.dump(df, f)

In [9]:
with open(r'D:\Chat-bot\jokes\df_preprocessed.dill', 'rb') as f:
    df = dill.load(f)

##### 5. Обучение модели FastText. Сохранение обученной модели на диск

In [14]:
sentences = [el for el in df[df['количество токенов'] > 1]['tokenized'].values.tolist()]

In [None]:
model = FastText(sentences=sentences, vector_size=embedding_dim, window=5, min_count=3)  # instantiate
#model.build_vocab(corpus_iterable=df['question_tokenized'].values.tolist())
model.train(corpus_iterable=df[df['количество токенов'] > 1]['tokenized'].values.tolist(), total_examples=df.shape[0], epochs=10)  # train

In [None]:
model.save(r'D:\Chat-bot\jokes\fastetx_model_1.fst')

##### 6. Получение эмбеддинга запроса пользователя. Получение наиболее релевантного ответа

In [4]:
model = FastText.load(r'D:\Chat-bot\jokes\fastetx_model_1.fst')

In [10]:
def words_to_embeddings(mas:list):
    vector = np.zeros(embedding_dim)
    i = 0
    for word in mas:
        i += 1
        vector += model.wv[word]
    return vector/i
        
df['sentence_embeddings'] = df['tokenized'].progress_apply(lambda x: words_to_embeddings(x))

100%|██████████| 87651/87651 [00:05<00:00, 14695.28it/s]


In [11]:
def compute_distance_between_vectors(i, j):
    dot_product = np.dot(i, j)
    magnitude1 = np.linalg.norm(i)
    magnitude2 = np.linalg.norm(j)
    angle = np.arccos(dot_product / (magnitude1 * magnitude2))
    return angle

In [18]:
text = 'шутка про море'
text=preprocess_text(text)
text = [_.text for _ in list(razdel.tokenize(text))]
text = words_to_embeddings(text)

computing = df['sentence_embeddings'].progress_apply(lambda x: compute_distance_between_vectors(x, text))
indexes = computing.sort_values(ascending=True).head(5).index.tolist()
random.shuffle(indexes)
reply = ''

cur_answer = df.loc[indexes[0], 'question_answer']
print(cur_answer.replace(';;; ', '\n'))

100%|██████████| 87651/87651 [00:00<00:00, 87712.65it/s] 

Танечка, у тебя есть недвижимость на берегу моря?
Есть один поклонник, только он совсем старый.



