### Чат-бот: запуск данного скрипта приведет к запуску самого чат-бота (в самой последней ячейке необходимо вставить Ваш API-ключ для телеграм)

##### 1. Импорт библиотек

In [1]:
import pandas as pd
import string
import emoji
import re
from tqdm import tqdm
from stop_words import get_stop_words
import razdel
import nltk
from pymorphy2 import MorphAnalyzer
from gensim.models import FastText
import numpy as np
from telegram.ext import Updater, CommandHandler, MessageHandler
from telegram.ext import filters
from telegram.ext import *
from telegram import Update
import telebot
import random
import dill
import warnings
warnings.simplefilter('ignore')
import torch
tqdm.pandas()

##### 2. Подготовка к препроцессингу датасета

In [2]:
# Размерность вектора эмбеддингов для слов
embedding_dim=128

In [3]:
# Импорт знаков пунктуации для препроцессинга
punctuations = string.punctuation
punctuations

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [4]:
# Импорт Стоп-слов
stop_words = get_stop_words('ru')
stops = nltk.corpus.stopwords.words('russian')
stop_words.extend(stops)
stop_words = list(set(stop_words))
print(f'Всего найдено {len(stop_words)} стоп-слов')

Всего найдено 422 стоп-слов


In [5]:
morph_analyzer = MorphAnalyzer()

##### 3. Чтение исходных датасетов и моделей:

In [6]:
with open(r'D:\Chat-bot\talker\df_preprocessed.dill', 'rb') as f:
    talker = dill.load(f)
    
with open(r'D:\Chat-bot\medecine\df_preprocessed.dill', 'rb') as f:
    med = dill.load(f)
    
with open(r'D:\Chat-bot\jokes\df_preprocessed.dill', 'rb') as f:
    jokes = dill.load(f)
    
    
with open(r'D:\Chat-bot\logistic_regression_med_talker_splitter.dill', 'rb') as f:
    lr = dill.load(f)
    
with open(r'D:\Chat-bot\logistic_regression_vectorizer.dill', 'rb') as f:
    vectorizer = dill.load(f)  

talker_fastetext = FastText.load(r'D:\Chat-bot\talker\fastetx_talker_model_2.fst')
med_fastetext = FastText.load(r'D:\Chat-bot\medecine\fastetx_model_1.fst')
jokes_fastetext = FastText.load(r'D:\Chat-bot\jokes\fastetx_model_1.fst')


with open(r'D:\Chat-bot\TeraSpace chat_bot\chatter.dill', 'rb') as f:
    terra_space_chater = dill.load(f)
    
with open(r'D:\Chat-bot\TeraSpace chat_bot\tokenizer.dill', 'rb') as f:
    terra_space_tokenizer = dill.load(f)  

##### 4. Препроцессинг: удаление знаков пунктуаций, эмоджи, чисел и т.д.

In [7]:
def preprocess_text(text:str, punctuations=punctuations, stop_words=stop_words, morph=morph_analyzer):
    
    text = str(text)
    text = text.lower()                 # Изменяем регистр на нижний
    
    # Замена пунктуации пробелами:
    for el in string.punctuation:
        text = text.replace(el, ' ')
    
#    # Замена специальных символов на пробелы
#    text = re.sub(r'[^a-Za-Z0-9]', ' ', text)
#    print(text)

    # Удаляем эмоджи из текста
    emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           "]+", flags=re.UNICODE)
    text = emoji_pattern.sub(r'a', text)
    
    # Сличение частицы "не" с глаголом
    text = re.sub(r'не ', r'не', text)

    # Замена чисел на пробелы
    text = re.sub(r'\d+', ' ', text)
   
    # Удаляем слова длиной в 1 символ
    # Удаляем слова из словаря стоп-слов
    # Получаем нормальную форму слова
    text = ' '.join([morph.parse(w)[0].normal_form for w in text.split() if len(w)>1 and w not in stop_words])
  
    return text

In [8]:
# Процедура получения эмбеддинга предложения
def words_to_embeddings(mas:list, model):
    vector = np.zeros(embedding_dim)
    i = 0
    for word in mas:
        i += 1
        vector += model.wv[word]
    return vector/i

In [9]:
def compute_distance_between_vectors(i, j):
    dot_product = np.dot(i, j)
    magnitude1 = np.linalg.norm(i)
    magnitude2 = np.linalg.norm(j)
    angle = np.arccos(dot_product / (magnitude1 * magnitude2))
    return angle

In [10]:
talker['sentence_embeddings'] = talker['question_tokenized'].progress_apply(lambda x: words_to_embeddings(x, talker_fastetext))
med['sentence_embeddings'] = med['question_tokenized'].progress_apply(lambda x: words_to_embeddings(x, med_fastetext))
jokes['sentence_embeddings'] = jokes['tokenized'].progress_apply(lambda x: words_to_embeddings(x, jokes_fastetext))

100%|██████████| 136054/136054 [00:12<00:00, 10544.56it/s]
100%|██████████| 187763/187763 [01:08<00:00, 2731.47it/s]
100%|██████████| 87651/87651 [00:17<00:00, 5014.47it/s] 


In [11]:
# Удаление "неприличных" ответов
jokes = jokes[jokes['question_answer'] != 'Я сейчас расскажу такой анекдот, что у тебя сиськи отвалятся от смеха.;;; А-а-а! Так тебе его, наверное, уже давно рассказали?']
talker = talker[talker['answer'] != 'Я без проблем пойду в задницу']
jokes = jokes[jokes['question_answer'] != 'Хочешь, я сделаю Тебе Приятно?;;; Да, расскажи мне сказку...;;; И где тут логика?;;; В пизде...;;; Хочешь, я расскажу Тебе Сказку?']

##### 5. Запуск Чат-бота. Пока ячейка ниже работает, можно общаться с Чат - ботом через телеграм

In [None]:
bot = telebot.TeleBot("ВВедите Ваш токен к телеграм здесь") # Введите Ваш токен API к Telegram

jokes_word_list = ['шутка', 'анекдот']

@bot.message_handler(content_types=['text'])
def get_text_messages(message):
    source_text = message.text
        
    if message.text == '/start':
        bot.send_message(message.from_user.id, "Привет! Начни со мной переписку!\nЕсли что-то не понял - не злись, попробуй переформулировать предложение:)")
        return None
    
    global jokes_word_list
    
    text=preprocess_text(message.text)
    text = [_.text for _ in list(razdel.tokenize(text))]
    
    # Определяем, просит ли юзер шутку
    for joke_word in jokes_word_list:
        if joke_word in text:
            text.remove(joke_word)
            sentence_vector = words_to_embeddings(text, jokes_fastetext)
            computing = jokes['sentence_embeddings'].apply(lambda x: compute_distance_between_vectors(x, sentence_vector))
            index = random.choice(computing.sort_values(ascending=True).head(5).index)
            answer = jokes.loc[index, 'question_answer'].replace(';;; ', '\n')
            answer = f'Анекдот:\n\n{answer}'
            bot.send_message(message.from_user.id, answer)
            return None
    
    vect_text = vectorizer.transform([text])
    class_label = lr.predict(vect_text)[0]
    
    if class_label == 0 and 'боль' not in text and 'болеть' not in text:
        # Переходим к болталке
#         sentence_vector = words_to_embeddings(text, talker_fastetext)
#         computing = talker['sentence_embeddings'].apply(lambda x: compute_distance_between_vectors(x, sentence_vector))
#         index = random.choice(computing.sort_values(ascending=True).head(5).index)
#         answer = talker.loc[index, 'answer']

# Используем предобученного чат бота TerraSpace
        lm_text=f'<SC1>- {source_text}\n- <extra_id_0>'
        input_ids=torch.tensor([terra_space_tokenizer.encode(lm_text)])
        outputs=terra_space_chater.generate(input_ids=input_ids,
                                        max_length=200,
                                        eos_token_id=terra_space_tokenizer.eos_token_id,
                                        early_stopping=True,
                                        do_sample=True,
                                        temperature=0.7,
                                        top_k=0,
                                        top_p=0.8)

        answer = terra_space_tokenizer.decode(outputs[0][1:]).replace('<extra_id_0>', '').replace('</s>', '').capitalize()
        bot.send_message(message.from_user.id, answer)
        return None
    else:
        # Переходим к медецинским ответам
        sentence_vector = words_to_embeddings(text, med_fastetext)
        computing = med['sentence_embeddings'].apply(lambda x: compute_distance_between_vectors(x, sentence_vector))
        indexes = computing.sort_values(ascending=True).head(5).index.tolist()
        random.shuffle(indexes)
        counter = 1
        answer = 'Прикладываю 5 лучших ответов с Форума по Вашей проблеме. Если какие-то ответы не подошли - попробуйте переформулировать вопрос:):\n\n'
        for ind in indexes:
            cur_answer = med.loc[ind, 'answer'].split(';\n')[0]
            answer = f"{answer}{counter}. {cur_answer}\n"
            counter += 1
        bot.send_message(message.from_user.id, answer[:-1])
        return None
    
bot.polling(none_stop=True, interval=0)