In [None]:
import telebot
import fitz
import os
from transformers import AutoTokenizer, AutoModel
import torch
import numpy as np
from DATA import TOKEN

bot = telebot.TeleBot(TOKEN)

texts = []
flag = False

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
word_embeddings = {}    

# Загрузка токенизатора и модели
# tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2') #22M parametrs
# model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2').to(device)
# tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L12-v2') #135M parametrs(работает так себе)
# model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L12-v2').to(device)
# tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/paraphrase-multilingual-mpnet-base-v2') #278M parametrs
# model = AutoModel.from_pretrained('sentence-transformers/paraphrase-multilingual-mpnet-base-v2').to(device)
tokenizer = AutoTokenizer.from_pretrained('Alibaba-NLP/gte-large-en-v1.5')  # 434M parametrs
model = AutoModel.from_pretrained('Alibaba-NLP/gte-large-en-v1.5', trust_remote_code=True).to(device)

from transformers import AutoModelForSequenceClassification
# import torch.nn.functional as F

model_cross_encoder = AutoModelForSequenceClassification.from_pretrained(
    'DiTy/cross-encoder-russian-msmarco').to(device)
tokenizer_cross_encoder = AutoTokenizer.from_pretrained('DiTy/cross-encoder-russian-msmarco')

In [None]:
@bot.message_handler(commands=['check_texts'])
def start(msg):
    bot.send_message(msg.chat.id, str(len(texts)))

@bot.message_handler(commands=['start'])
def start(msg):
    bot.send_message(msg.chat.id, f'''Привет, {msg.from_user.first_name}, это реализованный мною https://github.com/vakulenk0/RAG_tg_bot.git\nRAG (Retrieval Augmented Generation) телеграм бот, приятного пользования!''')

# @bot.message_handler(commands=['clear'])
# def clear(msg):
#     bot.delete_message(msg.chat.id, msg.id)

# Обработчик для получения нескольких PDF-файлов
@bot.message_handler(content_types=['document'])
def handle_media_group(msg):
    if msg.document.mime_type == 'application/pdf':
        texts.append(process_pdf(msg.document))
        bot.send_message(msg.chat.id, 'Файл обработан')
    else:
        bot.send_message(msg.chat.id, f"Файл {msg.document.file_name} не является PDF и не будет обработан.")


def process_pdf(document):
    # Скачивание файла
    file_info = bot.get_file(document.file_id)
    print(f'file_info: {file_info}')
    downloaded_file = bot.download_file(file_info.file_path)
    # print(f'downloaded_file: {downloaded_file}')

    # Сохранение файла временно
    file_name = document.file_name
    with open(file_name, 'wb') as new_file:
        new_file.write(downloaded_file)

    # Извлечение текста из PDF
    text = extract_text_from_pdf(file_name)
    print(f'text: {text.replace('\n', '')}')

    return text


def extract_text_from_pdf(file_path):
    # Использование PyMuPDF для извлечения текста
    doc = fitz.open(file_path)
    text = ""
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        text += page.get_text()
    return text

@bot.message_handler(commands=['train'])
def train(msg):
    if len(texts):
        bot.send_message(msg.chat.id, 'Модель обучается...')
        
        # Добавление PAD токена
        tokenizer.add_special_tokens({'pad_token': '[PAD]'})

        # Параметры для батчевой обработки
        batch_size = 1  # Установите размер батча в зависимости от объема видеопамяти

        # Функция для обработки одного батча
        def process_batch(texts_batch):
            # Токенизация
            inputs = tokenizer(texts_batch, return_tensors='pt', padding=True, truncation=True)
            inputs = {key: value.to(device) for key, value in inputs.items()}

            # Вычисление эмбеддингов токенов
            with torch.no_grad():
                outputs = model(**inputs)

            # Получение эмбеддингов слов
            last_hidden_state = outputs.last_hidden_state
            return {texts_batch[i]: last_hidden_state[i].mean(dim=0).cpu().numpy() for i in range(len(last_hidden_state))}

        # Обработка всех текстов в батчах
        for i in range(0, len(texts), batch_size):
            batch_texts = texts[i:i + batch_size]
            batch_embeddings = process_batch(batch_texts)
            word_embeddings.update(batch_embeddings)

        bot.send_message(msg.chat.id, 'Модель обучилась, можно задавать вопросы')
        flag = True
    else:
        bot.send_message(msg.chat.id, 'Нет доступных для анализа текстов, пожалуйста, добавьте их')


@bot.message_handler(content_types=['text'])
def search(msg):
    if len(texts) and flag:
        def cosine_similarity(A, B):
            dot_product = np.dot(A, B)
            norm_A = np.linalg.norm(A)
            norm_B = np.linalg.norm(B)
            return dot_product / (norm_A * norm_B)

        def search_in_base(task):
            inputs = tokenizer(task, return_tensors='pt', padding=True, truncation=True).to(device)
            with torch.no_grad():
                outputs = model(**inputs)
            last_hidden_state = outputs.last_hidden_state
            embedding = last_hidden_state.mean(dim=1).cpu().numpy()

            text = [(cosine_similarity(embedding, word_embeddings[text]), text) for text in texts]
            sort_text = sorted(text, key=lambda x: -x[0])
            return sort_text[:10]
        
        

        answers = [(ans[0], ans[1]) for ans in search_in_base(msg.text)]
        pairs = [(msg.text, answer[1]) for answer in answers]

        encoded_inputs = tokenizer_cross_encoder([q[0] for q in pairs], [ans[1] for ans in pairs],
                                                 return_tensors='pt', padding=True, truncation=True, max_length=512)

        # Перемещение данных на устройство
        encoded_inputs = {k: v.to(device) for k, v in encoded_inputs.items()}

        # Получение предсказаний от модели
        with torch.no_grad():
            outputs = model_cross_encoder(**encoded_inputs)

        # Логиты (сырые выходные данные модели)
        logits = outputs.logits

        # Преобразование логитов в вероятности (используйте сигмоид для бинарной классификации)
        relevance_scores = torch.sigmoid(logits).cpu().numpy()

        # print('Сырые выходные данные модели семантического поиска: \n\n', relevance_scores)

        # Сортировка по релевантности
        ranked_candidates = sorted(zip([ans[1] for ans in answers], relevance_scores), key=lambda x: x[1],
                                   reverse=True)
        # Вывод результатов
        for i, (candidate, score) in enumerate(ranked_candidates):
            print(f"Rank {i + 1}: {candidate[:150]} (Score: {score})")

        from huggingface_hub import InferenceClient

        client = InferenceClient(
            "mistralai/Mixtral-8x7B-Instruct-v0.1",
            token="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",
        )

        response = client.chat_completion(
            # messages=[{"role": "user", "content": f'''Что говорится в этом тексте: {ranked_candidates[0][0]} про {quest}?. Отвечай на русском языке. Ничего не придумывай, отвечай
            # только на основе полученного текста! Если текст не содержит информации по моему запросу, то просто отвечай, что "Текст не содержит информации по вашему запросу" и ничего больше!!!
            # Если запрос не соответсвтует тексту не расписывай его!!!'''}],
            messages=[{"role": "user",
                       "content": f'''Выдели информацию из этого текста: "{ranked_candidates[0][0]}" про {msg.text}; Бери информацию только из этого текста! Отвечай только на русском языке!'''}],
            max_tokens=500
        )

        # Содержание ответа
        content = response.choices[0].message['content']
        bot.send_message(msg.chat.id, content)
    else:
        if len(texts) <= 0:
            bot.send_message(msg.chat.id, 'Сначала добавьте файлы(PDF), в которых я мог бы найти нужную для вас информацию')
        else:
            bot.send_message(msg.chat.id, 'Обучите модель командой /train')



bot.polling(none_stop=True)