In [1]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

In [6]:
class HybridChatbot:
    def __init__(self, transformer_model_name):
        self.transformer_model = GPT2LMHeadModel.from_pretrained(transformer_model_name)
        self.transformer_tokenizer = GPT2Tokenizer.from_pretrained(transformer_model_name)
        self.tfidf_vectorizer = TfidfVectorizer()
        self.corpus = [
            "Что такое машинное обучение и как оно используется?",
            "Какие языки программирования часто используются в области анализа данных?",
            "Как работают рекуррентные нейронные сети в обработке естественного языка?",
            "Какие алгоритмы машинного обучения применяются в задачах классификации?",
            "Расскажите о принципе работы сверточных нейронных сетей в компьютерном зрении.",
            "Какие тенденции в развитии искусственного интеллекта выделяют эксперты?",
            "Что представляет собой метод кросс-валидации в машинном обучении?",
            "Какие бывают подходы к обработке естественного языка в анализе данных?",
            "Чем отличается нейронная сеть от глубокой нейронной сети?",
            "Каким образом алгоритмы кластеризации применяются в анализе данных?",
            "Какие проблемы решают рекомендательные системы в онлайн-торговле?",
            "Расскажите о применении машинного обучения в медицине.",
            "Какие основные этапы в обучении нейронных сетей?",
            "Как оценить качество модели машинного обучения?",
            "Что такое сверточные нейронные сети и как они применяются в обработке изображений?",
            "Как работает алгоритм случайного леса в машинном обучении?",
            "Какие практические примеры применения машинного обучения в бизнесе?",
            "Чем отличаются градиентный бустинг и случайный лес?",
            "Какие алгоритмы решают задачу регрессии в машинном обучении?",
            "Как использовать генеративные модели в машинном обучении?",
            "Что представляет собой байесовская оптимизация в поиске гиперпараметров?",
            "Какие методы аугментации данных применяются в обучении нейронных сетей?",
            "Какие технологии объединяют искусственный интеллект и интернет вещей (IoT)?",
            "Машинное обучение играет ключевую роль в развитии искусственного интеллекта.",
            "Трансформеры стали популярными архитектурами в обработке естественного языка.",
            "Алгоритм k-ближайших соседей применяется в задачах классификации.",
            "Нейронные сети используются для распознавания образов в компьютерном зрении.",
            "Глубокие нейронные сети требуют большого объема данных для обучения.",
            "Бустинг - это метод построения ансамбля моделей.",
            "Рекомендательные системы широко используются в онлайн-торговле и стриминге видео.",
            "Метод опорных векторов находит гиперплоскость, максимально разделяющую классы.",
            "Градиентный спуск является основным методом оптимизации в машинном обучении.",
            "Обучение без учителя включает в себя методы кластеризации и понижения размерности.",
            "Сверточные нейронные сети успешно применяются в распознавании образов.",
            "Random Forest - это ансамбль деревьев решений.",
            "Методы генерации текста с использованием GPT-3 поражают своей креативностью.",
            "Регуляризация помогает предотвратить переобучение моделей.",
            "Стохастический градиентный спуск ускоряет оптимизацию на больших данных.",
            "Деревья решений могут быть визуализированы для лучшего понимания принятия решений.",
            "Методы аугментации данных помогают улучшить обучение нейронных сетей.",
            "Регрессия используется для предсказания непрерывных значений.",
            "Градиентный бустинг обучает новые модели для исправления ошибок предыдущих.",
            "Методы обучения с подкреплением применяются в задачах обучения агентов.",
            "AdaBoost - это алгоритм бустинга, придающий вес ошибочным предсказаниям.",
            "Нейронные сети с рекуррентными связями успешно обрабатывают последовательные данные.",
            "Кросс-валидация помогает оценить обобщающую способность модели.",
            "Методы NLP часто применяются в обработке текстов и анализе сентимента.",
            "Принципы байесовской статистики используются в байесовских моделях.",
            "Решающие деревья принимают последовательные решения по признакам.",
            "Градиент бустинг и случайный лес - это эффективные методы ансамблей.",
            "Интерпретируемость моделей важна для понимания принятия решений.",
            "Алгоритмы кластеризации группируют данные по схожести.",
            "Обучение на несбалансированных данных требует особого внимания к метрикам.",
            "Методы декомпозиции матриц применяются в рекомендательных системах.",
            "Сверточные нейронные сети могут извлекать пространственные признаки в изображениях.",
            "Байесовский классификатор основан на теореме Байеса.",
            "Алгоритмы градиентного бустинга, такие как XGBoost, широко используются в соревнованиях Kaggle.",
            "Методы ранжирования применяются в поисковых системах и рекомендательных системах.",
            "Функция активации определяет, какой будет выход нейрона в нейронной сети.",
            "Разработка алгоритмов машинного обучения требует внимания к этическим вопросам.",
            "Машинное обучение играет ключевую роль в развитии искусственного интеллекта.",
            "Трансформеры стали популярными архитектурами в обработке естественного языка.",
            "Алгоритм k-ближайших соседей применяется в задачах классификации.",
            "Нейронные сети используются для распознавания образов в компьютерном зрении.",
            "Глубокие нейронные сети требуют большого объема данных для обучения.",
            "Бустинг - это метод построения ансамбля моделей.",
            "Рекомендательные системы широко используются в онлайн-торговле и стриминге видео.",
            "Метод опорных векторов находит гиперплоскость, максимально разделяющую классы.",
            "Градиентный спуск является основным методом оптимизации в машинном обучении.",
            "Обучение без учителя включает в себя методы кластеризации и понижения размерности.",
            "Сверточные нейронные сети успешно применяются в распознавании образов.",
            "Random Forest - это ансамбль деревьев решений.",
            "Методы генерации текста с использованием GPT-3 поражают своей креативностью.",
            "Регуляризация помогает предотвратить переобучение моделей.",
            "Стохастический градиентный спуск ускоряет оптимизацию на больших данных.",
            "Деревья решений могут быть визуализированы для лучшего понимания принятия решений.",
            "Методы аугментации данных помогают улучшить обучение нейронных сетей.",
            "Регрессия используется для предсказания непрерывных значений.",
            "Градиентный бустинг обучает новые модели для исправления ошибок предыдущих.",
            "Методы обучения с подкреплением применяются в задачах обучения агентов.",
            "AdaBoost - это алгоритм бустинга, придающий вес ошибочным предсказаниям.",
            "Нейронные сети с рекуррентными связями успешно обрабатывают последовательные данные.",
            "Кросс-валидация помогает оценить обобщающую способность модели."
]
        self.tfidf_vectorizer.fit(self.corpus)

    def generate_transformer_response(self, user_input, max_length=100):
        input_ids = self.transformer_tokenizer.encode(user_input, return_tensors="pt")
        outputs = self.transformer_model.generate(input_ids, max_length=max_length, num_beams=5, no_repeat_ngram_size=2, top_k=50, top_p=0.95, temperature=0.7)
        response = self.transformer_tokenizer.decode(outputs[0], skip_special_tokens=True)
        return response

    def generate_tfidf_response(self, user_input):
        tfidf_matrix = self.tfidf_vectorizer.transform([user_input] + self.corpus)
        similarities = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1:])[0]
        most_similar_index = np.argmax(similarities)
        response = self.corpus[most_similar_index]
        return response

    def generate_response(self, user_input):
        transformer_response = self.generate_transformer_response(user_input)
        tfidf_response = self.generate_tfidf_response(user_input)

        if len(transformer_response) > len(tfidf_response):
            return transformer_response
        else:
            return tfidf_response

hybrid_chatbot = HybridChatbot("sberbank-ai/rugpt3large_based_on_gpt2")

In [7]:
user_question = "Где используются методы NLP?"
response = hybrid_chatbot.generate_response(user_question)
print(f"Ответ: {response}")



Ответ: Где используются методы NLP?
Методология, используемая для разработки программных продуктов, базируется на методологии, использующейся при разработке бизнес-процессов. Это означает, что в процессе разработки программного обеспечения используются те же самые методы, которые используются при проектировании бизнес процессов.
Какие преимущества дает применение метода NNP в разработке программной продукции? В первую очередь, это экономия времени и ресурсов, так как в этом случае не нужно тратить время и ресурсы на проектирование бизнес
