## Создаём предметно-ориентированного чат-бота

Для создания чат-бота, который может отвечать на вопросы по какой-то конкретной теме или предметной области, используется подход Retrieval-Augmented Generation (RAG).

Для начала установим необходимые библиотеки. Мы будем использовать библиотеку LangChain, поскольку она содержит в себе все необходимые компоненты для создания таких чат-ботов:
* общение с языковыми моделями
* векторная база данных
* эмбеддинги

In [1]:
%pip install langchain langchain_community yandexcloud gigachat chromadb langchain_chroma huggingface_hub sentence_transformers telebot

Collecting langchain_community
  Downloading langchain_community-0.4.1-py3-none-any.whl.metadata (3.0 kB)
Collecting yandexcloud
  Downloading yandexcloud-0.376.0-py3-none-any.whl.metadata (12 kB)
Collecting gigachat
  Downloading gigachat-0.2.0-py3-none-any.whl.metadata (23 kB)
Collecting chromadb
  Downloading chromadb-1.4.1-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.2 kB)
Collecting langchain_chroma
  Downloading langchain_chroma-1.1.0-py3-none-any.whl.metadata (1.9 kB)
Collecting telebot
  Downloading telebot-0.0.5-py3-none-any.whl.metadata (2.0 kB)
Collecting langchain-classic<2.0.0,>=1.0.0 (from langchain_community)
  Downloading langchain_classic-1.0.1-py3-none-any.whl.metadata (4.2 kB)
Collecting requests<3.0.0,>=2.32.5 (from langchain_community)
  Downloading requests-2.32.5-py3-none-any.whl.metadata (4.9 kB)
Collecting dataclasses-json<0.7.0,>=0.6.7 (from langchain_community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Coll

Мы будем строить бота-консультанта для Школы дизайна ВШЭ. Для построения бота нужна текстовая база знаний, содержащая всю необходимую информацию. В идеале она должны быть разбита не небольшие кусочки, каждый из которых содержит законченный фрагмент информации.

Возьмём текст с сайта ШД, немного причёсанный и разбитый на фрагменты символами `//`:

In [None]:
!wget https://github.com/shwars/ai-for-creatives/raw/refs/heads/main/data/kb.txt

--2026-01-19 10:09:36--  https://github.com/shwars/ai-for-creatives/raw/refs/heads/main/data/openbac.txt
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/shwars/ai-for-creatives/refs/heads/main/data/openbac.txt [following]
--2026-01-19 10:09:36--  https://raw.githubusercontent.com/shwars/ai-for-creatives/refs/heads/main/data/openbac.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 36170 (35K) [text/plain]
Saving to: ‘openbac.txt’


2026-01-19 10:09:36 (2.87 MB/s) - ‘openbac.txt’ saved [36170/36170]



In [2]:
!head kb.txt

# Тема базы знаний: Запись в поликлинику в РФ — ОМС, прикрепление, Госуслуги/ЕМИАС, сроки, права пациента
# Версия: черновик для RAG-бота (сжатая справочная база)
# Источники (основные):
# - Госуслуги: запись к врачу / полис ОМС / меддокументы
# - ЕМИАС: FAQ по записи (Москва)
# - Mos.ru: запись к врачу (Москва)
# - 323-ФЗ: выбор врача и медорганизации
# - Справки по срокам ожидания (ОМС): региональные ТФОМС/страховые (как ориентиры) + программа госгарантий (общая логика)



В качестве языковой модели будем использовать Gigachat, поэтому нам потребуется ключ, который можно получить [по инструкции](https://developers.sber.ru/docs/ru/gigachat/quickstart/ind-using-api).

Импортируем необходимые библиотеки и создадим объекты:
* GPT для вызова Gigachat
* embeddings для вычисления семантических эмбеддингов текста. Для этого будем использовать мультиязычную модель [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large).

> Для вычисления эмбеддингов было бы идеально тоже использовать облачный сервис от Gigachat или Yandex, но Gigachat требует оплату за его использование.

> Модель эмбеддингов будет вычисляться внутри Colab, поэтому если не включить GPU - на индексирование всего текста может потребоваться 2-3 минуты.

In [3]:
from langchain_chroma import Chroma
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings
from langchain_community.chat_models.gigachat import GigaChat
from google.colab import userdata
import warnings
warnings.filterwarnings('ignore')

gigachat_creds = userdata.get('gigachat_creds')

GPT = GigaChat(
    credentials=gigachat_creds,
    scope="GIGACHAT_API_PERS",
    model="GigaChat",
    streaming=False,
    verify_ssl_certs=False,
)

embeddings = HuggingFaceEmbeddings(
    model_name = "intfloat/multilingual-e5-large"
)




modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Loading weights:   0%|          | 0/391 [00:00<?, ?it/s]

XLMRobertaModel LOAD REPORT from: intfloat/multilingual-e5-large
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

Загрузим документ и разобьем его на фрагменты:

In [4]:
doc = open('kb.txt',encoding='utf-8').read()
docs = doc.split('\\')
print(f"Всего фрагментов: {len(docs)}")
print(f"Макс длина фрагмента: {max(map(len,docs))}")

Всего фрагментов: 1
Макс длина фрагмента: 9680


Поскольку длина макс фрагмента не превышает 1500 символов (500 токенов), то эти фрагменты можно дополнительно не разбивать на части. С учётом такой длины мы можем добавлять в запрос 3-5 найденных фрагментов текста.

Посмотрим, как работает вычисление эмбеддингов:

In [5]:
res = embeddings.embed_documents(docs[0])
print(f"Длина эмбеддингов: {len(res[0])}")

Длина эмбеддингов: 1024


Для хранения всех документов, проиндексированных по эмбеддингам, будем использовать вектоную базу данных, например, ChromaDB. При добавлении текстов в эту базу они будут автоматически проиндексированы:

In [6]:
db = Chroma('vecstore',embeddings,'./db')
db.add_texts(docs)

['914af932-8639-4962-8013-56e1fe3dd5c2']

Предположим, мы хотим найти среди документов ответ на вопрос **Сколько баллов ЕГЭ нужно для поступления в школу дизайна?**. Для этого определим объект `retriever`, и передадим ему параметр - количество документов, которые надо найти. После этого поиск сводится к простому вызову `retriever.invoke`

In [7]:
q = "Какие документы нужны для записи к врачу"

retriever = db.as_retriever(search_kwargs={"k": 3 })
retriever.invoke(q)




Реализуем самую главную функцию ответа на вопрос! Она работает следующим образом:

1. Вызываем `retriever` и получаем 3 релевантных фрагмента текста
2. Объединяем их вместе в контекст `context`
3. Передаём GPT-модели промпт, включающий в себя исходный вопрос и контекст. Модель в этом случае сама смотрит на контекст и находит в нём нужную информацию.

In [8]:
def answer(q):
  res = retriever.invoke(q)
  context = '\n'.join(x.page_content for x in res)
  prompt = f"""
  Прочитай следующий текст и используй его при ответе на вопрос далее.
  Используй только информацию из текста. Если в тексте нет ответа на данный вопрос,
  напиши, что не знаешь. Вот текст:\n{context}\nВопрос: {q}"""
  return GPT.invoke(prompt).content

answer(q)



'Для записи к врачу обычно требуются следующие документы и сведения:\n\n1. **Персональные данные**:\n   - ФИО\n   - Дата рождения\n\n2. **Данные полиса ОМС**:\n   - Номер полиса ОМС (чаще всего нужен именно номер)\n\n3. **Дополнительно**:\n   - Иногда требуется СНИЛС (Страховой номер индивидуального лицевого счёта). \n   - Для детей младше 14 лет дополнительно указывается свидетельство о рождении.\n\nЕсли запись происходит через цифровые сервисы (Госуслуги, ЕМИАС, mos.ru), то потребуется также учетная запись и соответствие данных реестра прикрепленных пациентов.'

А теперь оформим это всё в виде телеграм-бота! Для этого используем библиотеку `telebot`. Чтобы создать бота нам нужно сначала получить специальный токен, пообщавшись в telegram со специальным ботом [@botfather](http://t.me/botfather). Полученный токен сохраните в секретах Google Colab.

Код ниже работает в режиме поллинга - он опрашивает сервера telegram на предмет наличия сообщений, и вызывает функцию `handle_message`, если сообщение пришло. Бот в телеграме будет работать только до тех пор, пока следующая ячейка выполняется.

In [1]:
import telebot

telegram_token = userdata.get('tg_token')

bot = telebot.TeleBot(telegram_token)

# Обработчик команды /start
@bot.message_handler(commands=['start'])
def start(message):
    # Отправляем приветственное сообщение
    bot.send_message(message.chat.id,
                     'Привет, я бот, который знает всё запись в поликлинику. Спрашивай!')

# Обработчик для всех входящих сообщений
@bot.message_handler(func=lambda message: True)
def handle_message(message):
    ans = answer(message.text)
    bot.send_message(message.chat.id, ans)

# Запуск бота
print("Бот готов к работе")
bot.polling(none_stop=True)

ModuleNotFoundError: No module named 'telebot'