In [2]:
CHROMA_PATH = "chroma"
DATA_PATH = "data"
CHUNK_SIZE = 3000
CHUNK_OVERLAP = 300

In [3]:
from langchain_community.embeddings import HuggingFaceEmbeddings


In [4]:
def get_embeddings():
   model_kwargs = {'device': 'cuda'}
   embeddings_hf = HuggingFaceEmbeddings(
       model_name='intfloat/multilingual-e5-large',
       model_kwargs=model_kwargs
   )
   return embeddings_hf

In [5]:
from langchain_community.embeddings import OllamaEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma

from langchain_community.document_loaders import UnstructuredPDFLoader

from langchain_community.document_loaders import PyPDFLoader

import glob 
files = glob.glob(DATA_PATH + r'\**\*.pdf', recursive=True)


In [10]:
def load_documents():
   loaders = [UnstructuredPDFLoader(fp, ocr_languages='rus+eng') for fp in files]
   all_documents = []
   count = 0
   for loader in loaders:
      count += 1
      print(f'{count}/{len(loaders)}', "Loading raw document..." + loader.file_path)
      raw_documents = loader.load()

      print("Splitting text...")
      text_splitter = RecursiveCharacterTextSplitter(
         chunk_size=CHUNK_SIZE,
         chunk_overlap=CHUNK_OVERLAP,
         length_function=len,
         add_start_index=True,
      )
      documents = text_splitter.split_documents(raw_documents)
      all_documents.extend(documents)

  
   return all_documents

In [11]:
import os
import shutil

def save_to_chroma(chunks: list):
    # Clear out the database first.
    if os.path.exists(CHROMA_PATH):
        shutil.rmtree(CHROMA_PATH)

    # Create a new DB from the documents.
    db = Chroma.from_documents(
        chunks, get_embeddings(), persist_directory=CHROMA_PATH
    )
    db.persist()
    print(f"Saved {len(chunks)} chunks to {CHROMA_PATH}.")

In [12]:
def main():
   chunks = load_documents()
   save_to_chroma(chunks)

In [13]:
main()

The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


1/20 Loading raw document...data\clinrec\КР10.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
2/20 Loading raw document...data\clinrec\КР11.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
3/20 Loading raw document...data\clinrec\КР206.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
4/20 Loading raw document...data\clinrec\КР223.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
5/20 Loading raw document...data\clinrec\КР396.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
6/20 Loading raw document...data\clinrec\КР469.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
7/20 Loading raw document...data\clinrec\КР546.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
8/20 Loading raw document...data\clinrec\КР680.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
9/20 Loading raw document...data\clinrec\КР739.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
10/20 Loading raw document...data\clinrec\КР751.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
11/20 Loading raw document...data\msd\Болезнь Фрайберга.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
12/20 Loading raw document...data\msd\Кишечная непроходимость.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
13/20 Loading raw document...data\msd\Краниосиностоз.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
14/20 Loading raw document...data\msd\Обзор болезней стопы и голеностопного сустава (Overview of Foot and Ankle Disorders).pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
15/20 Loading raw document...data\msd\Обзор заболеваний периферической нервной системы (Overview of Peripheral Nervous System Disorders).pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
16/20 Loading raw document...data\msd\Обзор заболеваний спинного мозга (Overview of Spinal Cord Disorders).pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
17/20 Loading raw document...data\msd\Обследование плечевого сустава.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
18/20 Loading raw document...data\msd\Онемение.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
19/20 Loading raw document...data\msd\Сесамоидит.pdf


The ocr_languages kwarg will be deprecated in a future version of unstructured. Please use languages instead.


Splitting text...
20/20 Loading raw document...data\msd\Тактика ведения самопроизвольных вагинальных родов.pdf
Splitting text...


  embeddings_hf = HuggingFaceEmbeddings(
  attn_output = torch.nn.functional.scaled_dot_product_attention(


Saved 965 chunks to chroma.


  db.persist()


In [14]:
PROMPT_TEMPLATE = """
Ответь на вопрос базируясь только на этом контексте:

{context}

---

Ответь на вопрос, используя только контекст: {question}
"""

In [15]:
import argparse
from langchain.prompts import ChatPromptTemplate
from langchain_community.chat_models import ChatOpenAI
from langchain_community.vectorstores import Chroma


In [None]:
def main(query_text):
   db = Chroma(persist_directory=CHROMA_PATH, embedding_function=get_embeddings())

   # Ищем по БД
   # Мы будем использовать 3 чанка из БД, которые наиболее похожи на наш вопрос
   # c этим количеством можете экспериментировать как угодно, главное, не переборщите, ваша LLM
   # должна поддерживать такое количество контекста, чтобы уместить весь полученный промпт
   results = db.similarity_search_with_relevance_scores(query_text, k=2)
   if len(results) == 0 or results[0][1] < 0.7:
       print(f"Нет фрагментов текста, на которые можно опираться для ответа.")
       return

   # Собираем запрос к LLM, объединяя наши чанки. Их мы записываем через пропуск строки и ---
   # помещаем мы контекст в переменную context, которую обозначали еще в самом промпте
   # ну и по аналогии вопрос просто записываем в переменную question.
   context_text = "\n\n---\n\n".join([doc.page_content for doc, _score in results])
   prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE)
   prompt = prompt_template.format(context=context_text, question=query_text)
   print(f"Полученный промпт {prompt}")

   # Подключение к LM Studio и отправка запроса
   model = ChatOpenAI(temperature=0.7, base_url="http://localhost:1234/v1", api_key="not-needed")
   response_text = model.predict(prompt)

   # Выводим результаты ответа
   sources = [doc.metadata.get("source", None) for doc, _score in results]
   formatted_response = f"Ответ: {response_text}\nДанные взяты из: {sources}"
   print(formatted_response)

In [19]:
main('Лечение пациентов с ранними стадиями грибовидного микоза?')

Полученный промпт Human: 
Ответь на вопрос базируясь только на этом контексте:

Уровень убедительности рекомендаций В (уровень достоверности

доказательств — 2)

3.3 Иное лечение Рекомендуется пациентам с жалобами на зуд назначение антигистаминных средств системного действия в соответствии с инструкциями к их применению [64, 65]

Уровень убедительности рекомендаций С (уровень — достоверности

доказательств — 4)

4. Медицинская реабилитация и санитарно-курортное лечение, медицинские показания и противопоказания к применению методов медицинской реабилитации, в том числе основных на использовании

природных лечебных факторов

Специальных методов реабилитации при грибовидном микозе не существует.

5. Профилактика и диспансерное наблюдение, медицинские показания и

противопоказания к применению методов профилактики

Методов профилактики грибовидного микоза в настоящее время не существует,

поскольку неизвестен этиологический фактор(ы), ведущие к развитию заболевания.

Диспансерное наблюдени