In [2]:
%%capture
!pip install langchain faiss-gpu python-docx pypdf unstructured tiktoken sentence-transformers langchain-community docx2txt rank_bm25 sentencepiece

Collecting langchain
  Using cached langchain-0.3.23-py3-none-any.whl.metadata (7.8 kB)
Collecting faiss-gpu
  Using cached faiss_gpu-1.7.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.4 kB)
Collecting python-docx
  Using cached python_docx-1.1.2-py3-none-any.whl.metadata (2.0 kB)
Collecting pypdf
  Using cached pypdf-5.4.0-py3-none-any.whl.metadata (7.3 kB)
Collecting unstructured
  Using cached unstructured-0.17.2-py3-none-any.whl.metadata (24 kB)
Collecting tiktoken
  Using cached tiktoken-0.9.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Collecting sentence-transformers
  Using cached sentence_transformers-4.0.2-py3-none-any.whl.metadata (13 kB)
Collecting langchain-community
  Using cached langchain_community-0.3.21-py3-none-any.whl.metadata (2.4 kB)
Collecting docx2txt
  Using cached docx2txt-0.9-py3-none-any.whl.metadata (529 bytes)
Collecting rank_bm25
  Using cached rank_bm25-0.2.2-py3-none-any.whl.metadata (3.2 kB)
Collec

In [1]:
import os
# new key for notebook reviewing
os.environ["HUGGINGFACEHUB_API_TOKEN"] = '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'

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
from langchain.document_loaders import UnstructuredFileLoader

def load_documents(file_paths, is_olymp=False):
    documents = []
    for ind, file_path in enumerate(file_paths):
        file_path = data_dir + file_path
        if file_path.endswith('.pdf'):
            loader = PyPDFLoader(file_path)
        elif file_path.endswith('.docx'):
            loader = Docx2txtLoader(file_path)
        elif file_path.endswith('.txt'):
            loader = TextLoader(file_path)
        docs = loader.load()
        
        if is_olymp:
            for doc in docs:
                doc.metadata["olympiad_name"] = file_paths[ind].split('.')[0]
            
        documents.extend(docs)
    return documents

In [4]:
from langchain.docstore.document import Document
from docx import Document as DocxDocument

def transpose_docx_tables_to_documents(file_path):
    docx = DocxDocument(file_path)
    documents = []
    
    for table_idx, table in enumerate(docx.tables):
        columns = []
        for col_idx in range(len(table.columns)):
            column_data = []
            for row in table.rows:
                if col_idx < len(row.cells):
                    column_data.append(row.cells[col_idx].text.strip())
            columns.append(column_data)
        
        transposed_text = ""
        for col in columns:
            transposed_text += "\n".join(col) + "\n\n"
            
        metadata = {
            "source": file_path,
            "table_index": table_idx,
            "structure": "transposed_columns"
        }
        documents.append(Document(page_content=transposed_text, metadata=metadata))
    
    return documents

In [5]:
data_dir = 'данные/'

common_docs_paths = ['Типы олимпиад.pdf', 
                  'рсош.txt', 
                  'Письмо_РОН_от_2024_05_14_№04_134_Разъяснения_про_дополнительные.pdf',
                  'Льготы при поступлении.docx',
                  'зачем писать олимпиады.txt',
                  'Литература для подготовки.docx']

olymp_docs_paths = ['Высшая проба.docx', 
                    'Ломоносов.pdf', 
                    'Олимпиада физтех.docx', 
                    'ОММО.pdf']

table_verical_docs_path = 'Перечень олимпиад.docx'

prev_years_tasks_docs_paths = ['Физика - задачи с ЕГЭ 2023.pdf',  'Вариант для 11 класса_сайт.pdf']

facts_docs_paths = ['Шпаргалка(таблицы).pdf']

In [6]:
common_documents = load_documents(common_docs_paths)
olymp_documents = load_documents(olymp_docs_paths, is_olymp=True)
table_documents = transpose_docx_tables_to_documents(data_dir + table_verical_docs_path)

tasks_documents = load_documents(prev_years_tasks_docs_paths + facts_docs_paths)

In [7]:
all_documents = common_documents + table_documents + tasks_documents

In [8]:
custom_separators = [
    "\n\n",
    "(?<=\. )",
    "(?<=\! )",
    "(?<=\? )",
    ";",
    "\n",
    ",",
    " ",
    "" 
]

chunk_size = 1000
chunk_overlap = 200

In [9]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=custom_separators,
    length_function=len,
    is_separator_regex=True
)

all_chunks = text_splitter.split_documents(all_documents)

In [10]:
olymp_chunks = text_splitter.split_documents(olymp_documents)
for chunk in olymp_chunks:
    chunk.page_content = f"Олимпиада: {chunk.metadata['olympiad_name']}\n{chunk.page_content}"

In [11]:
all_chunks += olymp_chunks

In [12]:
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS

model_name = "cointegrated/LaBSE-en-ru"
embeddings = HuggingFaceEmbeddings(model_name=model_name)

vectorstore = FAISS.from_documents(all_chunks, embeddings, normalize_L2=True)
vectorstore.save_local("faiss_index")

del embeddings

  embeddings = HuggingFaceEmbeddings(model_name=model_name)


In [13]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever

bm25_retriever = BM25Retriever.from_documents(all_chunks)
bm25_retriever.k = 3

ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, vectorstore.as_retriever(search_kwargs={"k": 3})],
    weights=[0.5, 0.5]
)

In [25]:
from langchain_community.chat_models.huggingface import ChatHuggingFace
from langchain_community.llms import HuggingFaceEndpoint

llm = HuggingFaceEndpoint(repo_id="mistralai/Mistral-7B-Instruct-v0.3",
                          max_new_tokens = 500,
                          task="text-generation",)
model = ChatHuggingFace(llm=llm)

In [26]:
system_prompt = '''
Ты — помощник, который отвечает на вопросы пользователей, основываясь исключительно на предоставленном контексте. Твои ответы должны строго соответствовать следующим правилам:

1. Используй только информацию из контекста:
   - Если ты не можешь найти точный ответ в предоставленном контексте, честно напиши: "У меня нет ответа на этот вопрос". Не придумывай, не интерпретируй и не добавляй информацию, которой нет в контексте.

2. Язык общения:
   - Всегда отвечай на том же языке, на котором задан вопрос пользователя. Если вопрос задан на русском — отвечай на русском, если на английском — отвечай на английском.

3. Вежливость и профессионализм:
   - Отвечай вежливо и четко, даже если пользователь ведет себя некорректно или проявляет агрессию. Не реагируй на негативные эмоции пользователя.

4. Переформулировка запроса (если необходимо):
   - Если вопрос пользователя кажется тебе непонятным или сформулированным некорректно, ты можешь переформулировать его так, чтобы сохранить исходный смысл. После этого ответь на переформулированный вопрос.

5. Структура работы:
   - Твой контекст и вопрос предоставляются в следующем формате:
     ```
     <context>
     контекст
     </context>

     Question: вопрос
     ```
   - Ответ должен быть коротким, точным и строго соответствовать информации из контекста.

---

Пример работы:

<context>
розы красные, ромашки фиолетовые
</context>

Question: Какого цвета ромашки?

Ответ: Фиолетового.
'''

In [27]:
human_template = '''Ответь на вопрос, используя только предоставленный контест.
<context>
{context}
</context>

Question: {input}
'''

In [28]:
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    ("human", human_template)
])

In [29]:
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains import create_retrieval_chain

document_chain = create_stuff_documents_chain(model, prompt)
retrieval_chain = create_retrieval_chain(ensemble_retriever, document_chain)

In [30]:
questions = [
    'Чему равна молярная масса азота?',
    'Чему равна молярная масса золота?',
    'Как подготовиться к задачам по теории чисел на олимпиаде Ломоносов?',
    'Какой ответ у задачи? Пусть S(n) – сумма цифр натурального числа n. Решите уравнение: n + 3S(n)=2007. Если решений несколько, напишите наименьшее из них.',
    'Когда опубликовали приказ «О внесении изменений в Порядок проведения государственной итоговой аттестации по образовательным программам среднего общего образования, утвержденный приказом Министерства просвещения Российской Федерации и Федеральной службы по надзору в сфере образования и науки от 4 апреля 2023 г',
    'Какие были критерии на дипломы ОММО в 2020-2021?', 
    'Перечисли типы олимпиад',
    'Сила тока, текущего по проводнику равна 6 А. Какой заряд пройдет по проводнику за 24 с.',
    'Как позвонить на Горячую линию Cекретариата Российского совета олимпиад школьников?',
    'Какие есть льготы при поступлении?',
    'Какие есть виды льгот?',
    'Учебники для подготовки к геометрии',
    'Олимпиады первого уровня'
]

In [31]:
%%time

for question in questions:
    response = retrieval_chain.invoke({"input": question})
    print(question)
    print()
    print(response["answer"])
    # print('Использованные источники:')
    # for doc in response["context"]:
    #     print('- ' + doc.metadata["source"])
    print('-' * 15)

Чему равна молярная масса азота?

Молярная масса азота равна 28,013 грамма моль^{−1}.
---------------
Чему равна молярная масса золота?

Ответ: Молярная масса золота не указана в контексте, поэтому я не могу ответить на этот вопрос.
---------------
Как подготовиться к задачам по теории чисел на олимпиаде Ломоносов?

Для подготовки к задачам по теории чисел на олимпиаде Ломоносов рекомендуется прочитать книги "Ленинградские математические кружки" и "Теория чисел (1, 2)". Эти книги дадут вам хорошее введение в теорию чисел и рассмотрят непростые задачи с сравнениями, теорему Ферма – Эйлера, алгоритм Евклида и т.д.
---------------
Какой ответ у задачи? Пусть S(n) – сумма цифр натурального числа n. Решите уравнение: n + 3S(n)=2007. Если решений несколько, напишите наименьшее из них.

Ответ: Решение уравнения n + 3S(n) = 2007 - это наименьшее число n, для которого сумма цифр числа n равна 3, 9 или 27 (это исходный контекст). Поскольку сумма цифр числа 1, 2, 3, 4, 5, 6, 7, 8, 9 равна 45, а с