## Rag c памятью

In [5]:
from langchain.chains import create_history_aware_retriever, create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_community.vectorstores import FAISS
from langchain_community.chat_message_histories import ChatMessageHistory
from langchain_community.document_loaders import PyPDFLoader
from langchain_core.chat_history import BaseChatMessageHistory
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain_community.chat_models.gigachat import GigaChat
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings

In [6]:
import os
os.environ['CURL_CA_BUNDLE'] = ''

In [7]:
#llm и loadder
from dotenv import load_dotenv
load_dotenv()
credentials = os.getenv('credentials')
llm = GigaChat(auth_url = 'https://sm-auth-sd.prom-88-89-apps.ocp-geo.ocp.sigma.sbrf.ru/api/v2/oauth',credentials=credentials, verify_ssl_certs=False)

file_path = "C:\Work\Rag\papers\нацстратегия.pdf"

loader = PyPDFLoader(file_path=file_path)
docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)


  file_path = "C:\Work\Rag\papers\нацстратегия.pdf"


In [8]:
# embeddings and retriever
model_name = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}
embedding = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
    )
vectorstore = FAISS.from_documents(documents=splits, embedding=embedding)
retriever = vectorstore.as_retriever()


  embedding = HuggingFaceEmbeddings(
  from tqdm.autonotebook import tqdm, trange


In [9]:

contextualize_q_system_prompt = (
    "Учитывая историю чата и последний вопрос пользователя, "
    "который может ссылаться на контекст в истории чата,"
    "сформулируйте отдельный вопрос, который можно понять "
    "без истории чата. НЕ отвечайте на вопрос - просто переформулируйте его,"
    "если нужно, а в противном случае верните как есть. Отвечай на языке, на котором был задан вопрос"
    # "Given a chat history and the latest user question "
    # "which might reference context in the chat history, "
    # "formulate a standalone question which can be understood "
    # "without the chat history. Do NOT answer the question, "
    # "just reformulate it if needed and otherwise return it as is."
)
contextualize_q_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", contextualize_q_system_prompt),
        MessagesPlaceholder("chat_history"),
        ("human", "{input}"),
    ]
)
history_aware_retriever = create_history_aware_retriever(
    llm, retriever, contextualize_q_prompt
)


### Answer question ###
system_prompt = (
    "Вы являетесь помощником при выполнении заданий по поиску ответов на вопросы."
    "Используйте приведенные ниже фрагменты из извлеченного контекста для ответа"
    "на вопрос. Если вы не знаете ответа, скажите, что вы"
    "не знаете. Используйте максимум три предложения и старайтесь,"
    "чтобы ответ был кратким. "
    "\n\n"
    "{context}"
)
qa_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        MessagesPlaceholder("chat_history"),
        ("human", "{input}"),
    ]
)
question_answer_chain = create_stuff_documents_chain(llm, qa_prompt)

rag_chain = create_retrieval_chain(history_aware_retriever, question_answer_chain)



In [10]:

### История чата ###
store = {}


def get_session_history(session_id: str) -> BaseChatMessageHistory:
    if session_id not in store:
        store[session_id] = ChatMessageHistory()
    return store[session_id]


conversational_rag_chain = RunnableWithMessageHistory(
    rag_chain,
    get_session_history,
    input_messages_key="input",
    history_messages_key="chat_history",
    output_messages_key="answer"
)

In [11]:
question = 'Цель этого документа'

In [12]:
conversational_rag_chain.invoke(
    {"input": question},
    config={
        "configurable": {"session_id": "abc123"}
    },  # constructs a key "abc123" in `store`.
)

{'input': 'Цель этого документа',
 'chat_history': [],
 'context': [Document(metadata={'source': 'C:\\Work\\Rag\\papers\\нацстратегия.pdf', 'page': 5}, page_content='изменяющимся условиям, является сложной научно -технической проблемой, решение которой \nнаходится на пересечении различных сфер научного знания - естественно -научной, технической и \nсоци ально -гуманитарной. Решение этой проблемы может привести не только к позитивным \nизменениям в ключевых сферах жизнедеятельности, но и к негативным последствиям, вызванным \nсоциальными и технологическими изменениями, которые сопутствуют развитию технологий \nискусственного интеллекта.  \n10. Стремительное развитие технологий искусственного интеллекта сопровождается \nсущественным ростом как государственных, так и частных инвестиций в их развитие, а также в \nразработку прикладных технологических решений на основе искус ственного интеллекта. По \nоценкам международных экспертов, инвестиции в технологии искусственного интеллекта выросли

In [13]:
ans = conversational_rag_chain.invoke(
    {"input": 'И какие тенденции?'},
    config={
        "configurable": {"session_id": "abc123"}
    },  # constructs a key "abc123" in `store`.
)

In [14]:
ans

{'input': 'И какие тенденции?',
 'chat_history': [HumanMessage(content='Цель этого документа', additional_kwargs={}, response_metadata={}),
  AIMessage(content='Цель данного документа - предоставить информацию о стремительном развитии технологий искусственного интеллекта, их влиянии на различные сферы жизни, а также о необходимости нормативно-правового регулирования для обеспечения безопасности и этичности использования этих технологий.', additional_kwargs={}, response_metadata={})],
 'context': [Document(metadata={'source': 'C:\\Work\\Rag\\papers\\нацстратегия.pdf', 'page': 15}, page_content='обеспечения опережающего развития искусственного интеллекта являются:  \nа) реализация инновационных задач в области искусственного интеллекта, в том числе по \nразработке и адаптации больших фундаментальных моделей для их применения в отраслях  \nэкономики, по формированию условий для создания сильного искусственного интеллекта, \nповышения доступности искусственного интеллекта в целях его испол

In [15]:
# извлечение метадаты
ans['context'][0].metadata['source']

'C:\\Work\\Rag\\papers\\нацстратегия.pdf'

# Эксперименты с Loaderами

In [3]:
test_filepath = 'C:\Work\Rag\papers\paper2.pdf'

  test_filepath = 'C:\Work\Rag\papers\paper2.pdf'


In [4]:
from langchain_community.document_loaders import PyPDFLoader

In [28]:

loader_pypdf = PyPDFLoader(file_path=test_filepath)
docs_pypdf = loader_pypdf.lazy_load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=900, chunk_overlap=300)
splits_pypdfl = text_splitter.split_documents(docs_pypdf)

In [29]:
splits_pypdfl[:5]

[Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 0}, page_content='ЗНАЧЕНИЕ ИИ В ЭКОНОМИКЕ ОАЭ'),
 Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 1}, page_content='Источники: PwC MENA , Подсчет затрат-расходов ИИ БВСА, IDC➢Наибольшие выгоды в регионе БВСА получают страны Персидского залива и Египет, а ОАЭ являются\nкрупнейшими бенефициарамиАНАЛИЗ ЗАТРАТ И ВЫГОД ИИ\n▪Распространение искусственного интеллекта в \nразличных секторах и отраслях промышленности \nтребует значительных первоначальных инвестиций в его \nинфраструктуру. В регионе Ближнего Востока и Африки будет наблюдаться самый быстрый в мире \nрост расходов в ИИ.\n▪Ожидается, что в 2022-2026 годах объем расходов \nувеличится в среднем на 30% в годовом исчислении и \nсоставит 6,4 миллиарда долларов в 2026 году,  чему будут \nспособствовать ОАЭ и Саудовская Аравия, наиболее \nдинамично развивающиеся экономики региона.\n▪По оценкам Международной корпорации обработки \nданных (I

In [30]:
from langchain_community.document_loaders import PDFMinerLoader

In [31]:
%%time
loader_miner = PDFMinerLoader(file_path=test_filepath, extract_images=False, concatenate_pages=True)
docs_miner = loader_miner.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=900, chunk_overlap=300)
splits_miner = text_splitter.split_documents(docs_miner)

CPU times: total: 1.7 s
Wall time: 1.75 s


In [32]:
splits_miner[:5]

[Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf'}, page_content='ЗНАЧЕНИЕ ИИ В ЭКОНОМИКЕ ОАЭ\n\n\x0cЗНАЧЕНИЕ ИИ В ЭКОНОМИКЕ ОАЭ\n\nАНАЛИЗ ЗАТРАТ И ВЫГОД ИИ\n\n➢ Наибольшие выгоды в регионе БВСА получают страны Персидского залива и Египет, а ОАЭ являются\n\nкрупнейшими бенефициарами\n\nЗатраты\n\n▪\n\nРаспространение искусственного интеллекта в \nразличных секторах и отраслях промышленности \nтребует значительных первоначальных инвестиций в его \nинфраструктуру. В регионе Ближнего Востока и \nАфрики будет наблюдаться самый быстрый в мире \nрост расходов в ИИ.\n\n▪ Ожидается, что в 2022-2026 годах объем расходов \n\nувеличится в среднем на 30% в годовом исчислении и \nсоставит 6,4 миллиарда долларов в 2026 году,  чему будут \nспособствовать ОАЭ и Саудовская Аравия, наиболее \nдинамично развивающиеся экономики региона.\n\n▪ По оценкам Международной корпорации обработки'),
 Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf'}, page_content='увеличится в средне

In [33]:
# %%time
# loader_miner_im = PDFMinerLoader(file_path=test_filepath, extract_images=True, concatenate_pages=True)
# docs_miner_im = loader_miner_im.load()

# text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
# splits_miner_im = text_splitter.split_documents(docs_miner_im)

In [34]:
# splits_miner[3]

In [35]:
# loader_pypdf_im = PyPDFLoader(file_path=test_filepath, extract_images=True)
# docs_pypdf_im = loader_pypdf_im.load()

# text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
# splits_pypdfl_im = text_splitter.split_documents(docs_pypdf_im)

In [36]:
# splits_pypdfl_im[0]

In [37]:
from langchain_community.document_loaders import PyMuPDFLoader

In [38]:
! pip install pymupdf

Looking in indexes: https://token:****@sberosc.sigma.sbrf.ru/repo/pypi/simple


In [39]:
loader_pymy = PyMuPDFLoader(file_path = test_filepath, extract_images=False)
docs_pymy = loader_pymy.lazy_load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=900, chunk_overlap=300)
splits_pymy = text_splitter.split_documents(docs_pymy)

In [40]:
splits_pymy[:5]

[Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'file_path': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 0, 'total_pages': 16, 'format': 'PDF 1.7', 'title': 'PowerPoint Presentation', 'author': 'Mohamed Walid Lotfy', 'subject': '', 'keywords': '', 'creator': 'Microsoft® PowerPoint® for Microsoft 365', 'producer': 'Microsoft® PowerPoint® for Microsoft 365', 'creationDate': "D:20240206101828+04'00'", 'modDate': "D:20240731151649+03'00'", 'trapped': ''}, page_content='AI SIGNIFICANCE IN THE UAE ECONOMY'),
 Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'file_path': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 1, 'total_pages': 16, 'format': 'PDF 1.7', 'title': 'PowerPoint Presentation', 'author': 'Mohamed Walid Lotfy', 'subject': '', 'keywords': '', 'creator': 'Microsoft® PowerPoint® for Microsoft 365', 'producer': 'Microsoft® PowerPoint® for Microsoft 365', 'creationDate': "D:20240206101828+04'00'", 'modDate': "D:20240731151649+03'00'", 'trapped': '

In [41]:
splits_pymy[0].metadata

{'source': 'C:\\Work\\Rag\\papers\\paper2.pdf',
 'file_path': 'C:\\Work\\Rag\\papers\\paper2.pdf',
 'page': 0,
 'total_pages': 16,
 'format': 'PDF 1.7',
 'title': 'PowerPoint Presentation',
 'author': 'Mohamed Walid Lotfy',
 'subject': '',
 'keywords': '',
 'creator': 'Microsoft® PowerPoint® for Microsoft 365',
 'producer': 'Microsoft® PowerPoint® for Microsoft 365',
 'creationDate': "D:20240206101828+04'00'",
 'modDate': "D:20240731151649+03'00'",
 'trapped': ''}

In [42]:
splits_pymy[0].metadata['creationDate'][2:6] #например так можно достать год

'2024'

In [43]:
from langchain_community.document_loaders import PDFPlumberLoader

In [44]:
! pip install pdfplumber

Looking in indexes: https://token:****@sberosc.sigma.sbrf.ru/repo/pypi/simple


In [45]:
loader_Plumber = PDFPlumberLoader(file_path=test_filepath)
docs_Plumber = loader_Plumber.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=900, chunk_overlap=300)
splits_Plumber = text_splitter.split_documents(docs_Plumber)

In [46]:
splits_Plumber[:5]

[Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'file_path': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 0, 'total_pages': 16, 'Author': 'Mohamed Walid Lotfy', 'CreationDate': "D:20240206101828+04'00'", 'Creator': 'Microsoft® PowerPoint® for Microsoft 365', 'ModDate': "D:20240731151649+03'00'", 'Producer': 'Microsoft® PowerPoint® for Microsoft 365', 'Title': 'PowerPoint Presentation'}, page_content='ЗНАЧЕНИЕ ИИ В ЭКОНОМИКЕ ОАЭ'),
 Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'file_path': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 1, 'total_pages': 16, 'Author': 'Mohamed Walid Lotfy', 'CreationDate': "D:20240206101828+04'00'", 'Creator': 'Microsoft® PowerPoint® for Microsoft 365', 'ModDate': "D:20240731151649+03'00'", 'Producer': 'Microsoft® PowerPoint® for Microsoft 365', 'Title': 'PowerPoint Presentation'}, page_content='ЗНАЧЕНИЕ ИИ В ЭКОНОМИКЕ ОАЭ АНАЛИЗ ЗАТРАТ И ВЫГОД ИИ\n➢ Наибольшие выгоды в регионе БВСА получают страны Персидского залива

In [23]:
splits_pypdfl[:5]

[Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 0}, page_content='ЗНАЧЕНИЕ ИИ В ЭКОНОМИКЕ ОАЭ'),
 Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 1}, page_content='Источники: PwC MENA , Подсчет затрат-расходов ИИ БВСА, IDC➢Наибольшие выгоды в регионе БВСА получают страны Персидского залива и Египет, а ОАЭ являются\nкрупнейшими бенефициарамиАНАЛИЗ ЗАТРАТ И ВЫГОД ИИ\n▪Распространение искусственного интеллекта в \nразличных секторах и отраслях промышленности \nтребует значительных первоначальных инвестиций в его \nинфраструктуру. В регионе Ближнего Востока и Африки будет наблюдаться самый быстрый в мире \nрост расходов в ИИ.\n▪Ожидается, что в 2022-2026 годах объем расходов \nувеличится в среднем на 30% в годовом исчислении и \nсоставит 6,4 миллиарда долларов в 2026 году,  чему будут \nспособствовать ОАЭ и Саудовская Аравия, наиболее \nдинамично развивающиеся экономики региона.\n▪По оценкам Международной корпорации обработки \nданных (I

In [24]:
from langchain_community.document_loaders import PyPDFium2Loader

In [25]:
loader_ium = PyPDFium2Loader(file_path=test_filepath)
docs_ium = loader_ium.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits_ium = text_splitter.split_documents(docs_ium)



In [26]:
splits_ium[:5]

[Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 0}, page_content='ЗНАЧЕНИЕ ИИ В ЭКОНОМИКЕ ОАЭ'),
 Document(metadata={'source': 'C:\\Work\\Rag\\papers\\paper2.pdf', 'page': 1}, page_content='Источники: PwC MENA, Подсчет затрат-расходов ИИ БВСА, IDC\r\n➢ Наибольшие выгоды в регионе БВСА получают страны Персидского залива и Египет, а ОАЭ являются\r\nкрупнейшими бенефициарами\r\nАНАЛИЗ ЗАТРАТ И ВЫГОД ИИ\r\n▪ Распространение искусственного интеллекта в \r\nразличных секторах и отраслях промышленности \r\nтребует значительных первоначальных инвестиций в его \r\nинфраструктуру. В регионе Ближнего Востока и \r\nАфрики будет наблюдаться самый быстрый в мире \r\nрост расходов в ИИ.\r\n▪ Ожидается, что в 2022-2026 годах объем расходов\r\nувеличится в среднем на 30% в годовом исчислении и\r\nсоставит 6,4 миллиарда долларов в 2026 году, чему будут\r\nспособствовать ОАЭ и Саудовская Аравия, наиболее\r\nдинамично развивающиеся экономики региона.\r\n▪ По оценкам Международно

Выводы: быстрее всего PyMuPDFLoader + переводит, PDFPlumberLoader для таблиц и вроде лучше других (имхо)

In [135]:
loader_iumg = PyPDFium2Loader(file_path='C:\Work\Rag\papers\skan.pdf', extract_images=True)
docs_iumg = loader_iumg.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits_iumg = text_splitter.split_documents(docs_iumg)


  loader_iumg = PyPDFium2Loader(file_path='C:\Work\Rag\papers\skan.pdf', extract_images=True)


In [136]:
splits_iumg[:5]

[Document(metadata={'source': 'C:\\Work\\Rag\\papers\\skan.pdf', 'page': 0}, page_content='YKA3\nHPE3HIEHTA POCCHYCKOY ΦEIEPAHH\nHarpaKIeHHM TocyIapcTBeHHbIMH HarpaIaMH\nPoccuickoi Φelepaun\n3a  6oJbmHe\n3acJIyrH\nB\nykpeIJIeHuu\nHHcTITyTa\nceMbH\nH BOcIHTaHHH IeTeH HpHcBoHTb 3BaHHe\n"MATb-IEPOHA"\nBAPTAIIEBHY JIuJHY BuJIbeBHe, Pecy6JHKa KapeJIHA\nJIEMHEC OkcaHe BuTaIbeBHe, PecIy6JHKa KpbIM\nKOFbIJIMHO TaTbXHe BJaIHMHpoBHe, ApxaHreJIbcKag 06JIacTh\nJIYKbAHOBOH HaTaIbe BHKTOpoBHe, Pecy6J1HKa KpbIM\nMAKEEBO TaMape HuKoJaeBHe, KypraHcKa 06J1acTb\nMATBEEBOH Ombre HIeTpoBHe, HIpHMopcKui kpai\nMEPKYJIOBON Mapuu BHKTopoBHe, BmaINMupcKa 06JacTb\nHOBIOPOIOBOH MapHH AJ1eKcaHIpoBHe, PecHIy6JIHKa MopIoBHA\nOHIAP AiHaa1 BJaIUMupoBHe, PecIy6JIHKa THIBa\nHOJIPE3OBON MapHN IOpbeBHe, EBpeicKa8 aBTOHOMHa 06J1acTH\nPOXHOBO TaJIHHe HuKOJIaeBHe, OpJIOBcKaA 06JIaCTH\nTPOIHIMHON EJeHe AJeKcaHIpoBHe, ropon MocKBa\nXJIIOIHO HaμexIe CepreeBHe, CBepIoBcKa o6JIacTb.\n2 100071 945632'),
 Document(metadata={'source

In [48]:
! pip install markdown

Looking in indexes: https://token:****@sberosc.sigma.sbrf.ru/repo/pypi/simple
Collecting markdown
  Downloading https://sberosc.sigma.sbrf.ru/repo/pypi/packages/3f/08/83871f3c50fc983b88547c196d11cf8c3340e37c32d2e9d6152abe2c61f7/Markdown-3.7-py3-none-any.whl.metadata (7.0 kB)
Downloading https://sberosc.sigma.sbrf.ru/repo/pypi/packages/3f/08/83871f3c50fc983b88547c196d11cf8c3340e37c32d2e9d6152abe2c61f7/Markdown-3.7-py3-none-any.whl (106 kB)
Installing collected packages: markdown
Successfully installed markdown-3.7


# Нужна ли чистка?

In [57]:
import os
import re
import markdown
from pdfminer.high_level import extract_text as extract_text_from_pdf
from io import StringIO
from html.parser import HTMLParser
from langchain.text_splitter import RecursiveCharacterTextSplitter
 
# Класс для очистки HTML-тегов из текста
class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs = True
        self.text = StringIO()
 
    def handle_data(self, d):
        self.text.write(d)
 
    def get_data(self):
        return self.text.getvalue()
 
def strip_tags(html):
    """Удалить HTML-теги из строки."""
    s = MLStripper()
    s.feed(html)
    return s.get_data()
 
def clean_markdown(text):
    """Очистить синтаксис Markdown из текста."""
    # Удалить ссылки в формате Markdown
    text = re.sub(r'\[([^\]]+)\]\([^)]+\)', r'\1', text)
    # Удалить маркеры жирного и курсивного текста
    text = re.sub(r'\*\*([^*]+)\*\*', r'\1', text)
    text = re.sub(r'\*([^*]+)\*', r'\1', text)
    text = re.sub(r'__([^_]+)__', r'\1', text)
    text = re.sub(r'_([^_]+)_', r'\1', text)
    # Удалить изображения и их ссылки
    text = re.sub(r'!\[[^\]]*]\([^)]*\)', '', text)
    # Удалить маркеры заголовков
    text = re.sub(r'#+\s?', '', text)
    # Удалить другой синтаксис Markdown (например, таблицы, маркеры списка)
    text = re.sub(r'\|', ' ', text)
    text = re.sub(r'-{2,}', '', text)
    text = re.sub(r'\n{2,}', '\n', text)  # Удалить лишние пустые строки
    return text
 
# def extract_text_from_docx(docx_path):
#     """Извлечь и очистить текст из Markdown-файла."""
#     with open(docx_path, "r", encoding="utf-8") as file:
#         md_content = file.read()
#         html = markdown.markdown(md_content)
#         text = strip_tags(html)
#         return clean_markdown(text)
 
# def extract_text_from_file(file_path):
#     """Извлечь текст из файла на основе его расширения."""
#     if file_path.endswith('.pdf'):
#         return extract_text_from_pdf(file_path)
#     elif file_path.endswith('.docx'):
#         return extract_text_from_docx(file_path)
#     elif file_path.endswith('.txt'):
#         with open(file_path, 'r', encoding='utf-8') as file:
#             return file.read()
#     else:
#         return "Неподдерживаемый формат файла."
 
# Директория, содержащая документы для обработки
directory = 'C:\Work\Rag\papers'
 
# Параметры для разбиения текста
chunk_size = 900
chunk_overlap = 300
 
# Список для хранения всех частей документов
all_docs = []
allowed_extensions = ['.docx', '.pdf', '.txt']
 
# Обработка каждого файла в директории
for root, dirs, files in os.walk(directory):
    for filename in files:
        # Получить расширение файла
        _, file_extension = os.path.splitext(filename)
        if file_extension in allowed_extensions:
            file_path = os.path.join(root, filename)  # Полный путь к файлу
 
            # Удалить расширение ".docx", ".pdf" или ".txt" из имени файла
            file_name_without_extension = os.path.splitext(filename)[0]
             
            # Открыть и прочитать файл
            loader = PyPDFLoader(file_path)
            file_content = loader.load()
            
             
            # Разбить текст на части
            text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
            docs = text_splitter.split_documents(file_content)
            all_docs.append(docs)
            # for i, chunk in enumerate(docs):
            #     # Определить метаданные для каждой части (можно настроить по своему усмотрению)
            #     metadata = {
            #         "File Name": file_name_without_extension,
            #         "Chunk Number": i + 1,
            #     }
                 
            #     # Создать заголовок с метаданными и именем файла
            #     header = f"File Name: {file_name_without_extension}\n"
            #     for key, value in metadata.items():
            #         header += f"{key}: {value}\n"
                 
            #     # Объединить заголовок, имя файла и содержимое части
            #     chunk_with_header = header + file_name_without_extension + "\n" + chunk
            #     all_docs.append(chunk_with_header)
                     
            print(f"Обработано: {filename}")

  directory = 'C:\Work\Rag\papers'


Обработано: paper1.pdf
Обработано: paper2.pdf
Обработано: skantype.pdf
Обработано: Нацстратегия.pdf


In [87]:
x = file_content[0].page_content

In [88]:
x

'Документ предоставлен КонсультантПлюс  \n \n \n10 октября  2019  года  N 490 \n \n \nУКАЗ  \n \nПРЕЗИДЕНТА РОССИЙСКОЙ ФЕДЕРАЦИИ  \n \nО РАЗВИТИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В РОССИЙСКОЙ ФЕДЕРАЦИИ  \n \n  Список изменяющих документов  \n(в ред. Указа  Президента РФ от 15.02.2024 N 124)   \n \nВ целях обеспечения ускоренного развития искусственного интеллекта в Российской \nФедерации, проведения научных иссл едований в области искусственного интеллекта, повышения \nдоступности информации и вычислительных ресурсов для пользователей, совершенствования \nсистемы подготовки кадров в этой области постановляю:  \n1. Утвердить прилагаемую Национальную стратегию  развития искусственного интеллекта на \nпериод до 2030 года.  \n2. Правительству Российской Федерации:  \nа) до 15 декабря 2019 г. обеспечить внесение изменений в национальную программу  \n"Цифровая экономика Российской Федерации", в том числе разработать и утвердить федеральный \nпроект "Искусственный интеллект";  \nа(1)) до 1 июля 2024

In [89]:
y = strip_tags(x)
clean_markdown(y)

'Документ предоставлен КонсультантПлюс  \n \n \n10 октября  2019  года  N 490 \n \n \nУКАЗ  \n \nПРЕЗИДЕНТА РОССИЙСКОЙ ФЕДЕРАЦИИ  \n \nО РАЗВИТИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В РОССИЙСКОЙ ФЕДЕРАЦИИ  \n \n  Список изменяющих документов  \n(в ред. Указа  Президента РФ от 15.02.2024 N 124)   \n \nВ целях обеспечения ускоренного развития искусственного интеллекта в Российской \nФедерации, проведения научных иссл едований в области искусственного интеллекта, повышения \nдоступности информации и вычислительных ресурсов для пользователей, совершенствования \nсистемы подготовки кадров в этой области постановляю:  \n1. Утвердить прилагаемую Национальную стратегию  развития искусственного интеллекта на \nпериод до 2030 года.  \n2. Правительству Российской Федерации:  \nа) до 15 декабря 2019 г. обеспечить внесение изменений в национальную программу  \n"Цифровая экономика Российской Федерации", в том числе разработать и утвердить федеральный \nпроект "Искусственный интеллект";  \nа(1)) до 1 июля 2024

In [90]:
len(x)

2495

In [91]:
len(y)

2495

In [76]:
all_docs[1][0].page_content

'ЗНАЧЕНИЕ ИИ В ЭКОНОМИКЕ ОАЭ'

In [113]:
from langchain_community.retrievers import ArxivRetriever
retriever = ArxivRetriever(
    load_max_docs=2,
    get_ful_documents=True,
)
docs_arxiv = retriever.invoke("RAG")



In [114]:
docs_arxiv

[Document(metadata={'Entry ID': 'http://arxiv.org/abs/2407.21059v1', 'Published': datetime.date(2024, 7, 26), 'Title': 'Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks', 'Authors': 'Yunfan Gao, Yun Xiong, Meng Wang, Haofen Wang'}, page_content='Retrieval-augmented Generation (RAG) has markedly enhanced the capabilities\nof Large Language Models (LLMs) in tackling knowledge-intensive tasks. The\nincreasing demands of application scenarios have driven the evolution of RAG,\nleading to the integration of advanced retrievers, LLMs and other complementary\ntechnologies, which in turn has amplified the intricacy of RAG systems.\nHowever, the rapid advancements are outpacing the foundational RAG paradigm,\nwith many methods struggling to be unified under the process of\n"retrieve-then-generate". In this context, this paper examines the limitations\nof the existing RAG paradigm and introduces the modular RAG framework. By\ndecomposing complex RAG systems into ind

In [115]:
d = docs_arxiv[0]

In [123]:
import datetime

In [125]:
date = d.metadata['Published'].strftime("%Y-%m-%d")
# print(date.strftime("%Y-%m-%d"))
date

'2024-07-26'

In [136]:
pa = d.metadata["Entry ID"].replace('abs','pdf')

In [16]:
import tempfile

In [17]:
def get_embeddings():
    model_name = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
    model_kwargs = {'device': 'cpu'}
    encode_kwargs = {'normalize_embeddings': False}
    embedding = HuggingFaceEmbeddings(
        model_name=model_name,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
        )
    #return HuggingFaceEmbeddings(
    #     model_name=model_name,
    #     model_kwargs=model_kwargs,
    #     encode_kwargs=encode_kwargs
    #     )
    return embedding


In [18]:
import requests

In [122]:
resp = requests.get(d.metadata["Entry ID"].replace('abs','pdf'))

In [130]:
with tempfile.NamedTemporaryFile(delete=False, suffix='.pdf') as tmp_file:
                tmp_file.write(resp.content)
                tmp_file_path = tmp_file.name
loader = PDFMinerLoader(tmp_file_path)
# loader = PyPDFLoader(temp_file, extract_images=True) #если PDF в виде скана мб нужно боковой тогл добавить
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=900, chunk_overlap=300)
splitted_data = text_splitter.split_documents(documents)

In [135]:
splitted_data[0].metadata["source"] = pa

'C:\\Users\\22456229\\AppData\\Local\\Temp\\tmp9nb49unu.pdf'

In [137]:
for i in splitted_data:
    i.metadata["source"] = pa

In [139]:
# def extract_text_from_arxiv(query):
#     retriever = ArxivRetriever(
#     load_max_docs=2,
#     get_ful_documents=True,)
#     docs_arxiv = retriever.invoke(query)
#     docs = []
#     for doc in docs_arxiv:
#         pdf_path = doc.metadata["Entry ID"].replace('abs','pdf')
#         response_load = requests.get(pdf_path)
#         with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
#                 tmp_file.write(response_load.content)
#                 tmp_file_path = tmp_file.name

#         loader = PDFMinerLoader(tmp_file_path, concatenate_pages=True)
#         # loader = PyPDFLoader(temp_file, extract_images=True) #если PDF в виде скана мб нужно боковой тогл добавить
#         documents = loader.load()
#         text_splitter = RecursiveCharacterTextSplitter(chunk_size=900, chunk_overlap=300)
#         splitted_data = text_splitter.split_documents(documents)
#         for i in splitted_data:
#              i.metadata["source"] = pdf_path
#         docs.extend(splitted_data)
#         os.remove(tmp_file_path)
#     # os.unlink(tmp_file_path)
    
#     embeddings = get_embeddings()
    
#     vectorstore_arxiv = FAISS.from_documents(splitted_data, embeddings)
#     retriever_arxiv = vectorstore_arxiv.as_retriever(search_kwargs={"k": 3}, search_type="mmr")
#     return retriever_arxiv
    

In [22]:
query = 'RAG'

In [24]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.document_loaders import PDFMinerLoader

In [131]:
retriever = ArxivRetriever(
load_max_docs=2,
get_ful_documents=True,)
docs_arxiv = retriever.invoke('RAG')
docs = []
meta = []
for doc in docs_arxiv:
    pdf_path = doc.metadata["Entry ID"].replace('abs','pdf')
    response_load = requests.get(pdf_path)
    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
            tmp_file.write(response_load.content)
            tmp_file_path = tmp_file.name

#     loader = PyPDFLoader(tmp_file_path)

    # loader = PyPDFLoader(temp_file, extract_images=True) #если PDF в виде скана мб нужно боковой тогл добавить
    loader = PDFMinerLoader(tmp_file_path, concatenate_pages= True)
    documents = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=900, chunk_overlap=450)
    splitted_data = text_splitter.split_documents(documents)
    for i in splitted_data:
            i.metadata["source"] = pdf_path
    docs.extend(splitted_data)
    meta.extend((f" ответ будет производиться по следующей статье {pdf_path}",f"опубликованной {doc.metadata['Published'].strftime("%Y-%m-%d")}"))
    os.remove(tmp_file_path)
# os.unlink(tmp_file_path)

embeddings = get_embeddings()

vectorstore_arxiv = FAISS.from_documents(docs, embeddings)
retriever_arxiv = vectorstore_arxiv.as_retriever(search_kwargs={"k": 3}, search_type="mmr")



In [132]:
meta

[' ответ будет производиться по следующей статье http://arxiv.org/pdf/2407.21059v1',
 'опубликованной 2024-07-26',
 ' ответ будет производиться по следующей статье http://arxiv.org/pdf/2409.01666v1',
 'опубликованной 2024-09-03',
 ' ответ будет производиться по следующей статье http://arxiv.org/pdf/2401.15391v1',
 'опубликованной 2024-01-27']

In [133]:
docs

[Document(metadata={'source': 'http://arxiv.org/pdf/2407.21059v1'}, page_content='Modular RAG: Transforming RAG Systems into\nLEGO-like Reconfigurable Frameworks\n\nYunfan Gao, Yun Xiong, Meng Wang, Haofen Wang\n\n1\n\n4\n2\n0\n2\n\nl\nu\nJ\n\n6\n2\n\n]\nL\nC\n.\ns\nc\n[\n\n1\nv\n9\n5\n0\n1\n2\n.\n7\n0\n4\n2\n:\nv\ni\nX\nr\na\n\n(RAG)\n\nAbstract—Retrieval-augmented Generation'),
 Document(metadata={'source': 'http://arxiv.org/pdf/2407.21059v1'}, page_content='has\nmarkedly enhanced the capabilities of Large Language Models\n(LLMs) in tackling knowledge-intensive tasks. The increasing\ndemands of application scenarios have driven the evolution\nof RAG,\nleading to the integration of advanced retrievers,\nLLMs and other complementary technologies, which in turn\nhas amplified the intricacy of RAG systems. However, the rapid\nadvancements are outpacing the foundational RAG paradigm,\nwith many methods struggling to be unified under the process\nof “retrieve-then-generate”. In this contex

In [134]:
docs_arxiv

[Document(metadata={'Entry ID': 'http://arxiv.org/abs/2407.21059v1', 'Published': datetime.date(2024, 7, 26), 'Title': 'Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks', 'Authors': 'Yunfan Gao, Yun Xiong, Meng Wang, Haofen Wang'}, page_content='Retrieval-augmented Generation (RAG) has markedly enhanced the capabilities\nof Large Language Models (LLMs) in tackling knowledge-intensive tasks. The\nincreasing demands of application scenarios have driven the evolution of RAG,\nleading to the integration of advanced retrievers, LLMs and other complementary\ntechnologies, which in turn has amplified the intricacy of RAG systems.\nHowever, the rapid advancements are outpacing the foundational RAG paradigm,\nwith many methods struggling to be unified under the process of\n"retrieve-then-generate". In this context, this paper examines the limitations\nof the existing RAG paradigm and introduces the modular RAG framework. By\ndecomposing complex RAG systems into ind

In [135]:
# retriever_arxxiv = extract_text_from_arxiv('RAG')

In [136]:
from dotenv import load_dotenv
load_dotenv()
credentials = os.getenv('credentials')
llm = GigaChat(auth_url = 'https://sm-auth-sd.prom-88-89-apps.ocp-geo.ocp.sigma.sbrf.ru/api/v2/oauth',credentials=credentials, verify_ssl_certs=False)


In [150]:
contextualize_q_system_prompt = (
    "Учитывая историю чата и последний вопрос пользователя, "
    "который может ссылаться на контекст в истории чата,"
    "сформулируйте отдельный вопрос, который можно понять "
    "без истории чата. НЕ отвечайте на вопрос - просто переформулируйте его,"
    "если нужно, а в противном случае верните как есть. Всегда отвечай на русском языке"
    # "Given a chat history and the latest user question "
    # "which might reference context in the chat history, "
    # "formulate a standalone question which can be understood "
    # "without the chat history. Do NOT answer the question, "
    # "just reformulate it if needed and otherwise return it as is."
)
contextualize_q_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", contextualize_q_system_prompt),
        MessagesPlaceholder("chat_history"),
        ("human", "{input}"),
    ]
)
history_aware_retriever = create_history_aware_retriever(
    llm, retriever_arxiv, contextualize_q_prompt
)


### Answer question ###
system_prompt = (
    # "Вы являетесь помощником при выполнении заданий по поиску ответов на вопросы."
    # "Используйте приведенные ниже фрагменты из извлеченного контекста для ответа"
    # "на вопрос. Если вы не знаете ответа, скажите, что вы"
    # "не знаете. Используйте максимум три предложения и старайтесь,"
    # "чтобы ответ был кратким. "
    # "\n\n"
    "Твоя роль: Аналитик специализирующийся на быстром поиске информации в предоставленном контексте."
    "Краткая инструкция: Анализировать предложенный контекст и отвечать на вопросы, опираясь исключительно на информацию из этого контекста."
    "Что тебе делать: При получении вопроса и соответствующего контекста тщательно изучи предоставленную информацию, выяви ключевые факты и данные,\n"
    "затем используй их для формирования точного ответа на заданный вопрос. Всегда отвечай на русском языке."
    "Твоя цель: Обеспечить абсолютно точный ответ, полностью основанный на информации из предложенного контекста, без внесения внешних данных или предположений."
    "Результат: Ответ должен быть четким и точным, содержать только информацию из предложенного контекста.\n"
    "Ожидается, что ответ будет логически обоснованным и последовательным."
    "Ограничения: Строго придерживайся информации из предложенного контекста при ответе на вопрос, избегай допущений или добавления информации,\n"
    "не содержащейся в контексте."
    "Дополнительные техники: Используй технику цепочки мыслей для объяснения твоего рассуждения и логического процесса, приводящего к ответу.\n"
    "Кроме того, применяй критическое мышление для оценки достоверности и релевантности информации в контексте, задавая вопросы и проверяя предположения, которые могут влиять на твой ответ."
    "{context}"
)
qa_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        MessagesPlaceholder("chat_history"),
        ("human", "{input}"),
    ]
)
question_answer_chain = create_stuff_documents_chain(llm, qa_prompt)

rag_chain = create_retrieval_chain(history_aware_retriever, question_answer_chain)


In [151]:
store = {}


def get_session_history(session_id: str) -> BaseChatMessageHistory:
    if session_id not in store:
        store[session_id] = ChatMessageHistory()
    return store[session_id]


conversational_rag_chain = RunnableWithMessageHistory(
    rag_chain,
    get_session_history,
    input_messages_key="input",
    history_messages_key="chat_history",
    output_messages_key="answer"
)

In [152]:
question = 'Что входит в Сравнительный анализ системы RAG с использованием MultiHop-RAG?'

In [153]:
question2 = 'Расскажи про retrieval evalation и response evolation'

In [154]:
conversational_rag_chain.invoke(
    {"input": question2},
    config={
        "configurable": {"session_id": "abc123"}
    },  # constructs a key "abc123" in `store`.
)
#900 450 new prompt + chain of thought pdfminer Вопрос №2

{'input': 'Расскажи про retrieval evalation и response evolation',
 'chat_history': [],
 'context': [Document(metadata={'source': 'http://arxiv.org/pdf/2409.01666v1'}, page_content='Meanwhile, using the proposed order-preserve\nRAG, as the number of retrieved chunks increases,\nthe answer quality initially rises and then declines.\nThis is because, with more retrieved chunks, the\nmodel has access to more potentially relevant in-\nformation, which improves the chances of retriev-\ning the correct context needed to generate a high-\nquality answer. However, as more chunks are re-\ntrieved, the likelihood of introducing irrelevant or\ndistracting information also increases. This excess\ninformation can confuse the model, leading to a\ndecline in answer quality. The trade-off, therefore,\nis between improving recall by retrieving more\ncontext and maintaining precision by limiting dis-\ntractions. The optimal point is where the balance\nbetween relevant and irrelevant information maxi-\nm

In [140]:
conversational_rag_chain.invoke(
    {"input": question},
    config={
        "configurable": {"session_id": "abc123"}
    },  # constructs a key "abc123" in `store`.
)
#900 450 new prompt + chain of thought pdfminer

{'input': 'Что входит в Сравнительный анализ системы RAG с использованием MultiHop-RAG?',
 'chat_history': [],
 'context': [Document(metadata={'source': 'http://arxiv.org/pdf/2401.15391v1'}, page_content='2.3 Evaluation Metrics\n\nAn RAG system handling multi-hop queries can be\nassessed from two key aspects: retrieval evaluation\nand generation evaluation.'),
  Document(metadata={'source': 'http://arxiv.org/pdf/2407.21059v1'}, page_content='• This paper proposes a new paradigm called modular\nRAG, which employs a three-tier architectural design\ncomprising modules, sub-modules, and operators to de-\nfine the RAG system in a unified and structured manner.\nThis design not only enhances the system’s flexibility and\nscalability but also, through the independent design of\n\n3\n\noperators, strengthens the system’s maintainability and\ncomprehensibility.\n\n• Under the framework of Modular RAG, the orchestration\nof modules and operators forms the RAG Flow, which\ncan flexibly express cu

In [112]:
conversational_rag_chain.invoke(
    {"input": question},
    config={
        "configurable": {"session_id": "abc123"}
    },  # constructs a key "abc123" in `store`.
)
#900 450 new prompt + chain of thought

{'input': 'Что входит в Сравнительный анализ системы RAG с использованием MultiHop-RAG?',
 'chat_history': [],
 'context': [Document(metadata={'source': 'http://arxiv.org/pdf/2401.15391v1', 'page': 7}, page_content='niques. We believe that there are many potential\nareas for enhancing RAG’s performance on multi-\nhop queries, and the curated dataset MultiHop-\nRAG can be a valuable resource to the community.\n5 Related Work\nRAG Evaluation: As RAG systems gain increas-\ning popularity, a variety of RAG benchmarking\ndatasets and evaluation tools have been developed.\nFor instance, RGB (Chen et al., 2023) and RE-\nCALL (Liu et al., 2023) evaluate the performance\nof LLMs in generating responses for RAG systems\nunder conditions involving noisy, integrative, and\ncounterfactual queries. However, both datasets pri-\nmarily focus on evaluating the generation aspect\nof RAG systems without specifically addressing\ntheir retrieval accuracy. In addition, recent ad-\nvancements have been made 

In [108]:
conversational_rag_chain.invoke(
    {"input": question},
    config={
        "configurable": {"session_id": "abc123"}
    },  # constructs a key "abc123" in `store`.
)
#900 450 new prompt

{'input': 'Что входит в Сравнительный анализ системы RAG с использованием MultiHop-RAG?',
 'chat_history': [],
 'context': [Document(metadata={'source': 'http://arxiv.org/pdf/2401.15391v1', 'page': 7}, page_content='niques. We believe that there are many potential\nareas for enhancing RAG’s performance on multi-\nhop queries, and the curated dataset MultiHop-\nRAG can be a valuable resource to the community.\n5 Related Work\nRAG Evaluation: As RAG systems gain increas-\ning popularity, a variety of RAG benchmarking\ndatasets and evaluation tools have been developed.\nFor instance, RGB (Chen et al., 2023) and RE-\nCALL (Liu et al., 2023) evaluate the performance\nof LLMs in generating responses for RAG systems\nunder conditions involving noisy, integrative, and\ncounterfactual queries. However, both datasets pri-\nmarily focus on evaluating the generation aspect\nof RAG systems without specifically addressing\ntheir retrieval accuracy. In addition, recent ad-\nvancements have been made 

In [99]:
conversational_rag_chain.invoke(
    {"input": question},
    config={
        "configurable": {"session_id": "abc123"}
    },  # constructs a key "abc123" in `store`.
)
# 900 450 старый промпт

{'input': 'Что входит в Сравнительный анализ системы RAG с использованием MultiHop-RAG?',
 'chat_history': [],
 'context': [Document(metadata={'source': 'http://arxiv.org/pdf/2401.15391v1', 'page': 7}, page_content='niques. We believe that there are many potential\nareas for enhancing RAG’s performance on multi-\nhop queries, and the curated dataset MultiHop-\nRAG can be a valuable resource to the community.\n5 Related Work\nRAG Evaluation: As RAG systems gain increas-\ning popularity, a variety of RAG benchmarking\ndatasets and evaluation tools have been developed.\nFor instance, RGB (Chen et al., 2023) and RE-\nCALL (Liu et al., 2023) evaluate the performance\nof LLMs in generating responses for RAG systems\nunder conditions involving noisy, integrative, and\ncounterfactual queries. However, both datasets pri-\nmarily focus on evaluating the generation aspect\nof RAG systems without specifically addressing\ntheir retrieval accuracy. In addition, recent ad-\nvancements have been made 

In [81]:
conversational_rag_chain.invoke(
    {"input": question},
    config={
        "configurable": {"session_id": "abc123"}
    },  # constructs a key "abc123" in `store`.
)
# 900 300 old prompt

{'input': 'Что входит в Сравнительный анализ системы RAG с использованием MultiHop-RAG?',
 'chat_history': [HumanMessage(content='What is Step-back Prompting?', additional_kwargs={}, response_metadata={}),
  AIMessage(content="Step-back Prompting is a technique used in RAG systems, which involves abstracting the original query into a high-level concept question (step-back question) and using both the step-back question and the original query for retrieval. Their results are combined to generate the language model's answer.", additional_kwargs={}, response_metadata={}),
  HumanMessage(content='Что такое Step-back Prompting?', additional_kwargs={}, response_metadata={}),
  AIMessage(content='Step-back Prompting - это техника, используемая в системах RAG, которая включает абстрагирование исходного запроса в высокоуровневый вопрос о концепции (вопрос отступления). Оба вопроса отступления и исходный запрос используются для поиска, а их результаты комбинируются для генерации ответа языковой 

In [46]:
# ! pip install gpt4all

In [45]:
# ! pip install -U g4f

In [44]:
# ! pip install curl_cffi

In [47]:
# from g4f.client import Client

# client = Client()
# response = client.chat.completions.create(
#     model="gpt-3.5-turbo",
#     messages=[{"role": "user", "content": "What is RAG?"}],
# )
# print(response.choices[0].message.content)

In [68]:
from langchain_community.retrievers import ArxivRetriever
retriever = ArxivRetriever(
load_max_docs=2,
get_ful_documents=True,)
docs_arxiv = retriever.invoke('RAG')
docs = []
for doc in docs_arxiv:
    pdf_path = doc.metadata["Entry ID"].replace('abs','pdf')
    response_load = requests.get(pdf_path)
    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
            tmp_file.write(response_load.content)
            tmp_file_path = tmp_file.name

    loader = PyPDFLoader(tmp_file_path)
    # loader = PyPDFLoader(temp_file, extract_images=True) #если PDF в виде скана мб нужно боковой тогл добавить
    documents = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=900, chunk_overlap=300)
    splitted_data = text_splitter.split_documents(documents)
    for i in splitted_data:
            i.metadata["source"] = pdf_path
    docs.extend(splitted_data)
    os.remove(tmp_file_path)
# retriever = ArxivRetriever(
#     load_max_docs=2,
#     get_ful_documents=True,
# )
# docs = retriever.invoke("What is the ImageBind model?")

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough


prompt = ChatPromptTemplate.from_template(
    """Answer the question based only on the context provided.

Context: {context}

Question: {question}"""
)

credentials = os.getenv('credentials')
llm = GigaChat(auth_url = 'https://sm-auth-sd.prom-88-89-apps.ocp-geo.ocp.sigma.sbrf.ru/api/v2/oauth',credentials=credentials, verify_ssl_certs=False)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

chain.invoke("What is MultiHop-RAG?")



'The given context does not provide any information about MultiHop-RAG.'