<a href="https://colab.research.google.com/github/megamanok99/Solid-test/blob/main/testing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Advanced RAG with LlamaParse

<a href="https://colab.research.google.com/github/run-llama/llama_parse/blob/main/examples/demo_advanced.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

This notebook shows you how to use LlamaParse with our advanced markdown ingestion and recursive retrieval algorithms to model tables/text within a document hierarchically. This lets you ask questions over both tables and text.

Note for this example, we are using the `llama_index >=0.10.4` version

In [None]:
!pip install llama-index
!pip install llama-index-core
!pip install llama-index-embeddings-openai
!pip install llama-index-postprocessor-flag-embedding-reranker
!pip install git+https://github.com/FlagOpen/FlagEmbedding.git
!pip install llama-parse

In [None]:
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/examples/data/10q/uber_10q_march_2022.pdf' -O './uber_10q_march_2022.pdf'

Some OpenAI and LlamaParse details

In [2]:
# llama-parse is async-first, running the async code in a notebook requires the use of nest_asyncio
import nest_asyncio
nest_asyncio.apply()

import os
# API access to llama-cloud
os.environ["LLAMA_CLOUD_API_KEY"] = "llx-dANieXc3oHcdK7WvRNBXM58SYvlXRVL6aQxmJQbZZpoeI89v"

# Using OpenAI API for embeddings/llms
os.environ["OPENAI_API_KEY"] = "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"

In [3]:
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import VectorStoreIndex
from llama_index.core import Settings

embed_model=OpenAIEmbedding(model="text-embedding-3-small")
llm = OpenAI(model="gpt-3.5-turbo-0125")

Settings.llm = llm
Settings.embed_model = embed_model


## Using brand new `LlamaParse` PDF reader for PDF Parsing

we also compare two different retrieval/query engine strategies:
1. Using raw Markdown text as nodes for building index and apply simple query engine for generating the results;
2. Using `MarkdownElementNodeParser` for parsing the `LlamaParse` output Markdown results and building recursive retriever query engine for generation.

In [4]:
from llama_parse import LlamaParse

documents = LlamaParse(result_type="markdown").load_data('./test.pdf')

Started parsing the file under job_id 7e06e839-7c5f-4858-9eed-076f28e6f688


In [5]:
print(documents[0].text[:1000] + '...')

# 5 апреля 2013 года N 44-ФЗ

РОССИЙСКАЯ ФЕДЕРАЦИЯ
ФЕДЕРАЛЬНЫЙ ЗАКОН
О КОНТРАКТНОЙ СИСТЕМЕ
В СФЕРЕ ЗАКУПОК ТОВАРОВ, РАБОТ, УСЛУГ ДЛЯ ОБЕСПЕЧЕНИЯ
ГОСУДАРСТВЕННЫХ И МУНИЦИПАЛЬНЫХ НУЖД

Принят
Государственной Думой
22 марта 2013 года
Одобрен
Советом Федерации
27 марта 2013 года

## Глава 1. ОБЩИЕ ПОЛОЖЕНИЯ

Статья 1. Сфера применения настоящего Федерального закона

1. Настоящий Федеральный закон регулирует отношения, направленные на обеспечение
государственных и муниципальных нужд в целях повышения эффективности, результативности
осуществления закупок товаров, работ, услуг, обеспечения гласности и прозрачности осуществления таких
закупок, предотвращения коррупции и других злоупотреблений в сфере таких закупок, в части, касающейся:

1. планирования закупок товаров, работ, услуг;
2. определения поставщиков (подрядчиков, исполнителей);
3. заключения предусмотренных настоящим Федеральным законом контрактов;
4. особенностей исполнения контрактов;
5. мониторинга закупок товаров, работ, услуг;
6

In [6]:
from llama_index.core.node_parser import MarkdownElementNodeParser

node_parser = MarkdownElementNodeParser(llm=OpenAI(model="gpt-3.5-turbo-0125"), num_workers=8)

In [7]:
nodes = node_parser.get_nodes_from_documents(documents)

5it [00:00, 1803.38it/s]
columns
  field required (type=value_error.missing)
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/llama_index/core/response_synthesizers/refine.py", line 477, in _agive_response_single
    structured_response = await program.acall(
  File "/usr/local/lib/python3.10/dist-packages/llama_index/core/response_synthesizers/refine.py", line 92, in acall
    answer = await self._llm.astructured_predict(
  File "/usr/local/lib/python3.10/dist-packages/llama_index/core/instrumentation/dispatcher.py", line 162, in async_wrapper
    self.span_drop(id_=id_, bound_args=bound_args, instance=instance, err=e)
  File "/usr/local/lib/python3.10/dist-packages/llama_index/core/instrumentation/dispatcher.py", line 98, in span_drop
    h.span_drop(
  File "/usr/local/lib/python3.10/dist-packages/llama_index/core/instrumentation/span_handlers/base.py", line 77, in span_drop
    span = self.prepare_to_drop_span(
  File "/usr/local/lib/python3.10/dis

In [8]:
base_nodes, objects = node_parser.get_nodes_and_objects(nodes)

In [23]:
# import pickle
recursive_index = VectorStoreIndex(nodes=base_nodes+objects)
raw_index = VectorStoreIndex.from_documents(documents)
raw_index.storage_context.persist()
# open('recursive_index.pkl', 'wb') as f:
#     pickle.dump(recursive_index, f)
# open('raw_index.pkl', 'wb') as f:
#     pickle.dump(raw_index, f)
# python recursive_index = VectorStoreIndex(nodes=base_nodes+objects)
# raw_index = VectorStoreIndex.from_documents(documents)``

In [16]:
from llama_index.postprocessor.flag_embedding_reranker import FlagEmbeddingReranker

reranker = FlagEmbeddingReranker(
    top_n=5,
    model="BAAI/bge-reranker-large",
)

recursive_query_engine = recursive_index.as_query_engine(
    similarity_top_k=15,
    node_postprocessors=[reranker],
    verbose=True
)

raw_query_engine = raw_index.as_query_engine(similarity_top_k=15, node_postprocessors=[reranker])

AttributeError: 'FlagEmbeddingReranker' object has no attribute 'save_pretrained'

In [11]:
print(len(nodes))

395


# Using `new LlamaParse` as pdf data parsing methods and retrieve tables with two different methods
we compare base query engine vs recursive query engine with tables

### Table Query Task: Queries for Table Question Answering

In [17]:
query = "Кто такой контрольный  орган  в  сфере  закупок?"

response_1 = raw_query_engine.query(query)
print("\n***********New LlamaParse+ Basic Query Engine***********")
print(response_1)

response_2 = recursive_query_engine.query(query)
print("\n***********New LlamaParse+ Recursive Retriever Query Engine***********")
print(response_2)



***********New LlamaParse+ Basic Query Engine***********
Контрольный орган в сфере закупок - это федеральный орган исполнительной власти, орган исполнительной власти субъекта Российской Федерации, орган местного самоуправления муниципального района, орган местного самоуправления муниципального округа, орган местного самоуправления городского округа, уполномоченные на осуществление контроля в сфере закупок.


KeyboardInterrupt: 

Курсив![image.png](attachment:image.png)

In [None]:
query = "what is the change of free cash flow and what is the rate from the financial and operational highlights?"

response_1 = raw_query_engine.query(query)
print("\n***********New LlamaParse+ Basic Query Engine***********")
print(response_1)

response_2 = recursive_query_engine.query(query)
print("\n***********New LlamaParse+ Recursive Retriever Query Engine***********")
print(response_2)


***********New LlamaParse+ Basic Query Engine***********
The change in free cash flow from the financial and operational highlights is a decrease from $(682) million in 2021 to $(47) million in 2022. This represents a significant improvement in free cash flow performance from one period to the next.
[1;3;38;2;11;159;203mRetrieval entering id_b656577b-91de-47ca-981e-8b1d63e20c20_320_table: TextNode
[0m[1;3;38;2;237;90;200mRetrieving from object TextNode with query what is the change of free cash flow and what is the rate from the financial and operational highlights?
[0m[1;3;38;2;11;159;203mRetrieval entering id_b656577b-91de-47ca-981e-8b1d63e20c20_38_table: TextNode
[0m[1;3;38;2;237;90;200mRetrieving from object TextNode with query what is the change of free cash flow and what is the rate from the financial and operational highlights?
[0m[1;3;38;2;11;159;203mRetrieval entering id_b656577b-91de-47ca-981e-8b1d63e20c20_44_table: TextNode
[0m[1;3;38;2;237;90;200mRetrieving from

![image.png](attachment:image.png)

In [13]:
query = "как происходит обжалование бездействия исполнителя?"

response_1 = raw_query_engine.query(query)
print("\n***********New LlamaParse+ Basic Query Engine***********")
print(response_1)

response_2 = recursive_query_engine.query(query)
print("\n***********New LlamaParse+ Recursive Retriever Query Engine***********")
print(response_2)


***********New LlamaParse+ Basic Query Engine***********
Обжалование бездействия исполнителя происходит путем подачи жалобы на действия (бездействие) субъектов контроля в установленном порядке. После размещения информации о принятии жалобы к рассмотрению, заинтересованное лицо может обжаловать бездействие исполнителя в судебном порядке.

***********New LlamaParse+ Recursive Retriever Query Engine***********
Обжалование бездействия исполнителя происходит путем подачи жалобы на действия (бездействие) субъектов контроля в установленном порядке. После размещения информации о принятии жалобы к рассмотрению, заинтересованное лицо может обжаловать отказ в принятии жалобы к рассмотрению по существу. Контрольный орган в сфере закупок принимает решение о признании жалобы обоснованной или необоснованной, выдает предписание об устранении нарушений, если необходимо, и принимает меры в соответствии с законодательством.


![image.png](attachment:image.png)

In [None]:
query = "What were cash flows like from investing activities?"

response_1 = raw_query_engine.query(query)
print("\n***********New LlamaParse+ Basic Query Engine***********")
print(response_1)

response_2 = recursive_query_engine.query(query)
print("\n***********New LlamaParse+ Recursive Retriever Query Engine***********")
print(response_2)


***********New LlamaParse+ Basic Query Engine***********
Cash flows from investing activities were as follows:
- For the three months ended March 31, 2022, net cash used in investing activities was $135 million, primarily driven by $62 million in purchases of property and equipment and $59 million in acquisition of business, net of cash acquired.
- For the three months ended March 31, 2021, net cash used in investing activities was $250 million, mainly consisting of $803 million in purchases of non-marketable equity securities, $336 million in purchases of marketable securities, and $216 million in purchases of a note receivable, partially offset by proceeds from maturities and sales of marketable securities of $696 million and $500 million in proceeds from the sale of non-marketable equity securities.
[1;3;38;2;11;159;203mRetrieval entering id_b656577b-91de-47ca-981e-8b1d63e20c20_44_table: TextNode
[0m[1;3;38;2;237;90;200mRetrieving from object TextNode with query What were cash f

![image.png](attachment:image.png)