# Get References from PDFs

This guide shows you how to use LlamaIndex to get in-line page number citations in the response (and the response is streamed).

This is a simple combination of using the page number metadata in our PDF loader along with our indexing/query abstractions to use this information.

<a href="https://colab.research.google.com/github/jerryjliu/llama_index/blob/main/docs/docs/examples/citation/pdf_page_reference.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

If you're opening this Notebook on colab, you will probably need to install LlamaIndex 🦙.

In [1]:
!pip install llama-index-llms-openai

Collecting llama-index-llms-openai
  Using cached llama_index_llms_openai-0.1.22-py3-none-any.whl.metadata (559 bytes)
Collecting llama-index-core<0.11.0,>=0.10.24 (from llama-index-llms-openai)
  Using cached llama_index_core-0.10.48-py3-none-any.whl.metadata (2.5 kB)
Collecting SQLAlchemy>=1.4.49 (from SQLAlchemy[asyncio]>=1.4.49->llama-index-core<0.11.0,>=0.10.24->llama-index-llms-openai)
  Downloading SQLAlchemy-2.0.31-cp312-cp312-macosx_11_0_arm64.whl.metadata (9.6 kB)
Collecting dataclasses-json (from llama-index-core<0.11.0,>=0.10.24->llama-index-llms-openai)
  Using cached dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting deprecated>=1.2.9.3 (from llama-index-core<0.11.0,>=0.10.24->llama-index-llms-openai)
  Using cached Deprecated-1.2.14-py2.py3-none-any.whl.metadata (5.4 kB)
Collecting dirtyjson<2.0.0,>=1.0.8 (from llama-index-core<0.11.0,>=0.10.24->llama-index-llms-openai)
  Using cached dirtyjson-1.0.8-py3-none-any.whl.metadata (11 kB)
Collecting httpx (fr

In [2]:
# !pip install llama-index



In [2]:
from llama_index.core import (
    SimpleDirectoryReader,
    VectorStoreIndex,
    download_loader,
    RAKEKeywordTableIndex,
)

In [3]:
!pip install llama-index-llms-gemini


Collecting llama-index-llms-gemini
  Downloading llama_index_llms_gemini-0.1.11-py3-none-any.whl.metadata (735 bytes)
Collecting google-generativeai<0.6.0,>=0.5.2 (from llama-index-llms-gemini)
  Downloading google_generativeai-0.5.4-py3-none-any.whl.metadata (3.9 kB)
Collecting google-ai-generativelanguage==0.6.4 (from google-generativeai<0.6.0,>=0.5.2->llama-index-llms-gemini)
  Using cached google_ai_generativelanguage-0.6.4-py3-none-any.whl.metadata (5.6 kB)
Collecting google-api-core (from google-generativeai<0.6.0,>=0.5.2->llama-index-llms-gemini)
  Using cached google_api_core-2.19.0-py3-none-any.whl.metadata (2.7 kB)
Collecting google-api-python-client (from google-generativeai<0.6.0,>=0.5.2->llama-index-llms-gemini)
  Downloading google_api_python_client-2.134.0-py2.py3-none-any.whl.metadata (6.7 kB)
Collecting google-auth>=2.15.0 (from google-generativeai<0.6.0,>=0.5.2->llama-index-llms-gemini)
  Using cached google_auth-2.30.0-py2.py3-none-any.whl.metadata (4.7 kB)
Collectin

In [7]:
!pip install -q llama-index google-generativeai

In [4]:
!pip install llama-index-embeddings-huggingface

Collecting llama-index-embeddings-huggingface
  Using cached llama_index_embeddings_huggingface-0.2.2-py3-none-any.whl.metadata (769 bytes)
Collecting sentence-transformers>=2.6.1 (from llama-index-embeddings-huggingface)
  Using cached sentence_transformers-3.0.1-py3-none-any.whl.metadata (10 kB)
Collecting minijinja>=1.0 (from huggingface-hub[inference]>=0.19.0->llama-index-embeddings-huggingface)
  Using cached minijinja-2.0.1-cp38-abi3-macosx_10_12_x86_64.macosx_11_0_arm64.macosx_10_12_universal2.whl.metadata (8.8 kB)
Collecting transformers<5.0.0,>=4.34.0 (from sentence-transformers>=2.6.1->llama-index-embeddings-huggingface)
  Downloading transformers-4.41.2-py3-none-any.whl.metadata (43 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.8/43.8 kB[0m [31m466.9 kB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting torch>=1.11.0 (from sentence-transformers>=2.6.1->llama-index-embeddings-huggingface)
  Downloading torch-2.3.1-cp312-none-macosx_11_0_ar

In [4]:
%env GOOGLE_API_KEY= AIzaSyB_q-QZb_8xTGapx4WjD6Ha19fB51Ucac4

env: GOOGLE_API_KEY=AIzaSyB_q-QZb_8xTGapx4WjD6Ha19fB51Ucac4


In [5]:
from llama_index.llms.gemini import Gemini

In [6]:

llm = Gemini(model="models/gemini-pro")

In [7]:
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# loads BAAI/bge-small-en
# embed_model = HuggingFaceEmbedding()

# loads BAAI/bge-small-en-v1.5
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-m3")



Download Data

In [None]:
# !mkdir -p 'data/10k/'
# !wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/10k/lyft_2021.pdf' -O 'data/10k/lyft_2021.pdf'

Load document and build index

In [8]:
from llama_index.core import SimpleDirectoryReader, VectorStoreIndex

In [None]:
# reader = SimpleDirectoryReader(input_files=["./data/10k/lyft_2021.pdf"])
# data = reader.load_data()

In [9]:
reader = SimpleDirectoryReader(input_files=["scbx-annual-report-2022-th.pdf"])
data = reader.load_data()

In [10]:
data

[Document(id_='19a80eb9-694f-4e20-a5b2-16255b7ebb6c', embedding=None, metadata={'page_label': '1', 'file_name': 'scbx-annual-report-2022-th.pdf', 'file_path': 'scbx-annual-report-2022-th.pdf', 'file_type': 'application/pdf', 'file_size': 11414263, 'creation_date': '2024-06-22', 'last_modified_date': '2024-06-22'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, text='', mimetype='text/plain', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperator='\n'),
 Document(id_='b317b436-4b1f-4c61-9d48-4899e3742246', embedding=None, metadata={'page_label': '2', 'file_name': 'scbx-annual-report-2022-th.pdf', 'file_path': 'scbx-annual-report-2022-th.pdf', 'file_type': 'application/pdf', 'f

In [11]:
from llama_index.core import Settings

# global
Settings.embed_model = embed_model
Settings.llm = llm
Settings.chunk_size = 1024
Settings.chunk_overlap = 128

In [12]:
index = VectorStoreIndex.from_documents(data)

In [42]:
query_engine = index.as_query_engine(streaming=False, similarity_top_k=5)

In [43]:
from llama_index.core import PromptTemplate

# shakespeare!
new_summary_tmpl_str = (
    "You're an expert in SCBX's annual report.\n"
    "---------------------\n"
    "{context_str}\n"
    "---------------------\n"
    "Given the context information and not prior knowledge, "
    "answer the query. You must always cite the page number. You always answer in Thai. You should answer as thoroughly as possible\n"
    "Query: {query_str}\n"
    "Answer: "
)
new_summary_tmpl = PromptTemplate(new_summary_tmpl_str)

In [44]:
query_engine.get_prompts()

{'response_synthesizer:text_qa_template': SelectorPromptTemplate(metadata={'prompt_type': <PromptType.QUESTION_ANSWER: 'text_qa'>}, template_vars=['context_str', 'query_str'], kwargs={}, output_parser=None, template_var_mappings={}, function_mappings={}, default_template=PromptTemplate(metadata={'prompt_type': <PromptType.QUESTION_ANSWER: 'text_qa'>}, template_vars=['context_str', 'query_str'], kwargs={}, output_parser=None, template_var_mappings=None, function_mappings=None, template='Context information is below.\n---------------------\n{context_str}\n---------------------\nGiven the context information and not prior knowledge, answer the query.\nQuery: {query_str}\nAnswer: '), conditionals=[(<function is_chat_model at 0x137394e00>, ChatPromptTemplate(metadata={'prompt_type': <PromptType.CUSTOM: 'custom'>}, template_vars=['context_str', 'query_str'], kwargs={}, output_parser=None, template_var_mappings=None, function_mappings=None, message_templates=[ChatMessage(role=<MessageRole.SYS

In [45]:
query_engine.update_prompts(
    {"response_synthesizer:text_qa_template": new_summary_tmpl}
)

Stream response with page citation

In [58]:
response = query_engine.query(
    """สินทรัพย์รวมปี 2565"""
)

In [59]:
response.response

'สินทรัพย์รวมปี 2565 มีมูลค่า 3,454,452,337 บาท (หน้า 165)'

Inspect source nodes

In [56]:
for node in response.source_nodes:
    print("-----")
    text_fmt = node.node.get_content().strip().replace("\n", " ")[:1000]
    print(f"Text:\t {text_fmt} ...")
    print(f"Metadata:\t {node.node.metadata}")
    print(f"Score:\t {node.score:.3f}")

-----
Text:	 5 การวัดมูลค่าของเครื่องมือทางการเงินในงบแสดงฐานะการเงิน  อ้างถึงหมายเหตุข้อ 3.3.1, 3.3.2, 3.13, 8, 9, 10, 27   เรื่องสําคัญในการตรวจสอบ  ได้ตรวจสอบเรื่องดังกล่าวอย่างไร   ณ วันที่  31 ธันวาคม 2565 สินทรัพย์ทางการเงินที่วัดมูลค่า ด้วยมูลค่ายุติธรรม  ซึ่งมูลค่ายุติธรรมของสินทรัพย์ทาง การเงินดังกล่าวจัดเป็นข้อมูลระดับ 2 และ 3 ในงบการเงิน รวมเป็นจํานวนเงิน 302 พันล้านบาท  หนี้สินทางการเงินที่ วัดมูลค่าด้วยมูลค่ายุติธรรมซึ่งมูลค่ายุติธรรมของหนี้สิน ทางการเงินดังกล่าวจัดเป็นข้อมูลระดับ 2 และ  3 ใน  งบการเงินรวมเป็นจํานวนเงิน 61 พันล้านบาท    เครื่องมือทางการเงินที่ถูกจัดลําดับชั้นของมูลค่ายุติธรรม เป็นข้อมูลระดับ 2 และ 3 อาจมีความเสี่ยงที่จะแสดงราคา คลาดเคลื่อนไปในงบแสดงฐานะการเง ิน เนื่องจากข้อมูล ที่นํามาใช้ประกอบการพ ิจารณาไม่ได้มาจากราคาภายนอก ที่แท้จริง หรือไม่สามารถสังเกตได้โดยง่ายเพื่อให้ได้มาซึ่ง มูลค่าประมาณการท ี่ดีที่สุด  การวัดมูลค่าของเครื่องมือทางการเงินในงบแสดงฐานะ การเงินเป็นเรื่องสําคัญในการตรวจสอบเน ื่องจากระดับ ความซับซ้อนในการประเม ินมูลค่าเครื่องมือทางการเง