# Retrievers
- https://python.langchain.com/docs/integrations/retrievers/

## ArxivRetriever
- https://python.langchain.com/docs/integrations/retrievers/arxiv/

In [None]:
!uv pip install -qU langchain-community arxiv

In [None]:
from langchain_community.retrievers import ArxivRetriever

retriever = ArxivRetriever(
    load_max_docs=2,
    get_ful_documents=True,
)

In [None]:
docs = retriever.invoke("1605.08386")
docs[0].metadata  # meta-information of the Document

In [None]:
docs[0].page_content[:400]  # a content of the Document

In [None]:
docs = retriever.invoke("What is the ImageBind model?")
docs[1].metadata  # meta-information of the Document

In [None]:
docs[1].page_content[:400]  # a content of the Document

In [None]:
# 顯示每篇文件的 metadata
for i, doc in enumerate(docs):
    print(f"\n[Doc {i+1}] Metadata:")
    for key, value in doc.metadata.items():
        print(f"  {key}: {value}")

# chain

In [None]:
# chain
# https://build.nvidia.com/deepseek-ai/deepseek-r1
# nvapi-xxx
import getpass
import os
if not os.environ.get("NVIDIA_API_KEY"):
  os.environ["NVIDIA_API_KEY"] = getpass.getpass("Enter API key for NVIDIA: ")

from langchain.chat_models import init_chat_model
llm = init_chat_model("meta/llama-4-maverick-17b-128e-instruct", model_provider="nvidia")

In [None]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.retrievers import ArxivRetriever


retriever = ArxivRetriever(load_max_docs=2, get_ful_documents=True)

system_prompt = (
    "Use the given context to answer the question. "
    "If you don't know the answer, say you don't know. "
    "Use three sentence maximum and keep the answer concise. "
    "Context: {context}"
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("human", "{input}"),
    ]
)
question_answer_chain = create_stuff_documents_chain(llm, prompt)
chain = create_retrieval_chain(retriever, question_answer_chain)
query = "What is the ImageBind model?"
chain.invoke({"input": query})


##   作業

**擴展檢索鏈 (Retrieval Chain)**

Notebook 中創建了一個基本的檢索鏈，將 ArxivRetriever 和 LLM 連接起來回答問題。

1.  **基本功能：**
    * 在 notebook 的基礎上，擴展檢索鏈的功能，使其更加實用。

2.  **擴展方向（選擇至少兩項）：**
    * **文件篩選：** 讓使用者可以根據作者、日期、關鍵字等條件篩選文獻。
    * **摘要生成：** 自動總結檢索到的文獻內容。
    * **多源檢索：** 整合多個 Retriever，從不同來源檢索資訊 (例如 Arxiv、Web、自訂資料庫)。
    * **結果排序：** 根據相關性對檢索結果進行排序和評分。
    * **複雜查詢處理：** 處理包含多個關鍵字和條件的查詢。

**評估標準：**

* 檢索鏈是否能夠正確檢索並呈現相關文獻？ (50%)
* 擴展功能是否能夠有效提升檢索的實用性？ (50%)

