In [1]:
# 加载环境变量，如果你用的是OpenAI key就用这个方案！去掉注释即可！后面定义本地model的时候，把它注释
import dotenv
%load_ext dotenv
%dotenv

In [2]:
import nest_asyncio
nest_asyncio.apply()

In [3]:
from llama_index.core import SimpleDirectoryReader

# 加载PDF数据，这里雄哥以卖油翁为例，可以改为自己的任意数据放在datasets文件夹即可，或改为指定的绝对路径
documents = SimpleDirectoryReader(input_files=["./datasets/maiyouweng.pdf"]).load_data()

In [4]:
from llama_index.core.node_parser import SentenceSplitter

# 把文本分块，chunk_size为1024，每一块的大小
splitter = SentenceSplitter(chunk_size=1024)
# 创建文档的节点
nodes = splitter.get_nodes_from_documents(documents)

In [5]:
# 这里可以打印每一个块的信息！
node_metadata = nodes[1].get_content(metadata_mode=True)
print(node_metadata)

page_label: 1
file_name: maiyouweng.pdf
file_path: datasets\maiyouweng.pdf
file_type: application/pdf
file_size: 429687
creation_date: 2024-06-18
last_modified_date: 2024-06-18

尔，同“耳”，相当于“罢了”。
12.忿（fèn）然：气愤的样子。然，作形容词或者副词的词尾，相当于“的”或“地”。
13.安：怎么。轻吾射：看轻我射箭（的本领）。轻，作动词用。
14.以我酌（zhuó）油知之：凭我倒油（的经验）知道这个（道理）。以，凭、靠。
酌，斟酒，这里指倒油。之，指射箭也是凭手熟的道理。
15.覆：盖。
16.徐：慢慢地。
17.杓：同“勺”。
18.沥之：注入葫芦。沥，注。之，指葫芦。
19.惟：意为只，不过。
20.遣之：让他走。遣，打发。


In [5]:
from llama_index.llms.huggingface import HuggingFaceLLM
from llama_index.embeddings.huggingface import HuggingFaceEmbedding




In [6]:
# 加载本地的qwen2-7b，你本地的模型放在哪就直接改路径
llm = HuggingFaceLLM(
    tokenizer_name="G:\\models\\Qwen2-7B-Instruct",
    model_name="G:\\models\\Qwen2-7B-Instruct",
    device_map="auto",
    tokenizer_kwargs={"trust_remote_code": True},
    model_kwargs={"trust_remote_code": True},
)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [7]:
# 调用本地bce-embedding-base_v1作为embedding模型

embed_args = {
    'model_name': 'hkunlp/instructor-base', 
    'max_length': 512, 
    'embed_batch_size': 32, 
    'device': 'cuda'
    }
embed_model = HuggingFaceEmbedding(**embed_args)

  return self.fget.__get__(instance, owner)()


In [6]:
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding

llm = OpenAI(model="gpt-3.5-turbo")
embed_model = OpenAIEmbedding()

In [7]:
from llama_index.core import Settings
# 把加载的模型添加到环境设置中，定义全局模型

Settings.llm = llm
Settings.embed_model = embed_model

In [8]:
from llama_index.core import SummaryIndex, VectorStoreIndex

# 创建数据摘要索引
summary_index = SummaryIndex(nodes)
# 创建矢量存储索引
vector_index = VectorStoreIndex(nodes)

In [9]:
def add(x: int, y: int) -> int:
    """将两个数相加"""
    return x + y

# substraction function
def sub(x: int, y: int) -> int:
    """两个数字相减"""
    return x - y

# multiplication function
def mul(x: int, y: int) -> int:
    """两个数字相乘"""
    return x * y


# get user information
def get_user_info(name: str) -> str:
    """Get user information."""
    data = {
        "雄哥": {
            "age": 18,
            "location": "广东"
        },
        "小胖": {
            "age": 60,
            "location": "广东"
        }
    }
    return f'名字 {name}, 年龄 {data[name]["age"]} 来自 {data[name]["location"]}'

In [10]:
from llama_index.core.tools import FunctionTool

addition_tool = FunctionTool.from_defaults(fn=add)
get_user_info_tool = FunctionTool.from_defaults(fn=get_user_info)
multiplication_tool = FunctionTool.from_defaults(fn=mul)
substraction_tool = FunctionTool.from_defaults(fn=sub)

tools = [addition_tool, get_user_info_tool, multiplication_tool, substraction_tool]

In [11]:
# 这里试试上面定义的函数，大模型能否正常使用
response = llm.predict_and_call(
    tools, 
    "5乘以5等于多少？", 
    verbose=True
)
print(str(response))

=== Calling Function ===
Calling function: mul with args: {"x": 5, "y": 5}
=== Function Output ===
25
25


In [12]:
# 再试一下，确定能正常使用
response = llm.predict_and_call(
    tools, 
    "雄哥多少岁？", 
    verbose=True
)
print(str(response))

=== Calling Function ===
Calling function: get_user_info with args: {"name": "\u96c4\u54e5"}
=== Function Output ===
名字 雄哥, 年龄 18 来自 广东
名字 雄哥, 年龄 18 来自 广东


In [13]:
from llama_index.core.vector_stores import MetadataFilters

# Create vector search query engine
query_engine = vector_index.as_query_engine(
    similarity_top_k=2,
    filters=MetadataFilters.from_dicts(
        [
            {"key": "page_label", "value": "2"}
        ]
    )
)

response = query_engine.query(
    "康肃公陈尧咨善于射箭，曾经，他在家里场地射箭，然后发生了什么事？", 
)
print(str(response))

He practiced archery in his home field, and then a oil seller watched him for a long time without leaving. Later, the oil seller explained his skill with pouring oil into a gourd without wetting the coin on top. This made Chen Yaohui angry, but the oil seller's explanation made him laugh and sent the oil seller away.


In [14]:
for n in response.source_nodes:
    print(n.metadata)
    print("=============Text=============")
    print(n.get_text())
    print("=============Text=============")

{'page_label': '2', 'file_name': 'maiyouweng.pdf', 'file_path': 'datasets\\maiyouweng.pdf', 'file_type': 'application/pdf', 'file_size': 429687, 'creation_date': '2024-06-18', 'last_modified_date': '2024-06-18'}
四、白话译文
康肃公陈尧咨善于射箭，世上没有第二个人能跟他相媲美，他也就凭着这种本领而自夸。
曾经（有一次），（他）在家里（射箭的）场地射箭，有个卖油的老翁放下担子，站在那里
斜着眼睛看着他，很久都没有离开。卖油的老头看他射十箭中了八九箭，但只是微微点点头。
陈尧咨问卖油翁：“你也懂得射箭吗？我的箭法不是很高明吗？”卖油的老翁说：“没有
别的（奥妙），不过是手法熟练罢了。”陈尧咨（听后）气愤地说：“你怎么敢轻视我射箭（的
本领）！”老翁说：“凭我倒油（的经验）就可以懂得这个道理。”于是拿出一个葫芦放在地
上，把一枚铜钱盖在葫芦口上，慢慢地用油杓舀油注入葫芦里，油从钱孔注入而钱却没有湿。
于是说：“我也没有别的（奥妙），只不过是手熟练罢了。”陈尧咨笑着将他送走了。
五、重点句子
1、陈康肃公善射，当世无双，公亦以此自矜。
句译：康肃公陈尧咨擅长射箭，当时没有人能与他相比，他（陈尧咨）也因此自我夸耀。
2、尝射于家圃，有卖油翁释担而立，睨之久而不去。
句译：他曾经（有一次）在家里的园子里射箭，有一个卖油老头放下担子站在那儿，斜着眼
看他射箭，很久没有离开。
3、见其发矢十中八九，但微颔之。
句译：（卖油翁）看见他射出的箭十支有八九支射中了目标，只是微微点头。
4、康肃问曰：“汝亦知射乎？吾射不亦精乎？”
翁曰：“无他，但手熟尔。”
句译：陈尧咨问卖油翁：“你也懂得射箭吗？我射箭的技术不也很精妙吗？”卖油的老翁说：
“（这）没有别的（奥妙），只是手法熟练罢了。”
5、康肃忿然曰：“尔安敢轻吾射！”
翁曰：“以我酌油知之。”
句译：陈尧咨（听后）气愤地说：“你怎么敢轻视我射箭的本领！”老翁说：“凭我倒油的经
验知道这个道理。
{'page_label': '2', 'file_name': 'maiyouweng.pdf', 'file_path': 'da

In [15]:
from typing import List
from llama_index.core.vector_stores import FilterCondition


def vector_search_query(
    query: str, 
    page_numbers: List[str]
) -> str:
    """使用以下参数在索引中进行向量搜索：

    query (str): 这是你想要在索引中嵌入和搜索的文本字符串
    page_numbers (List[str]): 这个参数允许你将搜索限制到特定的页面。如果留空，搜索将包含索引中的所有页面。如果指定了页码，搜索将只包括那些页面
    
    """

    metadata_dicts = [
        {"key": "page_label", "value": p} for p in page_numbers
    ]
    
    query_engine = vector_index.as_query_engine(
        similarity_top_k=2,
        filters=MetadataFilters.from_dicts(
            metadata_dicts,
            condition=FilterCondition.OR
        )
    )
    response = query_engine.query(query)
    return response

In [16]:
vector_query_tool = FunctionTool.from_defaults(
    name="vector_search_tool",
    fn=vector_search_query
)

In [37]:
response = llm.predict_and_call(
    [vector_query_tool], 
    "第 2 页讲了什么内容？", 
    verbose=True
)

=== Calling Function ===
Calling function: vector_search_tool with args: {"query": "\u7b2c 2 \u9875", "page_numbers": ["2"]}
=== Function Output ===
The information is located on the second page.


In [38]:
# 确认系统在哪里检索的数据，返回数据源
for n in response.source_nodes:
    print(n.metadata)
    print("=============Text=============")
    print(n.get_text())
    print("=============Text=============")

{'page_label': '2', 'file_name': 'maiyouweng.pdf', 'file_path': 'datasets\\maiyouweng.pdf', 'file_type': 'application/pdf', 'file_size': 429687, 'creation_date': '2024-06-18', 'last_modified_date': '2024-06-18'}
四、白话译文
康肃公陈尧咨善于射箭，世上没有第二个人能跟他相媲美，他也就凭着这种本领而自夸。
曾经（有一次），（他）在家里（射箭的）场地射箭，有个卖油的老翁放下担子，站在那里
斜着眼睛看着他，很久都没有离开。卖油的老头看他射十箭中了八九箭，但只是微微点点头。
陈尧咨问卖油翁：“你也懂得射箭吗？我的箭法不是很高明吗？”卖油的老翁说：“没有
别的（奥妙），不过是手法熟练罢了。”陈尧咨（听后）气愤地说：“你怎么敢轻视我射箭（的
本领）！”老翁说：“凭我倒油（的经验）就可以懂得这个道理。”于是拿出一个葫芦放在地
上，把一枚铜钱盖在葫芦口上，慢慢地用油杓舀油注入葫芦里，油从钱孔注入而钱却没有湿。
于是说：“我也没有别的（奥妙），只不过是手熟练罢了。”陈尧咨笑着将他送走了。
五、重点句子
1、陈康肃公善射，当世无双，公亦以此自矜。
句译：康肃公陈尧咨擅长射箭，当时没有人能与他相比，他（陈尧咨）也因此自我夸耀。
2、尝射于家圃，有卖油翁释担而立，睨之久而不去。
句译：他曾经（有一次）在家里的园子里射箭，有一个卖油老头放下担子站在那儿，斜着眼
看他射箭，很久没有离开。
3、见其发矢十中八九，但微颔之。
句译：（卖油翁）看见他射出的箭十支有八九支射中了目标，只是微微点头。
4、康肃问曰：“汝亦知射乎？吾射不亦精乎？”
翁曰：“无他，但手熟尔。”
句译：陈尧咨问卖油翁：“你也懂得射箭吗？我射箭的技术不也很精妙吗？”卖油的老翁说：
“（这）没有别的（奥妙），只是手法熟练罢了。”
5、康肃忿然曰：“尔安敢轻吾射！”
翁曰：“以我酌油知之。”
句译：陈尧咨（听后）气愤地说：“你怎么敢轻视我射箭的本领！”老翁说：“凭我倒油的经
验知道这个道理。
{'page_label': '2', 'file_name': 'maiyouweng.pdf', 'file_path': 'da

In [19]:
from llama_index.core import SummaryIndex
from llama_index.core.tools import QueryEngineTool

summary_index = SummaryIndex(nodes)

summary_query_engine = summary_index.as_query_engine(
    response_mode="tree_summarize",
    use_async=True,
)

summary_tool = QueryEngineTool.from_defaults(
    name="summary_tool",
    query_engine=summary_query_engine,
    description=(
        "关于卖油翁的摘要生成"
    ),
)

In [20]:
response = llm.predict_and_call(
    [vector_query_tool, summary_tool],
    "第一页提到了什么内容?",
    verbose=True
)

=== Calling Function ===
Calling function: vector_search_tool with args: {"query": "\u7b2c\u4e00\u9875", "page_numbers": ["1"]}
=== Function Output ===
The first page contains information about the text "《卖油翁》", including its analysis as part of the seventh-grade Chinese language curriculum, the original text, and explanations of specific words and phrases used in the text.


In [21]:
for n in response.source_nodes:
    print(n.metadata)
    print("=============Text=============")
    print(n.get_text()[:10])
    print("=============Text=============")

{'page_label': '1', 'file_name': 'maiyouweng.pdf', 'file_path': 'datasets\\maiyouweng.pdf', 'file_type': 'application/pdf', 'file_size': 429687, 'creation_date': '2024-06-18', 'last_modified_date': '2024-06-18'}
《卖油翁》
一、教材
{'page_label': '1', 'file_name': 'maiyouweng.pdf', 'file_path': 'datasets\\maiyouweng.pdf', 'file_type': 'application/pdf', 'file_size': 429687, 'creation_date': '2024-06-18', 'last_modified_date': '2024-06-18'}
尔，同“耳”，相当于


In [22]:
response = llm.predict_and_call(
    [vector_query_tool, summary_tool], 
    "给我这篇卖油翁课堂的摘要！",
    verbose=True
)

=== Calling Function ===
Calling function: summary_tool with args: {"input": "\u5356\u6cb9\u7fc1\u662f\u4e00\u7bc7\u660e\u4ee3\u6587\u5b66\u4f5c\u54c1\uff0c\u8bb2\u8ff0\u4e86\u4e00\u4e2a\u5356\u6cb9\u7fc1\u5728\u5e02\u573a\u4e0a\u5356\u6cb9\u7684\u6545\u4e8b\u3002\u4ed6\u867d\u7136\u5e74\u8001\u4f53\u5f31\uff0c\u5374\u52e4\u52b3\u5584\u826f\uff0c\u6df1\u53d7\u4e61\u4eb2\u4eec\u7684\u5c0a\u656c\u548c\u7231\u6234\u3002\u6545\u4e8b\u901a\u8fc7\u5356\u6cb9\u7fc1\u7684\u575a\u6301\u548c\u52aa\u529b\u5c55\u73b0\u4e86\u4eba\u751f\u7684\u771f\u8c1b\uff0c\u4f20\u8fbe\u4e86\u52e4\u52b3\u3001\u8bda\u5b9e\u3001\u5584\u826f\u7684\u4ef7\u503c\u89c2\u3002\u8fd9\u7bc7\u4f5c\u54c1\u4ee5\u7b80\u6d01\u660e\u5feb\u7684\u8bed\u8a00\u63cf\u7ed8\u4e86\u4e00\u4e2a\u666e\u901a\u4eba\u7684\u751f\u6d3b\uff0c\u5c55\u73b0\u4e86\u4eba\u6027\u7684\u7f8e\u597d\u548c\u575a\u97e7\u3002"}
=== Function Output ===
在家里的射箭场地射箭，有个卖油的老翁放下担子，站在那里斜着眼睛看着他，很久都没有离开。
3、但微颔之。
句译：但是微微点头表示赞许。
4、无他，但手熟尔。
句译：没有别的奥妙，只是手法熟练罢了。
5、尔安敢轻吾射！
句

In [23]:
for n in response.source_nodes:
    print(n.metadata)
    print("=============Text=============")
    print(n.get_text()[:10])
    print("=============Text=============")

{'page_label': '1', 'file_name': 'maiyouweng.pdf', 'file_path': 'datasets\\maiyouweng.pdf', 'file_type': 'application/pdf', 'file_size': 429687, 'creation_date': '2024-06-18', 'last_modified_date': '2024-06-18'}
《卖油翁》
一、教材
{'page_label': '1', 'file_name': 'maiyouweng.pdf', 'file_path': 'datasets\\maiyouweng.pdf', 'file_type': 'application/pdf', 'file_size': 429687, 'creation_date': '2024-06-18', 'last_modified_date': '2024-06-18'}
尔，同“耳”，相当于
{'page_label': '2', 'file_name': 'maiyouweng.pdf', 'file_path': 'datasets\\maiyouweng.pdf', 'file_type': 'application/pdf', 'file_size': 429687, 'creation_date': '2024-06-18', 'last_modified_date': '2024-06-18'}
四、白话译文
康肃公
{'page_label': '2', 'file_name': 'maiyouweng.pdf', 'file_path': 'datasets\\maiyouweng.pdf', 'file_type': 'application/pdf', 'file_size': 429687, 'creation_date': '2024-06-18', 'last_modified_date': '2024-06-18'}
我射箭的技术不也很精
{'page_label': '3', 'file_name': 'maiyouweng.pdf', 'file_path': 'datasets\\maiyouweng.pdf', 'file_type': 'ap