## LlamaIndex and CSV

In [None]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 初始化嵌入模型
bge_embeddings = HuggingFaceEmbedding(model_name="BAAI/bge-large-zh-v1.5")

# 使用 SimpleDirectoryReader 加载 CSV 文件
reader = SimpleDirectoryReader(
    input_files=["../data/questions.csv"],
    # input_dir="data/",  # 指定包含 CSV 文件的目录
    # required_exts=[".csv"],  # 只加载 CSV 文件
    # recursive=True  # 如果目录中有子文件夹，递归加载
)

# 加载文件并转换为 Document 对象
documents = reader.load_data()

# 创建向量索引
index = VectorStoreIndex.from_documents(
    documents,
    embed_model=bge_embeddings
)

# 创建检索器
bge_retriever = index.as_retriever(similarity_top_k=1)

In [2]:
# 测试检索
query = "程序的中断方式"
results = bge_retriever.retrieve(query)
for result in results:
    print()
    print(f"Retrieved document: \n{result.text}\n")
    print(f"Similarity score: {result.score}\n")


Retrieved document: 
, 根据题目要求，写出A和B的二进制： A = 0001111_{2}    B = 0011000_{2}因此，我们欲求 A - B，其实可以计算 A + (-B)，A[补] = 0,0001111   -B[补] = 1,1101000相加得 1,1110111, 转换为原码为 -1001(不标准写法) = -9
计算机组成原理, 互联网, 简答题, 中等, 无, 中断机制, 题目：CPU中断控制部件有哪些功能？答案：CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1) 允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。, CPU中断控制部件有哪些功能？, CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1) 允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。
计算机组成原理, 互联网, 简答题, 中等, 无, 存储器管理, 题目：如何区分指令和数据？答案：区分指令和数据有两种办法：(1) 通过取出时机来判断: 如果是在取指令（微程序）的时候，取出的就是指令，如果是在执行指令（微程序）的时候，取出的时数据。(2) 通过地址来源来区分：如果是由 PC（程序计数器）提供的存储单元地址，那么取出的为指令，如果是地址码提供的存储单元地址，那么取出来的是数据。, 如何区分指令和数据？, 区分指令和数据有两种办法：(1) 通过取出时机来判断: 如果是在取指令（微程序）的时候，取出的就是指令，如果是在执行指令（微程序）的时候，取出的时数据。(2) 通过地址来源来区分：如果是由 PC（程序计数器）提供的存储单元地址，那么取出的为指令，如果是地址码提供的存储单元地址，那么取出来的是数据。
计算机组成原理, 互联网, 简答题, 简单, 无, 计算机组成, 题目：CPU PC IR CU ALU ACC MQ X MAR MDR I/O MIPS的含义是什么？答案：CPU: 中央处理器（机）。PC: 程序计数器。IR: 指令寄存器。CU: 控制单元。ALU：计算逻辑运算单元。MQ: 乘商寄存器。X：没有专指的部件名，在这里可以标识操作数寄存器。MAR: 存储器地址寄存器。MDR:

## Chunks

In [3]:
from llama_index.core.node_parser import SentenceSplitter

node_parser = SentenceSplitter(chunk_size=512, chunk_overlap=50)
index = VectorStoreIndex.from_documents(
    documents,
    embed_model=bge_embeddings,
    transformations=[node_parser]
)

bge_retriever = index.as_retriever(similarity_top_k=1)

In [4]:
# 测试检索
query = "中断"
results = bge_retriever.retrieve(query)
for result in results:
    print()
    print(f"Retrieved document: \n{result.text}\n")
    print(f"Similarity score: {result.score}\n")


Retrieved document: 
设机器码的字长为8位（含1个符号位），并且 A = 15，B = 24，求使用补码计算 A - B。, 根据题目要求，写出A和B的二进制： A = 0001111_{2}    B = 0011000_{2}因此，我们欲求 A - B，其实可以计算 A + (-B)，A[补] = 0,0001111   -B[补] = 1,1101000相加得 1,1110111, 转换为原码为 -1001(不标准写法) = -9
计算机组成原理, 互联网, 简答题, 中等, 无, 中断机制, 题目：CPU中断控制部件有哪些功能？答案：CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1) 允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。, CPU中断控制部件有哪些功能？, CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1) 允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。
计算机组成原理, 互联网, 简答题, 中等, 无, 存储器管理, 题目：如何区分指令和数据？

Similarity score: 0.47587993794543243



## CSV Reader

In [None]:
from pathlib import Path
from llama_index.core import VectorStoreIndex
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.readers.file import PandasCSVReader

# 初始化嵌入模型
bge_embeddings = HuggingFaceEmbedding(model_name="BAAI/bge-large-zh-v1.5")

# 使用 PandasCSVReader 加载 CSV 文件
reader = PandasCSVReader(
    pandas_config={"header": 0},  # 使用第一行作为列名
    # column_names=["question", "answer"]
    concat_rows=False
)
documents = reader.load_data(file=Path("../data/questions.csv"))

# 创建向量索引
index = VectorStoreIndex.from_documents(
    documents,
    embed_model=bge_embeddings
)

# 创建检索器
bge_retriever = index.as_retriever(similarity_top_k=1)

In [19]:
# 测试检索
query = "程序的中断方式"
results = bge_retriever.retrieve(query)
for result in results:
    print(f"Retrieved document: \n{result.text}")
    print(f"Score: {result.score}")

Retrieved document: 
计算机组成原理, 互联网, 简答题, 中等, 无, 中断机制, 题目：CPU中断控制部件有哪些功能？答案：CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1) 允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。, CPU中断控制部件有哪些功能？, CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1) 允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。
Score: 0.526497279413471


## Chromadb

In [30]:
import pandas as pd
from llama_index.core import VectorStoreIndex, Document, StorageContext
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.vector_stores.chroma import ChromaVectorStore
import chromadb

# 初始化嵌入模型
bge_embeddings = HuggingFaceEmbedding(model_name="BAAI/bge-large-zh-v1.5")

# 读取 CSV 文件
df = pd.read_csv("../data/questions.csv", header=0)
documents = [Document(text=row["document"], metadata={"question": row["question"], "answer": row["answer"]}) for _, row in df.iterrows()]

# 初始化 ChromaDB
chroma_client = chromadb.PersistentClient(path="./db_chroma")  # 持久化存储
chroma_collection = chroma_client.get_or_create_collection("my_collection")

vector_store = ChromaVectorStore(chroma_collection=chroma_collection)
storage_context = StorageContext.from_defaults(vector_store=vector_store)

# 创建向量索引
index = VectorStoreIndex.from_documents(
    documents,
    embed_model=bge_embeddings,
    storage_context=storage_context
)

# 创建检索器
bge_retriever = index.as_retriever(similarity_top_k=1)

In [31]:

# 测试查询
query = "程序的中断方式"
results = bge_retriever.retrieve(query)
for result in results:
    print(result)
    print(f"Retrieved document: {result.text}, Score: {result.score}")

Node ID: 00c54c8d-8ff1-484a-bd6a-cb045989c78f
Text: 题目：CPU中断控制部件有哪些功能？答案：CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1)
允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。
Score:  0.384

Retrieved document: 题目：CPU中断控制部件有哪些功能？答案：CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1) 允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。, Score: 0.3838077632926017


In [32]:
print(chroma_collection.metadata)
print(chroma_collection.count())
print(chroma_collection.get())

query_text = "程序的中断方式"
query_embedding = bge_embeddings.get_text_embedding(query_text)
chroma_collection.query(
    # query_texts=[query_text],
    query_embeddings=[query_embedding],
    n_results=1,
    # include=["distances", "documents", "embeddings"]
)

None
133
{'ids': ['a8856cae-4098-4916-9baa-2c51038ba932', '67acf58d-02dd-4693-88ef-29fce9d9a28e', 'df06574b-b13a-492a-ad85-c4d7b772f8bb', 'c7fc562b-86a8-49d5-89c8-356dda929308', '097128ed-5012-4e48-a350-40d67035c319', '740d9be6-bd91-440e-8e5c-722c05f1876d', '73cf62ab-afd8-422b-9d79-a7b054ce3477', '2f337aa9-59ad-47c1-8525-e1c95813c3a3', 'ee8aeb9e-2693-4a38-9183-9e5b42f71651', '94074628-5278-42cf-9f9d-bb2cb882becf', 'eb656a8a-5e3a-4bf0-bd8c-084b43f76148', '0899f673-2a43-4154-b3a5-f667b5ee84be', '563d6f78-633c-4c9f-af30-4f6ea3faf3c2', 'caee7d6d-decf-4587-98ae-f0b01b8bd9d1', 'db7c6af9-4f99-43ce-9d34-e66a4d190e48', '5f354f71-866b-4bdd-a4fc-bf6742ef7c65', '6d090ea7-8165-4144-b33d-5a808d823dd5', 'b2e677b4-6a73-4e09-b5b7-ff93341d89b3', 'f233decd-6c28-4ecc-8851-8de630712a08', 'ca1ad754-ecb6-45a6-9126-398b76ed4417', '9248503f-7f9f-4bcd-af22-52bfba9e307a', '7eead4a5-eadd-4301-8715-51c5f27acb53', '4c5da789-7406-4cdf-ba02-2d4f7c2e9c75', '6435a10f-dc26-4136-aa27-63ffa9402486', '9fb44573-a54d-4cda-9a

{'ids': [['00c54c8d-8ff1-484a-bd6a-cb045989c78f']],
 'embeddings': None,
 'documents': [['题目：CPU中断控制部件有哪些功能？答案：CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1) 允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。']],
 'uris': None,
 'included': ['metadatas', 'documents', 'distances'],
 'data': None,
 'metadatas': [[{'question': 'CPU中断控制部件有哪些功能？',
    'ref_doc_id': 'd2b596bc-a80b-4a50-a407-1a26471218fe',
    'answer': 'CPU中断部件是实现中断功能的软件和硬件，有如下的功能:(1) 允许和禁止中断请求(2) 保护和恢复中断现场(3) 将程序转向对应的中断服务程序(4) 在多个中断同时发生时进行判优裁决。',
    'document_id': 'd2b596bc-a80b-4a50-a407-1a26471218fe',
    '_node_type': 'TextNode',
    '_node_content': '{"id_": "00c54c8d-8ff1-484a-bd6a-cb045989c78f", "embedding": null, "metadata": {"question": "CPU\\u4e2d\\u65ad\\u63a7\\u5236\\u90e8\\u4ef6\\u6709\\u54ea\\u4e9b\\u529f\\u80fd\\uff1f", "answer": "CPU\\u4e2d\\u65ad\\u90e8\\u4ef6\\u662f\\u5b9e\\u73b0\\u4e2d\\u65ad\\u529f\\u80fd\\u7684\\u8f6f\\u4ef6\\u548c\\u786c\\u4ef6\\uff0c\\u6709\\u5982\\u4e0b\\u7684\\u529f\\u80fd:(1) \\u5141\\