In [5]:
from typing import List

def split_into_chunks(file_path: str) -> List[str]:
    with open(file_path) as file:
        content = file.read()
    return content.split("\n")

chunks = split_into_chunks("data.doc")
for i, chunk in enumerate(chunks):
    print(f"[{i}], {chunk}\n")

[0], 冰箱里的牛奶正在冒泡，绿色的泡沫顺着门缝爬出来。我拿抹布去擦，指尖触到的却是砂纸般的粗糙。抹布突然变得透明，能看见掌心的纹路在游动，像一群迷路的蝌蚪。

[1], 窗外的梧桐叶突然全部倒着生长，叶脉像无数双眼睛盯着天花板。天花板上的裂纹在唱歌，唱的是去年错过的那班地铁报站声。歌声震落了墙上的时钟，时钟摔在地上却没停，指针开始逆时针旋转，表盘里渗出黏稠的蜂蜜。

[2], 我低头找拖鞋，却发现脚边站着个穿雨衣的小孩，雨衣在滴水，水珠落地后变成了晒干的橘子皮。小孩张开嘴，嘴里是旋转的星空，星空中有只猫在啃我的借书证。我想后退，脚跟却踢到个冰凉的东西，低头看是块墓碑，上面刻着明天的日期。

[3], 厨房传来瓷器碎裂的声音，跑过去看时，地上的碎片正慢慢拼凑成一只鸟，鸟的羽毛是我昨天撕掉的日历纸。鸟飞走了，撞在玻璃上，玻璃没碎，鸟变成了一张便签，上面写着 “别忘了喂鱼”。

[4], 鱼缸是空的，只有一层薄薄的灰尘，灰尘的形状是我小学时弄丢的那块橡皮。伸手去摸，指尖穿过灰尘碰到冰凉的水面，水里浮着半块面包，面包上的霉斑组成了邻居家小狗的名字。

[5], 走廊里响起敲门声，节奏和我心跳的频率刚好相反。开门时没人，只有一束塑料玫瑰插在生锈的易拉罐里，花瓣正在一片片变成阿司匹林药片。风从楼道灌进来，吹得药片在地上打滚，滚成一串电话号码，拨号过去却听见自己的鼾声。

[6], 回到卧室时，床单上铺满了枯叶，枯叶下面藏着个收音机，正在播放三十年前的天气预报。我关掉收音机，它却变成了块肥皂，肥皂泡飘到空中，每个泡泡里都有个我在不同的房间里发呆。



In [13]:
from sentence_transformers import SentenceTransformer
m = SentenceTransformer("shibing624/text2vec-base-chinese")

def emabed_chunk(chunk: str) -> List[float]:
    enbadding = m.encode(chunk)
    return enbadding.tolist()
embeddings = [emabed_chunk(chunk) for chunk in chunks]


In [14]:
import chromadb

chromadb_client = chromadb.EphemeralClient()
chromadb_collection = chromadb_client.get_or_create_collection("default")

def save_embeddings(embeddings: List[List[float]], chunks: List[str]) -> None:
    for i, embedding in enumerate(embeddings):
        chromadb_collection.add(
            ids=[str(i)],
            embeddings=[embedding],
            metadatas=[{"text": chunks[i]}]
        )
save_embeddings(embeddings, chunks)

In [16]:
def search(query: str, top_k: int = 5) -> List[dict]:
    query_embedding = m.encode(query).tolist()
    results = chromadb_collection.query(
        query_embeddings=[query_embedding],
        n_results=top_k
    )
    return results
query = "易拉罐里有什么"
embeddingResults = search(query)
for i, result in enumerate(embeddingResults["metadatas"][0]):
    print(f"[{i}] {result['text']}, score: {embeddingResults['distances'][0][i]}")

[0] 鱼缸是空的，只有一层薄薄的灰尘，灰尘的形状是我小学时弄丢的那块橡皮。伸手去摸，指尖穿过灰尘碰到冰凉的水面，水里浮着半块面包，面包上的霉斑组成了邻居家小狗的名字。, score: 343.8890380859375
[1] 冰箱里的牛奶正在冒泡，绿色的泡沫顺着门缝爬出来。我拿抹布去擦，指尖触到的却是砂纸般的粗糙。抹布突然变得透明，能看见掌心的纹路在游动，像一群迷路的蝌蚪。, score: 352.4180603027344
[2] 走廊里响起敲门声，节奏和我心跳的频率刚好相反。开门时没人，只有一束塑料玫瑰插在生锈的易拉罐里，花瓣正在一片片变成阿司匹林药片。风从楼道灌进来，吹得药片在地上打滚，滚成一串电话号码，拨号过去却听见自己的鼾声。, score: 388.1824951171875
[3] 回到卧室时，床单上铺满了枯叶，枯叶下面藏着个收音机，正在播放三十年前的天气预报。我关掉收音机，它却变成了块肥皂，肥皂泡飘到空中，每个泡泡里都有个我在不同的房间里发呆。, score: 390.1207580566406
[4] 我低头找拖鞋，却发现脚边站着个穿雨衣的小孩，雨衣在滴水，水珠落地后变成了晒干的橘子皮。小孩张开嘴，嘴里是旋转的星空，星空中有只猫在啃我的借书证。我想后退，脚跟却踢到个冰凉的东西，低头看是块墓碑，上面刻着明天的日期。, score: 400.0201721191406


In [17]:
from sentence_transformers import CrossEncoder
cross_encoder = CrossEncoder("cross-encoder/mmarco-mMiniLMv2-L12-H384-v1")

def re_rank(query: str, results: List[dict]) -> List[dict]:
    scores = cross_encoder.predict([(query, result['text']) for result in results])
    for i, score in enumerate(scores):
        results[i]['score'] = score
    return sorted(results, key=lambda x: x['score'], reverse=True)

re_ranked_results = re_rank(query, embeddingResults["metadatas"][0])
for i, result in enumerate(re_ranked_results):
    print(f"[{i}] {result['text']}, score: {result['score']}, distance: {embeddingResults['distances'][0][i]}")

[0] 走廊里响起敲门声，节奏和我心跳的频率刚好相反。开门时没人，只有一束塑料玫瑰插在生锈的易拉罐里，花瓣正在一片片变成阿司匹林药片。风从楼道灌进来，吹得药片在地上打滚，滚成一串电话号码，拨号过去却听见自己的鼾声。, score: 0.08153599500656128, distance: 343.8890380859375
[1] 鱼缸是空的，只有一层薄薄的灰尘，灰尘的形状是我小学时弄丢的那块橡皮。伸手去摸，指尖穿过灰尘碰到冰凉的水面，水里浮着半块面包，面包上的霉斑组成了邻居家小狗的名字。, score: -4.310776233673096, distance: 352.4180603027344
[2] 冰箱里的牛奶正在冒泡，绿色的泡沫顺着门缝爬出来。我拿抹布去擦，指尖触到的却是砂纸般的粗糙。抹布突然变得透明，能看见掌心的纹路在游动，像一群迷路的蝌蚪。, score: -5.397525787353516, distance: 388.1824951171875
[3] 回到卧室时，床单上铺满了枯叶，枯叶下面藏着个收音机，正在播放三十年前的天气预报。我关掉收音机，它却变成了块肥皂，肥皂泡飘到空中，每个泡泡里都有个我在不同的房间里发呆。, score: -5.708637714385986, distance: 390.1207580566406
[4] 我低头找拖鞋，却发现脚边站着个穿雨衣的小孩，雨衣在滴水，水珠落地后变成了晒干的橘子皮。小孩张开嘴，嘴里是旋转的星空，星空中有只猫在啃我的借书证。我想后退，脚跟却踢到个冰凉的东西，低头看是块墓碑，上面刻着明天的日期。, score: -6.046027183532715, distance: 400.0201721191406


In [1]:
# 使用 genai 把查询出来的向量和问题一起发送到 genai, 给出一个正确的答案
from dotenv import load_dotenv
from google import genai

load_dotenv()
genai_client = genai.Client()

def generate_answer(question: str, chunks: List[str]) -> str:
    # 这里需要 嵌入 query 和 re_ranked_results, 并且写好中文提示词,
    prompt = f"根据以下上下文回答问题。\n\n上下文: {chunks}\n\n问题: {question}"
    response = genai_client.generate_text(
        model="gemini-2.5-flash",
        prompt=prompt,
        temperature=0.2,
        max_output_tokens=100
    )
    return response.text

generate_answer(query, re_ranked_results)


ValueError: Missing key inputs argument! To use the Google AI API, provide (`api_key`) arguments. To use the Google Cloud API, provide (`vertexai`, `project` & `location`) arguments.