# I. Preprocessing - Before Client's Query
- Split original text file into samll chunks
  - You may choose one of the chunking strategies
- Convert text chunk into index as in vector
  - Store converted index into vector database i.e., ChromaDB

## 1. Split Text into Chunks 

In [1]:
from typing import List # to mark return type

# solit chunks by paragraph
def split_into_chunks(doc_file: str) -> List[str]:
    with open(doc_file, 'r') as file:
        content = file.read()
    return [chunk for chunk in content.split("\n\n")]

chunks = split_into_chunks("doc.md")

for i, chunk in enumerate(chunks):
    print(f"[{i}] {chunk}\n")


[0] # 魔戒与魔杖：两个世界的交汇

[1] ## 第一章：神秘的传送门

[2] 霍格沃茨的禁林深处，哈利·波特正在寻找独角兽的踪迹，完成海格布置的神奇生物课作业。突然，一道耀眼的金色光芒从古老的橡树后爆发出来。哈利举起魔杖警惕地喊道："荧光闪烁！"。光芒散去后，哈利惊讶地发现面前站着一位身穿灰袍、手持木杖的高大老人，还有四个身材矮小、脚上长满毛发的生物。"你是谁？"哈利问道。"我是甘道夫，"老人温和地说，"这些是霍比特人——佛罗多、山姆、皮平和梅里。我们来自中土世界，追踪黑暗魔君索伦的踪迹时，意外穿越到了你们的世界。"

[3] ## 第二章：邓布利多的召见

[4] 哈利立即用守护神咒召唤了他的银色牡鹿，让它去通知邓布利多校长。不到十分钟，邓布利多就亲自赶到了禁林。当邓布利多见到甘道夫时，两位伟大的巫师彼此凝视了良久，似乎通过魔法感应到了对方的力量。"欢迎来到霍格沃茨，"邓布利多说，"我感觉到了一股强大而古老的黑暗力量正在逼近。请跟我来校长办公室，我们需要详谈。" 甘道夫、佛罗多和哈利一起跟随邓布利多前往校长办公室。邓布利多让哈利留下来参与讨论，因为他相信这个年轻巫师注定要在即将到来的战斗中发挥关键作用。

[5] ## 第三章：索伦的入侵

[6] 在校长办公室里，佛罗多从怀中取出了至尊魔戒。邓布利多和甘道夫同时施展了保护咒，防止魔戒的腐蚀力量扩散。"索伦已经发现了通往你们世界的裂缝，"甘道夫严肃地说，"他企图利用这个世界的魔法力量来增强自己。" 话音刚落，霍格沃茨的警报响起。斯内普教授冲进办公室报告："校长！一个巨大的火焰之眼出现在天空中，还有大批半兽人军队正在攻击学校的防护结界！"

[7] ## 第四章：联合防御

[8] 邓布利多立即召集了凤凰社成员和霍格沃茨的教授们。赫敏和罗恩也赶来与哈利会合。甘道夫则召唤了他在中土世界的盟友——精灵王子莱戈拉斯和矮人战士金雳也神奇地穿越了时空裂缝赶来支援。"我们需要一个计划，"邓布利多说，"索伦的力量在这个世界可能会变得更强，因为他能吸收我们的魔法能量。" 赫敏翻阅着《高级魔法理论》说："如果我们能结合两个世界的魔法，也许能创造出前所未有的强大咒语！"

[9] ## 第五章：魔法的融合

[10] 在甘道夫的指导下，哈利学会了如何将他的守护神咒与中土世界的光明魔法结合。他们制定了一个大胆的计划：哈利将使用"

## 2. Indexing

- We import `SentenceTransformer` object to load a embedding model called `shibing624`
- We create a function to get vector for each chunk via embedding process

In [2]:
from sentence_transformers import SentenceTransformer

embedding_model = SentenceTransformer("shibing624/text2vec-base-chinese")
def embed_chunk(chunk: str) -> List[float]:
    embedding = embedding_model.encode(chunk)
    return embedding.tolist()

test_embedding = embed_chunk("测试内容")
print(len(test_embedding))
print(test_embedding)

Loading weights:   0%|          | 0/199 [00:00<?, ?it/s]

BertModel LOAD REPORT from: shibing624/text2vec-base-chinese
Key                          | Status     |  | 
-----------------------------+------------+--+-
bert.embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


768
[0.5059826374053955, 0.158220112323761, 0.006481220480054617, 0.13777674734592438, 1.0255974531173706, -1.0052624940872192, 0.025776347145438194, -0.02488253451883793, -0.6929643750190735, 1.356846809387207, -0.13724185526371002, -0.133133202791214, 0.8028533458709717, -0.6937484741210938, -1.0334763526916504, -0.18118329346179962, 0.3228852450847626, 1.1165881156921387, -0.6295174956321716, 1.1774252653121948, -0.09227605909109116, -0.6519715189933777, -1.3982657194137573, 0.8347371220588684, 0.19851766526699066, -0.6998834609985352, -0.510217547416687, 0.7230227589607239, 0.40173014998435974, -0.22295425832271576, -0.10209580510854721, 0.050192248076200485, -0.4397857189178467, 1.0002609491348267, 0.09720159322023392, 0.559188961982727, -0.581565797328949, -0.337053507566452, 0.801214873790741, -0.14520050585269928, -0.20080529153347015, 0.606085479259491, -1.2443991899490356, -0.22841797769069672, 0.12863287329673767, -0.02180142141878605, -0.39314642548561096, 0.519650697708129

In [4]:
embeddings = [embed_chunk(chunk) for chunk in chunks]
assert len(embeddings) == 18
assert len(embeddings[0]) == 768

## Vector Database
A vector database stores, manages and indexes high-dimensional vector data. We use `chromadb` here.
- `chromadb.EphemeralClient()` -> will not write into disk data gets removed when terminate current process
- `chromadb.PersistentClient("./file_name.db")` -> will write into disk
- `collection` in chromadb is like creating a table for traditional database.

In [5]:
import chromadb

chromadb_client = chromadb.EphemeralClient()
chromadb_collection = chromadb_client.get_or_create_collection(name="default")

def save_embeddings(chunks: List[str], embeddings: List[List[float]]) -> None:
    """
    chromadb reuiqres an ID for each record; in our case each chunk must have an ID
    this function is to save all records into the database
    each record has an id, the orignal text as chunk, and its corresbonding indexed vector as embedding
    """
    ids = [str(i) for i in range(len(chunks))]
    chromadb_collection.add(
        documents = chunks,
        embeddings = embeddings,
        ids = ids
    )

save_embeddings(chunks, embeddings)

# II. After Client's Query

## 3. Retrieve
- Convert query into index vector and then pass this vector into database
- Compare query index with all other chunks index and score the similarity return top-K

In [6]:
def retrieve(query: str, top_k: int) -> List[str]:
    query_embedding = embed_chunk(query)
    results = chromadb_collection.query(
        query_embeddings = [query_embedding],
        n_results = top_k
    )
    return results['documents'][0]

query = "哈利波特用了什么魔法打败了索伦？"
retrieved_chunks = retrieve(query, 5)

for i, chunk in enumerate(retrieved_chunks):
    print(f"[{i}] {chunk}\n")

[0] 在甘道夫的指导下，哈利学会了如何将他的守护神咒与中土世界的光明魔法结合。他们制定了一个大胆的计划：哈利将使用"Expecto Patronum"（呼神护卫）咒语，但注入甘道夫的白光力量，创造出一个超级守护神来对抗索伦。同时，赫敏和佛罗多合作研究如何利用魔戒的力量作为诱饵，将索伦引入一个魔法陷阱。罗恩和山姆则负责协调霍格沃茨学生和霍比特人的防御工作。

[1] 索伦发出震耳欲聋的咆哮，但还没有被完全击败。他将所有的黑暗力量集中到一点，准备做最后的反击。就在这个关键时刻，佛罗多举起至尊魔戒，大喊："In the name of the Shire and Hogwarts！"赫敏立即用变形咒将魔戒临时转化为一个巨大的魔法放大器。哈利抓住这个机会，施展了他从未尝试过的超强魔咒——他将阿瓦达索命咒（Avada Kedavra）的原始能量逆转，创造出了"Vita Restauro"（生命复原）咒语，这是一种纯粹的光明能量，专门克制索伦这样的黑暗存在。当这道白金色的光芒击中索伦时，黑暗魔君终于崩溃了。火焰之眼熄灭，半兽人军队瞬间化为灰烬，天空恢复了宁静。

[2] 黄昏时分，索伦的火焰之眼终于突破了霍格沃茨的外层防护。邓布利多和甘道夫联手施展了"普罗特戈盾阵"（Protego Maxima），暂时挡住了半兽人的进攻。哈利站在城堡的最高塔上，深吸一口气。他举起魔杖，大声喊道："Expecto Patronum Illuminatus！"（光明守护神降临！）这是他与甘道夫共同创造的全新咒语。一只巨大的银色凤凰从他的魔杖中飞出，身上闪耀着甘道夫赋予的白色圣光。这只光明凤凰直冲向索伦的火焰之眼。

[3] 邓布利多立即召集了凤凰社成员和霍格沃茨的教授们。赫敏和罗恩也赶来与哈利会合。甘道夫则召唤了他在中土世界的盟友——精灵王子莱戈拉斯和矮人战士金雳也神奇地穿越了时空裂缝赶来支援。"我们需要一个计划，"邓布利多说，"索伦的力量在这个世界可能会变得更强，因为他能吸收我们的魔法能量。" 赫敏翻阅着《高级魔法理论》说："如果我们能结合两个世界的魔法，也许能创造出前所未有的强大咒语！"

[4] 但索伦的力量比预想的更强大。火焰之眼释放出黑暗射线，与光明凤凰僵持不下。这时，邓布利多施展了他最强大的魔法——"Fianto Duri"（钢铁守卫）和"Repello Inimicum"（驱逐敌人

## 4. Reranking
- Use [Cross-Encoder for multilingual MS Marco](https://huggingface.co/cross-encoder/mmarco-mMiniLMv2-L12-H384-v1) to rerank

In [7]:
from sentence_transformers import CrossEncoder

def rerank(query: str, retrieved_chunks: List[str], top_k: int) -> List[str]:
    corss_encoder = CrossEncoder('cross-encoder/mmarco-mMiniLMv2-L12-H384-v1')
    pairs = [(query, chunk) for chunk in retrieved_chunks]
    scores = corss_encoder.predict(pairs)

    scored_chunks = [(chunk, score) for chunk, score in zip(retrieved_chunks, scores)]
    scored_chunks.sort(key=lambda pair: pair[1], reverse=True)

    # we only return text chunk but get rid of score
    return [chunk for chunk, _ in scored_chunks][:top_k]

reranked_chunks = rerank(query, retrieved_chunks, 3)

# Print top-K result out
for i, chunk in enumerate(reranked_chunks):
    print(f"[{i}] {chunk}\n")

Loading weights:   0%|          | 0/201 [00:00<?, ?it/s]

XLMRobertaForSequenceClassification LOAD REPORT from: cross-encoder/mmarco-mMiniLMv2-L12-H384-v1
Key                             | Status     |  | 
--------------------------------+------------+--+-
roberta.embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


[0] 索伦发出震耳欲聋的咆哮，但还没有被完全击败。他将所有的黑暗力量集中到一点，准备做最后的反击。就在这个关键时刻，佛罗多举起至尊魔戒，大喊："In the name of the Shire and Hogwarts！"赫敏立即用变形咒将魔戒临时转化为一个巨大的魔法放大器。哈利抓住这个机会，施展了他从未尝试过的超强魔咒——他将阿瓦达索命咒（Avada Kedavra）的原始能量逆转，创造出了"Vita Restauro"（生命复原）咒语，这是一种纯粹的光明能量，专门克制索伦这样的黑暗存在。当这道白金色的光芒击中索伦时，黑暗魔君终于崩溃了。火焰之眼熄灭，半兽人军队瞬间化为灰烬，天空恢复了宁静。

[1] 在甘道夫的指导下，哈利学会了如何将他的守护神咒与中土世界的光明魔法结合。他们制定了一个大胆的计划：哈利将使用"Expecto Patronum"（呼神护卫）咒语，但注入甘道夫的白光力量，创造出一个超级守护神来对抗索伦。同时，赫敏和佛罗多合作研究如何利用魔戒的力量作为诱饵，将索伦引入一个魔法陷阱。罗恩和山姆则负责协调霍格沃茨学生和霍比特人的防御工作。

[2] 但索伦的力量比预想的更强大。火焰之眼释放出黑暗射线，与光明凤凰僵持不下。这时，邓布利多施展了他最强大的魔法——"Fianto Duri"（钢铁守卫）和"Repello Inimicum"（驱逐敌人）的组合咒，从地面发射出金色的魔法光柱，击中了索伦的侧翼。甘道夫则举起他的法杖，召唤出中土世界的太阳之火："你不能通过！我是秘火的仆人，执掌安诺之焰！暗影之火对你毫无用处，魔苟斯的走狗！回归虚无吧！" 



## 5. Generating by LLM
- using Gemini 2.5 Flash