# Environments

In [1]:
from dotenv import load_dotenv
import os

load_dotenv()

# API configuration
API_KEY = os.getenv("API_KEY")
BASE_URL = 'https://api.zhizengzeng.com/v1'

# for LangChain
os.environ["OPENAI_API_KEY"] = API_KEY
os.environ["OPENAI_API_BASE"] = BASE_URL

# 1 数据处理和LOAD

## 《魔法禁书目录》

资源来自：https://github.com/1204244136/index-X 汉化内容保存在每本的OEBPS/Text/*.html文件中

编写脚本`extract.py`提取每本书的OEBPS文件夹

In [2]:
from langchain.document_loaders import DirectoryLoader, UnstructuredHTMLLoader

loader = DirectoryLoader(path="books/toaru/", glob="**/OEBPS/Text/*.xhtml", loader_cls=UnstructuredHTMLLoader)

documents = loader.load()

print(f"共加载了 {len(documents)} 个 HTML 文档")

共加载了 1133 个 HTML 文档


In [3]:
# 检查是否有重复文档
print(f"唯一内容数: {len(set([doc.page_content for doc in documents]))}")

唯一内容数: 956


In [4]:
# 去重
unique_documents = []
seen_contents = set()

for doc in documents:
    content = doc.page_content.strip()
    if content not in seen_contents:
        unique_documents.append(doc)
        seen_contents.add(content)

print(f"原始文档数量: {len(documents)}")
print(f"去重后文档数量: {len(unique_documents)}")

原始文档数量: 1133
去重后文档数量: 956


In [5]:
# 查看文档token数目
print(len(unique_documents[13].page_content))

22358


# 2 Split

In [6]:
# Split
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(chunk_size=1000, chunk_overlap=100)

# Make splits
splits = text_splitter.split_documents(unique_documents)

In [9]:
print(len(splits[13].page_content))

427


# 3 vectordb

In [8]:
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
import os

persist_path='vectordb/chroma'
embeddings = OpenAIEmbeddings()
vectordb = Chroma.from_documents(documents=splits, embedding=embeddings, persist_directory=persist_path)
vectordb.persist()

InternalServerError: <html>
<head><title>504 Gateway Time-out</title></head>
<body>
<center><h1>504 Gateway Time-out</h1></center>
<hr><center>nginx</center>
</body>
</html>

# 4 Retrieval

In [12]:
from model import CustomChatModel

# llm
chat = CustomChatModel(api_key=API_KEY, base_url=BASE_URL, model="gpt-3.5-turbo", temperature = 0.0)
# retriever
retriever = vectordb.as_retriever(search_type="similarity", search_kwargs={'k': 10})  

In [13]:
retriever.invoke("介绍一下亚雷斯塔·克劳利")

[Document(metadata={'source': 'books\\toaru\\[S1_06]某魔法的禁书目录 06X\\OEBPS\\Text\\S1_06-08_Epilogue.xhtml'}, page_content='所以，亚雷斯塔·克劳利成了全世界魔法师的敌人。想杀他的人并非只有擅长狩猎魔女的英国清教，而是所有只要跟魔法稍微扯得上一点边的人。\n\n史提尔跟亚雷斯塔见过面，却没看穿亚雷斯塔的真实身份，这是有理由的。英国清教追杀亚雷斯塔·克劳利，依据的是长年累月搜集到的情报，但这些情报都是亚雷斯塔刻意放出的假情报。既然原本的情报是错的，不管是以魔法或科学的方法来调查亚雷斯塔，也不可能找得到任何与亚雷斯塔·克劳利之间的关联性。换句话说，对英国清教而言，亚雷斯塔只是刚好同名同姓，或是使用了假名。'),
 Document(metadata={'source': 'books\\toaru\\[S1_06]某魔法的禁书目录 06X\\OEBPS\\Text\\S1_06-08_Epilogue.xhtml'}, page_content='所以，亚雷斯塔·克劳利成了全世界魔法师的敌人。想杀他的人并非只有擅长狩猎魔女的英国清教，而是所有只要跟魔法稍微扯得上一点边的人。\n\n史提尔跟亚雷斯塔见过面，却没看穿亚雷斯塔的真实身份，这是有理由的。英国清教追杀亚雷斯塔·克劳利，依据的是长年累月搜集到的情报，但这些情报都是亚雷斯塔刻意放出的假情报。既然原本的情报是错的，不管是以魔法或科学的方法来调查亚雷斯塔，也不可能找得到任何与亚雷斯塔·克劳利之间的关联性。换句话说，对英国清教而言，亚雷斯塔只是刚好同名同姓，或是使用了假名。'),
 Document(metadata={'source': 'books\\toaru\\[S1_06]某魔法的禁书目录 06X\\OEBPS\\Text\\S1_06-08_Epilogue.xhtml'}, page_content='「别做些无聊的妄想。我并不打算与教会世界为敌。何况如果要创造出你所想的那个人造天界，就必须先对真正的天国有所理解才行。那是魔法世界的领域，不是我这个站在科学立场的人可以理解的。」\n\n「你当我是三岁小孩？这个星球上，难道有人比你更了解魔法？」\n\n土御门扭曲着嘴角说道：\n\n「魔法师亚雷斯塔·

In [14]:
retriever.invoke("介绍一下欧提努斯")

[Document(metadata={'source': 'books\\toaru\\[S1_02]某魔法的禁书目录 02X\\OEBPS\\Text\\S1_02-04_Chapter2.xhtml'}, page_content='脚步声在距离史提尔大约十米远的走廊上停止。\n\n史提尔轻轻笑了一下，然后转头看着脚步声的主人。\n\n他的眼神，已经不再带着丝毫微笑。\n\n这个脚步声，出自于一双意大利制的皮鞋。皮鞋上方的修长双脚，以及长达两米的修长身躯，都被包裹在昂贵而洁白的西装里。\n\n年龄十八岁，性别为男性。名为奥雷欧斯。\n\n他的发色是绿色的。这个硬染出来的颜色，象征着这个男人所掌控的五大元素之一「土」的。大背头的发型，让皮肤跟穿着都非常白皙的男人，看起来更加独特。'),
 Document(metadata={'source': 'books\\toaru\\[S1_02]某魔法的禁书目录 02X\\OEBPS\\Text\\S1_02-04_Chapter2.xhtml'}, page_content='脚步声在距离史提尔大约十米远的走廊上停止。\n\n史提尔轻轻笑了一下，然后转头看着脚步声的主人。\n\n他的眼神，已经不再带着丝毫微笑。\n\n这个脚步声，出自于一双意大利制的皮鞋。皮鞋上方的修长双脚，以及长达两米的修长身躯，都被包裹在昂贵而洁白的西装里。\n\n年龄十八岁，性别为男性。名为奥雷欧斯。\n\n他的发色是绿色的。这个硬染出来的颜色，象征着这个男人所掌控的五大元素之一「土」的。大背头的发型，让皮肤跟穿着都非常白皙的男人，看起来更加独特。'),
 Document(metadata={'source': 'books\\toaru\\[S1_02]某魔法的禁书目录 02X\\OEBPS\\Text\\S1_02-04_Chapter2.xhtml'}, page_content='就像用灼热的刀子切割奶油般，非常地滑顺。\n\n被三千度火焰所烧过的断面已经碳化，甚至没有流血。\n\n「呜……啊……」\n\n但是，支配着奥雷欧斯的思绪的，并不是肉体的疼痛。\n\n『还有，你自己应该也很清楚才对。真正的奥雷欧斯·伊萨德，怎么可能这么简单就输了？』\n\n史提尔的话如同巨大的钟声般，在撼动着他的脑袋。没错。奥雷欧斯·伊萨德是绝对的，是无敌的