# 针对不同格式文件进行embedding+构建本地知识库测试

In [1]:
import os

os.chdir("..")

In [2]:
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import TextLoader
from langchain.vectorstores import DocArrayInMemorySearch

In [3]:
from langchain.indexes import VectorstoreIndexCreator

In [4]:
from langchain_openai import OpenAIEmbeddings

In [5]:
from langchain import embeddings

## txt构建知识库测试

In [6]:
from langchain.document_loaders import DirectoryLoader

# 加载文件夹中的所有 .txt 文件
loader = DirectoryLoader(
    path="./data/haruhi-data",
    glob="**/*.txt",  # 使用通配符加载所有子目录中的 .txt 文件
    loader_cls=TextLoader,  # 指定加载器
)

# 加载所有文档
docs = loader.load()

print(f"总共加载了 {len(docs)} 个文档")

总共加载了 48 个文档


In [7]:
openai_embeddings = OpenAIEmbeddings()

In [8]:
db = DocArrayInMemorySearch.from_documents(
    docs,
    openai_embeddings
)



In [9]:
res = db.similarity_search("阿虚：话说，最近没看到长门有希呢")

res

[Document(metadata={'source': 'data\\haruhi-data\\春日与有希.txt'}, page_content='旁白:春日非常重视长门有希，把长门看作「非常重要的团员」，而当长门病倒时，比谁都更关心长门的就是春日，阿虚甚至开始认为「春日想要的根本不是外星人，而是长门有希本尊」。'),
 Document(metadata={'source': 'data\\haruhi-data\\不重要的事情.txt'}, page_content='阿虚:「我无意中听到一件事。」\n春日:「反正不会是什么重要的事。」\n'),
 Document(metadata={'source': 'data\\haruhi-data\\电脑是怎么来的.txt'}, page_content='阿虚:「凉宫，你现在又想干嘛，先告诉你。我可不干那种强盗还有威胁的事喔!」\n凉宫:「你在胡说什么啊?我才不会做那种事咧!」\n阿虚:「是吗?那桌上的电脑是怎么来的？」\n凉宫:「当然是利用和平手段得来的啊!好啦，先看这个要紧。」\n'),
 Document(metadata={'source': 'data\\haruhi-data\\春日与阿虚.txt'}, page_content='旁白:春日虽然经常叫骂使唤阿虚，但是其实很在意阿虚，在班中座位永远是在阿虚的后面。在上课或是什么时候，一有鬼主意就会用铅笔尖在阿虚的背后一戳，然后“喂，阿虚，我想啊......”然后就很兴奋的开始说一些完全不管人家感受的鬼主意。\n')]

In [10]:
res = db.similarity_search("上次扮成兔女郎的是谁？")
res

[Document(metadata={'source': 'data\\haruhi-data\\凉宫春日为何转变.txt'}, page_content='旁白:本来凉宫春日是个平凡的女孩，她在小学六年级和她父亲去看一场棒球赛后，便觉得人生无趣，因此便开始尝试改变自己，于是她便做出了许多怪异的举动，\n旁白:如在东国中操场内画如纳斯卡巨画一般的画作，意为"我在这里等"，使得她成为大家口中的怪人。\n'),
 Document(metadata={'source': 'data\\haruhi-data\\兔女郎被老师驱散.txt'}, page_content='旁白: 凉宫和朝比奈兔女郎的装束成功吸引了许多学生的注意力，但是传单还没发到一半时就被老师制止了。从训导室出来后，春日愤怒的回到了社团教室\n春日:「气死我了!搞什么鬼啊，臭老师!就只会妨碍我做事，可恶!」\n阿虚:「是不是出了什么问题?」\n春日:「混蛋!我们的传单都还没发到一半，就来个混蛋老师叫我们不要再发了!搞什么鬼啊，他是什么东西啊!」\n春日:「那时实玖瑠立刻就哭出来了，我也被带去训导处，然后手球社的笨蛋冈部就来了。」\n阿虚:「相信训导主任跟冈部看到你时，视线一定不知道要摆哪里!」\n春日:「总之就是气死我了!今天就到此为止，闪人了!」\n旁白:春日动手脱起兔女郎的衣服，阿虚也后知后觉的冲出教室，看到朝比奈还蹲在地上 \n春日:「你是要哭到什么时候啦!好了，快点站起来换衣服了!」\n'),
 Document(metadata={'source': 'data\\haruhi-data\\兔女郎.txt'}, page_content='春日:「锵锵!」\n旁白:春日拿出了一套黑色的紧身衣、网袜、假耳朵、蝴蝶结、白色领套和袖套以及尾巴。\n朝比奈:「那，那个到底要做什么……」\n春日:「你也知道吧!扮兔女郎啊!」\n朝比奈:「你，你，你该不会要我穿那个吧?」\n春日:「当然啰!我也有准备你的啊!」\n朝比奈:「我，我不要穿那种衣服!」\n春日:「放心啦，尺寸应该刚好。」\n朝比奈:「不是那个问题!你，你该不会要我穿成那样在校门口发传单吧?」\n春日:「这还用说。」\n朝比奈:「我，我不要!」\n春日:「少啰唆!」\n朝比奈:「不要啊!」\n春日:「给我乖乖的不准动!」\n'),
 Docum

In [11]:
type(res[0])

langchain_core.documents.base.Document

In [12]:
content = res[2].page_content
content, type(content)

('春日:「锵锵!」\n旁白:春日拿出了一套黑色的紧身衣、网袜、假耳朵、蝴蝶结、白色领套和袖套以及尾巴。\n朝比奈:「那，那个到底要做什么……」\n春日:「你也知道吧!扮兔女郎啊!」\n朝比奈:「你，你，你该不会要我穿那个吧?」\n春日:「当然啰!我也有准备你的啊!」\n朝比奈:「我，我不要穿那种衣服!」\n春日:「放心啦，尺寸应该刚好。」\n朝比奈:「不是那个问题!你，你该不会要我穿成那样在校门口发传单吧?」\n春日:「这还用说。」\n朝比奈:「我，我不要!」\n春日:「少啰唆!」\n朝比奈:「不要啊!」\n春日:「给我乖乖的不准动!」\n',
 str)

In [13]:
context = ""
for doc in res:
    context += doc.page_content
    context += "\n"

print(context)

旁白:本来凉宫春日是个平凡的女孩，她在小学六年级和她父亲去看一场棒球赛后，便觉得人生无趣，因此便开始尝试改变自己，于是她便做出了许多怪异的举动，
旁白:如在东国中操场内画如纳斯卡巨画一般的画作，意为"我在这里等"，使得她成为大家口中的怪人。

旁白: 凉宫和朝比奈兔女郎的装束成功吸引了许多学生的注意力，但是传单还没发到一半时就被老师制止了。从训导室出来后，春日愤怒的回到了社团教室
春日:「气死我了!搞什么鬼啊，臭老师!就只会妨碍我做事，可恶!」
阿虚:「是不是出了什么问题?」
春日:「混蛋!我们的传单都还没发到一半，就来个混蛋老师叫我们不要再发了!搞什么鬼啊，他是什么东西啊!」
春日:「那时实玖瑠立刻就哭出来了，我也被带去训导处，然后手球社的笨蛋冈部就来了。」
阿虚:「相信训导主任跟冈部看到你时，视线一定不知道要摆哪里!」
春日:「总之就是气死我了!今天就到此为止，闪人了!」
旁白:春日动手脱起兔女郎的衣服，阿虚也后知后觉的冲出教室，看到朝比奈还蹲在地上 
春日:「你是要哭到什么时候啦!好了，快点站起来换衣服了!」

春日:「锵锵!」
旁白:春日拿出了一套黑色的紧身衣、网袜、假耳朵、蝴蝶结、白色领套和袖套以及尾巴。
朝比奈:「那，那个到底要做什么……」
春日:「你也知道吧!扮兔女郎啊!」
朝比奈:「你，你，你该不会要我穿那个吧?」
春日:「当然啰!我也有准备你的啊!」
朝比奈:「我，我不要穿那种衣服!」
春日:「放心啦，尺寸应该刚好。」
朝比奈:「不是那个问题!你，你该不会要我穿成那样在校门口发传单吧?」
春日:「这还用说。」
朝比奈:「我，我不要!」
春日:「少啰唆!」
朝比奈:「不要啊!」
春日:「给我乖乖的不准动!」

阿虚:「是不是个谜样的转学生啊……?」
春日:「嗯…… 感觉不太像。」
阿虚:「 那是当然的啦!」
春日:「虽然我有跟他说了点话，但资讯还是不足。说不定他戴了面具伪装成普通人，我觉得可能性很高。毕竟没有人会在转学当天就暴露真实身份，等下一节下课，我再去问问看。」
阿虚:「转学生是男的还是女的?」
春日:「虽然有变装的可能性，不过看起来像是男的。」




In [14]:
import tiktoken

enc = tiktoken.get_encoding("cl100k_base")


def count_token(text: str) -> int:
    """计算text对应的token数"""
    tokens = enc.encode(text)
    return len(tokens)

In [15]:
count_token(context)

1130

## json构建知识库测试

In [16]:
# from langchain.document_loaders import JSONLoader

# loader = JSONLoader(
#     file_path="./data/banaijian/banaijian.jsonl",
#     jq_schema="{content: .text, metadata: {luotuo_openai: .luotuo_openai}}", 
# )
# docs = loader.load()

# docs[:5]

当前数据为.jsonl，上面的方法可能仅适用于.json

In [17]:
from langchain.schema import Document
import json

file_path = "./data/banaijian/banaijian.jsonl"

docs = []
with open(file_path, "r", encoding="utf-8") as f:
    for line in f:
        if line.strip():
            data = json.loads(line.strip())
            docs.append(
                Document(
                    page_content=data["text"],
                    metadata={"luotuo_openai": data["luotuo_openai"]},
                )
            )


In [18]:
type(docs[0])

langchain_core.documents.base.Document

In [19]:
db = DocArrayInMemorySearch.from_documents(
    docs, 
    openai_embeddings
)

In [20]:
res = db.similarity_search("温水送出本命巧克力")

In [21]:
for r in res:
    print(r.page_content)

scene:八奈见和烧盐吃了巧克力球，引起轻微混乱
scene:温水收到巧克力盒，被三名女生询问来源
我:「我出门时收到了巧克力，虽然不是手工的，不嫌弃的话请用。」
烧盐:「哦～阿温还真有一手。是哪个女生？」
我:「哪个女生──是我家母亲给我的啊。」
八奈见:「我、我就知道，是这样。」
scene:温水提到是母亲送的巧克力，引起好奇
我:「我出门的时候，家母要我带来跟大家一起吃──虽然是这样，也不代表八奈见同学可以全部吃掉喔？你有在听吗？」
我:「可是，我也不能不去。八奈见同──」
scene:温水提醒八奈见不要全部吃掉巧克力
scene:温水计划行程，包括参观者介绍员的任务
scene:八奈见和烧盐提议离开，温水被指名介绍参观者
八奈见:「柠檬、温水，时间差不多到了，我们走吧。」

-:「来，也给温水一颗。尽管吃，别客气。」
scene:主人物品尝巧克力后表现淡定，八奈见提到手的问题
八奈见:「因为你用手抓啊。其实在社办我也觉得有点介意，空手抓东西给别人吃，就卫生来看不太好吧？」
八奈见:「这先放一旁，社办那边就交给你了。佳树人不见了，我得去找她才行。」
scene:对话中提到了介意用手抓食物给别人吃的卫生问题
八奈见:「你在找你妹喔？喔～果然发生事情了啊。」
八奈见:「你说果然──你知道什么吗？」
八奈见:「我是不晓得，但是和你妹同一组的橘学弟，就是那个疑似跟她约会的男生吧？光看温水的态度，当然会觉得应该出事了。」
八奈见:「我好心帮你找了你妹的位置。不该是这种态度吧？」
八奈见:「我也是被你卷进这件事的相关人士喔，当然会好奇吧？」
scene:主人公温水在学校里遇到同学八奈见，讨论关于温水妹妹失踪的事情
八奈见:「好痛！？干嘛啊，我难得有这种好心情耶。」
八奈见:「刚才的巧克力，你还没跟我说感想。」

温水:「就是这样啦，温水。国中生有男朋友也很正常啊。」
scene:八奈见对温水提出了一些问题和观点
八奈见:「话虽如此，也还没确定是这样喔？」
温水:「你为什么吃得这么秀气啊？」
八奈见:「不晓得一整个吃不吃得完。况且在这个时间吃太多，肚子就装不下晚餐了吧？」
温水:「别担心，装得下。」
八奈见:「你要多相信自己一点。我可是无意识间买了两个，却忍耐着只吃一个喔。」

温水:「呜哇，好漂亮的便当。这个是温水做的？」
scene:主人公在午休时收到充满爱意的便当，