In [2]:
import { TextLoader } from "langchain/document_loaders/fs/text";
import { RecursiveCharacterTextSplitter } from "langchain/text_splitter";
const loader = new TextLoader("data/kong.txt");
const docs = await loader.load();

const splitter = new RecursiveCharacterTextSplitter({
    chunkSize: 100,
    chunkOverlap: 20,
  });

const splitDocs = await splitter.splitDocuments(docs);
splitDocs

[
  Document {
    pageContent: [32m"鲁镇的酒店的格局，是和别处不同的：都是当街一个曲尺形的大柜台，柜里面预备着热水，可以随时温酒。做工的人，傍午傍晚散了工，每每花四文铜钱，买一碗酒，——这是二十多年前的事，现在每碗要涨到十文，——靠柜"[39m,
    metadata: { source: [32m"data/kong.txt"[39m, loc: { lines: { from: [33m2[39m, to: [33m2[39m } } },
    id: [90mundefined[39m
  },
  Document {
    pageContent: [32m"多年前的事，现在每碗要涨到十文，——靠柜外站着，热热的喝了休息；倘肯多花一文，便可以买一碟盐煮笋，或者茴香豆，做下酒物了，如果出到十几文，那就能买一样荤菜，但这些顾客，多是短衣帮⑴，大抵没有这样阔绰⑵"[39m,
    metadata: { source: [32m"data/kong.txt"[39m, loc: { lines: { from: [33m2[39m, to: [33m2[39m } } },
    id: [90mundefined[39m
  },
  Document {
    pageContent: [32m"些顾客，多是短衣帮⑴，大抵没有这样阔绰⑵。只有穿长衫的，才踱进店面隔壁的房子里，要酒要菜，慢慢地坐喝。"[39m,
    metadata: { source: [32m"data/kong.txt"[39m, loc: { lines: { from: [33m2[39m, to: [33m2[39m } } },
    id: [90mundefined[39m
  },
  Document {
    pageContent: [32m"我从十二岁起，便在镇口的咸亨酒店里当伙计，掌柜说，样子太傻，怕侍候不了长衫主顾，就在外面做点事罢。外面的短衣主顾，虽然容易说话，但唠唠叨叨缠夹不清的也很不少。他们往往要亲眼看着黄酒从坛子里舀出，看过"[39m,
    metadata: { source: [32m"data/kong.txt"[3

In [1]:
//deno-ignore-cell
import { OpenAIEmbeddings } from "@langchain/openai";
const embeddings = new OpenAIEmbeddings()
console.log(splitDocs[0])
// Document {
//   pageContent: "鲁镇的酒店的格局，是和别处不同的：都是当街一个曲尺形的大柜台，柜里面预备着热水，可以随时温酒。做工的人，傍午傍晚散了工，每每花四文铜钱，买一碗酒，——这是二十多年前的事，现在每碗要涨到十文，——靠柜外",
//   metadata: { source: "data/kong.txt", loc: { lines: { from: 1, to: 1 } } }
// }


ReferenceError: splitDocs is not defined

bge-large和bge-m3都是智谱开源的embeding模型  
large是中文专用模型，适合纯中文场景，并且模型1.3B较大，资源消耗高  
m3是多语言模型，资源消耗更低  


In [None]:
import { OllamaEmbeddings } from "npm:@langchain/ollama";
const embeddings = new OllamaEmbeddings({
  model: "bge-m3",
  baseUrl: "http://localhost:11434", // Default value
});
const res =await embeddings.embedQuery(splitDocs[0].pageContent)
res

[
    [33m0.008740378[39m,    [33m0.04719728[39m,  [33m-0.033101488[39m,   [33m0.026490076[39m, [33m-0.016458334[39m,
   [33m-0.007930168[39m, [33m-0.0060368213[39m,   [33m0.038651697[39m,   [33m0.027293922[39m, [33m-0.029894743[39m,
    [33m0.014001312[39m,   [33m0.013423827[39m,  [33m-0.049799044[39m, [33m-0.0127271665[39m,  [33m0.055749197[39m,
   [33m0.0030935942[39m,   [33m0.029488508[39m,  [33m-0.009582613[39m, [33m0.00053053827[39m, [33m-0.038016077[39m,
   [33m-0.008396971[39m,   [33m0.009748647[39m,  [33m-0.023752507[39m,   [33m0.056000393[39m, [33m0.0004296581[39m,
   [33m0.0034583604[39m,  [33m-0.037966553[39m,   [33m0.028785648[39m,   [33m0.066896304[39m,  [33m0.036451742[39m,
    [33m0.016272554[39m,  [33m-0.010934695[39m,   [33m0.026729824[39m,  [33m-0.014664751[39m,  [33m0.040016092[39m,
   [33m-0.017349761[39m,  [33m-0.029412014[39m,  [33m-0.007202131[39m,  [33m-0.026093092[39m,    [33m0.0738

## 创建 MemoryVectorStore

这是在内存中构建的向量数据库  
注意，因为 embedding 向量是需要有一定的花费的，所以仅在学习和测试时使用 MemoryVectorStore，而在真实项目中，搭建其他向量数据库，或者使用云数据库。  


In [None]:
import { MemoryVectorStore } from "langchain/vectorstores/memory";

const vectorstore = new MemoryVectorStore(embeddings);
await vectorstore.addDocuments(splitDocs);


In [None]:
// 创建一个 retriever，这也是可以直接从 vector store 的实例中自动生成，这里我们传入了参数 2，代表对应每个输入，我们想要返回相似度最高的两个文本内容
const retriever = vectorstore.asRetriever(2)
// 然后，我们就可以使用 retriever 来进行文档的提取
await retriever.invoke("茴香豆是做什么用的")
// 可以看到结果提取出茴香豆相关的内容

[
  Document {
    pageContent: [32m"你读过书么？”我略略点一点头。他说，“读过书，……我便考你一考。茴香豆的茴字，怎样写的？”我想，讨饭一样的人，也配考我么？便回过脸去，不再理会。孔乙己等了许久，很恳切的说道，“不能写罢？……我教给你，"[39m,
    metadata: { source: [32m"data/kong.txt"[39m, loc: { lines: { from: [33m8[39m, to: [33m8[39m } } },
    id: [90mundefined[39m
  },
  Document {
    pageContent: [32m"很恳切的说道，“不能写罢？……我教给你，记着！这些字应该记着。将来做掌柜的时候，写账要用。”我暗想我和掌柜的等级还很远呢，而且我们掌柜也从不将茴香豆上账；又好笑，又不耐烦，懒懒的答他道，“谁要你教，不"[39m,
    metadata: { source: [32m"data/kong.txt"[39m, loc: { lines: { from: [33m8[39m, to: [33m8[39m } } },
    id: [90mundefined[39m
  }
]

In [None]:
await retriever.invoke("下酒菜一般是什么？")
// 提取的时候，是根据相似度进行度量的，所以如果用户提问的特别简洁，并没有相应的关键词，就会出现提取的信息错误的问题，
// 下面没有截取到孔乙己下酒物相关的（温两碗酒，要一碟茴香豆）分块

[
  Document {
    pageContent: [32m"多年前的事，现在每碗要涨到十文，——靠柜外站着，热热的喝了休息；倘肯多花一文，便可以买一碟盐煮笋，或者茴香豆，做下酒物了，如果出到十几文，那就能买一样荤菜，但这些顾客，多是短衣帮⑴，大抵没有这样阔绰⑵"[39m,
    metadata: { source: [32m"data/kong.txt"[39m, loc: { lines: { from: [33m2[39m, to: [33m2[39m } } },
    id: [90mundefined[39m
  },
  Document {
    pageContent: [32m"些顾客，多是短衣帮⑴，大抵没有这样阔绰⑵。只有穿长衫的，才踱进店面隔壁的房子里，要酒要菜，慢慢地坐喝。"[39m,
    metadata: { source: [32m"data/kong.txt"[39m, loc: { lines: { from: [33m2[39m, to: [33m2[39m } } },
    id: [90mundefined[39m
  }
]

In [None]:
// 如果涉及多层语意的情况，也会有问题，有运气的成分，所以返回更多的数据源就会有价值
await retriever.invoke("孔乙己用什么谋生？")

[
  Document {
    pageContent: [32m"孔乙己是这样的使人快活，可是没有他，别人也便这么过。"[39m,
    metadata: { source: [32m"data/kong.txt"[39m, loc: { lines: { from: [33m10[39m, to: [33m10[39m } } },
    id: [90mundefined[39m
  },
  Document {
    pageContent: [32m"听人家背地里谈论，孔乙己原来也读过书，但终于没有进学⑼，又不会营生⑽；于是愈过愈穷，弄到将要讨饭了。幸而写得一笔好字，便替人家钞⑾钞书，换一碗饭吃。可惜他又有一样坏脾气，便是好喝懒做。坐不到几天，便"[39m,
    metadata: { source: [32m"data/kong.txt"[39m, loc: { lines: { from: [33m6[39m, to: [33m6[39m } } },
    id: [90mundefined[39m
  }
]

## 构建本地vector store
这里我们使用faiss，这是facebook开源的，node和python都可以使用

也可以使用HNSWLib  

另外faiss-node，使用pnpm直接安装，langchain里面会报导入错误。。。


Faiss是轻量级库，适合小规模数据（百万级以下）
python中可以用Milvus（十亿级）


选型决策树
根据需求快速匹配最合适的工具：

1. 开发阶段验证或小型项目 → ChromaDB（简单、无依赖）。
2. 生产环境且需全托管服务 → Pinecone（省心）或 Zilliz Cloud（超大规模）。
3. 已有 PostgreSQL 数据库 → PGVector + pgvector（无需引入新组件）。
4. 需要极致性能的本地实验 → FAISS（内存索引，无需网络延迟）。
5. 企业级海量数据+复杂查询 → Milvus（自建）或 Weaviate（混合搜索）。
