In [32]:
# import
from langchain.document_loaders import TextLoader
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
import tiktoken


def tokens_len(string: str) -> int:
    encoding = tiktoken.get_encoding("cl100k_base")
    num_tokens = len(encoding.encode(string))
    return num_tokens

# load the document and split it into chunks
loader = TextLoader("./ruankao.md")
documents = loader.load()
documents

[Document(page_content='# 软考学习大纲\n\n## 第1小时 计算机系统基础知识\n\n### 1.1 计算机系统概述\n### 1.2 计算机硬件基础知识\n### 1.3 计算机软件基础知识\n### 1.4 计算机语言\n### 1.5 多媒体技术\n\n## 第2小时 嵌入式基础知识\n\n### 2.1 嵌入式系统的组成及特点\n### 2.2 嵌入式系统的分类\n### 2.3 嵌入式软件的组成及特点\n### 2.4 嵌入式系统硬件体系结构\n### 2.5 安全攸关软件的安全性设计\n\n## 第3小时 计算机网络基础知识\n\n### 3.1 网络的基本概念\n### 3.2 通信技术\n### 3.3 网络技术\n### 3.4 组网技术\n### 3.5 网络工程\n\n## 第4小时 信息系统基础知识\n\n### 4.1 信息系统概述\n### 4.2信息化的典型应用\n### 4.3典型信息系统架构模型\n\n## 第5小时 信息安全技术基础知识\n\n### 5.1 信息安全基础知识\n### 5.2 信息安全系统的组成框架\n### 5.3 信息加解密技术\n### 5.4 密钥管理技术\n### 5.5 访问控制及数字签名技术\n### 5.6 信息安全的抗攻击技术\n### 5.7 信息安全的保障体系与评估方法\n\n## 第6小时 系统工程基础知识\n\n### 6.1 系统工程\n### 6.2 系统性能\n\n## 第7小时 软件工程基础知识\n\n### 7.1 软件工程\n### 7.2 需求工程\n### 7.3 系统分析与设计\n### 7.4 软件测试\n### 7.5 净室软件工程\n### 7.6 基于构件的软件工程\n### 7.7 软件项目管理\n\n## 第8小时 数据库设计基础知识\n\n### 8.1 数据库基础概念\n### 8.2 关系數据库\n### 8.3数据库设计\n### 8.4 应用程序与数据库的交互，\n### 8.5 NOSQL 数据库\n### 8.6 分布式数据岸。\n### 8.7 数据库优化技术\n### 8.8 分布式缓存技术 Redis\n\n## 第9小时 系统架构设计基础知识\n\n### 9.1 软件架构概念\n### 9.2 基于架构的软

In [33]:

# split it into chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=4096, chunk_overlap=0, length_function=tokens_len)
docs = text_splitter.split_documents(documents)
len(docs), docs


(1,
 [Document(page_content='# 软考学习大纲\n\n## 第1小时 计算机系统基础知识\n\n### 1.1 计算机系统概述\n### 1.2 计算机硬件基础知识\n### 1.3 计算机软件基础知识\n### 1.4 计算机语言\n### 1.5 多媒体技术\n\n## 第2小时 嵌入式基础知识\n\n### 2.1 嵌入式系统的组成及特点\n### 2.2 嵌入式系统的分类\n### 2.3 嵌入式软件的组成及特点\n### 2.4 嵌入式系统硬件体系结构\n### 2.5 安全攸关软件的安全性设计\n\n## 第3小时 计算机网络基础知识\n\n### 3.1 网络的基本概念\n### 3.2 通信技术\n### 3.3 网络技术\n### 3.4 组网技术\n### 3.5 网络工程\n\n## 第4小时 信息系统基础知识\n\n### 4.1 信息系统概述\n### 4.2信息化的典型应用\n### 4.3典型信息系统架构模型\n\n## 第5小时 信息安全技术基础知识\n\n### 5.1 信息安全基础知识\n### 5.2 信息安全系统的组成框架\n### 5.3 信息加解密技术\n### 5.4 密钥管理技术\n### 5.5 访问控制及数字签名技术\n### 5.6 信息安全的抗攻击技术\n### 5.7 信息安全的保障体系与评估方法\n\n## 第6小时 系统工程基础知识\n\n### 6.1 系统工程\n### 6.2 系统性能\n\n## 第7小时 软件工程基础知识\n\n### 7.1 软件工程\n### 7.2 需求工程\n### 7.3 系统分析与设计\n### 7.4 软件测试\n### 7.5 净室软件工程\n### 7.6 基于构件的软件工程\n### 7.7 软件项目管理\n\n## 第8小时 数据库设计基础知识\n\n### 8.1 数据库基础概念\n### 8.2 关系數据库\n### 8.3数据库设计\n### 8.4 应用程序与数据库的交互，\n### 8.5 NOSQL 数据库\n### 8.6 分布式数据岸。\n### 8.7 数据库优化技术\n### 8.8 分布式缓存技术 Redis\n\n## 第9小时 系统架构设计基础知识\n\n### 9.1 软件架构概念\n### 9.2 基

In [34]:
from langchain.embeddings.openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
db = Chroma.from_documents(
    docs, embeddings, persist_directory="./chroma_db"
)

query = "嵌入式系统的组成及特点"
docs = db.similarity_search_with_relevance_scores(query, 10)



In [37]:

# print results
print(docs[0])

(Document(page_content='# 软考学习大纲\n\n## 第1小时 计算机系统基础知识\n\n### 1.1 计算机系统概述\n### 1.2 计算机硬件基础知识\n### 1.3 计算机软件基础知识\n### 1.4 计算机语言\n### 1.5 多媒体技术\n\n## 第2小时 嵌入式基础知识\n\n### 2.1 嵌入式系统的组成及特点\n### 2.2 嵌入式系统的分类\n### 2.3 嵌入式软件的组成及特点\n### 2.4 嵌入式系统硬件体系结构\n### 2.5 安全攸关软件的安全性设计\n\n## 第3小时 计算机网络基础知识\n\n### 3.1 网络的基本概念\n### 3.2 通信技术\n### 3.3 网络技术\n### 3.4 组网技术\n### 3.5 网络工程\n\n## 第4小时 信息系统基础知识\n\n### 4.1 信息系统概述\n### 4.2信息化的典型应用\n### 4.3典型信息系统架构模型\n\n## 第5小时 信息安全技术基础知识\n\n### 5.1 信息安全基础知识\n### 5.2 信息安全系统的组成框架\n### 5.3 信息加解密技术\n### 5.4 密钥管理技术\n### 5.5 访问控制及数字签名技术\n### 5.6 信息安全的抗攻击技术\n### 5.7 信息安全的保障体系与评估方法\n\n## 第6小时 系统工程基础知识\n\n### 6.1 系统工程\n### 6.2 系统性能\n\n## 第7小时 软件工程基础知识\n\n### 7.1 软件工程\n### 7.2 需求工程\n### 7.3 系统分析与设计\n### 7.4 软件测试\n### 7.5 净室软件工程\n### 7.6 基于构件的软件工程\n### 7.7 软件项目管理\n\n## 第8小时 数据库设计基础知识\n\n### 8.1 数据库基础概念\n### 8.2 关系數据库\n### 8.3数据库设计\n### 8.4 应用程序与数据库的交互，\n### 8.5 NOSQL 数据库\n### 8.6 分布式数据岸。\n### 8.7 数据库优化技术\n### 8.8 分布式缓存技术 Redis\n\n## 第9小时 系统架构设计基础知识\n\n### 9.1 软件架构概念\n### 9.2 基于架构的软