### 1. 词嵌入
我们的语言是由文字构成的，而语言的含义是由单词构成的。换句话说，单词是含义的最小单位。因此，为了让计算机理解自然语言，让它理解单词含义可以说是最重要的事情了。为了让计算机理解单词含义，词嵌入是一种方法。     
在自然语言处理中，词嵌入（Embeddings）是一种将非结构化数据，如单词、句子或者整个文档，转化为实数向量的技术。这些实数向量可以被计算机更好地理解和处理。
常见的词嵌入方法有： Word2Vec(包括Skip-gram, CBOW)、GloVe等。

### 2. 使用质谱 API

In [1]:
from zhipuai import ZhipuAI
client = ZhipuAI(api_key='31e316470feab341af5fd79a9245a89f.rcJJQxmmbVAFHFUt')

def zhipuai_embedding(text: str):
    response = client.embeddings.create(
        model='embedding-2',
        input=text,
    )
    return response

接口响应的参数有：          
    * model: 模型的名称，类型为String。      
    * data: 模型生成的数组结果, 类型为List。(有index、object、embedding(embedding的处理结果，返回向量化表征的数组，数组长度为1024))。          
    * object: 结果类型，目"embedding"。     
    * usage: 调用的 tokens 数量统计.


In [4]:
text1 = '你好，质谱'
response = zhipuai_embedding(text1)
response

EmbeddingsResponded(object='list', data=[Embedding(object='embedding', index=0, embedding=[0.003288097, 0.031170571, 0.005144231, 0.008346399, -0.0077405157, -0.0071320115, -0.00072439515, 0.003968884, 0.02412192, 0.071487874, 0.0038316166, -0.007913009, 0.030877274, 0.014839457, -0.061951783, 0.01024578, -0.032718483, -0.02973604, -0.0240343, -0.034356277, 0.008896561, 0.013767747, 0.01900105, -0.0006537036, 0.025859969, -0.022230959, 0.022587929, -0.022961471, 0.043704856, -0.01975054, 0.017721305, -0.0068102744, -0.01015415, -0.050984845, 0.057851166, 0.05725445, 0.051328365, 0.027173882, 0.0011249022, 0.0033373546, 0.0038917856, -0.0080130305, 0.008320455, -0.028217627, 0.0035811807, 0.025913218, 0.053994942, 0.017105956, -0.035523433, 0.06966622, 0.041968834, 0.017815514, -0.003118156, 0.0144738, 0.034006298, -0.025783101, 0.01913116, -0.0116323875, -0.013431681, -4.5495155e-05, -0.015520706, 0.0026988385, 0.036304466, 0.05297329, -0.042811017, -0.00851267, -0.005163716, 0.0206446

而且使用的embedding api 获取的结果可以能够一下用途：    
 1. 文本分类： 将文本表示为词向量，然后使用这些向量进行分类任务。
 2. 信息检索： 通过词向量计算文档和查询之间的相似性，提高搜索引擎的准确性。
 3.  问答系统： 利用词向量表示问题和答案，提高问答匹配的准确性。
 4. 相似度计算： 计算词汇、短语或文档之间的相似度。
 5. 文档聚类： 通过词向量表示文档，将相似的文档聚类在一起。（个人推测应该可以使用 KMeans 对于获取的向量进行聚类分析）
 还有别的用途等等；

In [5]:
### 简单计算相似度
import numpy as np 

def zhipuai_embed_vec(text: str):
    response = client.embeddings.create(
        model='embedding-2',
        input=text,
    )
    return response.data[0].embedding

# 余弦相似度
def cos_similarity(vec1, vec2):
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    cos_sim = np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
    return cos_sim



In [6]:
# 文本
text1 = "我喜欢吃苹果。"
text2 = "苹果是我最喜欢吃的水果。"
text3 = "我最喜爱的水果是苹果。"

vec1 = zhipuai_embed_vec(text1)
vec2 = zhipuai_embed_vec(text2)
vec3 = zhipuai_embed_vec(text3)

sim1_2 = cos_similarity(vec1=vec1, vec2=vec2)
sim1_3 = cos_similarity(vec1=vec1, vec2=vec3)
sim2_3 = cos_similarity(vec1=vec2, vec2=vec3)

print(f"文本1和文本2的相似度: {sim1_2}")
print(f"文本1和文本3的相似度: {sim1_3}")
print(f"文本1和文本2的相似度: {sim2_3}")


文本1和文本2的相似度: 0.8701449344099581
文本1和文本3的相似度: 0.8054142861860242
文本1和文本2的相似度: 0.9348060692733672


可以看到他们的相似度还是比较高的， 再看一下句子的向量值前30个

In [7]:
print(f"vec1 前 30 个的值: {vec1[:30]}")
print(f"vec2 前 30 个的值: {vec2[:30]}")
print(f"vec3 前 30 个的值: {vec3[:30]}")


vec1 前 30 个的值: [-0.050695617, 0.02403078, 0.02105491, 0.005561908, 0.03175867, 0.03288762, -0.016121682, 0.009793387, -0.013070289, 0.034681886, 0.0089588305, 0.049069352, -0.014151636, 0.035750635, -0.087139525, 0.020506864, -0.015786333, -0.026711052, -0.035164725, 0.008981955, -0.04722628, 0.05459531, 0.0111282, -0.062494047, 0.04961708, 0.01574853, -0.002319667, 0.010324361, -0.016876101, -0.07562613]
vec2 前 30 个的值: [-0.051326964, 0.026370583, -0.023184406, 0.016730072, 0.023254171, 0.016849833, -0.013261241, -0.0031138943, 0.0024837316, 0.035185084, 0.0061487323, 0.0409511, -0.041671142, 0.02844856, -0.058060475, 0.02456915, -0.017781224, -0.02198955, -0.021770524, 0.013739525, -0.041071307, 0.020574536, 0.017852494, -0.041045934, 0.051811293, -0.00017981487, -0.022220924, 0.022538474, -0.023901222, -0.111609355]
vec3 前 30 个的值: [-0.05873037, 0.024035476, -0.029626962, 0.03251498, 0.026224315, 0.0046144547, -0.006048891, -0.010101057, -0.005299234, 0.026428694, 0.024296796, 0.03568

每个维度的对应的值有的差不多，那模型是怎么样得到这个文本的向量呢？

### 数据处理
有以下步骤： 
    1. 数据读取
    2. 数据清洗
    3. 文档分割

这其中文档分割： 
由于单个文档的长度往往会超过模型支持的上下文，导致检索得到的知识太长超出模型的处理能力，因此，在构建向量知识库的过程中，我们往往需要对文档进行分割，将单个文档按长度或者按固定的规则分割成若干个 chunk，然后将每个 chunk 转化为词向量，存储到向量数据库中。

In [1]:
from langchain.document_loaders.pdf import PyMuPDFLoader

# 创建一个 PyMuPDFLoader Class 实例，输入为待加载的 pdf 文档路径
loader = PyMuPDFLoader("/root/llm-universe/data_base/knowledge_db/pumkin_book/pumpkin_book.pdf")

# 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载
pdf_pages = loader.load()
print(f"载入后的变量类型为：{type(pdf_pages)}，",  f"该 PDF 一共包含 {len(pdf_pages)} 页")

载入后的变量类型为：<class 'list'>， 该 PDF 一共包含 196 页


In [2]:
pdf_page = pdf_pages[1]
print(f"每一个元素的类型：{type(pdf_page)}.", 
    f"该文档的描述性数据：{pdf_page.metadata}", 
    f"查看该文档的内容:\n{pdf_page.page_content}", 
    sep="\n------\n")

每一个元素的类型：<class 'langchain_core.documents.base.Document'>.
------
该文档的描述性数据：{'source': '/root/llm-universe/data_base/knowledge_db/pumkin_book/pumpkin_book.pdf', 'file_path': '/root/llm-universe/data_base/knowledge_db/pumkin_book/pumpkin_book.pdf', 'page': 1, 'total_pages': 196, 'format': 'PDF 1.5', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'creator': 'LaTeX with hyperref', 'producer': 'xdvipdfmx (20200315)', 'creationDate': "D:20230303170709-00'00'", 'modDate': '', 'trapped': ''}
------
查看该文档的内容:
前言
“周志华老师的《机器学习》
（西瓜书）是机器学习领域的经典入门教材之一，周老师为了使尽可能多的读
者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述，但是这对那些想深究公式推
导细节的读者来说可能“不太友好”
，本书旨在对西瓜书里比较难理解的公式加以解析，以及对部分公式补充
具体的推导细节。
”
读到这里，大家可能会疑问为啥前面这段话加了引号，因为这只是我们最初的遐想，后来我们了解到，周
老师之所以省去这些推导细节的真实原因是，他本尊认为“理工科数学基础扎实点的大二下学生应该对西瓜书
中的推导细节无困难吧，要点在书里都有了，略去的细节应能脑补或做练习”
。所以...... 本南瓜书只能算是我
等数学渣渣在自学的时候记下来的笔记，希望能够帮助大家都成为一名合格的“理工科数学基础扎实点的大二
下学生”
。
使用说明
• 南瓜书的所有内容都是以西瓜书的内容为前置知识进行表述的，所以南瓜书的最佳使用方法是以西瓜书
为主线，遇到自己推导不出来或者看不懂的公式时再来查阅南瓜书；
• 对于初学机器学习的小白，西瓜书第1 章和第2 章的公

In [3]:
### 数据清洗
import re
# 删除掉 \n
pattern = re.compile(r'[^\u4e00-\u9fff](\n)[^\u4e00-\u9fff]', re.DOTALL)
pdf_page.page_content = re.sub(pattern, lambda match: match.group(0).replace('\n', ''), pdf_page.page_content)
print(pdf_page.page_content)


#
pdf_page.page_content = pdf_page.page_content.replace('•', '')
pdf_page.page_content = pdf_page.page_content.replace(' ', '')
print(pdf_page.page_content)

前言
“周志华老师的《机器学习》（西瓜书）是机器学习领域的经典入门教材之一，周老师为了使尽可能多的读
者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述，但是这对那些想深究公式推
导细节的读者来说可能“不太友好”，本书旨在对西瓜书里比较难理解的公式加以解析，以及对部分公式补充
具体的推导细节。”
读到这里，大家可能会疑问为啥前面这段话加了引号，因为这只是我们最初的遐想，后来我们了解到，周
老师之所以省去这些推导细节的真实原因是，他本尊认为“理工科数学基础扎实点的大二下学生应该对西瓜书
中的推导细节无困难吧，要点在书里都有了，略去的细节应能脑补或做练习”。所以...... 本南瓜书只能算是我
等数学渣渣在自学的时候记下来的笔记，希望能够帮助大家都成为一名合格的“理工科数学基础扎实点的大二
下学生”。
使用说明
• 南瓜书的所有内容都是以西瓜书的内容为前置知识进行表述的，所以南瓜书的最佳使用方法是以西瓜书
为主线，遇到自己推导不出来或者看不懂的公式时再来查阅南瓜书；• 对于初学机器学习的小白，西瓜书第1 章和第2 章的公式强烈不建议深究，简单过一下即可，等你学得
有点飘的时候再回来啃都来得及；• 每个公式的解析和推导我们都力(zhi) 争(neng) 以本科数学基础的视角进行讲解，所以超纲的数学知识
我们通常都会以附录和参考文献的形式给出，感兴趣的同学可以继续沿着我们给的资料进行深入学习；• 若南瓜书里没有你想要查阅的公式，
或者你发现南瓜书哪个地方有错误，
请毫不犹豫地去我们GitHub 的
Issues（地址：https://github.com/datawhalechina/pumpkin-book/issues）进行反馈，在对应版块
提交你希望补充的公式编号或者勘误信息，我们通常会在24 小时以内给您回复，超过24 小时未回复的
话可以微信联系我们（微信号：at-Sm1les）；
配套视频教程：https://www.bilibili.com/video/BV1Mh411e7VU
在线阅读地址：https://datawhalechina.github.io/pumpkin-book（仅供第1 版）
最新版PDF 获取地址：https://github.com/datawhalechina/pumpkin-book/releases
编委会

In [None]:
### 文档分割


### 搭建并使用向量数据库

这里的数据库数据存储的格式：采用类似键-值对的数据结构来存储文档及其对应的向量。这种键通常是文档的标识符或者文档内容的哈希值，值则是文档的向量表示。

In [3]:
import os
from dotenv import load_dotenv, find_dotenv

_ = load_dotenv(find_dotenv())

# 获取folder_path下所有文件路径，储存在file_paths里
file_paths = []
folder_path = '/root/llm-universe/data_base/knowledge_db/prompt_engineering'
for root, dirs, files in os.walk(folder_path):
    for file in files:
        file_path = os.path.join(root, file)
        file_paths.append(file_path)
print(file_paths)

['/root/llm-universe/data_base/knowledge_db/prompt_engineering/6. 文本转换 Transforming.md', '/root/llm-universe/data_base/knowledge_db/prompt_engineering/2. 提示原则 Guidelines.md', '/root/llm-universe/data_base/knowledge_db/prompt_engineering/4. 文本概括 Summarizing.md', '/root/llm-universe/data_base/knowledge_db/prompt_engineering/3. 迭代优化 Iterative.md', '/root/llm-universe/data_base/knowledge_db/prompt_engineering/9. 总结 Summary.md', '/root/llm-universe/data_base/knowledge_db/prompt_engineering/1. 简介 Introduction.md', '/root/llm-universe/data_base/knowledge_db/prompt_engineering/5. 推断 Inferring.md', '/root/llm-universe/data_base/knowledge_db/prompt_engineering/7. 文本扩展 Expanding.md', '/root/llm-universe/data_base/knowledge_db/prompt_engineering/8. 聊天机器人 Chatbot.md']


In [4]:
from langchain.document_loaders.pdf import PyMuPDFLoader
from langchain.document_loaders.markdown import UnstructuredMarkdownLoader

# 遍历文件路径并把实例化的loader存放在loaders里
loaders = []

for file_path in file_paths:

    file_type = file_path.split('.')[-1]
    if file_type == 'pdf':
        loaders.append(PyMuPDFLoader(file_path))
    elif file_type == 'md':
        loaders.append(UnstructuredMarkdownLoader(file_path))

In [None]:


from langchain.text_splitter import RecursiveCharacterTextSplitter

# 切分文档
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=50)

split_docs = text_splitter.split_documents(texts)



In [None]:
### 构建向量库
from zhipuai_embedding import ZhipuAIEmbeddings

embedding = ZhipuAIEmbeddings()
persist_directory = '../../data_base/vector_db/chroma'



In [None]:
from langchain.vectorstores.chroma import Chroma

vectordb = Chroma.from_documents(
    documents=split_docs[:20], # 为了速度，只选择前 20 个切分的 doc 进行生成；使用千帆时因QPS限制，建议选择前 5 个doc
    embedding=embedding,
    persist_directory=persist_directory  # 允许我们将persist_directory目录保存到磁盘上
)



In [None]:
vectordb.persist()