# 加载pdf

In [1]:
from langchain.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader("深度学习从0到1-基于Tensorflow2.pdf")
pages = loader.load()

# 分割文档

In [2]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
split_docs1 = text_splitter.split_documents(pages)

# 连接数据库

## 方式一：langchain建新表，插入数据

In [10]:
from langchain.embeddings.huggingface import HuggingFaceEmbeddings

embedding = HuggingFaceEmbeddings(model_name="../../model/m3e-base")

In [11]:
from langchain.vectorstores import Milvus
vector_db = Milvus.from_documents(
    split_docs1,
    embedding,
    collection_name="pdf_test",
    connection_args={"host": "127.0.0.1", "port": "19530"},
)

<img src="./pic/pdf_test_schema.png" title="" alt="" width="900" style="display: block; margin: auto;">
<img src="./pic/pdf_test_data.png" title="" alt="" width="900" style="display: block; margin: auto;">

## 检索

In [17]:
question =  "机器学习"
sim_docs = vector_db.similarity_search(question , k=3)
context = ''
for i, sim_doc in enumerate(sim_docs):
    print(sim_docs[i])
    print("\n")

page_content='机器学习的算法有很多，下面给大家简单介绍一些机器学习中常用的算法。\n\n决策树（Decision Tree） —— 决策树是一种简单但又使用广泛的监督学习分类算\n\n法。它是一种分而治之的决策过程，把一个复杂的预测问题，通过树的分支节点，划分成两\n\n个或多个较为简单的子集，从结构上划分为不同的子问题。当分支节点满足一定停止规则\n\n时，该分支节点就会停止分叉，得到分类结果。比如一颗女生去相亲的简单决策树如图 1.6\n\n所示。\n\n图 1.6 决策树(Decision Tree)\n\n26\n\n免费人工智能慕课平台 AI MOOC：mooc.ai-xlab.com\n\n线性回归（Linear Regreesion） —— 线性回归是一种监督学习的算法。在线性回归\n\n中，数据使用线性预测函数来建模，模型建立好之后可以用来预测未知的值。也就是可以根\n\n据现在，预测未来。举个例子，假入我们有一组房屋面积跟房屋价格的数据，我们可以利用\n\n这些数据来建立回归模型，如图 1.7 所示。\n\n图 1.7 线性回归(Linear Regreesion)' metadata={'source': '深度学习从0到1-基于Tensorflow2.pdf'}


page_content="预测被 mask 的 token model = build_transformer_model(config_path, checkpoint_path, with_mlm=True) # 分词并转化为编码 token_ids, segment_ids = tokenizer.encode('机器学习是一门交叉学科') # 把“学”字和“习”字变成“[MASK]”符号 token_ids[3] = token_ids[4] = tokenizer._token_dict['[MASK]'] # 增加一个维度表示批次大小为 1 token_ids = np.expand_dims(token_ids,axis=0) # 增加一个维度表示批次大小为 1 segment_ids = np.expand_dims(segment_ids,axis=0) # 传入模型进行预测 pre = model.predict([token_ids, segm

## 方式二：连接已有的表

In [13]:
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from langchain.vectorstores import Milvus

vector_db2 = Milvus(
    embedding_function = HuggingFaceEmbeddings(model_name="../../model/m3e-base"),
    connection_args={"host": "127.0.0.1", "port": "19530"},
    collection_name="pdf_test",
)

## 检索

In [18]:
question =  "机器学习"
sim_docs2 = vector_db2.similarity_search(question , k=3)
context = ''
for i, sim_doc in enumerate(sim_docs2):
    print(sim_docs2[i])
    print("\n")

page_content='机器学习的算法有很多，下面给大家简单介绍一些机器学习中常用的算法。\n\n决策树（Decision Tree） —— 决策树是一种简单但又使用广泛的监督学习分类算\n\n法。它是一种分而治之的决策过程，把一个复杂的预测问题，通过树的分支节点，划分成两\n\n个或多个较为简单的子集，从结构上划分为不同的子问题。当分支节点满足一定停止规则\n\n时，该分支节点就会停止分叉，得到分类结果。比如一颗女生去相亲的简单决策树如图 1.6\n\n所示。\n\n图 1.6 决策树(Decision Tree)\n\n26\n\n免费人工智能慕课平台 AI MOOC：mooc.ai-xlab.com\n\n线性回归（Linear Regreesion） —— 线性回归是一种监督学习的算法。在线性回归\n\n中，数据使用线性预测函数来建模，模型建立好之后可以用来预测未知的值。也就是可以根\n\n据现在，预测未来。举个例子，假入我们有一组房屋面积跟房屋价格的数据，我们可以利用\n\n这些数据来建立回归模型，如图 1.7 所示。\n\n图 1.7 线性回归(Linear Regreesion)' metadata={'source': '深度学习从0到1-基于Tensorflow2.pdf'}


page_content="预测被 mask 的 token model = build_transformer_model(config_path, checkpoint_path, with_mlm=True) # 分词并转化为编码 token_ids, segment_ids = tokenizer.encode('机器学习是一门交叉学科') # 把“学”字和“习”字变成“[MASK]”符号 token_ids[3] = token_ids[4] = tokenizer._token_dict['[MASK]'] # 增加一个维度表示批次大小为 1 token_ids = np.expand_dims(token_ids,axis=0) # 增加一个维度表示批次大小为 1 segment_ids = np.expand_dims(segment_ids,axis=0) # 传入模型进行预测 pre = model.predict([token_ids, segm

## 方式三：自定义表，插入数据

### 生成向量

In [36]:
sentences = []
for i in split_docs1:
    sentences.append(i.page_content)

In [37]:
sentences

['免费人工智能慕课平台 AI MOOC：mooc.ai-xlab.com\n\n0\n\n免费人工智能慕课平台 AI MOOC：mooc.ai-xlab.com\n\n说明\n\n本电子书为书籍原稿的开源版本，基本上没有进行什么排版，纸质书籍估计要 2021 年 3\n\n月后才能购买。\n\n本书虽然为开源电子书，但仅供个人学习使用。未经许可不能用于个人或企业的商业用\n\n途，违法盗版和销售，必究其法律责任。\n\n本书主页，以及源代码，资料下载：\n\nhttps://github.com/Qinbf/Deep-Learning-Tensorflow2\n\n本书配套免费视频教程可以到免费学习人工智能的慕课平台 AI MOOC 学习：\n\nhttps://mooc.ai-xlab.com\n\n提交错误或意见反馈可以到 Github Issues 页面提交：\n\nhttps://github.com/Qinbf/Deep-Learning-Tensorflow2/issues\n\n我的 B 站主页：\n\nhttps://space.bilibili.com/390756902\n\n我的微信公众号：\n\nAI MOOC 人工智能平台',
 '我的微信公众号：\n\nAI MOOC 人工智能平台\n\n联系邮箱：\n\nqinbf@ai-xlab.com\n\n1\n\n免费人工智能慕课平台 AI MOOC：mooc.ai-xlab.com\n\n本书谨献给我的妻子刘露斯，以及正在阅读此书的各位读者朋友。\n\n愿人工智能给我们带来更美好的未来。\n\n2\n\n免费人工智能慕课平台 AI MOOC：mooc.ai-xlab.com\n\n序言\n\n本书的由来\n\n本书的序言可能有点长，因为这是我和大家的第一次见面，我希望可以把关于我和这本书\n\n的故事讲清楚，让大家对我有一个更好的了解，说不定哪天我们会成为朋友。\n\n大约在 3 年前的某个下午，电子工业出版社的张迪编辑联系到我，让我写一本关于人工智\n\n能的书。第一次有人找我写书，不免还是有些小激动，想象中写书是一件很酷的事情，真正写\n\n的时候才知道写书是一件很苦的事情。\n\n我毕业于上海大学物理系本科，大学期间做过很多嵌入式软硬件相关的开发项目。由于觉\n\n得当时学校的嵌入式技

In [39]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('../../model/m3e-base')

#Sentences are encoded by calling model.encode()
embeddings = model.encode(sentences)

In [45]:
embeddings

array([[ 0.16796544, -0.05155753,  0.05685866, ..., -0.8416536 ,
        -0.85352415, -0.52285326],
       [ 0.6913098 , -0.2885022 ,  0.06450517, ..., -1.2869049 ,
        -0.48333836, -1.0338291 ],
       [ 0.6598166 , -0.5192244 ,  0.5586735 , ..., -0.966972  ,
        -1.0619148 , -0.8632595 ],
       ...,
       [ 0.5485905 ,  0.61039513,  0.87175107, ..., -1.125105  ,
        -0.36823052, -0.5031106 ],
       [ 0.36554584,  0.04406517,  0.72952974, ..., -0.67589206,
        -0.92208964, -0.62649727],
       [ 0.30059114, -0.2048591 ,  0.3382352 , ..., -1.0657588 ,
        -0.87936604, -0.58270514]], dtype=float32)

### 连接milvus

In [46]:
import numpy as np
from pymilvus import (
    connections,
    utility,
    FieldSchema, CollectionSchema, DataType,
    Collection,
)
connections.connect("default", host="localhost", port="19530")

has = utility.has_collection("pdf_test1")
has

False

In [58]:
fields = [
    FieldSchema(name="project_id", dtype=DataType.INT16),
    FieldSchema(name="pk", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="source", dtype=DataType.VARCHAR, max_length=65535),
    FieldSchema(name="text", dtype=DataType.VARCHAR, max_length=65535),
    FieldSchema(name="type", dtype=DataType.VARCHAR, max_length=128),
    FieldSchema(name="vector", dtype=DataType.FLOAT_VECTOR, dim=768)
]

schema = CollectionSchema(fields, "pdf_test1 is ........")

con = Collection("pdf_test1", schema, consistency_level="Strong")

### 插入数据

In [59]:
entities = [
    list(range(len(embeddings))),
    ["深度学习从0到1-基于Tensorflow2.pdf"]*len(embeddings),
    sentences,
    ["文本内容"]*len(embeddings),
    embeddings,
]

insert_result = con.insert(entities)

con.flush()
print(f"Number of entities in Milvus: {con.num_entities}")  # check the num_entities

Number of entities in Milvus: 1328


### 创建索引

In [60]:
index = {
    "index_type": "IVF_FLAT",
    "metric_type": "L2",
    "params": {"nlist": 128},
}

con.create_index("vector", index)

Status(code=0, message=)

In [61]:
con.load()

<img src="./pic/pdf_test1_schema.png" title="" alt="" width="900" style="display: block; margin: auto;">
<img src="./pic/pdf_test1_data.png" title="" alt="" width="900" style="display: block; margin: auto;">

### langchain连接milvus

In [62]:
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from langchain.vectorstores import Milvus

vector_db2 = Milvus(
    embedding_function = HuggingFaceEmbeddings(model_name="../../model/m3e-base"),
    connection_args={"host": "127.0.0.1", "port": "19530"},
    collection_name="pdf_test1",
)

### 检索

In [63]:
question =  "机器学习"
sim_docs2 = vector_db2.similarity_search(question , k=3)
context = ''
for i, sim_doc in enumerate(sim_docs2):
    print(sim_docs2[i])
    print("\n")

page_content='机器学习的算法有很多，下面给大家简单介绍一些机器学习中常用的算法。\n\n决策树（Decision Tree） —— 决策树是一种简单但又使用广泛的监督学习分类算\n\n法。它是一种分而治之的决策过程，把一个复杂的预测问题，通过树的分支节点，划分成两\n\n个或多个较为简单的子集，从结构上划分为不同的子问题。当分支节点满足一定停止规则\n\n时，该分支节点就会停止分叉，得到分类结果。比如一颗女生去相亲的简单决策树如图 1.6\n\n所示。\n\n图 1.6 决策树(Decision Tree)\n\n26\n\n免费人工智能慕课平台 AI MOOC：mooc.ai-xlab.com\n\n线性回归（Linear Regreesion） —— 线性回归是一种监督学习的算法。在线性回归\n\n中，数据使用线性预测函数来建模，模型建立好之后可以用来预测未知的值。也就是可以根\n\n据现在，预测未来。举个例子，假入我们有一组房屋面积跟房屋价格的数据，我们可以利用\n\n这些数据来建立回归模型，如图 1.7 所示。\n\n图 1.7 线性回归(Linear Regreesion)' metadata={'project_id': 43, 'source': '深度学习从0到1-基于Tensorflow2.pdf', 'type': '文本内容'}


page_content="预测被 mask 的 token model = build_transformer_model(config_path, checkpoint_path, with_mlm=True) # 分词并转化为编码 token_ids, segment_ids = tokenizer.encode('机器学习是一门交叉学科') # 把“学”字和“习”字变成“[MASK]”符号 token_ids[3] = token_ids[4] = tokenizer._token_dict['[MASK]'] # 增加一个维度表示批次大小为 1 token_ids = np.expand_dims(token_ids,axis=0) # 增加一个维度表示批次大小为 1 segment_ids = np.expand_dims(segment_ids,axis=0) # 传入模型进行预测 pr