In [17]:
# 先连接上数据库，连接到本地ip 127.0.0.1
from pymilvus import (connections, utility, FieldSchema, CollectionSchema, DataType, Collection)
connections.connect("default", host="localhost", port="19530", db_name='KnowledgeBase')

In [18]:
from pymilvus import (
    connections,
    utility,
    FieldSchema, CollectionSchema, DataType,
    Collection, loading_progress,
)

# 本地连接ip 127.0.0.1
connections.connect("default", host="localhost", port="19530", db_name='KnowledgeBase')

fields = [
    FieldSchema(name="uid", dtype=DataType.INT64, is_primary=True, auto_id=False, max_length=100),
    FieldSchema(name="Question", dtype=DataType.VARCHAR,max_length=5000),
    FieldSchema(name="embeddings_Q", dtype=DataType.FLOAT_VECTOR, dim=768),
    FieldSchema(name="Answer", dtype=DataType.VARCHAR,max_length=5000)
]
# 表的field块以及对表的描述
schema = CollectionSchema(fields, "存储向量数据") 

# 表名，Strong是只要更新用户就能看到
docs_data = Collection("Milvus_Test", schema, consistency_level="Strong")  

In [19]:
"""
为attribute_name创建索引
:param Collection_Name:连接的表名，即段(Segment)名
:param attribute_name: 加入索引的属性名，即字段(Field)名， 列名。
:param index: 索引的属性
"""
def Index_create(Collection_Name: str, attribute_name: str, index: dict):
    try:
        collection = Collection(Collection_Name)
        collection.create_index(field_name=attribute_name, index_params=index)
    except Exception as e:
        print(e)
    else:
        print("Index插入成功")    
    
index = {
    "index_type": "IVF_FLAT",  # 适合于在精度和查询速度之间寻求理想平衡的场景，试一试别的索引方式，再查一下
    "metric_type": "L2",  # 距离，这个更适合图像，后面再试试其它的
    "params": {"nlist": 128},  # 倒排文件中创建128个倒排列表(inverted lists),大nlist值有助于提高搜索速度,但会增加索引的内存消耗
}
Index_create("Milvus_Test", "embeddings_Q", index)

Index插入成功


In [20]:
# vector.py
def Insert_vector(id_list: list, Q_list: list, A_list: list, embeddings_Q, Collection):
    """
    id_list:key list
    Q_list:Question list
    A_list:Answer list
    embeddings_Q: Question embedding list
    Collection: 建立好的连接
    """
    try:
        collection = Collection

        for id_key, sentence_Q, embedding_Q, sentence_A in zip(id_list, Q_list, embeddings_Q, A_list):
            # sentence:原文
            # embedding:转换后的向量
            entities = [[id_key], [sentence_Q], [embedding_Q], [sentence_A]]
            collection.insert(entities)
            print(f"编号{id_key}插入完毕")
        collection.flush()

    except Exception as e:
        print(e)
    
    
# InsertVector.py    
import time
import pandas as pd
from pymilvus import (connections, utility, FieldSchema, CollectionSchema, DataType, Collection)
from langchain_community.embeddings import HuggingFaceEmbeddings


csv_file_path = r'D:\TTShixi\Code\MilvusTest\pythonProject\MilvusTest\QA_Pair.csv'

model = HuggingFaceEmbeddings(model_name="moka-ai/m3e-base", model_kwargs={"device": "cpu"})

Collection_Name = 'Milvus_Test'
collection = Collection(Collection_Name)

# 读取数据
df = pd.read_csv(csv_file_path, index_col=0)

# 分配数据 list
sentenceQ_data = df.Q.values
sentenceA_data = df.A.values
id_list = df.index

# 计算需要的embedding列的list
sentenceQ_embeddings = model.embed_documents(sentenceQ_data)

start_time = time.time()
Insert_vector(id_list, sentenceQ_data, sentenceA_data, sentenceQ_embeddings, Collection=collection)
end_time = time.time()
print(f"插入数据用时为: {end_time - start_time}秒, 平均一条的插入时间为: {(end_time - start_time)/len(id_list)}")

编号1插入完毕
编号2插入完毕
编号3插入完毕
编号4插入完毕
编号5插入完毕
编号6插入完毕
编号7插入完毕
编号8插入完毕
编号9插入完毕
编号10插入完毕
编号11插入完毕
编号12插入完毕
编号13插入完毕
编号14插入完毕
编号15插入完毕
编号16插入完毕
编号17插入完毕
编号18插入完毕
编号19插入完毕
编号20插入完毕
编号21插入完毕
编号22插入完毕
编号23插入完毕
编号24插入完毕
编号25插入完毕
编号26插入完毕
编号27插入完毕
编号28插入完毕
编号29插入完毕
编号30插入完毕
编号31插入完毕
编号32插入完毕
编号33插入完毕
编号34插入完毕
编号35插入完毕
编号36插入完毕
编号37插入完毕
编号38插入完毕
编号39插入完毕
编号40插入完毕
编号41插入完毕
编号42插入完毕
编号43插入完毕
编号44插入完毕
编号45插入完毕
编号46插入完毕
编号47插入完毕
编号48插入完毕
编号49插入完毕
编号50插入完毕
编号51插入完毕
编号52插入完毕
编号53插入完毕
编号54插入完毕
编号55插入完毕
编号56插入完毕
编号57插入完毕
编号58插入完毕
编号59插入完毕
编号60插入完毕
编号61插入完毕
编号62插入完毕
编号63插入完毕
编号64插入完毕
编号65插入完毕
编号66插入完毕
编号67插入完毕
编号68插入完毕
编号69插入完毕
编号70插入完毕
编号71插入完毕
编号72插入完毕
编号73插入完毕
编号74插入完毕
编号75插入完毕
编号76插入完毕
编号77插入完毕
编号78插入完毕
编号79插入完毕
编号80插入完毕
编号81插入完毕
编号82插入完毕
编号83插入完毕
编号84插入完毕
编号85插入完毕
编号86插入完毕
编号87插入完毕
编号88插入完毕
编号89插入完毕
编号90插入完毕
编号91插入完毕
编号92插入完毕
编号93插入完毕
编号94插入完毕
编号95插入完毕
编号96插入完毕
编号97插入完毕
编号98插入完毕
编号99插入完毕
编号100插入完毕
编号101插入完毕
编号102插入完毕
编号103插入完毕
编号104插入完毕
编号105插入完毕
编号106插入完毕
编号107插入完毕
编号108插入完毕
编号109插入完毕
编号110插入完毕
编号111插入完

In [21]:
# vector.py
def Similarity_search(collection, Query_embeding, anns_field, k, search_params) -> list:
    """
    全库检索
    :param Query: 问题
    :param Collection_Name: 表名
    :param k: 保留结果数
    :param anns_field: 要搜索的field
    :return:
    """
    try:
        result = collection.search([Query_embeding], anns_field=anns_field, param=search_params, limit=k, output_fields=["uid", "Question", "Answer"])
        # 可以拿result[0].distance来限制距离，给一个临界值，超过之后才能匹配上
        return result[0][0].fields['uid']

    except Exception as e:
        result = '程序异常中断，Error'
        print(result)
        
        
        
# Similarity_Search.py
import time
# from vector import Similarity_search
from langchain.embeddings import HuggingFaceEmbeddings
import pandas as pd
from pymilvus import (connections, utility, FieldSchema, CollectionSchema, DataType, Collection)

csv_file_path = r'D:\TTShixi\Code\MilvusTest\pythonProject\vectorstores\Weaviate_Test\QA_上海证券交易所.csv'

anns_field = "embeddings_Q"

model = HuggingFaceEmbeddings(model_name="moka-ai/m3e-base", model_kwargs={"device": "cpu"})
Collection_Name = 'Milvus_Test'
collection = Collection(Collection_Name)
# collection.load()

df = pd.read_csv(csv_file_path, index_col=0)
sentence_data_QS1 = df.QS1.values
sentence_data_QS2 = df.QS2.values

num_all = len(sentence_data_QS1)
num_cor = 0

search_params = {
    "metric_type": "L2",  # 设置距离度量方式为L2
    "params": {"nprobe": 10},  # 从倒排列表中查找 10 个最相近的候选项进行精确的距离计算
}

start = time.time()
# i应该改为df的行号
for i in range(num_all):
    query = model.embed_documents([sentence_data_QS1[i]])[0]
    if (i+1) == Similarity_search(collection, query, anns_field=anns_field, k=1, search_params=search_params):
        num_cor += 1
    query = model.embed_documents([sentence_data_QS2[i]])[0]
    if (i+1) == Similarity_search(collection, query, anns_field=anns_field, k=1, search_params=search_params):
        num_cor += 1
    print(f"测到第{i+1}个了")

end = time.time()

print(f"查询时间为：{end-start}秒,平均每条的查询时间为{(end-start)/num_all/2}秒")
print(f"正确率为{num_cor/num_all/2*100}%")

测到第1个了
测到第2个了
测到第3个了
测到第4个了
测到第5个了
测到第6个了
测到第7个了
测到第8个了
测到第9个了
测到第10个了
测到第11个了
测到第12个了
测到第13个了
测到第14个了
测到第15个了
测到第16个了
测到第17个了
测到第18个了
测到第19个了
测到第20个了
测到第21个了
测到第22个了
测到第23个了
测到第24个了
测到第25个了
测到第26个了
测到第27个了
测到第28个了
测到第29个了
测到第30个了
测到第31个了
测到第32个了
测到第33个了
测到第34个了
测到第35个了
测到第36个了
测到第37个了
测到第38个了
测到第39个了
测到第40个了
测到第41个了
测到第42个了
测到第43个了
测到第44个了
测到第45个了
测到第46个了
测到第47个了
测到第48个了
测到第49个了
测到第50个了
测到第51个了
测到第52个了
测到第53个了
测到第54个了
测到第55个了
测到第56个了
测到第57个了
测到第58个了
测到第59个了
测到第60个了
测到第61个了
测到第62个了
测到第63个了
测到第64个了
测到第65个了
测到第66个了
测到第67个了
测到第68个了
测到第69个了
测到第70个了
测到第71个了
测到第72个了
测到第73个了
测到第74个了
测到第75个了
测到第76个了
测到第77个了
测到第78个了
测到第79个了
测到第80个了
测到第81个了
测到第82个了
测到第83个了
测到第84个了
测到第85个了
测到第86个了
测到第87个了
测到第88个了
测到第89个了
测到第90个了
测到第91个了
测到第92个了
测到第93个了
测到第94个了
测到第95个了
测到第96个了
测到第97个了
测到第98个了
测到第99个了
测到第100个了
测到第101个了
测到第102个了
测到第103个了
测到第104个了
测到第105个了
测到第106个了
测到第107个了
测到第108个了
测到第109个了
测到第110个了
测到第111个了
测到第112个了
测到第113个了
测到第114个了
测到第115个了
测到第116个了
测到第117个了
测到第118个了
测到第119个了
测到第120个了
测到第121个了
测到第122个了
测到第123个了
测

In [11]:
# vector.py
def Delete_Entity(Collection, id: int) -> bool:
    """
    删除表里的某一行
    :param Collection: 连接过的直接传过来
    :param id: key值
    :return: 布尔值
    也可以通过匹配问题，然后找到这个问题的uid之后再删，后续可以改
    """
    try:
        collection = Collection
        expr = f"uid in [{id}]"
        collection.delete(expr)  # 可以指定分区
        return True

    except Exception as e:
        print(e)
        return False
        
# Entity_delete.py
# from vector import Delete_Entity
from pymilvus import (connections, utility, FieldSchema, CollectionSchema, DataType, Collection)
collection = Collection('Milvus_Test')
for i in range(156):
    de = Delete_Entity(Collection=collection, id=i)
    if de:
        print(f"第{i}条数据删除成功")
    else:
        print(f"第{i}条数据删除失败")
collection.flush()

第0条数据删除成功
第1条数据删除成功
第2条数据删除成功
第3条数据删除成功
第4条数据删除成功
第5条数据删除成功
第6条数据删除成功
第7条数据删除成功
第8条数据删除成功
第9条数据删除成功
第10条数据删除成功
第11条数据删除成功
第12条数据删除成功
第13条数据删除成功
第14条数据删除成功
第15条数据删除成功
第16条数据删除成功
第17条数据删除成功
第18条数据删除成功
第19条数据删除成功
第20条数据删除成功
第21条数据删除成功
第22条数据删除成功
第23条数据删除成功
第24条数据删除成功
第25条数据删除成功
第26条数据删除成功
第27条数据删除成功
第28条数据删除成功
第29条数据删除成功
第30条数据删除成功
第31条数据删除成功
第32条数据删除成功
第33条数据删除成功
第34条数据删除成功
第35条数据删除成功
第36条数据删除成功
第37条数据删除成功
第38条数据删除成功
第39条数据删除成功
第40条数据删除成功
第41条数据删除成功
第42条数据删除成功
第43条数据删除成功
第44条数据删除成功
第45条数据删除成功
第46条数据删除成功
第47条数据删除成功
第48条数据删除成功
第49条数据删除成功
第50条数据删除成功
第51条数据删除成功
第52条数据删除成功
第53条数据删除成功
第54条数据删除成功
第55条数据删除成功
第56条数据删除成功
第57条数据删除成功
第58条数据删除成功
第59条数据删除成功
第60条数据删除成功
第61条数据删除成功
第62条数据删除成功
第63条数据删除成功
第64条数据删除成功
第65条数据删除成功
第66条数据删除成功
第67条数据删除成功
第68条数据删除成功
第69条数据删除成功
第70条数据删除成功
第71条数据删除成功
第72条数据删除成功
第73条数据删除成功
第74条数据删除成功
第75条数据删除成功
第76条数据删除成功
第77条数据删除成功
第78条数据删除成功
第79条数据删除成功
第80条数据删除成功
第81条数据删除成功
第82条数据删除成功
第83条数据删除成功
第84条数据删除成功
第85条数据删除成功
第86条数据删除成功
第87条数据删除成功
第88条数据删除成功
第89条数据删除成功
第90条数据删除成功
第91条数据删除成