In [23]:
#创建集合单元
from sentence_transformers import SentenceTransformer
from pymilvus import FieldSchema, CollectionSchema, DataType, MilvusClient

client = MilvusClient(uri="http://192.168.200.130:19530")

def create_collection():
    # 定义字段 schemas
    id_field = FieldSchema(name="id", dtype=DataType.INT64, auto_id=True, is_primary=True)
    url_field = FieldSchema(name="url", dtype=DataType.VARCHAR, max_length=65535)
    content_field = FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=65535)
    vector_field = FieldSchema(name="content_vector", dtype=DataType.FLOAT_VECTOR, dim=768)
    publish_time_field = FieldSchema(name="publish_time", dtype=DataType.INT64)

    # 创建 Collection schema
    schema = CollectionSchema(
        fields=[id_field, url_field, content_field, vector_field, publish_time_field],
        description="CUMT_GPT的数据集"
    )

    # 创建 Collection
    collection_name = "cumt_gpt"
    if client.has_collection(collection_name):
        client.drop_collection(collection_name)

    client.create_collection(collection_name=collection_name, schema=schema)

    # 为 content_vector 创建索引
    index_params = client.prepare_index_params()
    index_params.add_index(
        field_name="content_vector",
        index_type="IVF_FLAT",
        metric_type="COSINE",
        params={"nlist": 128}
    )

    client.create_index(
        collection_name=collection_name,
        index_params=index_params,
        sync=False)


create_collection()
client.list_indexes(collection_name="cumt_gpt")

['content_vector']

In [39]:
# 插入数据单元
import json
from datetime import datetime
# from sonyflake import SonyFlake

def emb_text(text):
    embedding_model = SentenceTransformer('maidalun1020/bce-embedding-base_v1')
    embedding_vectors = embedding_model.encode(text)
    return embedding_vectors

# 文档列表
# docs = [
#     "Artificial intelligence was founded as an academic discipline in 1956.",
#     "Alan Turing was the first person to conduct substantial research in AI.",
#     "Born in Maida Vale, London, Turing was raised in southern England.",
# ]
# doc = "矿小助是一款由FlyingStudio（中国矿业大学翔工作室）开发维护的校园软件。提供课表、考试、成绩、校车校历、图书馆藏、校卡余额、宿舍电量等查询功能；同时具有课表导入日历、加权成绩计算、校园网自动登录、个性化主题背景等实用功能。"

contents = []

# 打开 JSON 文件
# filename = 'articles.json'
filename = 'kxz.json'
with open(filename, 'r') as f:
    python_data = json.load(f)
    for data in python_data['data']:
        contents.append(data.get("content"))

vectors = emb_text(contents)

# 要插入的数据
datas = []
i = 0
for data in python_data['data']:
    # 创建一个 SonyFlake 实例
    # flake = SonyFlake()

    # 生成唯一ID
    # sonyflake_id = flake.next_id()
    
    # 使用 strptime 将字符串解析为日期对象
    date_obj = datetime.strptime(data.get("date"), "%Y-%m-%d")
    
    # 使用 strftime 格式化为所需的格式，并将其转换为整数
    date_int = int(date_obj.strftime("%Y%m%d"))

    datas.append({
            # "id": sonyflake_id,
            "url": data.get("url"),
            "content": data.get("content"),
            "content_vector": vectors[i],
            "publish_time": date_int
        })
    i += 1

# 打印每个向量的维度和生成的嵌入
print("向量维度:", vectors.shape)
print(contents)
print("生成的向量:", vectors)

# 插入数据
res = client.insert(collection_name="cumt_gpt", data=datas)
print(res)


向量维度: (1, 768)
['矿小助\n原生应用的流畅体验，矿大人的宝藏App👉 自动登录校园网👉 教务信息零误差👉 加权成绩供参考👉 日历组件看课表👉 校园信息速知晓👉 信息存储本地化👉 原生体验人性化👉 背景主题个性化\n简介\n矿小助是一款由FlyingStudio（中国矿业大学翔工作室）开发维护的校园软件。提供课表、考试、成绩、校车校历、图书馆藏、校卡余额、宿舍电量等查询功能；同时具有课表导入日历、加权成绩计算、校园网自动登录、个性化主题背景等实用功能。\n下载\n矿小助采用Flutter跨平台技术，支持多种客户端。目前仅更新Android/iOS双版本，小程序及PC端暂停维护。\n? 紧急修复：教务系统导入显示未注册等问题\n📌 重要提示：部分安卓更新需删除手机分身/隐私空间，苹果商店更新需等待6-12h审核\n🚀 功能更新：支持研究生教务课表，支持手动修改开学日期，校卡余额查询无需内网等\n📢 工作室招新：欢迎加入QQ群 835805821 ，技术组，设计组，产品运营组等你来报名\n公众号\nQQ：2822301878\n微信：矿大翔工作室\nGithub：FlyingStudio\nB站:中国矿业大学翔工作室\n交流群\n交流1群：839372371\n交流2群：957634136\n交流3群：573302378\n中国矿业大学翔工作室\n中国矿业大学翔工作室（FlyingStudio）始建于2000年，是一个不断为矿大师生提供互联网技术产品，旨在培养矿大互联网技术人才的学生团队。我们的同学来自全校各个学院， 新老成员遍布腾讯、阿里、美团、字节等各个互联网公司，致力于开发、算法、安全、设计、运营等多个岗位。\n']
生成的向量: [[-2.43194532e-02  8.70317314e-03  6.65185926e-03 -9.54994839e-03
  -9.84330326e-02  9.16685537e-03  3.66157144e-02 -3.36254463e-02
   2.46462971e-02 -1.35120675e-02 -6.28301725e-02 -3.08343899e-02
   8.04077908e-02 -2.39011254e-02 -2.91614719e-02 -3.27647142e-02


In [47]:
# 测试向量搜索单元
def emb_text(text):
    embedding_model = SentenceTransformer('maidalun1020/bce-embedding-base_v1')
    embedding_vectors = embedding_model.encode(text)
    return embedding_vectors

doc = "孙杨什么时候来矿大"

doc_vector = emb_text(doc)

search_params = {
    "metric_type": "COSINE",
    "params": {}
}

res = client.search(
    collection_name="cumt_gpt",
    data=[doc_vector],
    limit=1,
    output_fields=["id", "url", "content", "publish_time"],
    search_params=search_params
)

print(res)